
handle: 20.500.14352/87700
Como punto de partida, se abordan los fundamentos teóricos subyacentes a los bandidos multi-brazo, preparando así el terreno para la profundización en los bandidos contextuales. Los bandidos, como elemento fundamental en el aprendizaje por refuerzo, ofrecen una respuesta eficiente a los problemas básicos del dilema de la exploración frente a la explotación. Un problema de bandidos implica un juego secuencial entre un agente y un entorno, donde en cada ronda el agente tiene varias acciones a su disposición y debe elegir una para recibir la recompensa correspondiente como resultado. Basado en las recompensas anteriores, el agente deberá mejorar su toma de decisiones para obtener la máxima recompensa acumulada al final del juego, manteniendo un balance entre explorar acciones menos probadas y explotar la mejor acción según la información que posee. Además, se explican los bandidos estocásticos y antagonistas como preludio para presentar varios algoritmos que serán de gran utilidad en una variante particular del modelo de bandidos: los bandidos contextuales. En este tipo de bandido, cada acción disponible está asociada a una distribución de probabilidad de recompensas, desconocida de antemano por el agente, de la cual se obtiene la recompensa correspondiente tras elegir una acción. Por lo tanto, el agente tratará de maximizar sus recompensas eligiendo los brazos que mayor recompensa media tengan en función del contexto. A lo largo de este trabajo se presentan los algoritmos que resuelven los problemas de los bandidos planteados y se comparan sus rendimientos a través de la métrica del remordimiento. También, se tratan las diferencias entre los remordimientos de los algoritmos que se adaptan al contexto y los que no gracias a la exposición de un juego contextual. Tras abordar cada concepto teórico del ´ámbito de los bandidos contextuales, se expone una aplicación práctica en consonancia para estudiar el desempeño de los bandidos contextuales en diversos dominios. Las principales aportaciones prácticas de este trabajo se localizan dentro del sector financiero, concretamente en el departamento de la automatización de la inversión en el mercado de valores a través de los bots de comercio, y en el mundo digital, realizando un sistema recomendador de películas.
Remordimiento, Bots de comercio, Adversarial bandits, Bandidos estocásticos, Bandidos contextuales, Informática (Informática), Sistema recomendador, Policy class, Stochastic bandits, Clase política, Bandidos multi-brazo, Regret, Recommendation system, Exp4, Exploration-exploitation, Trading bots, Contextual bandits, Exploración-explotación, 004(043.3), Multi-armed bandits, Bandidos antagonistas, 33 Ciencias Tecnológicas
Remordimiento, Bots de comercio, Adversarial bandits, Bandidos estocásticos, Bandidos contextuales, Informática (Informática), Sistema recomendador, Policy class, Stochastic bandits, Clase política, Bandidos multi-brazo, Regret, Recommendation system, Exp4, Exploration-exploitation, Trading bots, Contextual bandits, Exploración-explotación, 004(043.3), Multi-armed bandits, Bandidos antagonistas, 33 Ciencias Tecnológicas
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
