Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ Recolector de Cienci...arrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
Recolector de Ciencia Abierta, RECOLECTA
Bachelor thesis . 2023
License: CC BY NC ND
addClaim

Bandidos Contextuales: Fundamentos y Aplicaciones

Authors: Hernández Roldán, Iván; Magarzo Gonzalo, Alejandro;

Bandidos Contextuales: Fundamentos y Aplicaciones

Abstract

Como punto de partida, se abordan los fundamentos teóricos subyacentes a los bandidos multi-brazo, preparando así el terreno para la profundización en los bandidos contextuales. Los bandidos, como elemento fundamental en el aprendizaje por refuerzo, ofrecen una respuesta eficiente a los problemas básicos del dilema de la exploración frente a la explotación. Un problema de bandidos implica un juego secuencial entre un agente y un entorno, donde en cada ronda el agente tiene varias acciones a su disposición y debe elegir una para recibir la recompensa correspondiente como resultado. Basado en las recompensas anteriores, el agente deberá mejorar su toma de decisiones para obtener la máxima recompensa acumulada al final del juego, manteniendo un balance entre explorar acciones menos probadas y explotar la mejor acción según la información que posee. Además, se explican los bandidos estocásticos y antagonistas como preludio para presentar varios algoritmos que serán de gran utilidad en una variante particular del modelo de bandidos: los bandidos contextuales. En este tipo de bandido, cada acción disponible está asociada a una distribución de probabilidad de recompensas, desconocida de antemano por el agente, de la cual se obtiene la recompensa correspondiente tras elegir una acción. Por lo tanto, el agente tratará de maximizar sus recompensas eligiendo los brazos que mayor recompensa media tengan en función del contexto. A lo largo de este trabajo se presentan los algoritmos que resuelven los problemas de los bandidos planteados y se comparan sus rendimientos a través de la métrica del remordimiento. También, se tratan las diferencias entre los remordimientos de los algoritmos que se adaptan al contexto y los que no gracias a la exposición de un juego contextual. Tras abordar cada concepto teórico del ´ámbito de los bandidos contextuales, se expone una aplicación práctica en consonancia para estudiar el desempeño de los bandidos contextuales en diversos dominios. Las principales aportaciones prácticas de este trabajo se localizan dentro del sector financiero, concretamente en el departamento de la automatización de la inversión en el mercado de valores a través de los bots de comercio, y en el mundo digital, realizando un sistema recomendador de películas.

Keywords

Remordimiento, Bots de comercio, Adversarial bandits, Bandidos estocásticos, Bandidos contextuales, Informática (Informática), Sistema recomendador, Policy class, Stochastic bandits, Clase política, Bandidos multi-brazo, Regret, Recommendation system, Exp4, Exploration-exploitation, Trading bots, Contextual bandits, Exploración-explotación, 004(043.3), Multi-armed bandits, Bandidos antagonistas, 33 Ciencias Tecnológicas

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
Green