Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ Recolector de Cienci...arrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
versions View all 5 versions
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

Knowledge transfer in deep reinforcement learning

Authors: Mulero Martínez, Rubén;

Knowledge transfer in deep reinforcement learning

Abstract

El auge del aprendizaje automático como método para generar una Inteligencia Ar- tificial (IA), está generando un campo de investigación en el que se están poniendo en práctica varios conceptos ya formulados en los años 40 y 60 y, que antaño, eran imposibles de realizar debido a las implicaciones tecnológicas que eran necesarias. Hoy en día, se dispone de un nivel de potencia en hardware que permite poner en práctica los postulados que intentaban dar vida inteligente a una máquina. El inte- rés y la motivación de crear esa vida se está convirtiendo en un motor clave en el desarrollo de una sociedad tecnológica más avanzada. La potencia alcanzada por los procesadores gráficos (GPU) ha hecho viable crear redes neuronales complejas que permiten simular una inteligencia viva, tan viva como lo pudiera ser una per- sona. Esta inteligencia, es capaz de decidir una serie de acciones en un contexto determinado y aprender a mejorar para ser más eficiente y adaptable a los cambios. Dentro de las distintas aproximaciones desarrolladas, podemos encontrar dos de ellas que hoy en día, están siendo muy relevantes y ambiciosas: 1) el llamado reinfor- cement learning 1 que busca generar una máquina inteligente a través de un sistema de recompensas que otorga ciertos puntos a partir de las acciones que realiza en un entorno; 2) el llamado deep learning 2 que genera un sistema de redes neuronales pro- fundas para entrenar modelos que son capaces de estudiar cada pixel de una panta- lla para saber qué puede existir en una región determinada. Haciendo uso de estos dos conceptos, aparece una nueva aproximación llamada deep reinforcement learning 3 que busca juntar las bondades de las redes neuronales profundas con un sistema de recompensa que haga que una IA sea capaz de tomar las mejores decisiones posibles en un entorno determinado. En esta Tesis Fin de Máster se ha llevado a cabo un estudio por el cual, se ha experimentado si las redes neuronales profundas son capaces o no de transferir el conocimiento adquirido mediante un entrenamiento previo. Para demostrar si éste hecho es o no factible, se ha creado un agente inteligente capaz de jugar a un video- juego usando únicamente como entrada de datos los píxeles de una pantalla. Con esta premisa, se ha puesto a prueba la experiencia adquirida por el agente en otro juego completamente distinto para observar cuál es su nivel de adaptabilidad, y si la experiencia previa adquirida, juega un papel fundamental a la hora de aprender a jugar a un video-juego distinto. 1 https://www.cs.ubc.ca/murphyk/Bayes/pomdp.html 2 http://deeplearning.net/ 3 https://deepmind.com/blog/deep-reinforcement-learning/

Tesis presentada en cumplimentación de los requisitos del Máster en Ingeniería Computacional y Sistemas Inteligentes en el Grupo de Robótica y Sistemas Autónomos. Departamento de Ciencias de la Computación e Inteligencia Artificial con la colaboración de Fundación Deusto (DeustoTech).

Country
Spain
Keywords

redes neuronales, reinforcement learning, inteligencia artificial, deep learning, videojuego

  • BIP!
    Impact byBIP!
    citations
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
citations
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
Green
Related to Research communities