Estudio del aprendizaje en tiempo real de modelos de utilidad en robótica cognitiva

[Resumen] Este Trabajo Fin de Máster (TFM) se enmarca dentro del proyecto europeo de investigación DREAM que se lleva a cabo en el Grupo Integrado de Ingeniería (GII) de la UDC. En dicho proyecto, el objetivo es dotar a los robots autónomos de modelos cognitivos inspirados en el ser desarrollo intelectual de los humanos, de modo que puedan aprender por sí mismos en entornos reales a lo largo de grandes periodos de tiempo. Uno de los componentes fundamentales de este proyecto es el sistema de motivación de los robots, cuya principal función es la obtención automática de modelos de utilidad que permitan establecer las recompensas esperadas en los diferentes estados sensoriales. Hasta el momento, en el marco del DREAM [1] se ha abordado el aprendizaje de estos modelos utilizando representaciones unidimensionales (denominadas SURs) y multidimensionales (denominadas Value Functions, VF) de manera aislada, mostrando que cada una de ellas es adecuada para cierto tipo de problemas. En este TFM se busca desarrollar un esquema operativo de aprendizaje on-line que gestione el uso de estos dos tipos de modelos. Para ello, se utilizará un experimento representativo del campo de la robótica cognitiva en un entorno simulado.

[Resumo] Este Traballo Fin de Máster (TFM) enmarcase dentro do proxecto europeo de investigación DREAM que se leva a cabo no Grupo Integrado de Enxeñaría (GIE) de la UDC. En dito proxecto, obxectivo fundamental é dotar aos robots autónomos de modelos congnitivos inspirados no ser desenvolto intelectual dos humáns, de modo que poidan aprender por si mesmos en entornos reais ao longo de grandes periodos de tempo. Un dos compoñentes fundamentais de este proxecto é o sistema de motivación dos robots, cuxa principal función é a obtención automática de modelos de utilidade que permitan establecer as recompensas esperadas nos diferentes estados sensoriais. Ata o momento, no marco do DREAM abordáronse o aprendizaxe destes modelos utilizando representacións unidimensionais (denominadas SURs) e multidimensionais (denominadas Value Funtions, VF) de maneira illada, mostrando que cada unha de elas é adecuada para certo tipo de problemas. Neste TFM buscase desenvolver un esquema operativo de aprendizaxe on-line que xestione o uso destes dous tipos de modelos. Para isto, utilizarase un experimento representativo no campo da robótica cognitiva nunha contorna simulada.

[Abstract] This Master's Degree Project is part of the European project DREAM that is carried out in the Integrated Engineering Group for Engineering research of the UDC. In this project, the objective is to provide autonomous robots with cognitive models inspired by the intellectual development of humans, so they can learn for themselves in real environments over long periods of time. One of the fundamental components of this project is the robot motivation system, which main function is the automatic obtaining of utility models that allow to establish the expected rewards in the different sensory states. So far, within the framework of DREAM [1] the learning of these models has been approached using one-dimensional (called SURs) and multidimensional (called Value Functions, VF) representations in isolation, showing that each of them is suitable for a certain kind of problems This project aims to develop an operational on-line learning scheme that manages the use of these two types of models. To do this, a representative cognitive robotics experiment will be implemented and studied using a simulated environment.

Traballo fin de mestrado (UDC.EPS). Enxeñaría industrial. Curso 2018/2019

Country

Spain

Related Organizations

University of A Coruña
Spain

Keywords

Robótica, Robots

Impact byBIP!

	selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).	0
	popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.	Average
	influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).	Average
	impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.	Average

Found an issue? Give us feedback

0

Average

Green