Apprentissage d'environnement : approches cognitives et comportementales

Other literature type French OPEN
Dutech, Alain (1999)
  • Subject: Systèmes autonomes | Apprentissage | Modélisation de l'environnement | Comportements | Processus markoviens partiellement observés | Q-Learning | 000 | Autonomous systems | Learning | World modeling | Behaviour | Partially observed markov decision problems

Nos travaux se concentrent sur l'apprentissage d'environnement qui est un moyen de rendre les systèmes autonomes plus adaptatifs. Dans un premier temps, nous avons employé une approche cognitive qui a débouché sur une nouvelle méthode pour la construction et la mise à jour d'un modèle géométrique du monde. Partant de deux modèles assez frustres du monde, notre algorithme introduit une méthodologie de fusion composée d'une suite d'opérations simples. Notre méthode aboutit à un modèle du monde comparable, en précision et en robustesse, aux modèles classiquement construits par un fitrage numérique de Kalman. Notre approche est cependant plus flexible - il suffit par exemple d'utiliser des modèles de base diffèrents - ce qui permet de concevoir des systèmes plus autonomes. Néanmoins, seul un traitement de plus en plus complexe et spécifique des informations manipulées par notre modèle peut encore augmenter son utilité et son adaptabilité, ce qui, finalement, nuit au caractère autonome d'un robot. Nous pensons que cette critique se généralise à l'approche classique de la robotique mobile. Nous nous sommes donc tournés, dans un deuxième temps, vers l'apprentissage de comportements. Pour cela, nous avons développé un nouvel algorithme d'apprentissage par renforcement pour des problèmes de décisions markoviens partiellement observés. Nous avons formalisé le cadre applicatif de notre algorithme, c'est-à-dire l'observabilité d'ordre fini du processus markovien, puis nous l'avons validé par des simulations. Ces simulations montrent en outre sa robustesse sur des problèmes sortant du cadre théorique de convergence. We have worked on learning world models, which can increase the adaptability of an autonomous system. We started with a cognitive approach and developed a new method for building and updating geometric models. Our algorithm is based on the fusion of two basic models of the environment. The world model thus obtained demonstrates the same level of quality, in term of precision and robustness, than models derived from classical modeling methods using Kalman filtering. Our algorithm seems more versatile - it can easily be extended to different basic models - which should bring more autonomy to a system. However, in order to improve the usefulness and adaptability of our algorithm we would have to use more complex and specific processes, which would eventually limit the system autonomy. We think that this limitation applies more generally to traditional mobile robotics. So we decided to try a behavior-based paradigm. We have proposed a new reinforcement learning algorithm for partially observed markov decision problems. We have defined the mathematical framework of our algorithm which can be applied to markov problems with a finite rank observable. We have validated our algorithm with simulations on various problems.These simulations show the robustness of our algorithm on problems lying outside its theoretical framework of convergence.
Share - Bookmark