Apprentissage actif dans les processus décisionnels de Markov partiellement observables L'algorithme MEDUSA
Nous cherchons à adapter le cadre des Processus Décisionnels de Markov Partiellement Observables (POMDP) aux réalités de la robotique, pour établir une méthode qui effectue une prise de décision et un apprentissage optimaux lorsque l'agent ne dispose que d'un modèle approximatif d'un environnement non stationnaire. La méthode suppose l'existence d'un opérateur extérieur (oracle), capable d'observer et de révéler l'état caché du POMDP pendant la phase d'apprentissage. Pour résoudre cette problématique de manière approchée, nous proposons l'algorithme MEDUSA, qui confronte le modèle initial à l'expérience directe, et avec l'aide d'un nombre restreint de requêtes, parvient à obtenir rapidement le comportement optimal. Nous montrons comment MEDUSA prend en compte des environnements non stationnaires, et comment il peut s'accomoder de requêtes imprécises.
We study a problem inspired from robotics in which we want to find an optimal policy to learn a Partially Observable Markov Decision Process (POMDP) when the agent only has an imperfect model of its environment. To help the agent in its task we assume the availability of an external operator (an oracle), that can provide information about the underlying state. We present the algorithm MEDUSA, which improves an initial POMDP model using experimentation through the environment and a minimum number of queries. We also show how MEDUSA handles non-stationary environments and how it can withstand noise in the query answer.
R.JAULMES, J.PINEAU, D.PRECUP
POMDP, apprentissage actif, modèles non stationnaires, robotique, observabilité partielle, apprentissage par renforcement, MEDUSA.
POMDP, active learning, non-stationary models, partial observability, reinforcement learning, MEDUSA.
Français
|