ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 21/1 - 2007  - pp.9-34  - doi:10.3166/ria.21.9-33
TITRE
Apprentissage actif dans les processus décisionnels de Markov partiellement observables L'algorithme MEDUSA

RÉSUMÉ
Nous cherchons à adapter le cadre des Processus Décisionnels de Markov Partiellement Observables (POMDP) aux réalités de la robotique, pour établir une méthode qui effectue une prise de décision et un apprentissage optimaux lorsque l'agent ne dispose que d'un modèle approximatif d'un environnement non stationnaire. La méthode suppose l'existence d'un opérateur extérieur (oracle), capable d'observer et de révéler l'état caché du POMDP pendant la phase d'apprentissage. Pour résoudre cette problématique de manière approchée, nous proposons l'algorithme MEDUSA, qui confronte le modèle initial à l'expérience directe, et avec l'aide d'un nombre restreint de requêtes, parvient à obtenir rapidement le comportement optimal. Nous montrons comment MEDUSA prend en compte des environnements non stationnaires, et comment il peut s'accomoder de requêtes imprécises.


ABSTRACT
We study a problem inspired from robotics in which we want to find an optimal policy to learn a Partially Observable Markov Decision Process (POMDP) when the agent only has an imperfect model of its environment. To help the agent in its task we assume the availability of an external operator (an oracle), that can provide information about the underlying state. We present the algorithm MEDUSA, which improves an initial POMDP model using experimentation through the environment and a minimum number of queries. We also show how MEDUSA handles non-stationary environments and how it can withstand noise in the query answer.


AUTEUR(S)
Robin JAULMES, Joelle PINEAU, Doina PRECUP

MOTS-CLÉS
POMDP, apprentissage actif, modèles non stationnaires, robotique, observabilité partielle, apprentissage par renforcement, MEDUSA.

KEYWORDS
POMDP, active learning, non-stationary models, partial observability, reinforcement learning, MEDUSA.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (571 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier