ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 20/2-3 - 2006  - pp.181-202  - doi:10.3166/ria.20.181-202
TITRE
Recherche en ligne pour les processus décisionnels de Markov

RÉSUMÉ
La résolution de processus décisionnels de Markov (PDMs) de grande dimension est habituellement basée sur le calcul hors-ligne d'une approximation de la fonction de valeur optimale et sur son exploitation en ligne pour définir une politique gloutonne. Toutefois, quand l'espace d'états est très vaste et qu'aucune représentation structurée efficace n'est connue, le calcul d'une bonne approximation de la fonction de valeur optimale s'avère souvent une tâche difficile. Dans cet article, nous proposons une méthode alternative reposant sur le développement en chaque état courant d'un arbre de recherche construit à partir de la simulation stochastique du PDM sur un certain horizon de raisonnement. Nous montrons expérimentalement son bon comportement anytime sur un problème de navigation modélisé comme un plus court chemin stochastique.


ABSTRACT
Markov Decision Processes (MDPs) have become a standard for solving problems of sequential decision under uncertainty. The usual request in this framework is the computation of an optimal policy that defines an optimal action for every state of the system. For complex MDPs, exact computation of optimal policies is often untractable. Several approaches have been developed to compute near optimal policies for complex MDPs by means of function approximation and simulation. In this paper, we propose a method for refining near optimal policies via online search techniques, by developping from each current state a randomly sampled look-ahead tree. We show on a navigation problem modeled as a stochastic shortest path that this online search strategy provides good "anytime" profiles.


AUTEUR(S)
Laurent PÉRET, Frédérick GARCIA

MOTS-CLÉS
processus décisionnels de Markov, apprentissage par renforcement, recherche heuristique.

KEYWORDS
Markov decision processes, reinforcement learning, heuristic search.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (207 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier