ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 24/4 - 2010  - pp.505-524  - doi:10.3166/ria.24.505-524
TITRE
Processus décisionnels de Markov : des récompenses ordinales au multicritère

TITLE
Markov decision processes: from ordinal to multicriteria rewards

RÉSUMÉ
Le modèle des processus décisionnels de Markov (MDP) offre un cadre général pour la résolution de problèmes de décision séquentielle dans l'incertain. Son exploitation suppose une connaissance précise des valeurs des paramètres (probabilités et récompenses). Dans ce papier, les récompenses sont qualitatives ou ne sont connues que de manière imparfaite. Seul un ordre est supposé connu. Un MDP à récompenses ordinales (OMDP) peut être vu comme un MDP à récompenses numériques vectorielles dans lequel les fonctions de valeur se transforment en distributions de probabilité. Nous listons alors quelques critères d'optimalité provenant d'ordres sur les distributions de probabilité, notamment la dominance probabiliste à points de référence. Les OMDP exploitant cette dominance sont équivalents à des MDP multicritères avec une priorité définie sur les critères. Pour ces derniers, à l'horizon infini un nouvel algorithme de résolution est proposé quand la priorité sur les critères est un préordre complet.


ABSTRACT
The model of Markov decision processes (MDP) is a general framework for solving sequential decision-making problems under uncertainty. Its exploitation assumes a perfect knowledge of the parameter values (probabilities and rewards). In this paper, rewards are either qualitative or only known imperfectly. Only an order is assumed to be known. An MDP with ordinal rewards (OMDP) can be viewed as an MDP with vectorial numeric rewards in which value functions can be transformed into probability distributions. We then list several optimality criteria coming from orders over probability distributions, notably the probabilistic dominance with reference points. OMDPs exploiting this dominance are equivalent to multicriteria MDPs with a priority defined on criteria. For such multicriteria MDPs, we propose for the infinite horizon a new solving algorithm when the priority over criteria is a total preorder.


AUTEUR(S)
Paul WENG

MOTS-CLÉS
processus décisionnel de Markov, récompense qualitative, MDP multicritère.

KEYWORDS
Markov decision process, qualitative reward, multicriteria MDP.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (243 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier