ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 20/2-3 - 2006  - pp.311-344  - doi:10.3166/ria.20.311-344
TITRE
Étude de différentes combinaisons de comportements adaptatives

RÉSUMÉ
Cet article s'intéresse à la synthèse automatique d'agents en environnement incertain, se plaçant dans le cadre de l'apprentissage par renforcement, et plus précisément des processus de décision markoviens partiellement observables. Les agents (dénués de modèle de leur environnement et de mémoire à court terme) sont confrontés à de multiples motivations/objectifs simultanés, problématique qui s'inscrit dans le domaine de la sélection d'action. Nous proposons et évaluons différentes architectures de sélection d'action. Elles ont en commun de combiner de manière adaptative des comportements de base déjà connus, en apprenant les réglages de la combinaison afin de maximiser les gains de l'agent. La suite logique de ces travaux est d'automatiser la sélection et la conception des comportements de base eux-mêmes.


ABSTRACT
This article focusses on the automated synthesis of agents in an uncertain environment, working in the setting of Reinforcement Learning, and more precisely of Partially Observable Markov Decision Processes. The agents (with no model of their environment and no short-term memory) are facing multiple motivations/goals simultaneously, a problem related to the field of Action Selection. We propose and evaluate various Action Selection architectures. They all combine already known basic behaviors in an adaptive manner, by learning the tuning of the combination, so as to maximize the agent's payoff. The logical continuation of this work is to automate the selection and design of the basic behaviors themselves.


AUTEUR(S)
Olivier BUFFET, Alain DUTECH, François CHARPILLET

MOTS-CLÉS
processus de décision markoviens partiellement observables, motivations multiples.

KEYWORDS
partially observable markov decision processes, multiple motivations.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (248 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier