ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 20/2-3 - 2006  - pp.383-410  - doi:10.3166/ria.20.383-410
TITRE
Apprentissage de la coordination multiagent. Une méthode basée sur le Q-learning par jeu adaptatif

RÉSUMÉ
Les algorithmes actuels d'apprentissage multiagent sont pour la plupart limités dans la mesure où ils sont incapables de gérer la multiplicité des équilibres de Nash et de converger vers l'équilibre Pareto optimal. Pour pallier à cela, nous proposons un algorithme d'apprentissage étendant le Q-learning aux jeux stochastiques non coopératifs, qui converge (en self-play) vers le Nash Pareto-optimal. Nous présentons des résultats expérimentaux montrant la convergence d'un tel algorithme. Nous étendons ensuite notre approche à un autre aspect essentiel des systèmes complexes qui est la non stationnarité des agents adverses et qui jusqu'ici a été peu étudiée. Finalement, nous abordons la question de la non-stationnarité dans les systèmes multiagents, et présentons des pistes qui nous semblent pertinentes pour améliorer les performances d'adaptation de notre algorithme à des agents non stationnaires.


ABSTRACT
Current algorithmes on multiagent learning are for almost limited since they cannot manage the multiplicity of Nash equilibria and thus converge to the Pareto-optimal. To alleviate this, we propose here a learning mechanism extending the Q-learning to non-cooperative stochastique games. This learning mechanism converges to Pareto-optimal equilibria in selfplay. We present experimental results showing convergence of such learning mechanism. We then extend our approach to the case of non-stationarity of agents which is another important aspect of multiagent systems. Finally, we tackle the question of non stationarity in multiagent environments in its generality and we present in this context some research avenues which can lead to improve our preliminary results on adaptation.


AUTEUR(S)
Olivier GIES, Brahim CHAIB-DRAA

MOTS-CLÉS
apprentissage multiagent, jeu adaptatif, jeux stochastiques, processus de décision markovien.

KEYWORDS
Multiagent Learning, Adaptative Game, Markovien Game, MDP.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (749 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier