ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 23/2-3 - 2009  - pp.203-220  - doi:10.3166/ria.23.203-220
TITRE
Combiner connaissances expertes, hors-ligne, transientes et en ligne pour l'exploration Monte-Carlo. Apprentissage et MC

TITLE
Combining expert, online, transient and offline learning in Monte-Carlo. Tree search

RÉSUMÉ
Nous combinons pour l'exploration Monte-Carlo d'arbres de l'apprentissage artificiel à 4 échelles de temps : - regret en ligne, via l'utilisation d'algorithmes de bandit et d'estimateurs Monte-Carlo ; - de l'apprentissage transient, via l'utilisation d'estimateurs rapides de Q-fonction (RAVE, pour Rapid Action Value Estimate) qui sont appris en ligne et utilisés pour accélérer l'exploration mais sont ensuite peu à peu laissés de côté à mesure que des informations plus fines sont disponibles ; - apprentissage hors-ligne, par fouille de données de jeux ; - utilisation de connaissances expertes comme information a priori. L'algorithme obtenu est plus fort que chaque élément séparément. Nous mettons en évidence par ailleurs un dilemme exploration-exploitation dans l'exploration Monte-Carlo d'arbres et obtenons une très forte amélioration par calage des paramètres correspondants.


ABSTRACT
We combine for Monte-Carlo exploration machine learning at four different time scales: - online regret, through the use of bandit algorithms and Monte-Carlo estimates; - transient learning, through the use of rapid action value estimates (RAVE) which are learnt online and used for accelerating the exploration and are thereafter neglected; - offline learning, by data mining of datasets of games; - use of expert knowledge coming from the old ages as prior information. The resulting algorithm is stronger than each element separately. We finally emphasize the exploration-exploitation dilemna in the Monte-Carlo simulations and show great improvements that can be reached with a fine tuning of related constants.


AUTEUR(S)
Guillaume CHASLOT, Louis CHATRIOT, Christophe FITER, Sylvain GELLY, Jean-Baptiste HOOCK, j. PEREZ, a. RIMMEL, Olivier TEYTAUD

MOTS-CLÉS
exploration d'arbres par Monte-Carlo, apprentissage en ligne, apprentissage hors-ligne, apprentissage transient, connaissances expertes, combinaison de prédicteurs.

KEYWORDS
Monte-Carlo Tree-Search, Online Learning, Offline Learning, Transient Learning, Expert knowledge, Combining predictors.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (442 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier