ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 20/2-3 - 2006  - pp.235-275  - doi:10.3166/ria.20.235-275
TITRE
Exploration guidée en apprentissage par renforcement. Connaissances a priori et relaxation de contraintes

RÉSUMÉ
L'objectif du travail présenté est, dans le cadre de l'apprentissage par renforcement, de guider l'agent grâce à de la connaissance a priori que l'on aurait sur un environnement donné. Nous proposons un formalisme procédural permettant d'introduire cette connaissance sous forme de programme. L'idée de base de notre méthode est de proposer à l'agent deux ensembles d'actions par état ; un ensemble réduit d'actions qui est utilisé au départ, et un autre ensemble moins contraint qui sera utilisé plus tard. Les contraintes initiales réduisent l'espace d'états et, par conséquent, réduisent le temps d'apprentissage. Mais, parce que les contraintes initiales peuvent être trop fortes, nous définissons un mécanisme de relaxation de contraintes qui permettra d'augmenter graduellement l'espace de recherche. Le fait de relâcher les contraintes initiales va nous permettre de prouver, pour une large classe de programmes, que la politique apprise par l'agent est aussi bonne que s'il n'y avait pas eu de contraintes.


ABSTRACT
The aim of this work is to guide a reinforcement learning agent with some a priori knowledge we have about a given environment. We propose a procedural formalism which allows to design a program to introduce this knowledge. The basic idea of our method is to propose two sets of actions for a given state; a constrained one which is used first and a less constrained one, which will be used later. The initial constraints reduce the state space and so, reduce the learning time. But because the initial constraints can be too tight, we define a relaxation mechanism which will gradually increase the search space. This way of relaxing the initial constraints allows us to prove, for a wide class of programs, that the policy learnt by the agent is as good as if there were no constraints.


AUTEUR(S)
Pascal GARCIA

MOTS-CLÉS
apprentissage par renforcement, macro-actions, connaissance a priori, relaxation de contraintes.

KEYWORDS
Reinforcement learning, macro-actions, a priori knowledge, constraints relaxation.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (518 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier