ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 21/1 - 2007  - pp.35-52  - doi:10.3166/ria.21.35-52
TITRE
XAI : une méthode incrémentale pour l'approximation de la fonction de valeur

RÉSUMÉ
Cet article est dédié au problème de l'approximation de la fonction de valeur dans le cadre des algorithmes d'apprentissage par renforcement. Nous présentons une méthode de modélisation de la fonction de valeur qui alloue de nouvelles ressources au fur et à mesure que l'agent explore son environnement. La fonction de valeur est représentée par un réseau de fonctions de base radiale gaussiennes. Le modèle est construit incrémentalement en ajoutant de nouvelles unités à chaque fois que le système entre dans une région inconnue de l'espace des états. Les paramètres du modèle sont adaptés en utilisant la descente du gradient et l'algorithme Sarsa(). Cette méthode ne requiert ni un modèle de l'environnement ni une approximation de ce modèle. La performance de la méthode est évaluée sur deux problèmes type : l'Acrobot et le Bioréacteur. Dans les deux cas, les systèmes sont simulés dans un espace d'états continu et un pas de temps discret.


ABSTRACT
The topic of this paper is the approximation of the Value Function in Reinforcement Learning. We present a method for modeling the Value Function that allocates memory resources while the agent explores its environment. The model of Value Function is based on a Radial Basis Functions Network, with Gaussian units. The model is build incrementally by creating new units on-line, when the system enters unknown regions of the space. The parameters of the model are adapted using gradient descent and the Sarsa() algorithm. The method do not require a model of the environment neither does it involve the estimation of a model. The performance of the proposed method is demonstrated on two well-known benchmark problems: the Acrobot and the Bioreactor. Both problems are simulated in real-valued state space and discrete time.


AUTEUR(S)
Thibault LANGLOIS

MOTS-CLÉS
apprentissage par renforcement, fonction de valeur.

KEYWORDS
reinforcement learning, value function approximation.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (292 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier