ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 24/4 - 2010  - pp.423-443  - doi:10.3166/ria.24.423-443
TITRE
Différences temporelles de Kalman. Cas déterministe

TITLE
Kalman temporal differences: the deterministic case

RÉSUMÉ
Un des thèmes importants de l'apprentissage par renforcement est l'approximation en ligne de la fonction de valeur. En plus de leur capacité à prendre en compte de grands espaces d'état, les algorithmes associés devraient présenter certaines caractéristiques comme un apprentissage rapide, la faculté de traquer la solution plutôt que de converger vers elle (particulièrement en raison de l'entrelacement entre contrôle et apprentissage) ou encore la gestion de l'incertitude relative aux estimations faites. Dans cette optique, nous introduisons un cadre de travail général inspiré du filtrage de Kalman que nous nommons différences temporelles de Kalman. Une forme d'apprentissage actif utilisant l'information d'incertitude est également introduite, et comparaison est faite à l'état de l'art sur des problèmes classiques.


ABSTRACT
A topic of importance in reinforcement learning is online value function approximation. Related algorithms should exhibit some features such as sample efficiency, tracking the solution rather than converging to it (especially because control and learning are interleaved) and maintaining an uncertainty information about approximated values. A Kalman-based Temporal Differences framework is introduced to deal with all these aspects at the same time. A form of active learning which uses the available uncertainty information is also introduced, and the proposed framework is compared to state-of-the-art algorithms on classic benchmarks.


AUTEUR(S)
Matthieu GEIST, Olivier PIETQUIN, Gabriel FRICOUT

MOTS-CLÉS
apprentissage par renforcement, filtrage de Kalman, approximation de la fonction de valeur, gestion de l'incertitude, traque.

KEYWORDS
reinforcement learning, Kalman filtering, value function approximation, uncertainty handling, tracking.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (355 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier