ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 27/2 - 2013  - pp.243-263  - doi:10.3166/ria.27.243-263
TITRE
Adaptation de la matrice de covariance pour l’apprentissage par renforcement direct

TITLE
Covariance matrix adaptation for model-free reinforcement learning

RÉSUMÉ

La résolution de problèmes à états et actions continus par l’optimisation de politiques paramétriques est un sujet d’intérêt récent en apprentissage par renforcement. L’algorithme PI² est un exemple de cette approche qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l’estimation statistique. Dans cet article, nous considérons PI² en tant que membre de la famille plus vaste des méthodes qui optimisent une fonction de coût via une moyenne des valeurs des paramètres pondérée par les récompenses. Nous comparons PI² à d’autres membres de la même famille – la « méthode de l’entropie croisée » et CMA-ES1 – au niveau conceptuel et en termes de performance. La comparaison débouche sur la dérivation d’un nouvel algorithme que nous appelons PI² -CMA pour « Path Integral Policy Improvement with Covariance Matrix Adaptation ». Le principal avantage de PI² -CMA est qu’il détermine l’amplitude du bruit d’exploration automatiquement. Nous illustrons cet avantage sur un exemple non trivial de robotique simulée.



ABSTRACT

There has been a recent focus in reinforcement learning on addressing continuous state and action problems by optimizing parameterized policies. PI² is a recent example of this approach. It combines a derivation from first principles of stochastic optimal control with tools from statistical estimation theory. In this paper, we consider PI² as a member of the wider family of methods which share the concept of probability-weighted averaging to iteratively update parameters to optimize a cost function. We compare PI² to other members of the same family – the ‘Cross-Entropy Method’ and ‘Covariance Matrix Adaptation - Evolutionary Strategy’ – at the conceptual level and in terms of performance. The comparison suggests the derivation of a novel algorithm which we call PI² -CMA for “Path Integral Policy Improvement with Covariance Matrix Adaptation”. PI² -CMA’s main advantage is that it determines the magnitude of the exploration noise automatically. We illustrate this advantage on a non-trivial simulated robotics experiment.



AUTEUR(S)
Olivier SIGAUD, Freek STULP

MOTS-CLÉS
adaptation de la matrice de covariance, entropie croisée, amélioration de politiques

KEYWORDS
covariance matrix adaptation, cross-entropy, policy improvement

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (980 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier