ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 29/6 - 2015  - pp.685-704  - doi:10.3166/RIA.29.685-704
TITRE
Recherche locale de politique dans un espace convexe

TITLE
Local policy search in a convex space

RÉSUMÉ

En apprentissage par renforcement, la recherche locale de politique est une approche classique permettant de prendre en compte de grands espaces d’état. Formellement, elle consiste à chercher localement dans un espace de politiques paramétrées la solution qui va maximiser la fonction de valeur associée, moyennée selon une loi prédéfinie sur les états. La première contribution de cet article montre que si l’espace de politiques est convexe, tout optimum lo- cal (approché) présente une garantie globale de performance . Malheureusement, supposer la convexité de l’espace de recherche est une hypothèse forte : elle n’est pas satisfaite par les représentations usuelles des politiques et définir une paramétrisation non triviale qui satis- fasse cette propriété est difficile. Une solution naturelle pour palier ce problème est d’optimiser la fonction objectif associée grâce à une montée de gradient fonctionnel, la recherche étant contrainte à l’enveloppe convexe de l’espace de politiques. Il s’avère que l’algorithme résul- tant est une légère généralisation du schéma d’itération conservative de la politique. Ainsi, notre seconde contribution consiste à souligner cette connexion originale entre recherche lo- cale de politique et programmation dynamique approchée



ABSTRACT

Local Policy Search is a popular reinforcement learning approach for handling large state spaces. Formally, it searches locally in a parameterized policy space in order to maximize the associated value function averaged over some predefined distribution. The best one can hope in general is to get a local optimum of this criterion. The first contribution of this article is the following surprising result: if the policy space is convex, any (approximate) local optimum enjoys a global performance guarantee . Unfortunately, the convexity assumption is strong: it is not satisfied by commonly used parameterizations and designing a parameterization that in- duces this property seems hard. A natural solution to alleviate this issue consists in deriving an algorithm that solves the local policy search problem using a boosting approach (constrained to the convex hull of the policy space). The resulting algorithm turns out to be a slight generalization of conservative policy iteration; thus, our second contribution is to highlight an original connection between local policy search and approximate dynamic programming



AUTEUR(S)
Bruno SCHERRER, Matthieu GEIST

MOTS-CLÉS
Apprentissage par renforcement, recherche locale de politique, boosting, itération conservative de la politique

KEYWORDS
reinforcement learning, local policy search boosting, conservative policy iteration

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (386 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier