ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 27/2 - 2013  - pp.155-169  - doi:10.3166/ria.27.155-169
TITRE
Classification structurée pour l’apprentissage par renforcement inverse

TITLE
Structured classification for inverse reinforcement learning

RÉSUMÉ
Cette contribution traite le problème de l’apprentissage par renforcement inverse (ARI), défini comme la recherche d’une fonction de récompense pour laquelle le comportement d’un expert (connu par le biais de démonstrations) est optimal. Nous introduisons SCIRL, un nouvel algorithme qui utilise la grandeur dénommée attribut moyen de l’expert comme la paramétrisation d’une fonction de score pour un classifieur multiclasse. Cette approche donne une fonction de récompense pour laquelle la politique de l’expert est (nous le démontrons) quasi optimale. Contrairement à la plupart des algorithmes d’ARI existants, SCIRL n’a pas besoin de résoudre le problème direct de l’apprentissage par renforcement. De plus, en utilisant une heuristique, il fonctionne avec uniquement des trajectoires échantillonnées par l’expert. Nous illustrons cela sur un simulateur de conduite.


ABSTRACT
This paper adresses the inverse reinforcement learning (IRL) problem, that is inferring a reward for which a demonstrated expert behavior is optimal. We introduce a new algorithm, SCIRL, whose principle is to use the so-called feature expectation of the expert as the parameterization of the score function of a multiclasse classifier. This approach produces a reward function for which the expert policy is provably near-optimal. Contrary to most of existing IRL algorithms, SCIRL does not require solving the direct RL problem. Moreover, with an appropriate heuristic, it can succeed with only trajectories sampled according to the expert behavior. This is illustrated on a car driving simulator.


AUTEUR(S)
Edouard KLEIN, Bilal PIOT, Matthieu GEIST, Olivier PIETQUIN

MOTS-CLÉS
apprentissage par renforcement, apprentissage par renforcement inverse.

KEYWORDS
reinforcement learning, inverse reinforcement learning.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (519 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier