ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 27/2 - 2013  - pp.195-215  - doi:10.3166/ria.27.195-215
TITRE
Apprentissage et optimisation de politiques pour un bras articulé actionné par des muscles

TITLE
Policy learning and optimization for a 2D arm actuated with muscles

RÉSUMÉ
De nombreux travaux présentent une combinaison d’apprentissage par démonstration et d’amélioration locale de politiques pour apprendre des contrôleurs pour des robots le long d’une trajectoire. Il manque à ces travaux une capacité de généralisation permettant d’apprendre sur tout l’espace atteignable par le robot. Dans cet article, nous présentons une méthode qui consiste à apprendre un tel contrôleur réactif en feedback et quasi optimal en deux étapes. Tout d’abord, un contrôleur paramétrique en feedback est appris par démonstration. On utilise pour cela des trajectoires réalisées par un contrôleur quasi optimal très coûteux. Ensuite, le contrôleur en feedback est optimisé par des méthodes de recherche directe sur les politiques. Nous obtenons alors un contrôleur quasi optimal qui s’exécute 20 000 fois plus vite que l’original, pour une performance proche. Ce travail est réalisé en simulation.


ABSTRACT
Many research works combine learning from demonstration and policy improvement methods to learn the controller of a robot along a specific trajectory. Nevertheless, a capability to learn in the whole reachable space of this robot is missing in these works. In this paper we propose a method that consists in learning a reactive near-optimal feedback controller in two steps. First, an efficient parametric feedback controller is obtained from learning from Demonstration based on the trajectories computed by a costly near-optimal controller. Second, the feedback controller is optimized further with direct Policy Search methods. As a result, we obtain a controller that is executed 20 000 times faster than the original controller for a similar performance. Our work is evaluated in simulation.


AUTEUR(S)
Didier MARIN, Lionel RIGOUX, Olivier SIGAUD

MOTS-CLÉS
commande optimale stochastique, apprentissage par démonstration, méthode de l’entropie croisée.

KEYWORDS
stochastic optimal control, learning from demonstration, cross-entropy methods.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (1,0 Mo)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier