ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 25/3 - 2011  - pp.321-343  - doi:10.3166/ria.25.321-343
TITRE
Estimation Monte Carlo sans modèle de politiques de décision

RÉSUMÉ

Cet article propose un estimateur de l’espérance du retour de politiques de décision déterministes en boucle fermée à partir d’un échantillon de transitions d’un système dynamique. Cet estimateur, appelé en anglais Model-free Monte Carlo (MFMC) estimator, calcule une moyenne des retours d’un ensemble de « trajectoires artificielles » construites à partir de la politique à évaluer ainsi que de transitions du système disponibles dans un échantillon fixé dont l’acquisition s’est faite indépendamment de la politique à évaluer. Sous certaines hypothèses de continuité lipschitzienne de la dynamique du système, de la fonction de récompense et de la politique de décision à évaluer, on montre que le biais et la variance de l’estimateur proposé sont bornés par des termes qui dépendent des constantes de Lipschitz, du nombre de trajectoires artificielles, de la parcimonie de l’échantillon de transitions ainsi que de la variance « naturelle » du retour de la politique.



ABSTRACT

We propose an algorithm for estimating the finite-horizon expected return of a closed loop control policy from an a priori given (off-policy) sample of one-step transitions. This algorithm, named Model-free Monte Carlo (MFMC) estimator, averages cumulated rewards along a set of “broken trajectories” made of one-step transitions selected from the sample on the basis of the control policy. Under some Lipschitz continuity assumptions on the system dynamics, reward function and control policy, we provide bounds on the bias and variance of the estimator that depend only on the Lipschitz constants, on the number of broken trajectories used in the estimator, and on the sparsity of the sample of one-step transitions.



AUTEUR(S)
Raphael FONTENEAU, Susan A. MURPHY, Louis WEHENKEL, Damien ERNST

MOTS-CLÉS
apprentissage par renforcement, évaluation de politiques de décision, estimation par méthode de Monte Carlo.

KEYWORDS
reinforcement learning, policy evaluation, Monte Carlo estimation.

BIBLIOGRAPHIE
ria.revuesonline.com/revues/30/10.3166/ria.25.321-343.html

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (1,15 Mo)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier