Exploration guidée en apprentissage par renforcement. Connaissances a priori et relaxation de contraintes
L'objectif du travail présenté est, dans le cadre de l'apprentissage par renforcement, de guider l'agent grâce à de la connaissance a priori que l'on aurait sur un environnement donné. Nous proposons un formalisme procédural permettant d'introduire cette connaissance sous forme de programme. L'idée de base de notre méthode est de proposer à l'agent deux ensembles d'actions par état ; un ensemble réduit d'actions qui est utilisé au départ, et un autre ensemble moins contraint qui sera utilisé plus tard. Les contraintes initiales réduisent l'espace d'états et, par conséquent, réduisent le temps d'apprentissage. Mais, parce que les contraintes initiales peuvent être trop fortes, nous définissons un mécanisme de relaxation de contraintes qui permettra d'augmenter graduellement l'espace de recherche. Le fait de relâcher les contraintes initiales va nous permettre de prouver, pour une large classe de programmes, que la politique apprise par l'agent est aussi bonne que s'il n'y avait pas eu de contraintes.
The aim of this work is to guide a reinforcement learning agent with some a priori knowledge we have about a given environment. We propose a procedural formalism which allows to design a program to introduce this knowledge. The basic idea of our method is to propose two sets of actions for a given state; a constrained one which is used first and a less constrained one, which will be used later. The initial constraints reduce the state space and so, reduce the learning time. But because the initial constraints can be too tight, we define a relaxation mechanism which will gradually increase the search space. This way of relaxing the initial constraints allows us to prove, for a wide class of programs, that the policy learnt by the agent is as good as if there were no constraints.
P.GARCIA
apprentissage par renforcement, macro-actions, connaissance a priori, relaxation de contraintes.
Reinforcement learning, macro-actions, a priori knowledge, constraints relaxation.
Français
|