XAI : une méthode incrémentale pour l'approximation de la fonction de valeur
Cet article est dédié au problème de l'approximation de la fonction de valeur dans le cadre des algorithmes d'apprentissage par renforcement. Nous présentons une méthode de modélisation de la fonction de valeur qui alloue de nouvelles ressources au fur et à mesure que l'agent explore son environnement. La fonction de valeur est représentée par un réseau de fonctions de base radiale gaussiennes. Le modèle est construit incrémentalement en ajoutant de nouvelles unités à chaque fois que le système entre dans une région inconnue de l'espace des états. Les paramètres du modèle sont adaptés en utilisant la descente du gradient et l'algorithme Sarsa(). Cette méthode ne requiert ni un modèle de l'environnement ni une approximation de ce modèle. La performance de la méthode est évaluée sur deux problèmes type : l'Acrobot et le Bioréacteur. Dans les deux cas, les systèmes sont simulés dans un espace d'états continu et un pas de temps discret.
The topic of this paper is the approximation of the Value Function in Reinforcement Learning. We present a method for modeling the Value Function that allocates memory resources while the agent explores its environment. The model of Value Function is based on a Radial Basis Functions Network, with Gaussian units. The model is build incrementally by creating new units on-line, when the system enters unknown regions of the space. The parameters of the model are adapted using gradient descent and the Sarsa() algorithm. The method do not require a model of the environment neither does it involve the estimation of a model. The performance of the proposed method is demonstrated on two well-known benchmark problems: the Acrobot and the Bioreactor. Both problems are simulated in real-valued state space and discrete time.
T.LANGLOIS
apprentissage par renforcement, fonction de valeur.
reinforcement learning, value function approximation.
Français
|