Étude de différentes combinaisons de comportements adaptatives
Cet article s'intéresse à la synthèse automatique d'agents en environnement incertain, se plaçant dans le cadre de l'apprentissage par renforcement, et plus précisément des processus de décision markoviens partiellement observables. Les agents (dénués de modèle de leur environnement et de mémoire à court terme) sont confrontés à de multiples motivations/objectifs simultanés, problématique qui s'inscrit dans le domaine de la sélection d'action. Nous proposons et évaluons différentes architectures de sélection d'action. Elles ont en commun de combiner de manière adaptative des comportements de base déjà connus, en apprenant les réglages de la combinaison afin de maximiser les gains de l'agent. La suite logique de ces travaux est d'automatiser la sélection et la conception des comportements de base eux-mêmes.
This article focusses on the automated synthesis of agents in an uncertain environment, working in the setting of Reinforcement Learning, and more precisely of Partially Observable Markov Decision Processes. The agents (with no model of their environment and no short-term memory) are facing multiple motivations/goals simultaneously, a problem related to the field of Action Selection. We propose and evaluate various Action Selection architectures. They all combine already known basic behaviors in an adaptive manner, by learning the tuning of the combination, so as to maximize the agent's payoff. The logical continuation of this work is to automate the selection and design of the basic behaviors themselves.
O.BUFFET, A.DUTECH, F.CHARPILLET
processus de décision markoviens partiellement observables, motivations multiples.
partially observable markov decision processes, multiple motivations.
Français
|