ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
« La Maison Intelligente »

Humanités Numériques
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 31/6 - 2017  - pp.619-618  - doi:10.3166/RIA.31.619-648
TITRE
Amélioration continue d’une chaîne de traitement de documents avec l’apprentissage par renforcement

TITLE
Using reinforcement learning to continuously improve a document treatment chain

RÉSUMÉ

Nous modélisons une chaîne de traitement de documents comme un processus de déci- sion markovien, et nous utilisons l’apprentissage par renforcement afin de permettre à l’agent d’apprendre à construire des chaînes adaptées à la volée, et de les améliorer en continu. Nous construisons une plateforme qui nous permet de mesurer l’impact sur l’apprentissage de divers modèles, services web , algorithmes, paramètres, etc. Nous l’appliquons dans un contexte indus- triel, spécifiquement à une chaîne visant à extraire des événements dans des volumes massifs de documents provenant de pages web et d’autres sources ouvertes. Nous visons à réduire la charge des analystes humains, l’agent apprenant à améliorer la chaîne, guidé par leurs retours ( feedback ) sur les événements extraits. Pour ceci, nous explorons des types de retours différents, d’un feedback numérique requérant un important calibrage, à un feedback qualitatif, beaucoup plus intuitif et demandant peu, voire pas du tout, de calibrage. Nous menons des expériences, d’abord avec un feedback numérique, puis nous montrons qu’un feedback qualitatif permet tou- jours à l’agent d’apprendre efficacement.



ABSTRACT

We model a document treatment chain as a Markov Decision Process, and use reinforcement learning to allow the agent to learn to construct and continuously improve custommade chains “on the fly”. We build a platform which enables us to measure the impact on the earning of various models, web services, algorithms, parameters, etc. We apply this in an industrial setting, specifically to an open source document treatment chain which extracts events from massive volumes of web pages and other open-source documents. Our emphasis is on minimising the burden of the human analysts, from whom the agent learns to improve guided by their feedback on the events extracted. For this, we investigate different types of feedback, from numerical feedback, which requires a lot of tuning, to partially and even fully qualitative feedback, which is much more intuitive, and demands little to no user calibration. We carry out experiments, first with numerical feedback, then demonstrate that intuitive feedback still allows the agent to learn effectively.



AUTEUR(S)
Esther NICART, Bruno ZANUTTINI, Bruno GRILHÈRES, Patrick GIROUX, Arnaud SAVAL

MOTS-CLÉS
ntelligence artificielle, apprentissage par renforcement, extraction et gestion des connaissances, interaction homme-machine, renseignement d’origine source ouverte (ROSO).

KEYWORDS
artificial intelligence, reinforcement learning, extraction and knowledge manage- ment, man-machine interaction, open source intelligence (OSINT).

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (278 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier