ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 26/6 - 2012  - pp.643-678  - doi:10.3166/ria.26.643-678
TITRE
Extraction adaptative d’information de pages web par règles d’extraction induites par apprentissage

TITLE
Adaptative information extraction from web pages with learning-based extraction rules

RÉSUMÉ

La taille croissante du web et l’hétérogénéité de l’information accessible rendent l’extraction d’informations (EI) de pages web de plus en plus complexe. Dans le contexte de la collecte d’information sur des domaines restreints du web, cette recherche concerne le développement de systèmes d’EI de pages web, dits adaptatifs dans la mesure où ils peuvent être adaptés à de nouveaux domaines par apprentissage sur un corpus de pages web annotées de ces domaines. Tout d’abord cet article présente une typologie des méthodes d’extraction d’information adaptative (EIA), plus particulièrement les méthodes par règles d’extraction induites par apprentissage, notamment avec l’algorithme BWI (Boosted Wrapper Induction). Ensuite est présenté un système d’EI adaptatif, WEPAIES, basé sur l’algorithme BWI, et pouvant, en utilisant un étiquetage spécifique, prendre en compte dans l’apprentissage la structure morphosyntaxique du langage naturel de la page web. Les performances de WEPAIES sont évaluées sur trois corpora standard plus ou moins structurés, et comparées à celles d’autres systèmes d’extraction d’information adaptatifs.



ABSTRACT

The growing size of the web and the heterogeneity of accessible information made relevant information extraction (IE) more and more complex from web pages. In the context of information gathering on restricted domains of the web, this work is focused on web page adaptive IE (AIE) systems that can be adapted to new domains through training on annotated corpora as input. These systems are based on machine learning algorithms. First this paper presents a typology of adaptive information extraction methods, in particular learning-based extraction rules methods, with Boosted Wrapper Induction (BWI) algorithm. Then, an adaptive IE system WEPAIES is presented. This system is based on BWI algorithm, and can exploit a POS (Part-of-Speech) tagging in order to take into account the morphosyntactic structure of the natural language of the web page. WEPAIES performances are evaluated on three standard corpora, more or less structured, and compared to performances of other adaptive information extraction systems.



AUTEUR(S)
Bernard ESPINASSE, Rinaldo LIMA, Shereen ALBITAR, Sébastien FOURNIER, Fred FREITAS

MOTS-CLÉS
extraction d’information adaptative, apprentissage de règles d’extraction, Boosted Wrapper Induction, étiquetage morphosyntaxique.

KEYWORDS
adaptive information extraction, learning-based extraction rules, Boosted Wrapper Induction, part of speech (POS) tagging.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (724 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier