ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 17/1-3 - 2003  - pp.473-479
TITRE
Extraction de données web par couplage entre structures HTML avec une ontologie commune.

RÉSUMÉ
Beaucoup d'applications accéderaient et intégreraient des données de pages web, régulièrement mises à jour, si celles-ci étaient utilisables directement. Cependant, jusqu'à ce jour, l'extraction automatique de ces données n'est pas triviale en raison de l'aspect visuel pour lequel les pages web sont conçues. Toutefois, la plupart des sites web générés automatiquement ont des structures HTML relativement fixes. C'est pourquoi nous proposons une méthode d'extraction basée sur l'utilisation des ces structures couplées à une ontologie commune à plusieurs sources. Cette approche a été implémentée sous la forme d'un outil, appelé WeDaX, lequel permet de créer de façon semi-automatique des descriptions d'extraction de données de pages web. Ces descriptions peuvent par la suite être utilisées automatiquement par des logiciels, notamment pour récupérer des données mises à jour régulièrement, pour autant que les structures des documents restent cohérentes. Les données, ainsi extraites sous forme XML et faisant référence à une ontologie commune, peuvent être facilement fusionnées.


ABSTRACT
Many web sites provide regularly updated data in a relatively fixed structure. These data are very useful for some applications such as data integration applications. However, data extraction from these sites is non-trivial because of the visual-oriented aspect of webpages. In this paper, we propose an approach based on a structural analysis and ontology, which facilitates the formalization and the extraction of data from different sources. The extracted data are converted into a coherent and reliable structure so that users can use and query them regardless of their origin. The ultimate goal of this tool is to extract reliable information from web pages and make them available in a more suitable and comprehensive format, ready to be used.


AUTEUR(S)
Hicham SNOUSSI, Laurent MAGNIN, Jian-Yun NIE

MOTS-CLÉS
extraction de données, web, ontologie, XML, requêtes XML .

KEYWORDS
data extraction, web, ontology, XML, XML queries.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (173 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier