ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 30/5 - 2016  - pp.557-578  - doi:10.3166/RIA.30.557-578
TITRE
Identification des catégories de produits issus de catalogues publicitaires

TITLE
Identification of product categories from advertising catalogs

RÉSUMÉ

Nous proposons dans cet article une approche d’extraction d’informations, basée sur une ontologie, et appliquée à des documents issus de catalogues publicitaires. Les documents des catalogues sont des descriptifs de produits relativement pauvres. Les informations à extraire, ou annotations, concernent les catégories et les caractéristiques des produits considérés, répertoriées dans une ontologie de domaine. L’extraction d’informations concernant un pro- duit consiste en un peuplement de cette ontologie, plus précisément le peuplement des concepts représentant ses catégories et ses caractéristiques. La relative pauvreté des descriptifs rend irréalisable un peuplement totalement automatique. Nous proposons donc une approche en deux étapes : (1) une première étape d’annotation semi-automatique qui porte sur un petit ensemble de documents ; (2) une deuxième étape qui annote l’ensemble des autres documents de façon entièrement automatique, en s’appuyant sur des mécanismes d’apprentissage automatique ex- ploitant les résultats de la première étape. L’originalité de ce travail consiste en une approche incrémentale de raffinement des informations extraites. Le travail décrit a été appliqué sur des jeux de données réelles concernant des jouets.



ABSTRACT

In this paper, we propose an approach of information extraction, based on an on- tology, and applied to documents from advertising catalogs. Documents are relatively poor descriptions of products. The information to be extracted, or annotations, concern the catego- ries and features of the products, listed in a domain ontology. Thus, the information extraction about a product is actually an ontology population process, more precisely the population of concepts representing its categories and features. The poverty of the descriptions makes a fully automatic population impossible. We propose a two-step approach: (1) a first semi-automatic annotation step, which covers a small set of documents; (2) a second step, which annotates all other documents, in an entirely automatic way, based on machine learning mechanisms exploiting the results of the first step. The originality of this work relies on an incremental approach to refine the extracted information. The work described has been applied on real data, in the toy domain.



AUTEUR(S)
Céline ALEC, Chantal REYNAUD-DELAÎTRE, Brigitte SAFAR, Zield SELLAMI, Uriel BERDUGO

MOTS-CLÉS
extraction d’informations, peuplement d’ontologie, annotation sémantique, application dans le domaine du e-commerce

KEYWORDS
information extraction, ontology population, semantic annotation, B2C application

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (541 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier