ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 17/1-3 - 2003  - pp.233-246
TITRE
Un modèle statistique pour la classification de documents structurés

RÉSUMÉ
Nous présentons un modèle d'apprentissage général pour la classification de documents structurés permettant de prendre en compte simultanément la structure et le contenu. Pour cela, nous définissons tout d'abord un modèle génératif de documents structurés à l'aide de réseaux Bayésiens. Nous transformons ensuite ce modèle génératif en un modèle discriminant en utilisant la méthode du noyau de Fisher. Nous détaillons enfin une instance de ce modèle dédié à la classification de pages HTML. Les expériences sur un corpus de référence montrent que la prise en compte de la structure permet un gain de performance par rapport aux modèles classiques de classification génératifs et discriminants.


ABSTRACT
We present a learning model for categorization of structured documents that takes into account both structural information and textual information. We first define a generative model of structured documents using belief networks. Then we transform the generative model into a discriminative one using the Fisher kernel. Finally, we describe an instance of this model applied to the categorization of HTML documents. The experimental application to a classical corpus shows that the use of structural information outperforms other classical models.


AUTEUR(S)
Trang HUYEN VU, Ludovic DENOYER, Patrick GALLINARI

MOTS-CLÉS
recherche d'information, documents structurés, classification, réseaux bayésiens, noyaux de Fisher.

KEYWORDS
Information Retrieval, Structured Documents, Classification, Bayesian Networks, Fisher Kernel.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (228 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier