ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 19/6 - 2005  - pp.885-912  - doi:10.3166/ria.19.885-912
TITRE
Classification de courriers électroniques. Une approche par apprentissage basée sur des modèles linguistiques

RÉSUMÉ
Nous proposons une double amélioration des systèmes de filtrage de courriels existants. D'une part, en utilisant une méthode d'apprentissage automatique permettant à un système de filtrage d'élaborer des profils utilisateur. D'autre part, nous utilisons un ensemble de connaissances linguistiques sous forme de modèles réduits issues de modèles linguistiques de textes. Dans ce contexte, nous cherchons à évaluer si l'utilisation de connaissances et de traitements linguistiques peut améliorer les performances d'un système de filtrage. En effet, nous utilisons, au-delà des caractéristiques lexicales, un ensemble d'indicateurs sur le message portant sur la structure et le contenu. Ces connaissances sont indépendantes du domaine d'application et la fiabilité repose sur l'opération d'apprentissage. Pour tenter de statuer sur la faisabilité de notre approche et d'évaluer son efficacité, nous l'avons expérimenté sur un corpus de 1 200 messages. Nous présentons les résultats d'un ensemble d'expériences d'évaluation.


ABSTRACT
We propose a two-fold improvement to the existing e-mail filtering systems : firstly, by using an automatic learning method which will allow the filtering system to create user profiles. Secondly, we use a set of linguistic information in the form of reduced models, based on linguistic models of texts. In this area we aim to evaluate if using linguistic information and analysis can improve the performance of a filtering system. Indeed, as well as using lexical characteristics, we use a range of indicators based on structure and content of the messages. This information is independent to the application domain and reliability depends on the learning operation. In order to evaluate the feasibility of our approach and its reliability, we have experimented with a corpus of 1200 messages. We present here the results of a set of evaluation experiments.


AUTEUR(S)
Omar NOUALI, Alain REGNIER, Philippe BLACHE

MOTS-CLÉS
filtrage d'information, apprentissage automatique, modèles linguistiques réduits.

KEYWORDS
information filtering, machine learning, small-scale linguistic models.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (174 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier