ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 16/6 - 2002  - pp.631-656  - doi:10.3166/ria.16.631-656
TITRE
Une optimisation de l'extraction d'un jeu de règles s'appuyant sur les caractéristiques statistiques des données

RÉSUMÉ
Cet article présente un essai d'optimisation du jeu de règles extrait par la technique des motifs fréquents. Partant d'un tableau de données tiré d'un corpus de résumés d'articles scientifiques dans le domaine de la biologie moléculaire, on utilise les techniques usuelles d'extraction de règles d'association pour construire le jeu de règles associé aux données. On définit ensuite des règles « fortuites » par des techniques de simulation. On discute alors du choix de celles qu'il convient de supprimer afin d'optimiser le jeu de règles de départ. Les indices associés à des règles extraites de données s'appuient généralement sur le support et la confiance. On mentionne dans l'article les résultats obtenus avec d'autres indices de qualité des règles utilisés actuellement en fouille de données. Enfin, on se réfère aux propriétés statistiques des données afin de préparer la voie à une optimisation des jeux de règles extraits de bases de données variées, ce qui donne des pistes de prolongement à ce travail.


ABSTRACT
This paper presents a study on the optimization of the set of rules that can be extracted from a set of data using the requent itemset search methodology. The present experiment has been applied on a set of abstracts of biological texts. The association rules have been extracted using standard frequent itemsets level-wise search. A discussion holds on the pruning of the set of rules and on the possible optimization of the pruning of this rule set. As usual, support and confidence of rules are taken into account. In parallel, other rule quality criteria are introduced and discussed (referring mainly to statistics criteria). A comparison with the standard criteria used in the frequent itemset level-wise search is given together with a discussion on the possible interactions between all these criteria. Finally, perspectives of the present work are presented.


AUTEUR(S)
Martine CADOT, Amedeo NAPOLI

MOTS-CLÉS
règles d'association, indice d'implication, motifs fréquents, confiance, loi de Zipf, tableau de booléens, fouille de textes, seuils, simulations.

KEYWORDS
data mining, frequent itemset level-wise search, threshold, association rule extraction, quality criteria, rule set pruning, Zipf distribution, pruning optimization.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (307 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier