ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 17/1-3 - 2003  - pp.533-544
TITRE
Comparaison de modèles de Markov d'ordre variable

RÉSUMÉ
Parmi les modèles bien adaptés pour classer des séquences figurent les chaînes de Markov d'ordre fixe. Le lissage de probabilités ou les chaînes de Markov d'ordre variable sont des améliorations de ce modèle qui ont permis d'en augmenter le pouvoir de généralisation pour un coût de stockage moindre. Dans cet article, nous proposons une autre extension, basée sur un test statistique, qui permet de contrôler la présence de motifs différents dans le modèle sous-jacent à une séquence et dans celui de sa classe d'affectation. A titre d'illustration, nous comparons les résultats fournis par ces différents modèles sur le benchmark de séquences DNA d'E. coli du répertoire de l'UCI et montrons l'influence du choix des paramètres sur leurs performances.


ABSTRACT
Markov chains of finite order was mainly used in the context of supervised classification of sequences. Nevertheless, this model has two drawbacks: first, the number of parameters grows exponentially with the order of the chain, secondly, the parameters are difficult to estimate. The proposed solutions for improving the model are probability smoothing or variable memory length Markov models, which can be represented by a tree known as Prediction Suffix Tree. In this paper, we propose an other improvement, based on a statistical test, which aim is to decide if the model of the sequence to classify includes subsequences (domains, patterns...) which are not in the model of its class and conversely. As illustration, we compare the results given by different models on the E. coli DNA sequences from the UCI repository of machine learning database and we show how the choice of parameters of these models influences the performances.


AUTEUR(S)
Christine LARGERON-LETÉNO

MOTS-CLÉS
fouille de données, classement supervisé, modèle de Markov d'ordre variable, arbre de suffixes probabilistes, bio-informatique, reconnaissance de séquences DNA.

KEYWORDS
Data mining, Supervised classification, Variable memory length model, Prediction suffix tree (PST), Bio-informatics, Recognition of DNA sequences.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (179 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier