ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique

APPEL À
CONTRIBUTION
Masses de données hétérogènes
En savoir plus >>
Autres revues >>

Revue d'Intelligence Artificielle

0992-499X
Revue des Sciences et Technologies de l'Information
 

 ARTICLE VOL 17/1-3 - 2003  - pp.189-200
TITRE
Data Mining et analyse des CV : une expérience et des perspectives

RÉSUMÉ
La problématique que nous abordons dans cet article est l'élaboration de modèles permettant la détection automatique des curriculum vitæ (CV) de cadres au sein d'un corpus constitué à plus de 90% par des CV de non cadres. Le CV est un document textuel singulier : faible structure, informations éparses, contenu fortement symbolique, etc. d'où la difficulté de traitement de ces documents. Dans un premier temps, nous essayons de définir, par des techniques de sélection et construction de variables, un nombre restreint de descripteurs standards des documents textuels. Nous utilisons cet espace ainsi défini pour modéliser le ciblage par apprentissage supervisé. En utilisant des méthodes d'arbres d'induction et analyse discriminante, nous obtenons des résultats intéressants en apprentissage (86% de rappel et 88% de précision). Même si les résultats en validation peuvent paraître décevants (55% de rappel et 60% de précision), cette approche ouvre des perspectives intéressantes d'exploitation automatique de CV basée sur le contenu informationnel et non à partir de simples mots clefs.


ABSTRACT
In this paper, we build predictors which are able to detect the executive curriculum vitæ (CV). The corpus used is composed by executive and non-executive CV and is very unbalanced. Indeed it is composed by more than 90% of non-executive CV. Low structure, scattered information, strongly symbolic representation are some of the characteristics that define this textual document type. Thus, treating these documents is a difficult task. At first, standard textual characteristics are reduced by feature selection and construction. Then, supervised learning techniques are used in order to produce targeting models from this reduced space. Interesting results (86% of recall and 88% of precision) are obtained by induction trees and discriminant analysis. Even if the validation results (55% of recall and 60% of precision) could be better, this approach offers interesting perspectives, based on content, for the automatic exploitation of CV.


AUTEUR(S)
J. CLECH, Djamel A. ZIGHED

MOTS-CLÉS
analyse automatique de CV, text mining, sélection et construction de variables, ciblage.

KEYWORDS
CV automatic analysis, text mining, feature selection and construction.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (99 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier