Méthodologie de transformation d'un thesaurus en une ontologie de domaine
Les techniques de recherche d'information s'appuient sur l'extraction de termes dans les documents, termes qui servent de base pour l'accès à ces documents. Ces techniques ont l'inconvénient de reposer sur des termes qui peuvent être ambigus et de ne pas prendre en compte les liens sémantiques qui existent entre les termes. Nous proposons dans cet article une approche pour permettre une extraction plus riche sémantiquement en intégrant des connaissances issues d'un thesaurus et de corpus de domaine. Plus spécifiquement, nous proposons une méthodologie visant à transformer un thesaurus préexistant en une ontologie légère de domaine qui sera utilisée pour indexer sémantiquement une collection de documents. Un corpus de référence est en outre utilisé pour compléter la connaissance représentée. Nous proposons également des techniques assurant cette transformation et une évaluation dans le domaine de l'astronomie.
Information Retrieval techniques make use of terms that are automatically extracted from documents; these terms are used to give information access. In this paper we propose an approach to enrich semantically this extraction by adding knowledge from thesauri. More specifically, the methodology we promote in this paper aims at transforming a thesaurus into a domain ontology which will then be used to semantically index documents (indexes are concepts rather than terms). We also propose techniques that implement this transformation as well as an evaluation in the field of astronomy.
C.CHRISMENT, O.HAEMMERLÉ, N.HERNANDEZ, J.MOTHE
thesaurus, ontologie, création de ressources, langage d'indexation.
thesaurus, ontology, resource acquisition, text mining.
Français
|