Classification Automatique des documents XML
No Thumbnail Available
Date
2010-10-17
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Makhlouf LEDMI
Abstract
La quantité d'information accessible aujourd'hui est telle que les outils, même sophistiqués, utilisés
pour rechercher l'information dans les documents et pages Web ne suffisent plus: il faut maintenant
pouvoir "découvrir" une information non explicitement contenue dans ces documents, afin de présenter
une vue synthétique de grande quantité d'information. C'est précisément l'objectif de ce qu'on appelle la
fouille de documents. Celle-ci utilise différentes techniques, extraire une information structurée dans du
texte libre, regrouper les documents dans des classes existantes ou émergeantes, afin d'agréger ou de
synthétiser l'information contenue dans une large collection. De plus, l’apparition des données semi
structurées de type XML ou HTML a considérablement modifié le cadre habituel de la Recherche
d’Information (RI). En effet, la notion même d’unité d’information est aujourd’hui complètement remise
en cause et il est donc nécessaire d’une part d’adapter les modèles pour prendre en compte ce nouveau
type de documents et d’autre part il faut s’intéresser aux nouvelles problématiques qui émergent.
Dans le cadre de ce sujet de Magister, nous nous intéressons plus particulièrement aux techniques
de classification de documents XML. Plus précisément, le classement associe des documents à des
catégories (ou classes) prédéfinies alors que le clustering a pour but d'identifier des classes non connue
à l'avance. Pour cela on s'appuie traditionnellement sur des modèles statistiques qui manipulent des
ensembles de mots. Certaines méthodes de classification réduisent donc les documents XML à leur
partie purement textuelle, sans prendre avantage de la structure XML qui pourtant véhicule une
information riche: le même mot n'a pas forcément même impact ou le même sens dans un titre et dans
une autre partie du document.
Nous proposons de développer des modèles et des méthodes de classification prenant en compte à
la fois le contenu des documents et/ou leurs structures. Par ailleurs, nous proposons d’utiliser une
ontologie reliée aux termes du corpus pour modéliser la notion de voisinage sémantique à l’aide d’un
calcul de similarité entre termes.
A fin de valider les résultats, nous proposons d’utiliser un corpus déjà établi comme INEX, par
exemple.