Classification Automatique des documents XML

No Thumbnail Available
Date
2010-10-17
Journal Title
Journal ISSN
Volume Title
Publisher
Makhlouf LEDMI
Abstract
La quantité d'information accessible aujourd'hui est telle que les outils, même sophistiqués, utilisés pour rechercher l'information dans les documents et pages Web ne suffisent plus: il faut maintenant pouvoir "découvrir" une information non explicitement contenue dans ces documents, afin de présenter une vue synthétique de grande quantité d'information. C'est précisément l'objectif de ce qu'on appelle la fouille de documents. Celle-ci utilise différentes techniques, extraire une information structurée dans du texte libre, regrouper les documents dans des classes existantes ou émergeantes, afin d'agréger ou de synthétiser l'information contenue dans une large collection. De plus, l’apparition des données semi structurées de type XML ou HTML a considérablement modifié le cadre habituel de la Recherche d’Information (RI). En effet, la notion même d’unité d’information est aujourd’hui complètement remise en cause et il est donc nécessaire d’une part d’adapter les modèles pour prendre en compte ce nouveau type de documents et d’autre part il faut s’intéresser aux nouvelles problématiques qui émergent. Dans le cadre de ce sujet de Magister, nous nous intéressons plus particulièrement aux techniques de classification de documents XML. Plus précisément, le classement associe des documents à des catégories (ou classes) prédéfinies alors que le clustering a pour but d'identifier des classes non connue à l'avance. Pour cela on s'appuie traditionnellement sur des modèles statistiques qui manipulent des ensembles de mots. Certaines méthodes de classification réduisent donc les documents XML à leur partie purement textuelle, sans prendre avantage de la structure XML qui pourtant véhicule une information riche: le même mot n'a pas forcément même impact ou le même sens dans un titre et dans une autre partie du document. Nous proposons de développer des modèles et des méthodes de classification prenant en compte à la fois le contenu des documents et/ou leurs structures. Par ailleurs, nous proposons d’utiliser une ontologie reliée aux termes du corpus pour modéliser la notion de voisinage sémantique à l’aide d’un calcul de similarité entre termes. A fin de valider les résultats, nous proposons d’utiliser un corpus déjà établi comme INEX, par exemple.
Description
Keywords
Citation
Collections