Apprentissage automatique et fusion d’informations Application à l’extraction des connaissances des documents web
No Thumbnail Available
Date
2010
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
AZIZI Nabil
Abstract
Ces dernières années, l’accès à l’information textuelle a connu une évolution rapide, avec en particulier le
développement de grandes bases de données textuelles et du web. En particulier, il est devenu important d’être capable
de traiter d’énormes quantités de données textuelles, d’apporter des solutions diversifiées aux nouvelles demandes des
utilisateurs, et d’automatiser les outils qui permettent d’extraire et d’exploiter l’information textuelle. Les méthodes
classiques d’extraction de connaissances échouent la plupart du temps parce qu’elles n’utilisent en fait qu’une seule
source d’information. De plus, la diversité de langues dans un même document, d’une part, et la diversité de sens qu’on
peut avoir pour le même mot rendent l’extraction de connaissances, à partir de ce type de document, une tâche ardue et
difficile.
Parallèlement aux documents de type HTML, de nouveaux documents appelés documents semi structurés sont
apparus. Ce type de document représente un compromis entre les données fortement structurées issues de la
communauté base de données (données relationnelles par exemple) et les données faiblement structurées issues des
communautés document numérique et recherche d’information (documents plats, images . . . etc) [Denoyer, 2004].
Le format de représentation le plus utilisé par excellence est le format XML (eXtensible Markup Langage) qui
se caractérise par sa simplicité, extensibilité et puissance de représentation de n’importe quels types de données.
Notre étude s’intéresse à la classification (catégorisation) des documents semi structuré XML. L’apprentissage
automatique propose une gamme d’outils qui permettent d’avancer dans cette direction. C’est dans ce cadre que se situe
notre travail qui vise à explorer le potentiel des techniques d’apprentissage pour répondre aux besoins de recherche et
d’analyse d’information semi structuré comme la méthode à base de SVM, de réseaux de neurones, modèle
bayésien,...etc.
Toutes ces méthodes s’accordent sur l’efficacité et la robustesse et afin de tirer profit des avantages de chacune
d’elles nous allons proposé une architecture de fusion d’information qui permet d’améliorer la classification des
documents semi structurés en tenant compte de la structure et le contenu de ces documents.