Apprentissage automatique et fusion d’informations Application à l’extraction des connaissances des documents web

No Thumbnail Available
Date
2010
Journal Title
Journal ISSN
Volume Title
Publisher
AZIZI Nabil
Abstract
Ces dernières années, l’accès à l’information textuelle a connu une évolution rapide, avec en particulier le développement de grandes bases de données textuelles et du web. En particulier, il est devenu important d’être capable de traiter d’énormes quantités de données textuelles, d’apporter des solutions diversifiées aux nouvelles demandes des utilisateurs, et d’automatiser les outils qui permettent d’extraire et d’exploiter l’information textuelle. Les méthodes classiques d’extraction de connaissances échouent la plupart du temps parce qu’elles n’utilisent en fait qu’une seule source d’information. De plus, la diversité de langues dans un même document, d’une part, et la diversité de sens qu’on peut avoir pour le même mot rendent l’extraction de connaissances, à partir de ce type de document, une tâche ardue et difficile. Parallèlement aux documents de type HTML, de nouveaux documents appelés documents semi structurés sont apparus. Ce type de document représente un compromis entre les données fortement structurées issues de la communauté base de données (données relationnelles par exemple) et les données faiblement structurées issues des communautés document numérique et recherche d’information (documents plats, images . . . etc) [Denoyer, 2004]. Le format de représentation le plus utilisé par excellence est le format XML (eXtensible Markup Langage) qui se caractérise par sa simplicité, extensibilité et puissance de représentation de n’importe quels types de données. Notre étude s’intéresse à la classification (catégorisation) des documents semi structuré XML. L’apprentissage automatique propose une gamme d’outils qui permettent d’avancer dans cette direction. C’est dans ce cadre que se situe notre travail qui vise à explorer le potentiel des techniques d’apprentissage pour répondre aux besoins de recherche et d’analyse d’information semi structuré comme la méthode à base de SVM, de réseaux de neurones, modèle bayésien,...etc. Toutes ces méthodes s’accordent sur l’efficacité et la robustesse et afin de tirer profit des avantages de chacune d’elles nous allons proposé une architecture de fusion d’information qui permet d’améliorer la classification des documents semi structurés en tenant compte de la structure et le contenu de ces documents.
Description
Keywords
Citation
Collections