Contribution à la Fouille de Données : Clustering de Données basé sur les Colonies de Fourmis avec Contrôle de l’Emergence
No Thumbnail Available
Date
2013
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Billel KENIDRA
Abstract
Le problème de clustering de données ou classification non supervisée a été identifié comme
une des problématiques majeures en fouille de données ou datamining. Son but est d'identifier et
d’extraire des groupes significatifs à partir d’un ensemble, souvent très large, de données définies par
des valeurs d’attributs. Ce problème est de nature combinatoire car le nombre de partitions qu’il est
possible d’avoir croît de façon exponentielle avec le volume de données à classer et le nombre de
clusters. C’est la raison pour laquelle il est souvent traité sous l’angle de l’optimisation.
Par ailleurs, la nature est une immense source d'inspiration pour résoudre des problèmes
complexes tels que le clustering des données, puisqu'elle est riche en systèmes naturels extrêmement
divers, dynamiques, robustes et complexes. Dans ce contexte, les algorithmes inspirés de la nature
sont des méta-heuristiques qui imitent des systèmes naturels, pour résoudre des problèmes
d'optimisation.
Dans les systèmes complexes à organisation autonome, les effets émergents peuvent se
produire sans qu'ils ne soient ni voulus, ni prévus dans la phase de conception. Pour rendre les
systèmes fiables, il est nécessaire de prendre soin de ce problème. Le contrôle de l’émergence consiste
à introduire des boucles de rétroaction pour rendre les systèmes auto-adaptatifs.
Dans le présent travail, nous présentons une nouvelle approche de clustering de données à des
fins de datamining basé sur les colonies de fourmis avec contrôle de l’émergence par boucle de
rétroaction. Cette approche est caractérisée par trois éléments essentiels à savoir :
doter chaque fourmi d’une mémoire courte gérée selon une stratégie FIFO,
modifier les opérations de ramassage et de dépôt des objets ou fonction Pick and Drop,
introduire des agents anti-clustering pour détruire l’émergence négative. Ces agents
agissent de façon inverse par rapport au comportement de fourmis artificielles.
L’approche proposée a été implémentée sur la plateforme multi agents NETLOGO et a été
testée sur des jeux de données synthétiques et réels. Les résultats obtenus en utilisant une mesure de
qualité interne et une mesure de qualité externe sont très prometteurs.