2001-12-10

L’extraction de connaissances est un processus interactif et itératif d’analyse d’un grand ensemble de données brutes afin d’en extraire des connaissances exploitables, et où l’utilisateur-analyste joue un rôle central. Dans la perspective de conception de systèmes d’extraction de connaissances, nous présentons nos travaux d’élaboration de méthodes de prétraitement de données, et de classification par treillis pour la fouille de données.

La première partie introduit la problématique du prétraitement de données en traitant deux types de méthodes : la sélection et la construction d’attributs. Ensuite sont abordés plusieurs méthodes de classification s’appuyant sur les arbres de décision, les plus proches voisins, les treillis de Galois, et la logique floue.

Nous présentons dans la deuxième partie nos méthodes de conception de systèmes de classification basée sur le treillis de Galois et portant progressivement sur l’usage du vote majoritaire, sur l’introduction des mesures de la théorie de l’information, la transformation d’attributs, l’usage des techniques des plus proches voisins, la sélection des prototypes, et sur l’introduction de la théorie des sous-ensembles flous. Ces méthodes ont permis d’implanter plusieurs systèmes (LEGAL, Flexible-LEGAL, GLUE, IGLUE, CIBLe) qui ont été évalués sur un ensemble de jeu de données. Cette partie présente également une méthode de transformation d’attributs symboliques en attributs numériques. Enfin la troisième et dernière partie concerne les aspects interaction et applications de nos contributions. Nous montrons comment une technique de contrôle par objections permet à l’utilisateur-analyste d’interagir avec le système afin de valider les connaissances produites. Nous présentons ensuite une étude comparative d’opérateurs utilisés en dialogue avec ceux utilisés en apprentissage automatique. Nous terminons par une présentation d’applications, notamment en biologie moléculaire où plusieurs problèmes ont été abordés parmi lesquels: la prédiction de sites de jonction d’épissage, l’alignement de séquences protéiques et l’analyse de codage d’acides aminés.

Mots clés : Fouille de données, Apprentissage automatique, Transformation d’attributs, Interaction Homme-Machine, Bioinformatique.