Thèse en co-tutelle avec l’université de Tunis

Classification multi-label extrême et contraintes

Cette thèse s’inscrit dans le contexte de l’apprentissage automatique. Le but est d’apprendre des modèles sur des données afin de réaliser une tâche de prédiction. Le sujet traite de la classification multi-label à très large échelle (‘‘Apprentissage Multi-Label Extrême”) qui a pour but d’associer des objets à quelques labels, appelés également étiquettes ou classes, parmi des millions de possibilités.

Dans la littérature, plusieurs types de problèmes de classification peuvent être identifiés : les approches d’apprentissage “mono-label” ont pour objectif d’associer un objet décrit par un vecteur d’attributs à un unique label (étiquette ou classe). Cependant, pour certaines applications, les objets doivent intrinsèquement être décrits par plusieurs labels. Par exemple, en annotation de textes, on peut souhaiter construire un système qui qualifie un texte à la fois de “scientifique”, traitant de “automédication” et de “dépression” c’est ce qu’on appelle la classification multi-label (MLC). La classification multi-label est généralisation de la classification multi-classes où plusieurs labels peuvent être attribuées à une instance. Dans le problème multi-label, il n’existe pas de contrainte sur le nombre de classes auxquelles une instance peut être attribuée. Lorsque la dimension de données est élevée, les algorithmes MLC ne résistent pas au passage à l’échelle. Pour pallier à ces limitations, le problème d’apprentissage multi-label extrême, régulièrement noté XMC (eXtreme Multi-label Learning en anglais), a été proposé pour traîter un très grand nombre de variables d’attributs et de variables de l’ordre de $10^4$ à $10^7$.

Objectifs Scientifiques de la thèse

Dans, cette thèse nous nous intéressons à l’extension des approches d’apprentissage multi-label extrême (arbre de décisions, méthodes de réduction de dimension, etc.) avec des contraintes à priori. Les approches existantes traitent uniquement des contraintes très spécifiques que nous souhaitons étendre. Le but est d’obtenir une bonne qualité prédictive pour des problèmes XML sans avoir recours à des super calculateurs (challenge de temps et de mémoire) en exploitant ses contraintes.

Dans un deuxième temps, il sera question de considérer des données incertaines où il serait souhaitable de fournir des prédictions à valeurs fixes imprécises (ou indéterminées). Ces valeurs seront jugées fiables dans le sens qu’elles couvrent les vraies classes avec des probabilités élevées.