Classification de textes multi-étiquettes extrême avec des données de réseaux hétérogènes
- Doctorant:
- Imane Jebbar
- Co-directeurs de thèse :
- Zied Bouraoui
- Khalid Minaoui
- Financement : Artois, Université Mohammed V de Rabat
- Année de début de thèse :
- 2024
Co-tutelle de thèse avec l’université Mohammed V de Rabat
Cette thèse se concentre sur le développement de nouvelles approches pour la classification multi-étiquettes de textes (MLTC), une tâche qui consiste à attribuer plusieurs étiquettes pertinentes à un texte parmi un ensemble très large. La MLTC trouve des applications variées et essentielles dans le domaine du traitement du langage naturel, telles que la catégorisation automatique de documents, l’analyse des sentiments ou encore la recherche d’informations. Cependant, cette tâche est particulièrement complexe en raison de plusieurs défis majeurs : l’espace des étiquettes est souvent de très grande dimension, la répartition des étiquettes est souvent déséquilibrée, et les dépendances entre les étiquettes et les mots peuvent être à la fois riches et complexes. Les méthodes existantes, en grande majorité, ne tiennent pas suffisamment compte de ces interdépendances ou reposent sur des modèles linéaires, incapables de saisir les relations non linéaires et contextuelles qui caractérisent ces données. Notre recherche s’intéresse à un type spécifique de classification multi-étiquettes extrême (XMC), appliqué aux données de réseau contenant du contenu textuel. Ces réseaux, qui incluent des relations complexes et riches entre différents éléments, sont fréquents dans des contextes tels que les réseaux sociaux, les graphes de citations ou encore les structures du Web. Le contenu textuel, pour sa part, correspond aux informations associées aux nœuds ou aux arêtes des réseaux, comme des tweets, des profils d’utilisateurs ou des descriptions liées à des hyperliens. Les données de réseau enrichies de contenu textuel sont omniprésentes et jouent un rôle clé dans de nombreux domaines, notamment l’analyse des réseaux sociaux, la recherche d’information et le traitement automatique du langage naturel. L’objectif de cette thèse est de repousser les limites des approches actuelles en exploitant pleinement la richesse des structures de réseau et du contenu textuel, afin de mieux comprendre et modéliser les relations complexes entre les étiquettes et les données.