Fusion multimodale et modèles de langage de grande taille pour l’analyse des sentiments et la reconnaissance des émotions
- Doctorant:
- Hajar Hoztit
- Co-directeurs de thèse :
- Saïd Jabbour
- Mohamed Nabil SAIDI
- Co-encadrant de thèse :
- Nejat Arinik
- Financement : PHC Toubkal
- Année de début de thèse :
- 2026
Les émotions humaines occupent une place centrale dans la communication, la prise de décision, les interactions sociales et le bien-être psychologique. Le développement de systèmes d’IA émotionnelle, capables de reconnaître et d’interpréter ces états affectifs, constitue toutefois un défi majeur en raison de la variabilité des expressions émotionnelles, des différences culturelles et de la forte dépendance au contexte. Une même expression peut traduire des émotions différentes selon la situation, ce qui limite fortement les approches reposant sur une seule source d’information. La reconnaissance des émotions (Emotion Recognition, ER) a ainsi connu une évolution significative, passant de systèmes unimodaux exploitant une modalité isolée (texte, voix ou image) à des approches multimodales intégrant plusieurs sources d’information, telles que le texte, les expressions faciales, les signaux physiologiques (ECG, EEG, GSR) et les mouvements corporels. Cette transition a démontré le potentiel des approches multimodales à mieux capter la complexité des états affectifs humains et à améliorer les performances des systèmes de reconnaissance émotionnelle. Cependant, malgré ces avancées, la fusion efficace de données multimodales demeure une problématique ouverte. Les stratégies de fusion précoce, tardive ou hybride peinent à gérer l’hétérogénéité des signaux, leurs dynamiques temporelles différentes et la perte d’information contextuelle. Même les méthodes plus sophistiquées, fondées sur des mécanismes d’attention croisée ou des architectures spécialisées, restent souvent rigides, peu explicables et difficiles à adapter à de nouveaux contextes, en particulier dans des scénarios temps réel ou pour des langues à faibles ressources telles que l’arabe et le dialecte marocain. Parallèlement, l’émergence récente des Large Language Models (LLMs) a profondément transformé le traitement automatique des langues grâce à leurs capacités de compréhension contextuelle, de généralisation et d’apprentissage par transfert. Leur intégration croissante dans des architectures multimodales ouvre de nouvelles perspectives pour repenser la fusion multimodale, non plus comme une simple combinaison mécanique de signaux, mais comme un processus guidé par le raisonnement et le contexte global. Néanmoins, des défis persistent quant à l’intégration efficace de modalités hétérogènes et temporelles, à l’adaptation multilingue et aux contraintes liées à la complexité computationnelle. L’objectif de cette thèse est d’étudier l’utilisation des LLMs comme composant central de la fusion multimodale pour la reconnaissance des émotions et l’analyse des sentiments. Il s’agira de proposer des architectures hybrides intégrant des représentations issues des modalités textuelles, vocales et physiologiques, et d’explorer des stratégies de prompting multimodal, de fine-tuning spécialisé et de fusion hiérarchique guidée par les LLMs. Enfin, ce travail vise à contribuer à l’enrichissement de corpus multimodaux multilingues, en particulier pour les langues à faibles ressources, et à évaluer les modèles proposés dans des applications concrètes telles que la détection précoce et le suivi des troubles émotionnels, avec des retombées potentielles dans les domaines de la santé mentale, de l’éducation adaptative et de l’interaction homme-machine.