• Co-encadrant de thèse :
  • Augustin COSSE (LISIC)
  • Financement : ANR, ULCO
  • Année de début de thèse :
  • 2024

Ces dernières années ont vu progresser de manière considérable les modèles d’apprentissage et d’intelligence artificielle, notamment grâce à l’apparition des réseaux antagonistes génératifs, de l’apprentissage par renforcement et des modèles de langage de grande taille (LLMs). Parmi les succès les plus spectaculaires résultant de ces modèles, on peut citer, entre autre, les victoires des algorithmes AlphaZero et AlphaGo, les exploits emblématiques de DeepMind et OpenAI aux jeux d’arcade, ainsi que les performances époustouflantes de ChatGPT, Llama et Bard. Bien que l’on puisse faire remonter le changement de paradigme (au sens strict d’un ensemble de théories et de méthodes acceptées par la communauté comme nouvelles directions de recherche (Dhar)) à l’apparition des processeurs graphiques (GPUs), il apparaît évident que les percées récentes (en particulier au niveau des modèles de langage) ne sont pas seulement en train de remodeler fondamentalement la société telle que nous la connaissons, mais pourraient également modifier notre compréhension des processus cognitifs. Que ce soit en termes d’emplois ou en termes scientifiques (en ce qui concerne notre compréhension du cerveau par exemple), les progrès récents en matière de génération et de traitement automatique du langage semblent presque aussi importants que le développement de l’internet dans les années 1970 ou l’invention de la machine à vapeur dans les années 1750. Si la machine à vapeur a créé un terrain fertile pour la formulation de la thermodynamique moderne, on peut espérer que les modèles de langage conduiront à une amélioration de notre compréhension des processus d’apprentissage, voire même du cerveau.

Dans un désir de développer des modèles de plus en plus efficaces, la recherche de ces dernières années est passée de modèles d’assistants virtuels simples (dont le fonctionnement échappait déjà à toute forme de formalisation scientifique) à des modèles de types transformers comptant plusieurs milliards de paramètres et nécessitant de ce fait un entraînement à l’aide d’une base de données très diversifiée et de taille tout aussi importante. Plus mystérieux encore que l’efficacité de ces modèles dans la maîtrise aussi bien syntaxique que sémantique du langage, plusieurs équipes de chercheurs ont récemment observé l’apparition, avec l’augmentation du nombre de paramètres du modèle, d’un phénomène dit “d’émergence” correspondant à l’acquisition par le modèle de compétences n’étant, au départ, pas explicitement présentes au sein des données d’entraînement. Parmi ces compétences, on retrouve par exemple la capacité à synthétiser certains extraits de texte, à répondre à des questions ou à réaliser des opérations arithmétiques relativement avancées.

Tout comme la machine à vapeur a ouvert la voie à la thermodynamique moderne, nous pensons qu’il est temps de tenter une formalisation mathématique du phénomène d’apprentissage dans les modèles de langage. Dans cette optique, le projet consistera à étudier le lien entre les propriétés linguistiques des données d’apprentissage, la complexité des modèles de langage et les compétences de ces modèles à travers (i) une conception minutieuse d’un jeu de données simple et une caractérisation de la structure linguistique de ces données (ii) une compréhension claire de la structure des modèles de langage et une implémentation de ces modèles (iii) une caractérisation mathématique des transitions dans l’émergence des compétences de compréhension de ces modèles.