• Co-encadrant de thèse :
  • Luis MENESES-LERIN (Grammatica)
  • Financement : Artois
  • Année de début de thèse :
  • 2023

Les expressions idiomatiques (IE) sont des expressions multi-mots (MWE) qui se produisent généralement sous forme de collocations où la signification ne peut pas être déduite de ses morceaux de mots. L’identification et la modélisation des IE sont une tâche importante pour le développement d’applications NLP, telles que la traduction automatique, l’analyse des sentiments et la génération de paraphrases, etc. La sémantique non compositionnelle des expressions idiomatiques et l’idiosyncrasie de leurs propriétés soulèvent plusieurs défis dans la compréhension du langage. Cela tient notamment à leur sens littéral ou figuré selon le contexte dans lequel ils interviennent (ambiguïté sémantique). Récemment, le succès des générateur de langages (LM) contextualisés tels que BERT, GPT3 ou OPT a conduit à un changement de paradigme en traitement automatiques des langues (TAL) car ils nous permettent de capturer les connaissances antérieures sur la signification des mots et le langage plus généralement. Alors que les LM ont obtenu des résultats révolutionnaires dans un large éventail de tâches, on ne sait pas dans quelle mesure ces modèles capturent le langage figuratif dans les expressions idiomatiques et comment effectuer la génération de métaphores informatiques. Cette thèse étudie ces problèmes en apprenant des intégrations appropriées pour les expressions idiomatiques qui peuvent être utilisées dans des applications en aval.