• Financement : Artois
  • Année de début de thèse :
  • 2022

Cette thèse concerne la représentation et le traitement des données, des connaissances et des contraintes hétérogènes et incertaines.

L’hétérogénéité renvoie d’abord à des informations de nature différente. Par exemple, certaines données peuvent être structurées et faciles à interroger. D’autres données peuvent-être non structurées et difficilement exploitables. Des exemples de données non structurées sont les images, les rapports, les cartes de réseaux (par exemple urbains) analogiques ou numérisées. L’hétérogénéité désigne également les différentes imperfections liées à l’information : données factuelles incertaines, données incomplètes, contraintes flexibles, informations potentiellement contradictoires, etc.

Cette thèse est définie dans ce contexte de la gestion des informations et des données hétérogènes. Elle concerne dans un premier temps l’extraction, la completion (à partir de données et d’informations multi-sources), l’interprétation et l’annotation automatique des données non structurées. L’objectif est de combiner les techniques d’apprentissage automatique (Machine Learning) avec des approches basées sur les connaissances, les contraintes et les ontologies afin de représenter les données non structurées (par exemple des images) dans un format facilement exploitable par les méthodes d’Intelligence Artificielle (par exemple sous forme de bases de données).

Le deuxième objectif de la thèse concerne la définition des langages formels (modèles logiques et graphiques) pour représenter les différentes formes de données et de connaissances. Un accent sera mis sur des langages, dits ’traitables’, spécialement conçus pour les applications traitant d’une grande quantité de données et dans lesquelles l’interrogation est une tâche de raisonnement importante.

Le dernier objectif de la thèse concerne la définition des mécanismes efficaces d’interrogation et d’inférence pour d’une part répondre aux requêtes sur la base des informations hétérogènes et pour d’autre part raisonner sur des données spatiales sous contraintes. Dans un contexte d’informations hétérogènes, une question importante concerne la gestion des informations ‘conflictuelles’. Le problème de gestion des conflits a reçu une attention considérable dans la littérature et reste un problème ouvert en Intelligence artificielle. Différentes attitudes peuvent être suivies en présence de conflits dans les bases de connaissances. Le but est d’étendre les mécanismes de sélection de réparations préférées, définies dans le cadre des ontologies légères, aux données hétérogènes et en présence d’incertitude et de contraintes flexibles.

Les modèles et les algorithmes développés dans cette thèse seront validés sur des données des réseaux urbains riches en informations hétérogènes.