• Financement : Artois
  • Thèse soutenue le :
  • 28 nov. 2025

Le traitement automatique de données non structurées, telles que des images, des vidéos, des cartes ou du texte, représente un enjeu majeur en intelligence artificielle. Ces données, bien qu’elles soient de plus en plus disponibles et riches en information, demeurent difficiles à exploiter directement. Contrairement aux données structurées, qui se prêtent facilement à des analyses statistiques ou à des représentations sous forme de graphes et de bases de données, les données visuelles et textuelles nécessitent des étapes intermédiaires de traitement pour devenir réellement exploitables. Les cartes géographiques illustrent particulièrement bien cette difficulté : elles sont constituées d’éléments graphiques et textuels organisés visuellement, mais qui ne sont pas directement interprétables ni exploitables sans un travail de structuration.

Les données que nous traitons dans cette thèse sont des images représentant des cartes numériques. Dans de nombreuses applications de traitement d’image, telles que la reconnaissance de texte ou la détection d’objets, les systèmes produisent en sortie des ensembles de boîtes englobantes. Celles-ci, généralement horizontales, encadrent des objets d’intérêt ou des zones informatives du contenu visuel.

Dans un premier temps, nous nous intéressons à la détection automatique de textes alignés, en particulier les textes de légende dans les cartes. Après avoir extrait les textes des images à l’aide d’outils OCR, nous appliquons un processus itératif de regroupement (“clustering") des textes extraits. Cinq critères principaux sont utilisés : l’alignement des textes, la distance entre zones textuelles, la couleur de fond, la couleur des caractères et la taille de la police. Pour chacun de ces critères, nous définissons des mesures de similarité appropriées. Nous proposons une méthode combinant de manière hiérarchique les regroupements obtenus à partir de chaque critère. L’étude expérimentale révèle deux résultats essentiels : premièrement, l’utilisation simultanée de plusieurs critères fournit des résultats supérieurs à ceux obtenus avec une simple distance (par exemple euclidienne) entre zones textuelles ; deuxièmement, elle confirme l’efficacité de la priorités que nous avons intuitivement définie entre les critères pour la détection des textes de légende.

Dans la continuité de ce travail, nous élargissons ensuite notre cadre d’étude : au lieu de nous limiter à la comparaison entre deux boîtes englobantes, nous considérons désormais des ensembles de boîtes, que nous appelons simplement “clusters". Contrairement au cas simple d’une paire de boîtes, l’analyse d’un cluster nécessite un raisonnement global, prenant en compte l’organisation collective des boîtes dans l’image. Certains critères s’étendent naturellement à cette situation, tandis que d’autres introduisent de nouvelles considérations nécessaires pour évaluer des configurations plus complexes.

En complément de cette approche de regroupement, nous développons un algorithme d’appariement entre différents groupes de boîtes. Cette méthode permet d’associer, par exemple, les symboles graphiques présents sur la carte aux textes qui les décrivent.

La dernière partie de ce travail aborde la détection d’objets dans des cartes numériques. Nous nous intéressons spécifiquement aux objets définis dans la légende et cherchons à les identifier dans d’autres zones de la carte. Pour cela, nous explorons différentes mesures de similarité permettant de comparer les objets de la légende avec ceux détectés dans la carte. Nous avons illustré notre méthode sur la détection d’objets représentant des stations de relevage et des regards dans un réseau d’assainissement.