Séminaire de Olfa Mechi
Transcription de texte dans les images de documents d’archives
10 avr. 2025 - 14:00La présentation s'articule autour de la transcription automatique du texte dans les documents d’archives en utilisant les architectures profondes. Elle s'inscrit dans le cadre d’un projet de recherche financé dans le cadre d’un programme d’encouragement des jeunes chercheurs, visant, entre autres, la numérisation des fonds documentaires anciens et la valorisation du patrimoine documentaire. La transcription des documents d’archives, et particulièrement des manuscrits arabes, demeure depuis plusieurs années une tâche fastidieuse et coûteuse, souvent effectuée manuellement par des agents administratifs ou des archivistes. C’est à cette problématique complexe que mes travaux de recherche s'attaquent. Ceux-ci proposent un dispositif de numérisation cognitive intelligente des documents d’archives, générant en temps réel leur transcription. Ce dispositif a pour objectif d’automatiser le traitement des documents d’archives afin de les rendre accessibles, identifiables et consultables sur le Web. Le dispositif proposé se présente sous la forme d’un système embarqué comprenant une chaîne complète, allant de l’image scannée du document jusqu’au texte transcrit, en passant par l’étape d’extraction des lignes de texte et la reconnaissance optique de caractères. Il présente l’avantage de pouvoir être utilisé sur une large gamme de marques et de modèles de scanners.