Séminaire de Naoual GUANNONI
Extraction des solutions multiples et équivalentes pour le problème de classification des données biomédicales
24 avr. 2025 - 14:00L’objectif de cette présentation est de traiter le problème à solutions multiples dans le cadre de l’extraction de connaissances à partir de données biologiques complexes, en combinant les apports du machine learning, du data mining et du Big Data. Plus spécifiquement, nous proposons une approche innovante visant à générer plusieurs modèles de classification équivalents à partir de données issues d’études cas-témoins, très fréquentes en bioinformatique et en épidémiologie. Contrairement aux approches classiques qui produisent un unique modèle prédictif, notre méthode repose sur la génération d’un ensemble de modèles robustes, compacts et interprétables, permettant de mieux explorer l’espace des solutions.
L’algorithme développé s’appuie sur des classifieurs à base de règles, en intégrant une stratégie d’élimination itérative des combinaisons d’attributs, tout en exploitant une base de connaissances interrogeable. Cette approche permet non seulement de réduire considérablement le temps de traitement des données, mais également d’identifier un plus grand nombre d’attributs pertinents associés à la classe cible, en particulier dans des contextes biologiques complexes et bruités.
En produisant en une seule exécution plusieurs modèles de classification interprétables par l’être humain, cette méthode apporte une valeur ajoutée à l’analyse biomédicale en offrant aux experts des modèles variés et cohérents, tout en répondant aux enjeux actuels en matière d’exploitabilité et de transparence des modèles d’apprentissage.