Extraction, représentation ontologique et classification des connaissances à partir des données sur le web
- Doctorant:
- Sami Zghal
- Co-directeurs de thèse :
- Sadok BEN YAHIA
- Engelbert Mephu Nguifo
- Thèse soutenue le :
- 21 déc. 2010 • salle de conférence du Département des Sciences de l’Informatique à la Faculté de Sciences de Tunis (Tunisie)
Résumé
Les ontologies sont de plus en plus utilisées dans plusieurs domaines et en particulier dans la représentation des connaissances et le Web sémantique. Dans ces deux domaines, une multitude d’ontologies ont été développées pour la modélisation des connaissances. Cependant, ces ontologies peuvent comporter plusieurs formes d’hétérogénéité à savoir : l’hétérogénéité syntaxique, l’hétérogénéité terminologique, l’hétérogénéité conceptuelle et l’hétérogénéité sémiotique. Dans ce cadre, l’alignement s’impose comme une solution sine qua non aux problèmes d’hétérogénéité. Dans la littérature, il existe plusieurs travaux (par exemple l’alignement, la fusion, l’intégration, la production de ponts d’axiomes, la traduction, etc.) qui visent à réduire cette hétérogénéité selon ses aspects terminologiques et/ou conceptuels. Les méthodes actuelles d’alignement d’ontologies reposent sur l’utilisation d’un seul type de mesure de similarité et l’exploitation restreinte des structures internes des ontologies. Les méthodes d’alignement ne sont pas complètement satisfaisantes et le problème d’alignement reste ouvert pour la proposition de nouvelles contributions.
Dans le cadre de cette thèse, nous avons proposé plusieurs méthodes d’alignement à savoir : la méthode EDOLA (Extended Diameter OWL-Lite Alignment), la méthode SODA (Structural Ontology OWL-DL Alignment) et la méthode OACAS (Ontologies Alignment using Composition and Aggregation of Similarities). Ces méthodes reposent sur l’agrégation et la composition de similarités, ainsi que l’exploration étendue de la structure des ontologies à aligner. La méthode EDOLA permet d’aligner deux ontologies OWL-Lite, tandis que les deux autres méthodes, SODA et OACAS, considèrent des ontologies OWL-DL. Les trois méthodes procèdent dans une première phase à la transformation des deux ontologies à aligner sous la forme d’un graphe, nommé O-Graph, pour chaque ontologie. Ces graphes permettent la représentation fidèle des ontologies OWL sous une forme facile à l’exploitation lors du processus d’alignement. Ainsi, les graphes obtenus reflètent toutes les informations des ontologies à savoir les entités, les relations entre ces dernières et les instances (individus).
La méthode EDOLA est une approche se basant sur un modèle de calcul des similarités locale et globale. Ce modèle suit la structure du graphe O-Graph pour calculer les mesures de similarité entre les n¦uds des deux ontologies. Le module d’alignement associe pour chaque catégorie de n¦uds une fonction d’agrégation. Cette dernière prend en considération toutes les mesures de similarités entre les couples de n¦uds voisins au couple de n¦uds à apparier. Ainsi, cette fonction exploite toute l’information descriptive de ce couple.
La méthode SODA est une amélioration de la méthode EDOLA. En effet, la méthode SODA opère sur des ontologies OWL-DL, pour les aligner, au lieu d’ontologies décrites en OWL-Lite. La méthode SODA est une approche structurelle pour l’alignement d’ontologies OWL-DL. Elle opère en trois étapes successives et exploite la structure des ontologies à travers leurs graphes O-Graphs. La première étape permet de calculer la similarité linguistique à travers des mesures de similarité plus adaptées aux descripteurs des constituants des ontologies à apparier. La seconde étape détermine la similarité structurelle en exploitant la structure des deux graphes O-Graphs. La troisième étape déduit la similarité sémantique, en prenant en considération les deux types de similarités déjà calculées, afin de fournir l’alignement résultat.
La méthode d’alignement, OACAS, opère en trois étapes successives pour produire l’alignement. La première étape permet de calculer la similarité linguistique composée. Cette dernière prend en considération tous les descripteurs des entités ontologiques à aligner. La seconde étape détermine la similarité de voisinage par niveau. Le processus de calcul de la similarité de voisinage opère sur deux niveaux successifs. La troisième étape du processus d’alignement agrège les composants de la similarité linguistique composée et la similarité de voisinage par niveau pour déterminer la similarité agrégée. La similarité agrégée représente le résultat de la méthode d’alignement OACAS.
Les trois méthodes sont évaluées en utilisant les bases d’évaluation proposées par les différentes campagnes de l’OAEI (Ontology Alignment Evaluation Initiative). Les résultats obtenus par les différentes méthodes proposées sont présentés et discutés par rapport aux méthodes pionnières de la littérature. Nous discutons aussi l’apport de chacune des méthodes proposées.
Composition du jury
- M. Mohamed Mohsen GAMMOUDI, MCF-HDR, Université du 7 novembre à Carthage - Tunisie, Président
- Mme. Sylvie DESPRES, Professeur, Université de Paris 13 - France, Rapporteur
- M. Faiez GARGOURI, Professeur, Université de Sfax - Tunisie, Rapporteur
- M. Gilles GONCALVES, Professeur, Université d’Artois - France, Examinateur
- M. Sadok BEN YAHIA, MCF-HDR, Université de Tunis El Manar -Tunisie, Directeur
- M. Engelbert MEPHU NGUIFO, Professeur, Université Blaise Pascal - France, Directeur