Construction automatique d'ontologies à partir de spécifications de bases de données
Click here to load reader
-
Upload
conference-ic-2009 -
Category
Technology
-
view
2.125 -
download
1
description
Transcript of Construction automatique d'ontologies à partir de spécifications de bases de données
IC 2009 11
Construction automatique d’ontologie à partir de
spécifications de base de données
M. Kamel, N. Aussenac-Gilles(IRIT – IC3, Toulouse, France)
[email protected], [email protected]
Projet ANR Masse de données GEONTOPartenaires : LRI-IASI, LIUPPA – Desi et IGN-COGIT
2IC 2009
Construction d'ontologie à partir de spécifications de BD
Problématique : construction d’ontologies à partir de textes
� Analyse du contenu linguistique� Approches linguistiques
� Exploitation des relations syntaxiques et de connaissances sur la langue
� Patrons d’extraction (de termes / de relations)
� Approches statistiques� Exploitation des régularités de séquences de
termes (co-occurrences, segments répétés …)
� Clustering
� Exploiter la structure des textes et la mise en forme matérielle
Extractiontermes - relations
Textes
Modélisationontologie
3IC 2009
Construction d'ontologie à partir de spécifications de BD
Contexte : GEONTO
� Textes� Spécifications de bases de données� Documents XML ayant le même XML schéma� Sémantique des tags : précise, définit des concepts
et des relations� Méthode
� Applicable à plusieurs bases de données� Automatique
� Ontologies obtenues� Une ontologie par BD� Alignement des ontologies et intervention humaine� vers une ontologie unique de référence
� Validation� Comparaison entre ontologie extraite et une
ontologie existante tirée des mêmes spécifications
ExtractionConcepts - relations
OntoTOPO
BD-TOPO
Spécifications
Constructionontologie
4IC 2009
Construction d'ontologie à partir de spécifications de BD
Textes : spécifications de BDTopo
Concepts présents dans les champs:
- Domaine
- Classe
- Regroupement
- Attribut
- Valeur d’attribut
5IC 2009
Construction d'ontologie à partir de spécifications de BD
Rel. hiérarchique est-un :
- Domaine / Classe
- Classe / Regroup.
- Attribut / Valeur d’attrib.
- Valeur d’attrib. / Regroup.
Textes : spécifications de BDTopo
6IC 2009
Construction d'ontologie à partir de spécifications de BD
Autres relations sémantiques
Propriétés
Classe / Attribut qualitatif
Classe / Attribut quantitatif
Textes : spécifications de BDTopo
7IC 2009
Construction d'ontologie à partir de spécifications de BD
Textes : spécifications de BDTopo
Information contenue dans les champs définition, modélisation géométrique, etc.
8IC 2009
Construction d'ontologie à partir de spécifications de BD
Méthode
� Prendre en compte la structure hiérarchique du texte / XML schema� Concepts� Relations entre concepts� Noyau d’ontologie
� Écriture de règles d’extraction de concepts et de relations
� Exploiter le texte rédigé� Nouveaux concepts � Nouvelles relations � Enrichir le noyau d’ontologie
� Définition de patrons lexico-syntaxiques
� Combiner les deux approches au sein d’un même logiciel� Plate-forme GATE
9IC 2009
Construction d'ontologie à partir de spécifications de BD
Méthode : 1 – exploiter les spécifications XML
10IC 2009
Construction d'ontologie à partir de spécifications de BD
� Identification de relations� Identité
- Chef-lieu de canton : chef-lieu de canton
� Synonymie- Cascade : Chute d’eau
- Terrain de sport : équipement sportif de plein air
� Relations lexicales :partie_de, ensemble_de, relations spatiales …
Méthode : 2- exploiter le texte en LN
(({Token.lemme== "portion"}|{Token.lemme== "partie"}|…)({Token.lemme== "de"}) ({NounChunk}) :annot
) - - > annot.ANNOT = {kind="Partie", rule="Rule1"}
<classe><nom_classe> Tronçon de route </nom_classe><définition> Portion dePortion dePortion dePortion de voie de communication destindestindestindestinée aux automobilistese aux automobilistese aux automobilistese aux automobilistes >/definition></classe>
11IC 2009
Construction d'ontologie à partir de spécifications de BD
Mise en œuvre à l’aide de GATESpec.
S1
GATERègle 1
Spec. S1
Onto. O1
GATEPatrons
Spec. S2 GATE
Règles 2
Onto. O2
Règle1 : règle de création de concepts et de relations sémantiques à partir du XML schema
Patrons : patrons lexico-syntaxiques
12IC 2009
Construction d'ontologie à partir de spécifications de BD
�Concepts�Relation hiérarchique est-un
�Relation sémantique a-pour-Franchissement
�Propriété a-pour-Département-gestionnaire
Résultat : Premier noyau d’ontologie
13IC 2009
Construction d'ontologie à partir de spécifications de BD
Résultat : ontologie enrichie
�Relation sémantique partie-de
�Propriété destinée aux automobilistes
14IC 2009
Construction d'ontologie à partir de spécifications de BD
Évaluation : ontologie disponibleComparaison avec une ontologie COGIT (F.Laurens)
�Exploitation de la structure visuelle des documents de spécification
�Concepts introduits par l’expert
� Réarrangement des concepts
15IC 2009
Construction d'ontologie à partir de spécifications de BD
Évaluation : Comparaison des ontologies
COGIT IRIT
16IC 2009
Construction d'ontologie à partir de spécifications de BD
Non superviséSuperviséMode de construction
ouinonRelations conceptuelles autres
ouinonRelation de méronymie
ouinonPropriétés
ouiouiRelation hiérarchique "est-un "
66Profondeur
1251615Nombre de concepts
Onto_IRITOnto_COGIT
Évaluation : Comparaison des ontologies
17IC 2009
Construction d'ontologie à partir de spécifications de BD
1) Hiérarchie entre concepts
Classement = Classement = Classement = Classement = « Autre classement Autre classement Autre classement Autre classement »DDDDéfinition finition finition finition : Route qui ne fait partie ni du réseau autoroutier, ni du réseau national, ni du réseau départemental (voir ci-dessus).Regroupement Regroupement Regroupement Regroupement : Voies goudronnées (voies communales, chemins ruraux ou voies privées) | Rues | Rues piétonnes
Évaluation : incohérences liées aux spécifications
18IC 2009
Construction d'ontologie à partir de spécifications de BD
2) Nature des relations conceptuelles
Voies de Communication
est-un
(domaine)
(classe)
Évaluation : incohérences liées aux spécifications
19IC 2009
Construction d'ontologie à partir de spécifications de BD
Conclusion
� Extraction d’ontologie à partir d’élémentscomplémentaires des textes� Structure XML (contexte très favorable)� Contenu rédigé� (mise en forme : énumérations, listes …)
� Uniformité de traitement (GATE)� Règles Jape� Patrons
� Qualité de l’ontologie� Traces sur l’origine des concepts et relations� Riche en relations autres que hiérarchiques� Exhaustive, reflet fidèle des spécifications
20IC 2009
Construction d'ontologie à partir de spécifications de BD
� Enrichir la chaîne de traitement� Utiliser les résultats d’un extracteur de termes� Aider au choix terme / concept� Définir de nouveaux patrons (termes plus spécifiques,
identification de relation)
� Développer une interface de validation / correction humaine� Quand faire intervenir l’expert ?
� Au moment de détecter les incohérences et corriger chaque ontologie individuelle
� au fur et à mesure de l’alignement � à la fin de l’alignement
Perspectives