Chapitre 7 - Ingénierie des ontologies

Chapitre 7 - Ingénierie des ontologies Grigoris Antoniou Frank van Harmelen A Semantic Web Primer

Sommaire • Introduction • Construire manuellement des ontologies • Réutiliser des ontologies existantes • Application de méthodes semi-automatiques • Architecture SW On-To-Knowledge A Semantic Web Primer

Questions de méthodologie • comment appliquer le mieux les outils et les technologies? • quel langage et quels outils utiliser dans quel contexte et dans quel ordre? • qu'en est-il du contrôle de qualité et de la gestion des ressources? • La plupart de ces questions relatives au web sémantique ont été étudiées dans d'autres contextes • par ex., ingénierie des logiciels, conception orientée objet et ingénierie des connaissances A Semantic Web Primer

Etapes principales du développement des ontologies • Fixer les objectifs • Envisager la réutilisation • Enoncer les termes • Définir la taxonomie • Définir les propriétés • Définir les facettes • Définir les instances • Vérifier la présence d'anomalies Il ne s'agit pas d'un processus linéaire A Semantic Web Primer

Fixer les objectifs • Il n'y a pas d'ontologie correcte propre à un domaine • une ontologie est une abstraction et il y a toujours des alternatives viables • Ce que comprend cette abstraction doit être déterminé par: • l'utilisation à laquelle est destinée l'ontologie • les extensions futures déjà prévues A Semantic Web Primer

Fixer les objectifs (2) • Questions essentielles à ce stade: • quel sera le domaine couvert par l'ontologie? • quel sera l'usage de l'ontologie? • à quels genres de questions l'ontologie doit-elle donner réponse? • qui utilisera et assurera la maintenance de l'ontologie? A Semantic Web Primer

Envisager la réutilisation • L'expansion du web sémantique va entraîner une disponibilité accrue des ontologies • La définition d’une ontologie part rarement de rien • il existe pratiquement toujours une ontologie élaborée par un tiers offrant au moins un point de départ pour son ontologie à soi A Semantic Web Primer

Enoncer les termes • Ecrire sous forme de liste non structurée tous les mots importants susceptibles de figurer dans l'ontologie • les substantifs forment la base des noms de classe • les verbes ou locutions verbales sont la base des noms des propriétés • La connaissance habituelle des outils techniques (par ex., technique de l’échelonnage, analyse en grille) sert à former • l'ensemble de termes • une structure initiale de ces termes A Semantic Web Primer

Définir la taxonomie • Les termes pertinents doivent être organisés en hiérarchie taxonomique • les avis divergent quant à l'efficacité/fiabilité d'opérer en sens descendant ou ascendant • Vérifier que la hiérarchie forme réellement une taxonomie: • Si A est une sous-classe de B, toute instance de A doit aussi être une instance de B (compatible avec la sémantique rdfs:subClassOf) A Semantic Web Primer

Définir les propriétés • Souvent imbriquées avec l'étape précédente • La sémantique de subClassOf exige que si A est une sous-classe de B, chaque déclaration de propriété qui s'applique aux instances de B doit aussi s'appliquer aux instances de A • il est cohérent d'attribuer les propriétés à la plus haute classe de la hiérarchie à laquelle elles s'appliquent A Semantic Web Primer

Définir les propriétés (2) • En rattachant des propriétés à des classes, il est conseillé d'immédiatement faire les déclarations de domaine et d'étendue de ces propriétés • On voit ici une contradiction de méthodologie entre généralité et spécificité: • flexibilité (transfert aux sous-classes) • détection des incohérences et des malentendus A Semantic Web Primer

Définir les facettes: de RDFS à OWL • Restrictions de cardinalité • Valeurs requises • owl:hasValue • owl:allValuesFrom • owl:someValuesFrom • Caractéristiques relationnelles • symétrie, transitivité, propriétés inverses, valeurs fonctionnelles A Semantic Web Primer

Définir les instances • Compléter les ontologies à l'aide de ces instances est une opération séparée • Nombre d'instances >> nombre de classes • Remplir une ontologie avec des instances ne se fait donc pas manuellement • récupérées de sources de données légataires (DB) • extraites automatiquement d'un corpus de textes A Semantic Web Primer

Vérifier la présence d'anomalies • Un des atouts de OWL par rapport à RDFS est la possibilité de détecter les incohérences • dans une ontologie ou une ontologie+instances • Exemples d'incohérences habituelles • définitions de domaine et d'étendue incompatibles pour des propriétés transitives, symétriques ou inverses • propriétés de cardinalité • critères de valeurs des propriétés susceptibles d'être en conflit avec les restrictions de domaine et d'étendue A Semantic Web Primer

Domaine existant – ontologies spécifiques • Domaine médical: ontologie ‘Cancer’ provenant du National Cancer Institute aux Etats-Unis • Domaine culturel: • Art and Architecture Thesaurus (AAT) possédant 125.000 termes du domaine culturel • Union List of Artist Names (ULAN) offrant 220.000 entrées sur des artistes • Vocabulaire Iconclass de 28.000 termes de description des images culturelles • Domaine géographique: Getty Thesaurus of Geographic Names (TGN), contenant plus d'un million d'entrées A Semantic Web Primer

Vocabulaires intégrés • Fusion de vocabulaires développés de manière indépendante pour en faire une vaste ressource unique • Par ex., Unified Medical Language System intégrant 100 glossaires biomédicaux • le Metathesaurus UMLS contient 750.000 notions avec plus de 10 millions de liens entre elles • La sémantique d'une ressource qui intègre de nombreux vocabulaires développés indépendamment est assez faible • mais peut être très utile comme base de départ dans de nombreuses applications A Semantic Web Primer

Ontologies de niveau supérieur • Certaines tentatives ont cherché à définir des ontologies à très large champ d'application • non spécifiques à un domaine • Cyc, avec 60.000 acceptions de 6.000 notions • Standard Upperlevel Ontology (SUO) A Semantic Web Primer

Hiérarchies des sujets • Certaines "ontologies" ne méritent pas leur nom: • il s'agit de simples ensembles de termes, vaguement organisés en hiérarchie • Ce genre d'hiérarchie n'a que peu à voir avec une taxonomie mais mélange plusieurs relations de spécialisation (par ex., est-un, partie-de, contenu-dans) • Mais ces ressources peuvent aussi être des points de départ utiles • Exemple: la hiérarchie d'Open Directory qui contient plus de 400.000 catégories hiérarchisées est disponible au format RDF A Semantic Web Primer

Ressources linguistiques • Certaines ressources ont été construites à l'origine non comme des abstractions d'un domaine mais comme ressources linguistiques • Elles se sont révélées utiles comme point de départ pour développer des ontologies • Par ex., WordNet, avec plus de 90.000 acceptions de mots A Semantic Web Primer

Bibliothèques d'ontologies • On cherche actuellement à élaborer des bibliothèques en ligne d'ontologies • il est rare que des ontologies existantes puissent être réutilisées sans modifications • les concepts et propriétés existants doivent être redéfinis avec rdfs:subClassOf et rdfs:subPropertyOf • d'autres noms doivent être introduits qui conviennent mieux au domaine visé avec owl:equivalentClass et owl:equivalentProperty • on peut exploiter les possibilités de RDF et OWL d'affiner personnellement les classes définies dans d'autres ontologies A Semantic Web Primer

Le goulet de l'acquisition des connaissances • L'acquisition manuelle d'ontologies demeure une tâche longue, chère, très exigeante en compétences et parfois fastidieuse • L'Apprentissage Machine peut servir à alléger • l'acquisition ou l'extraction de connaissances • la révision ou la maintenance de connaissances A Semantic Web Primer

Tâches prises en charge par l'apprentissage machine • Extraction d'ontologies au départ de données trouvées sur le web • Extraction de données et métadonnées relationnelles au départ de données trouvées sur le web • La fusion et la cartographie des ontologies par analyse des extensions de concepts • Maintenance des ontologies par analyse des données des instances • Amélioration des applications SW grâce aux observations des utilisateurs A Semantic Web Primer

Techniques utiles d'apprentissage machine pour l'ingénierie d'ontologies • Clustering (groupage) • Mises à jour incrémentales des ontologies • Support de l'ingénieur connaissances • Amélioration des grandes ontologies en langage naturel • Apprentissage d'ontologies pures (domaines) A Semantic Web Primer

Techniques d'apprentissage machine pour les ontologies en langage naturel • Les ontologies en langage naturel (NLO) • de grandes dimensions, elles ne nécessitent pas de fréquentes mises à jour • En l'état actuel, l'apprentissage NLO paraît assez optimiste: • il existe des NLO stables multi-usages • il existe des techniques de construction automatique ou semi-automatique et d'enrichissement de NLO spécifiques A Semantic Web Primer

Techniques d'apprentissage machine pour ontologies de domaines • Elles fournissent des descriptions détaillées • Habituellement construites manuellement • L'acquisition des ontologies de domaines est toujours guidée par l'ingénieur connaissances humaines • les techniques d'apprentissage automatique jouent un rôle mineur dans l'acquisition des connaissances • il faut trouver des dépendances statistiquement valables dans les textes du domaine et les suggérer à l'ingénieur connaissances A Semantic Web Primer

Techniques d'apprentissage machine pour instances d'une ontologie • Les instances d'une ontologie peuvent être générées automatiquement et fréquemment mises à jour alors que l'ontologie reste inchangée • S'adapte bien dans le cadre de l'apprentissage machine • Applications ML réussies • dépendent étroitement de l'ontologie du domaine ou • remplissent le balisage sans rapport avec aucune théorie de domaine • les techniques générales ne sont pas encore disponibles A Semantic Web Primer

Diverses utilisations de l'apprentissage d'ontologies • Tâches d'acquisition d'ontologies en ingénierie des connaissances • création d'ontologies de toutes pièces par l'ingénieur connaissances • extraction du schéma d'ontologies au départ de documents web • extraction des instances d'ontologies au départ de documents web • Tâches de maintenance des ontologies • intégration et consultation des ontologies • mise à jour de certaines parties d'une ontologie • enrichissement ou perfectionnement d'une ontologie A Semantic Web Primer

Tâches d'acquisition d'ontologies • Création d'ontologies de toutes pièces par l'ingénieur connaissances • ML assiste l'ingénieur en suggérant les relations essentielles dans la spécialité et en vérifiant les bases des connaissances construites • Extraction des schémas d'ontologies à partir de documents web • ML utilise les données et métaconnaissances (comme une méta-ontologie) comme entrée et génère l'ontologie prête à l'usage en sortie avec l'aide éventuelle de l'ingénieur connaissances A Semantic Web Primer

Tâches d'acquisition des ontologies (2) • Extraction des instances d'ontologies au départ de documents web • cette tâche extrait les instances de l'ontologie présentée dans les documents web et en remplit les schémas • cette tâche est similaire à l'extraction d'information et l'annotation de page, elle peut s'appliquer aux techniques développées dans ces secteurs A Semantic Web Primer

Tâches de maintenance des ontologies • Intégration et consultation des ontologies • vise la reconstruction et la navigation dans les grandes bases de connaissances éventuellement acquises par apprentissage machine • Mise à jour de certaines parties d'une ontologie prévues pour être mises à jour • Enrichissement ou perfectionnement d'une ontologie • ceci ne change pas les structures et concepts principaux mais rend une ontologie plus précise A Semantic Web Primer

Algorithmes d'apprentissage machine potentiellement applicables • Proposition d'algorithmes d'apprentissage des règles • Apprentissage bayesien • génère des règles probabilistes valeurs-attributs • Apprentissage des règles logiques du premier ordre • Algorithmes de groupage • groupent les instances sur la base de la similarité ou des dissemblances entre paires d'instances définies par les valeurs de leurs attributs A Semantic Web Primer

Architecture On-To-Knowledge • Contruire le web sémantique suppose l'utilisation: • des nouveaux langages décrits dans ce cours • un style assez différent d'ingénierie • une approche assez différente de l'intégration des applications • On décrit comment plusieurs outils du web sémantique peuvent être intégrés en une architecture légère et unique utilisant les standard du web sémantique pour arriver à l'interopérabilité entre les outils A Semantic Web Primer

Acquisition des connaissances • Il faut tout d'abord qu'existent les outils utilisant les techniques d'analyse de surface pour obtenir le contenu des documents • Documents non structurés en langage naturel: techniques statistiques et technologie des langages naturels peu profonds • documents structurés et semi-structurés: induction de wrappers, reconnaissance de modèles A Semantic Web Primer

Stockage des connaissances • Les résultats donnés par les outils d'analyse représentent un ensemble de concepts organisés en hiérarchie peu profonde avec, au mieux, très peu de relations taxonomiques croisées • RDF/RDFS sont suffisamment expressifs pour représenter l'information extraite • stocker les connaissances produites par les outils d'extraction • récupérer ces connaissances, de préférence à l'aide d'un langage de requête structuré (par ex., RQL) A Semantic Web Primer

Maintenance et utilisation des connaissances • Un répertoire pratique du web sémantique doit avoir les fonctionnalités nécessaires à la gestion et à la maintenance de l'ontologie: • gestion des changements • droits d'accès et de propriété • gestion des transactions • Il doit y avoir un support à la fois pour: • les ontologies légères automatiquement générées à partir de données non structurées et semi-structurées • l'ingénierie humaine de beaucoup plus nombreuses ontologies fortement chargées en connaissances A Semantic Web Primer

Maintenance et utilisation des connaissances (2) • Les environnements sophistiqués d'édition doivent être en mesure de: • récupérer les ontologies dans les répertoires • permettre à l'ingénieur connaissances de les manipuler • et de les remettre dans le répertoire • Les ontologies et les données du répertoire doivent pouvoir servir à des applications d'utilisateurs finaux • on a déjà vu plusieurs de ces applications A Semantic Web Primer

Interopérabilité technique • l'interopérabilité syntaxique est atteinte parce que tous les composants communiquent en RDF • l'interopérabilité sémantique est atteinte parce que toute la sémantique est exprimée en RDFS • L'interopérabilité physique est atteinte parce que toutes les communications entre composants sont établies à l'aide de simples connexions HTTP A Semantic Web Primer

Architecture du système On-To-Knowledge A Semantic Web Primer

Chapitre 7 - Ingénierie des ontologies