1 / 38

LE PROJET TSIMMIS

LE PROJET TSIMMIS. Intégration de sources d’information hétérogènes Sudarshan Chawathe, Hector Garcia-Molina, Joachim Hammer, Kelly Ireland,Yannis Papakonstantinou, Jerey Ullman, Jennifer Widom Department of Computer Science, Stanford University Christine DONCE Aude MAURICE. Plan.

gallia
Download Presentation

LE PROJET TSIMMIS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. LE PROJET TSIMMIS Intégration de sources d’information hétérogènes Sudarshan Chawathe, Hector Garcia-Molina, Joachim Hammer,Kelly Ireland,Yannis Papakonstantinou, Jerey Ullman, Jennifer WidomDepartment of Computer Science, Stanford University Christine DONCE Aude MAURICE

  2. Plan • Présentation générale • Le modèle OEM • Les objets • Le langage de requêtes

  3. Plan • Les composants de Tsimmis • Les adaptateurs • Les médiateurs • La plate-forme utilisateur • Le gestionnaire des contraintes • L’extracteur / classificateur • Un exemple concret • Bilan

  4. TSIMMIS • The Stanford-IBM Manager of Multiple Information Sources • Mot Yiddish • Ragoût mélangeant fruits et légumes • Développé en 1994

  5. Présentation générale • But : faciliter l’intégration de sources hétérogènes • Fonctionnalités : • Extraction d’objets non structurés • Traduction en un modèle commun • Traitement de différentes sources • Exploration des données • Gestion de l’intégrité

  6. Présentation générale • Sources d’information • Bases de données • Entrepôts de données • Systèmes de recherche d’information • Systèmes de courrier électroniques • Bibliothèques numériques • …

  7. Le modèle OEM • But : modéliser l’information sous un modèle commun, l’Object Exchange Model (OEM) • Structure d’un objet OEM : • Exemple : < temp-in-Celsius, int, 80, ID >

  8. Le modèle OEM • Label : chaîne décrivant l’objet Si l’objet est un adaptateur ou un médiateur d’exportation, le label doit fournir une page d’aide  utile lors de la navigation et lors de l’intégration de l’information

  9. Le modèle OEM • Type : type de la valeur de l’objet • Soit type atomique (diffère selon la source d’information) • Soit type set ou list • Value : valeur de l’objet

  10. Le modèle OEM • Object-ID : identifiant de l’objet dans la source d’information (IS) • Il peut être null • Exemple : <employe, set, {o1, o2, o3}> o1 : adresse de <name, str, "name" > o2 : adresse de <office, str, "office" > o3 : adresse de <photo, str, "bits" >

  11. Le modèle OEM • Si l’IS est une BDO et qu’il a 4 objets avec les identifiants id0, id1, id2 et id3: • Sur le client, il y aura 4 objets avec comme Object-ID id0, id1, id2 et id3. • Si l’IS est une BD Relationnelle et que l’objet employe est un tuple : • Sur le client, il y aura 4 objets, les 3 objets name, office et photo n’ont pas d’identifiants donc leur Object-ID est null.

  12. Le modèle OEM • Pour obtenir des objets OEM, le client utilise de langage OEM-QL • OEM-QL est de type SQL orienté objet simplifié • Le résultat d’une requête OEM-QL est mis dans un objet OEM

  13. Les composants

  14. Les composants : l’adaptateur • But : convertir les données dans le modèle commun (OEM) • Fonctionnalités • Transformer les requêtes en fonction des sources • Traduire les résultats dans le modèle commun • Peut transférer les résultats vers le médiateur • Générateur d’adaptateur

  15. Les composants : le médiateur • But : affiner l’information • Fonctionnalités • Réceptionner une demande l’utilisateur • Rassembler les connaissances nécessaires pour des informations spécifiques • Traiter les réponses avant de les transférer • Convertir les données au même format • Éliminer les informations redondantes dans les résultats des requêtes  difficile à implémenter

  16. Les composants : le médiateur • Objectif du projet Tsimmis : générer automatiquement des médiateurs à partir de descriptions proches du langage humain

  17. Les composants : la plate-forme utilisateur • But : fournir une plate-forme indépendante d’affichage et d’exploration des résultats des requêtes OEM-QL • Accéder à l’information • en écrivant des requêtes sur les objets OEM • en utilisant des outils de navigation génériques • Mosaic • World-Wide-Web • Avantage : mécanisme d’exploration commun et interactif

  18. Les composants : la plate-forme utilisateur • Outil utilisé • MOBIE (Mosaic Based Information Explorer) • Fonctionnement de MOBIE • Connexion des utilisateurs aux médiateurs et adaptateurs • Spécification des requêtes en OEM-QL • Remplir les champs correspondant aux clauses Select … From … Where • Evolution : choisir une requête parmi une liste de questions fréquemment posées

  19. Page d’accueil de MOBIE

  20. Les composants : la plate-forme utilisateur • Affichage des résultats • Document hypertexte • Arborescence • Racine de l’objet réponse et ses sous-objets immédiats visibles • Liens hypertexte vers le reste du document au moyen du bouton FETCH

  21. Exemple de page permettant d’afficher des résultats

  22. Page des résultats montrant le titre du document

  23. Les composants : la plate-forme utilisateur • Remarques • Possibilité de naviguer dans le résultat avec le bouton Go Up To Parent • Possibilité d’entrer une nouvelle requête à tout moment • Une aide pour expliquer la signification des objets à disposition des utilisateurs • Ex : l’objet auteur est composé d’un nom de famille suivi d’un prénom ou d’une initiale

  24. Les composants : les gestionnaires des contraintes • Un gestionnaire de contraintes global (CM) • Composant distribué permettant vérifier l’intégrité des données • Traite les contraintes • Exécute des stratégies (algorithmes utilisés pour maintenir les contraintes)

  25. Les composants : les gestionnaires des contraintes • Des gestionnaires de contraintes locaux (LCM) • Responsables de la description des interfaces • Interface • Déclarée pour chaque donnée impliquée dans des contraintes multi-sources • Spécifie comment la donnée peut être lue, écrite et contrôlée par le gestionnaire de contraintes global

  26. Les composants : les gestionnaires des contraintes • Caractéristiques • Intervention de l’homme nécessaire pour surveiller ou forcer les contraintes • Possibilité de redéfinir des contraintes si modifications des données • Relâche des contraintes possible • Ex : la contrainte C est vraie de 8h à 17h mais pas le reste de la journée

  27. Les outils de gestion des contraintes • Gestion de contraintes sur des systèmes hétérogènes. • Les applications informent le CM des contraintes qui ont besoin d’être contrôlées et renforcées.

  28. Les outils de gestion des contraintes • Exemple de contraintes sur des systèmes hétérogènes • Contrainte entre les données d’une BD relationnelle Sybase et un système de fichiers • Contrainte d’inégalité entre une base de type whois et une BDOO.

  29. Les outils de gestion des contraintes • Stratégie de gestion des contraintes à exécuter décidée par le CM • Stratégie => description de l’algorithme de contrôle et de renforcement des contraintes du CM • Degré de contrôle ou de renforcement spécifié par la garantie.

  30. Les outils de gestion des contraintes • Les sources d’information brutes (RIS) ont des interfaces spécifiques (RISI) • Adaptateur CM • Module implémentant les RISI pour chaque donnée • Spécifié par un fichier de configuration appelé CM-RID (Raw Interface Description).

  31. Les outils de gestion des contraintes • Le CM-RID décrit • quelles interfaces (choisies parmi un menu d’interfaces type) sont supportées par l’adaptateur CM • comment ces interfaces sont implémentées en utilisant la liaison RISI. • Les shells CM • Coopèrent pour exécuter les stratégies de gestion des contraintes • Configurés par un fichier de spécification de stratégies. • Stratégies CM spécifiées semi-automatiquement ou manuellement.

  32. Les outils de gestion des contraintes

  33. Les composants : l’extracteur / classificateur • Remarque : des sources d’information nombreuses et déstructurées • But : classifier automatiquement les objets des sources  fichier texte ou image gif ? • Tâche basée sur l’identification simple de modèles dans les objets • Informations collectées exportées vers le reste du système de Tsimmis

  34. Exemple concret • Un des adaptateurs opérationnels qui accède au système Folio de Stanford University • Folio est une IS compliquée, car l’adaptateur doit émuler un terminal interactif.

  35. Exemple concret • Déroulement : • Connexion avec l’adaptateur • Réception d’une requête OEM-QL • Évaluation et conversion dans le langage booléen de récupération Folio. • Extraction et exportation de l’information adéquate sous la forme d’une réponse objet OEM.

  36. Bilan : Particularités de Tsimmis • Par rapport aux autres modes d’intégration des bases de données • Accès intégré à des informations diverses et variées • Informations structurées ou non structurées et aucun schéma global pour les décrire • Changements fréquents possibles dans les composants des objets • Possibilité de modifier la stratégie d’intégration en fonction des ces changements • Intervention humaine nécessaire pour déterminer la stratégie

  37. Bilan : Particularités de Tsimmis • Utilisation du système OEM • Sources accessibles par le navigateur • Évaluation de requêtes et exploration d’objets • Utilisation des traducteurs et médiateurs • Faciliter l’accès à de nouvelles sources et lors de l’intégration

  38. Bilan : Particularités de Tsimmis • Bonne flexibilité fournie par l’outil OEM lors de la manipulation de sources hétérogènes • But final • Intégration non entièrement automatisée • Fournir à l’homme un cadre et des outils pour l’assister dans le traitement de l’information et d’intégration

More Related