380 likes | 497 Views
LE PROJET TSIMMIS. Intégration de sources d’information hétérogènes Sudarshan Chawathe, Hector Garcia-Molina, Joachim Hammer, Kelly Ireland,Yannis Papakonstantinou, Jerey Ullman, Jennifer Widom Department of Computer Science, Stanford University Christine DONCE Aude MAURICE. Plan.
E N D
LE PROJET TSIMMIS Intégration de sources d’information hétérogènes Sudarshan Chawathe, Hector Garcia-Molina, Joachim Hammer,Kelly Ireland,Yannis Papakonstantinou, Jerey Ullman, Jennifer WidomDepartment of Computer Science, Stanford University Christine DONCE Aude MAURICE
Plan • Présentation générale • Le modèle OEM • Les objets • Le langage de requêtes
Plan • Les composants de Tsimmis • Les adaptateurs • Les médiateurs • La plate-forme utilisateur • Le gestionnaire des contraintes • L’extracteur / classificateur • Un exemple concret • Bilan
TSIMMIS • The Stanford-IBM Manager of Multiple Information Sources • Mot Yiddish • Ragoût mélangeant fruits et légumes • Développé en 1994
Présentation générale • But : faciliter l’intégration de sources hétérogènes • Fonctionnalités : • Extraction d’objets non structurés • Traduction en un modèle commun • Traitement de différentes sources • Exploration des données • Gestion de l’intégrité
Présentation générale • Sources d’information • Bases de données • Entrepôts de données • Systèmes de recherche d’information • Systèmes de courrier électroniques • Bibliothèques numériques • …
Le modèle OEM • But : modéliser l’information sous un modèle commun, l’Object Exchange Model (OEM) • Structure d’un objet OEM : • Exemple : < temp-in-Celsius, int, 80, ID >
Le modèle OEM • Label : chaîne décrivant l’objet Si l’objet est un adaptateur ou un médiateur d’exportation, le label doit fournir une page d’aide utile lors de la navigation et lors de l’intégration de l’information
Le modèle OEM • Type : type de la valeur de l’objet • Soit type atomique (diffère selon la source d’information) • Soit type set ou list • Value : valeur de l’objet
Le modèle OEM • Object-ID : identifiant de l’objet dans la source d’information (IS) • Il peut être null • Exemple : <employe, set, {o1, o2, o3}> o1 : adresse de <name, str, "name" > o2 : adresse de <office, str, "office" > o3 : adresse de <photo, str, "bits" >
Le modèle OEM • Si l’IS est une BDO et qu’il a 4 objets avec les identifiants id0, id1, id2 et id3: • Sur le client, il y aura 4 objets avec comme Object-ID id0, id1, id2 et id3. • Si l’IS est une BD Relationnelle et que l’objet employe est un tuple : • Sur le client, il y aura 4 objets, les 3 objets name, office et photo n’ont pas d’identifiants donc leur Object-ID est null.
Le modèle OEM • Pour obtenir des objets OEM, le client utilise de langage OEM-QL • OEM-QL est de type SQL orienté objet simplifié • Le résultat d’une requête OEM-QL est mis dans un objet OEM
Les composants : l’adaptateur • But : convertir les données dans le modèle commun (OEM) • Fonctionnalités • Transformer les requêtes en fonction des sources • Traduire les résultats dans le modèle commun • Peut transférer les résultats vers le médiateur • Générateur d’adaptateur
Les composants : le médiateur • But : affiner l’information • Fonctionnalités • Réceptionner une demande l’utilisateur • Rassembler les connaissances nécessaires pour des informations spécifiques • Traiter les réponses avant de les transférer • Convertir les données au même format • Éliminer les informations redondantes dans les résultats des requêtes difficile à implémenter
Les composants : le médiateur • Objectif du projet Tsimmis : générer automatiquement des médiateurs à partir de descriptions proches du langage humain
Les composants : la plate-forme utilisateur • But : fournir une plate-forme indépendante d’affichage et d’exploration des résultats des requêtes OEM-QL • Accéder à l’information • en écrivant des requêtes sur les objets OEM • en utilisant des outils de navigation génériques • Mosaic • World-Wide-Web • Avantage : mécanisme d’exploration commun et interactif
Les composants : la plate-forme utilisateur • Outil utilisé • MOBIE (Mosaic Based Information Explorer) • Fonctionnement de MOBIE • Connexion des utilisateurs aux médiateurs et adaptateurs • Spécification des requêtes en OEM-QL • Remplir les champs correspondant aux clauses Select … From … Where • Evolution : choisir une requête parmi une liste de questions fréquemment posées
Les composants : la plate-forme utilisateur • Affichage des résultats • Document hypertexte • Arborescence • Racine de l’objet réponse et ses sous-objets immédiats visibles • Liens hypertexte vers le reste du document au moyen du bouton FETCH
Les composants : la plate-forme utilisateur • Remarques • Possibilité de naviguer dans le résultat avec le bouton Go Up To Parent • Possibilité d’entrer une nouvelle requête à tout moment • Une aide pour expliquer la signification des objets à disposition des utilisateurs • Ex : l’objet auteur est composé d’un nom de famille suivi d’un prénom ou d’une initiale
Les composants : les gestionnaires des contraintes • Un gestionnaire de contraintes global (CM) • Composant distribué permettant vérifier l’intégrité des données • Traite les contraintes • Exécute des stratégies (algorithmes utilisés pour maintenir les contraintes)
Les composants : les gestionnaires des contraintes • Des gestionnaires de contraintes locaux (LCM) • Responsables de la description des interfaces • Interface • Déclarée pour chaque donnée impliquée dans des contraintes multi-sources • Spécifie comment la donnée peut être lue, écrite et contrôlée par le gestionnaire de contraintes global
Les composants : les gestionnaires des contraintes • Caractéristiques • Intervention de l’homme nécessaire pour surveiller ou forcer les contraintes • Possibilité de redéfinir des contraintes si modifications des données • Relâche des contraintes possible • Ex : la contrainte C est vraie de 8h à 17h mais pas le reste de la journée
Les outils de gestion des contraintes • Gestion de contraintes sur des systèmes hétérogènes. • Les applications informent le CM des contraintes qui ont besoin d’être contrôlées et renforcées.
Les outils de gestion des contraintes • Exemple de contraintes sur des systèmes hétérogènes • Contrainte entre les données d’une BD relationnelle Sybase et un système de fichiers • Contrainte d’inégalité entre une base de type whois et une BDOO.
Les outils de gestion des contraintes • Stratégie de gestion des contraintes à exécuter décidée par le CM • Stratégie => description de l’algorithme de contrôle et de renforcement des contraintes du CM • Degré de contrôle ou de renforcement spécifié par la garantie.
Les outils de gestion des contraintes • Les sources d’information brutes (RIS) ont des interfaces spécifiques (RISI) • Adaptateur CM • Module implémentant les RISI pour chaque donnée • Spécifié par un fichier de configuration appelé CM-RID (Raw Interface Description).
Les outils de gestion des contraintes • Le CM-RID décrit • quelles interfaces (choisies parmi un menu d’interfaces type) sont supportées par l’adaptateur CM • comment ces interfaces sont implémentées en utilisant la liaison RISI. • Les shells CM • Coopèrent pour exécuter les stratégies de gestion des contraintes • Configurés par un fichier de spécification de stratégies. • Stratégies CM spécifiées semi-automatiquement ou manuellement.
Les composants : l’extracteur / classificateur • Remarque : des sources d’information nombreuses et déstructurées • But : classifier automatiquement les objets des sources fichier texte ou image gif ? • Tâche basée sur l’identification simple de modèles dans les objets • Informations collectées exportées vers le reste du système de Tsimmis
Exemple concret • Un des adaptateurs opérationnels qui accède au système Folio de Stanford University • Folio est une IS compliquée, car l’adaptateur doit émuler un terminal interactif.
Exemple concret • Déroulement : • Connexion avec l’adaptateur • Réception d’une requête OEM-QL • Évaluation et conversion dans le langage booléen de récupération Folio. • Extraction et exportation de l’information adéquate sous la forme d’une réponse objet OEM.
Bilan : Particularités de Tsimmis • Par rapport aux autres modes d’intégration des bases de données • Accès intégré à des informations diverses et variées • Informations structurées ou non structurées et aucun schéma global pour les décrire • Changements fréquents possibles dans les composants des objets • Possibilité de modifier la stratégie d’intégration en fonction des ces changements • Intervention humaine nécessaire pour déterminer la stratégie
Bilan : Particularités de Tsimmis • Utilisation du système OEM • Sources accessibles par le navigateur • Évaluation de requêtes et exploration d’objets • Utilisation des traducteurs et médiateurs • Faciliter l’accès à de nouvelles sources et lors de l’intégration
Bilan : Particularités de Tsimmis • Bonne flexibilité fournie par l’outil OEM lors de la manipulation de sources hétérogènes • But final • Intégration non entièrement automatisée • Fournir à l’homme un cadre et des outils pour l’assister dans le traitement de l’information et d’intégration