1 / 31

Systèmes OLAP pour l’analyse de documents textuels XML

Systèmes OLAP pour l’analyse de documents textuels XML. Franck Ravat, Olivier Teste, Ronan Tournier, Gilles Zurfluh. IRIT (Institut de Recherche en Informatique de Toulouse) Présentation : Olivier Teste. Plan. Introduction Modèle conceptuel Démarche Conclusion. Contexte.

dyllis
Download Presentation

Systèmes OLAP pour l’analyse de documents textuels XML

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Systèmes OLAP pour l’analyse de documents textuels XML Franck Ravat, Olivier Teste, Ronan Tournier, Gilles Zurfluh. IRIT (Institut de Recherche en Informatique de Toulouse) Présentation : Olivier Teste

  2. Plan • Introduction • Modèle conceptuel • Démarche • Conclusion Atelier MADSI (INFORSID 2008)

  3. Contexte Contexte de l’approche Atelier MADSI (INFORSID 2008)

  4. Contexte • Pourquoi se soucier des documents ? • Analyse en ligne sur données numériques • Données numériques : 20% des informations décisionnelles [Sullivan-01] & [Tseng-06] • 80% des données restent hors de portée (les documents entre autres) • Mais • Systèmes OLAP : données numériques • Documents = données textuelles avec peu ou pas de structure • XML: permet de structurer des documents Atelier MADSI (INFORSID 2008)

  5. Contexte • Analyse multidimensionnelle • Modélisation TEMPS.Années Tranche 2002 2001 MAGASINS.Villes 2000 Dallas Lyon 1999 Toulouse C1 C2 C3 C4 PRODUITS.Classes Classes Catégories Desc_prod Années Id_P Mois PRODUITS Jours Dept_lib Desc_date Id_T Id_M VENTES Montant Bénéfice Villes Régions MAGASINS TEMPS Dept_num RaisonSo Atelier MADSI (INFORSID 2008)

  6. Contexte Sujets des 2 publications • Exemple d’analyse multidimensionnelle • De l’analyse numérique… • Vers l’analyse non numérique Nombre de publications par auteur Sujet des publications Atelier MADSI (INFORSID 2008)

  7. Objectifs Cadre de cette présentation • Démarche d’implantation de systèmes OLAP • Modèle multidimensionnel adapté • Approche mixte d’implantation • Outil CASE pour assister l’utilisateur Atelier MADSI (INFORSID 2008)

  8. Modèle conceptuel • Introduction • Modèle conceptuel • Concepts • Exemple • Démarche • Conclusion Atelier MADSI (INFORSID 2008)

  9. Modèle conceptuel • Données issues de documents • Structuration hiérarchique • Liens intra ou inter documents • Contenu : données textuelles • Méta données • Limite des modèles actuels [Ravat-07] • Non-analyse du contenu • Analyses prédéfinies • Difficultés pour identifier le sujet d’analyse Atelier MADSI (INFORSID 2008)

  10. Modèle conceptuel • Galaxie: caractéristiques • Unique concept : une Dimension • Une dimension = un axe d’analyse • Une dimension = un sujet potentiel d’analyse Atelier MADSI (INFORSID 2008)

  11. Concepts • Dimension Di=(ADi, HDi, IDi, IStarDi) • ADi = ensemble d’attributs • HDi = ensemble de hiérarchies • IDi = ensemble d’instances • IStarDi = fonctions associant les instances ensemble Atelier MADSI (INFORSID 2008)

  12. Concepts • Dimension Di=(ADi, HDi, IDi, IStarDi) • ADi = ensemble d’attributs • HDi = ensemble de hiérarchies • Hiérarchies Hi=(ParamHi, WeakHi) • ParamHi = liste ordonnée de paramètres • WeakHi = association des attributs faibles Paramètre = niveau de granularité d’analyse Attribut Faible = complément sémantique d’un paramètre Atelier MADSI (INFORSID 2008)

  13. Concepts Exemple d’instance d’auteur • Dimension Di=(ADi, HDi, IDi, IStarDi) • ADi = ensemble d’attributs • HDi = ensemble de hiérarchies • IDi = ensemble d’instances • IStarDi = fonctions d’association des instances Atelier MADSI (INFORSID 2008)

  14. Concepts • Galaxie G=(DG, StarG, LkG) • DG = ensemble de dimensions • StarG = fonction associant les dimensions • LkG = ensemble de fonctions représentant les liens intra ou inter documents Atelier MADSI (INFORSID 2008)

  15. Exemple • Analyse d’articles scientifiques et de projets Atelier MADSI (INFORSID 2008)

  16. Démarche • Introduction • Modèle conceptuel • Démarche • Phase 1 : Analyse • Phase 2 : Confrontation • Phase 3 : Résolution de conflits • Phase 4 : Implantation • Conclusion Atelier MADSI (INFORSID 2008)

  17. Démarche • Positionnement Comment passer des documents à une galaxie? Atelier MADSI (INFORSID 2008)

  18. Démarche • État de l’art : conception de systèmes OLAP • Approches ascendantes [Golfarelli-98]… • Prise en compte des sources de données • Ignore les besoins utilisateurs • Approches descendantes [Kimball-96]… • Prise en compte des besoins utilisateurs • Ignore les sources de données • Approches mixtes [Bonifati-01]… • Prise en comptes des sources et des besoins • Nécessite une phase de confrontation Atelier MADSI (INFORSID 2008)

  19. Phase 1 : Analyse • Analyse concurrente des sources et des besoins utilisateurs Atelier MADSI (INFORSID 2008)

  20. Phase 1 : Analyse • Spécification des besoins • Identification des attributs (dictionnaire) • Spécification d’une matrice des besoins • Identification des nœuds • Regroupement/hiérarchisation des attributs en dimensions Atelier MADSI (INFORSID 2008)

  21. Phase 1 : Analyse • Analyse des sources • Identifier • Contenu • Structure du contenu • Méta données Atelier MADSI (INFORSID 2008)

  22. Phase 2 : confrontation • Confrontation,comparaison et détection d’incompatibilités Atelier MADSI (INFORSID 2008)

  23. Phase 2 : confrontation • Phase de comparaison et d’association • Schéma en galaxie convertie en une DTD • Extraction de la DTD source • Association des éléments compatibles entre eux Atelier MADSI (INFORSID 2008)

  24. Phase 2 : confrontation • Phase de comparaison et d’association Incompatibilités Atelier MADSI (INFORSID 2008)

  25. Phase 3 & 4 • Résolution de conflits et implantation Atelier MADSI (INFORSID 2008)

  26. Phase 4 : Implantation Atelier MADSI (INFORSID 2008)

  27. Conclusion • Introduction • Modèle conceptuel • Démarche • Conclusion • Résumé • Perspectives Atelier MADSI (INFORSID 2008)

  28. Conclusion • Résumé • Modèle en Galaxie • Démarche mixte en 4 phases • Analyse des besoins utilisateur / sources • Confrontation / comparaison • Résolution des conflits • Implantation • Perspectives • Intégration de sources hétérogènes (différentes DTD) • Vers une automatisation de la confrontation… Atelier MADSI (INFORSID 2008)

  29. - • MERCI Atelier MADSI (INFORSID) Mai 2007, Présentation : Olivier Teste / Ronan Tournier SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données IRIT, Institut de Recherche en Informatique de Toulouse Université de Toulouse (UT1 & UT3) Atelier MADSI (INFORSID 2008)

  30. Architecture Générale • 4 niveaux Outil d’aide à la conception Atelier MADSI (INFORSID 2008)

  31. Phase 4 : Implantation Atelier MADSI (INFORSID 2008)

More Related