Syst mes olap pour l analyse de documents textuels xml
Download
1 / 31

- PowerPoint PPT Presentation


  • 225 Views
  • Uploaded on

Systèmes OLAP pour l’analyse de documents textuels XML. Franck Ravat, Olivier Teste, Ronan Tournier, Gilles Zurfluh. IRIT (Institut de Recherche en Informatique de Toulouse) Présentation : Olivier Teste. Plan. Introduction Modèle conceptuel Démarche Conclusion. Contexte.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '' - dyllis


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Syst mes olap pour l analyse de documents textuels xml l.jpg

Systèmes OLAP pour l’analyse de documents textuels XML

Franck Ravat, Olivier Teste, Ronan Tournier, Gilles Zurfluh.

IRIT (Institut de Recherche en Informatique de Toulouse)

Présentation : Olivier Teste


Slide2 l.jpg
Plan

  • Introduction

  • Modèle conceptuel

  • Démarche

  • Conclusion

Atelier MADSI (INFORSID 2008)


Contexte l.jpg
Contexte

Contexte de l’approche

Atelier MADSI (INFORSID 2008)


Contexte4 l.jpg
Contexte

  • Pourquoi se soucier des documents ?

    • Analyse en ligne sur données numériques

    • Données numériques : 20% des informations décisionnelles [Sullivan-01] & [Tseng-06]

    • 80% des données restent hors de portée (les documents entre autres)

  • Mais

    • Systèmes OLAP : données numériques

    • Documents = données textuelles avec peu ou pas de structure

  • XML: permet de structurer des documents

  • Atelier MADSI (INFORSID 2008)


    Contexte5 l.jpg
    Contexte

    • Analyse multidimensionnelle

    • Modélisation

    TEMPS.Années

    Tranche

    2002

    2001

    MAGASINS.Villes

    2000

    Dallas

    Lyon

    1999

    Toulouse

    C1 C2 C3 C4

    PRODUITS.Classes

    Classes

    Catégories

    Desc_prod

    Années

    Id_P

    Mois

    PRODUITS

    Jours

    Dept_lib

    Desc_date

    Id_T

    Id_M

    VENTES

    Montant

    Bénéfice

    Villes

    Régions

    MAGASINS

    TEMPS

    Dept_num

    RaisonSo

    Atelier MADSI (INFORSID 2008)


    Contexte6 l.jpg
    Contexte

    Sujets des 2

    publications

    • Exemple d’analyse multidimensionnelle

      • De l’analyse numérique…

      • Vers l’analyse non numérique

    Nombre de publications par auteur

    Sujet des publications

    Atelier MADSI (INFORSID 2008)


    Objectifs l.jpg
    Objectifs

    Cadre de cette

    présentation

    • Démarche d’implantation de systèmes OLAP

      • Modèle multidimensionnel adapté

      • Approche mixte d’implantation

      • Outil CASE pour assister l’utilisateur

    Atelier MADSI (INFORSID 2008)


    Mod le conceptuel l.jpg
    Modèle conceptuel

    • Introduction

    • Modèle conceptuel

      • Concepts

      • Exemple

    • Démarche

    • Conclusion

    Atelier MADSI (INFORSID 2008)


    Mod le conceptuel9 l.jpg
    Modèle conceptuel

    • Données issues de documents

      • Structuration hiérarchique

      • Liens intra ou inter documents

      • Contenu : données textuelles

      • Méta données

  • Limite des modèles actuels [Ravat-07]

    • Non-analyse du contenu

    • Analyses prédéfinies

    • Difficultés pour identifier le sujet d’analyse

  • Atelier MADSI (INFORSID 2008)


    Mod le conceptuel10 l.jpg
    Modèle conceptuel

    • Galaxie: caractéristiques

      • Unique concept : une Dimension

      • Une dimension = un axe d’analyse

      • Une dimension = un sujet potentiel d’analyse

    Atelier MADSI (INFORSID 2008)


    Concepts l.jpg
    Concepts

    • Dimension Di=(ADi, HDi, IDi, IStarDi)

      • ADi = ensemble d’attributs

      • HDi = ensemble de hiérarchies

      • IDi = ensemble d’instances

      • IStarDi = fonctions associant les instances ensemble

    Atelier MADSI (INFORSID 2008)


    Concepts12 l.jpg
    Concepts

    • Dimension Di=(ADi, HDi, IDi, IStarDi)

      • ADi = ensemble d’attributs

      • HDi = ensemble de hiérarchies

    • Hiérarchies Hi=(ParamHi, WeakHi)

      • ParamHi = liste ordonnée de paramètres

      • WeakHi = association des attributs faibles

    Paramètre = niveau de granularité d’analyse

    Attribut Faible = complément sémantique d’un paramètre

    Atelier MADSI (INFORSID 2008)


    Concepts13 l.jpg
    Concepts

    Exemple d’instance d’auteur

    • Dimension Di=(ADi, HDi, IDi, IStarDi)

      • ADi = ensemble d’attributs

      • HDi = ensemble de hiérarchies

      • IDi = ensemble d’instances

      • IStarDi = fonctions d’association des instances

    Atelier MADSI (INFORSID 2008)


    Concepts14 l.jpg
    Concepts

    • Galaxie G=(DG, StarG, LkG)

      • DG = ensemble de dimensions

      • StarG = fonction associant les dimensions

      • LkG = ensemble de fonctions représentant les liens intra ou inter documents

    Atelier MADSI (INFORSID 2008)


    Exemple l.jpg
    Exemple

    • Analyse d’articles scientifiques et de projets

    Atelier MADSI (INFORSID 2008)


    D marche l.jpg
    Démarche

    • Introduction

    • Modèle conceptuel

    • Démarche

      • Phase 1 : Analyse

      • Phase 2 : Confrontation

      • Phase 3 : Résolution de conflits

      • Phase 4 : Implantation

    • Conclusion

    Atelier MADSI (INFORSID 2008)


    D marche17 l.jpg
    Démarche

    • Positionnement

    Comment passer des documents à une galaxie?

    Atelier MADSI (INFORSID 2008)


    D marche18 l.jpg
    Démarche

    • État de l’art : conception de systèmes OLAP

      • Approches ascendantes [Golfarelli-98]…

        • Prise en compte des sources de données

        • Ignore les besoins utilisateurs

      • Approches descendantes [Kimball-96]…

        • Prise en compte des besoins utilisateurs

        • Ignore les sources de données

      • Approches mixtes [Bonifati-01]…

        • Prise en comptes des sources et des besoins

        • Nécessite une phase de confrontation

    Atelier MADSI (INFORSID 2008)


    Phase 1 analyse l.jpg
    Phase 1 : Analyse

    • Analyse concurrente des sources et des besoins utilisateurs

    Atelier MADSI (INFORSID 2008)


    Phase 1 analyse20 l.jpg
    Phase 1 : Analyse

    • Spécification des besoins

      • Identification des attributs (dictionnaire)

      • Spécification d’une matrice des besoins

        • Identification des nœuds

      • Regroupement/hiérarchisation des attributs en dimensions

    Atelier MADSI (INFORSID 2008)


    Phase 1 analyse21 l.jpg
    Phase 1 : Analyse

    • Analyse des sources

      • Identifier

        • Contenu

        • Structure du contenu

        • Méta données

    Atelier MADSI (INFORSID 2008)


    Phase 2 confrontation l.jpg
    Phase 2 : confrontation

    • Confrontation,comparaison et détection d’incompatibilités

    Atelier MADSI (INFORSID 2008)


    Phase 2 confrontation23 l.jpg
    Phase 2 : confrontation

    • Phase de comparaison et d’association

      • Schéma en galaxie convertie en une DTD

      • Extraction de la DTD source

      • Association des éléments compatibles entre eux

    Atelier MADSI (INFORSID 2008)


    Phase 2 confrontation24 l.jpg
    Phase 2 : confrontation

    • Phase de comparaison et d’association

    Incompatibilités

    Atelier MADSI (INFORSID 2008)


    Phase 3 4 l.jpg
    Phase 3 & 4

    • Résolution de conflits et implantation

    Atelier MADSI (INFORSID 2008)


    Phase 4 implantation l.jpg
    Phase 4 : Implantation

    Atelier MADSI (INFORSID 2008)


    Conclusion l.jpg
    Conclusion

    • Introduction

    • Modèle conceptuel

    • Démarche

    • Conclusion

      • Résumé

      • Perspectives

    Atelier MADSI (INFORSID 2008)


    Conclusion28 l.jpg
    Conclusion

    • Résumé

      • Modèle en Galaxie

      • Démarche mixte en 4 phases

        • Analyse des besoins utilisateur / sources

        • Confrontation / comparaison

        • Résolution des conflits

        • Implantation

    • Perspectives

      • Intégration de sources hétérogènes (différentes DTD)

      • Vers une automatisation de la confrontation…

    Atelier MADSI (INFORSID 2008)


    Slide29 l.jpg
    -

    • MERCI

      Atelier MADSI (INFORSID)

      Mai 2007, Présentation : Olivier Teste / Ronan Tournier

      SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données

      IRIT, Institut de Recherche en Informatique de Toulouse

      Université de Toulouse (UT1 & UT3)

    Atelier MADSI (INFORSID 2008)


    Architecture g n rale l.jpg
    Architecture Générale

    • 4 niveaux

    Outil d’aide à la conception

    Atelier MADSI (INFORSID 2008)


    Phase 4 implantation31 l.jpg
    Phase 4 : Implantation

    Atelier MADSI (INFORSID 2008)


    ad