1 / 60

Analyse en ligne (OLAP) de documents

Analyse en ligne (OLAP) de documents. Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par : Franck Ravat et Olivier Teste. Plan. Introduction Modèle conceptuel Manipulations multidimensionnelles Intégration de documents Validation Conclusion & perspectives.

Download Presentation

Analyse en ligne (OLAP) de documents

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par : Franck Ravat et Olivier Teste

  2. Plan • Introduction • Modèle conceptuel • Manipulations multidimensionnelles • Intégration de documents • Validation • Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

  3. Contexte (1/6) • Les systèmes d’aide à la décision XML XML Cadre de la thèse Analyse en ligne (OLAP) de documents Décembre 2007

  4. Contexte (2/6) • Analyse multidimensionnelle Analyse en ligne (OLAP) de documents Décembre 2007

  5. Contexte (3/6) • Pourquoi se soucier des documents ? • Analyse en ligne sur données transactionnelles • Données transactionnelles: 20% des données d’un système d’information [Sullivan-01] & [Tseng-06] • 80% des données restent hors de portée • Mais • Systèmes OLAP: données numériques • Documents = données textuelles Analyse en ligne (OLAP) de documents Décembre 2007

  6. Contexte (4/6) • XML: permet de structurer des documents • Extended Markup Language • Format de description • Possède une grammaire descriptive (DTD) • Permet de définir sa structure Analyse en ligne (OLAP) de documents Décembre 2007

  7. Contexte (5/6) • XML: exemple de document • <These> • <Contenu> • <ChapitreTitre="Titre du chapitre 1"> • <SectionTitre="Titre de la section 1.1"> • <Paragraphe>Contenu…</Paragraphe> • <Paragraphe>Contenu …</Paragraphe> • </Section> • <SectionTitre="Titre de la section 1.2"> • … • </Section> • </Chapitre> • <ChapitreTitre="Titre du chapitre 2"> • … • </Chapitre> • </Contenu> • </These> Analyse en ligne (OLAP) de documents Décembre 2007

  8. Contexte (6/6) Sujets des 2 publications • Analyse multidimensionnelle • De l’analyse numérique… • Vers l’analyse non numérique Nombre de publications par auteur Sujet des publications Analyse en ligne (OLAP) de documents Décembre 2007

  9. Problématique • Mais • Comment analyser données textuelles ? • Comment représenter les structures ? • Comment alimenter ces structures ? • But : Analyser 100% des données d’un SI • Données transactionnelles • Documents XML Analyse en ligne (OLAP) de documents Décembre 2007

  10. État de l’art (1/3) • Les systèmes d’aide à la décision XML XML XML Analyse en ligne (OLAP) de documents Décembre 2007

  11. État de l’art (2/3) • Entrepôts et XML • Entrepôts de données XML [Oracle]… • Pas d’intégration de documents • Entrepôts de documents XML [Xylème]… • Pas destinés à l’analyse XML Analyse en ligne (OLAP) de documents Décembre 2007

  12. État de l’art (2/3) • Magasins et XML • Intégration de données XML [Golfarelli-01]… • Données sources fortement structurées • Stockage XML multidimensionnel [Messaoud-06]… • Grande redondance dans les données XML Analyse en ligne (OLAP) de documents Décembre 2007

  13. État de l’art (3/3) • Analyse et XML • Analyse de documents [McCabe-00]… • Repose sur des analyses numériques • Pas d’analyse du contenu • Pas d’exploitation de la structure • Pas de synthèse des informations textuelles XML Analyse en ligne (OLAP) de documents Décembre 2007

  14. État de l’art (3/3) • Actuellement OLAP ne gère pas • Données textuelles • Structure • Contenu • Objectif : Analyse OLAP de documents Analyse en ligne (OLAP) de documents Décembre 2007

  15. Plan • Introduction • Modèle conceptuel • Manipulations multidimensionnelles • Intégration de documents • Validation • Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

  16. Modèle conceptuel (1/7) Analyse en ligne (OLAP) de documents Décembre 2007

  17. Modèle conceptuel (2/7) • Données issues de documents • Structuration hiérarchique • Liens intra ou inter documents • Contenu : données textuelles • Méta données • Limite des modèles actuels [Cabibbo-00], [Abellò-06]… • Non-analyse du contenu • Analyses prédéfinies • Difficultés pour identifier le sujet d’analyse Analyse en ligne (OLAP) de documents Décembre 2007

  18. Modèle conceptuel (3/7) • Galaxie: caractéristiques • Unique concept: une Dimension • Une dimension = un axe d’analyse • Une dimension = un sujet potentiel d’analyse Analyse en ligne (OLAP) de documents Décembre 2007

  19. Modèle conceptuel (4/7) • Dimension Di=(ADi, HDi, IDi, IStarDi) • ADi = ensemble d’attributs • HDi = ensemble de hiérarchies • IDi = ensemble d’instances • IStarDi = fonctions associant les instances ensemble Analyse en ligne (OLAP) de documents Décembre 2007

  20. Modèle conceptuel (5/7) • Dimension Di=(ADi, HDi, IDi, IStarDi) • ADi = ensemble d’attributs • HDi = ensemble de hiérarchies • Hiérarchies Hi=(ParamHi, WeakHi) • ParamHi = liste ordonnée de paramètres • WeakHi = association des attributs faibles Paramètre = niveau de granularité d’analyse Attribut Faible = complément sémantique d’un paramètre Analyse en ligne (OLAP) de documents Décembre 2007

  21. Modèle conceptuel (6/7) Exemple d’instance d’auteur • Dimension Di=(ADi, HDi, IDi, IStarDi) • ADi = ensemble d’attributs • HDi = ensemble de hiérarchies • IDi = ensemble d’instances • IStarDi = fonctions d’association des instances Analyse en ligne (OLAP) de documents Décembre 2007

  22. Modèle conceptuel (7/7) • Galaxie G=(DG, StarG, LkG) • DG = ensemble de dimensions • StarG = fonction associant les dimensions • LkG = ensemble de fonctions représentant les liens intra ou inter documents Analyse en ligne (OLAP) de documents Décembre 2007

  23. Exemple • Analyse d’articles scientifiques et de projets Analyse en ligne (OLAP) de documents Décembre 2007

  24. Plan • Introduction • Modèle conceptuel • Manipulations multidimensionnelles • Intégration de documents • Validation • Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

  25. Fonction d’agrégation (1/6) AGREGATION Analyse en ligne (OLAP) de documents Décembre 2007

  26. Fonction d’agrégation (2/6) • Principe d’agrégation • Exemple de somme Analyse en ligne (OLAP) de documents Décembre 2007

  27. Fonction d’agrégation (3/6) • Problématique • Agréger des données textuelles • Reconstituer une règle d’agrégation • Règle d’agrégation: ontologie • Ontologie légère[Lassila-01] • Ontologie de domaine Analyse en ligne (OLAP) de documents Décembre 2007

  28. Fonction d’agrégation (4/6) • Exemple d’ontologie (SI) Analyse en ligne (OLAP) de documents Décembre 2007

  29. Fonction d’agrégation (5/6) • Exemple d’agrégation LCA (Design, Processing) = OLAP Distance (Design, Processing) = 3 D=1 D=3 Entrée { (Design, d=0), (Processing, d=0) } Sortie (OLAP, d=3) Analyse en ligne (OLAP) de documents Décembre 2007

  30. Fonction d’agrégation (6/6) • Deux opérations de manipulation • LCA: plus petit ancêtre commun • Distance structurelle entre deux nœuds • AVG_KW : Processus d’agrégation • Remplacement de mots-clef le LCA • Problème: forte probabilité de retourner la racine • Contrôle de la perte de sémantique • Limiter l’agrégation (distance heuristique = 3) Analyse en ligne (OLAP) de documents Décembre 2007

  31. Opérations de manipulation (1/6) MANIPULATION Analyse en ligne (OLAP) de documents Décembre 2007

  32. Opérations de manipulation (2/6) • But: « Manipuler une galaxie » • Opérations OLAP • Liens pour naviguer au sein des données Analyse en ligne (OLAP) de documents Décembre 2007

  33. Opérations de manipulation (3/6) • Opérations OLAP [Ravat-07e] revisitées • Focalisation • Restriction • Forage • Rotation Analyse en ligne (OLAP) de documents Décembre 2007

  34. Opérations de manipulation (4/6) • Spécification d’une analyse: FOCUS Sélectionner : principaux mot-clefs des section d’articles par auteur, par année Analyse en ligne (OLAP) de documents Décembre 2007

  35. Opérations de manipulation (4/6) • Spécification d’une analyse: FOCUS Sélectionner : principaux mot-clefs des section d’articles par auteur, par année Analyse en ligne (OLAP) de documents Décembre 2007

  36. Opérations de manipulation (5/6) • Changement du niveau de détail: • Rotation Analyse en ligne (OLAP) de documents Décembre 2007

  37. Opérations de manipulation (6/6) Auteur cité 3 fois dans une conférence • Exploitation des liens Nombre de fois qu’un auteur est cité Portée des travaux : Comment analyser le contexte des citations ? Context of the citations Analyse en ligne (OLAP) de documents Décembre 2007

  38. Plan • Introduction • Modèle conceptuel • Manipulations multidimensionnelles • Intégration de documents • Validation • Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

  39. Démarche d’intégration (1/5) Analyse en ligne (OLAP) de documents Décembre 2007

  40. Démarche d’intégration (2/5) • Architecture: positionnement Comment passer des documents à une galaxie? Analyse en ligne (OLAP) de documents Décembre 2007

  41. Démarche d’intégration (3/5) • Conceptions de BDM • Démarches ascendantes [Golfarelli-98]… • Démarches descendantes [Kimball-96]… • Démarches mixtes [Carneiro-02]… Analyse en ligne (OLAP) de documents Décembre 2007

  42. Démarche d’intégration (4/5) • Étapes Analyse en ligne (OLAP) de documents Décembre 2007

  43. Analyses concurrentes (1/3) • Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007

  44. Analyses concurrentes (2/3) • Spécification des besoins • Identification des attributs • Spécification d’une matrice des besoins • Identification des nœuds • Regroupement des attributs en dimensions • Hiérarchisation des attributs au sein des dimensions Analyse en ligne (OLAP) de documents Décembre 2007

  45. Analyses concurrentes (3/3) • Analyse des sources • Identifier • Contenu • Structure du contenu • Méta données Analyse en ligne (OLAP) de documents Décembre 2007

  46. Confrontation (1/2) • Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007

  47. Confrontation (2/2) • Phase d’association Incompatibilités Analyse en ligne (OLAP) de documents Décembre 2007

  48. Enrichissement et chargement • Détails des étapes Analyse en ligne (OLAP) de documents Décembre 2007

  49. Validation • Introduction • Modèle conceptuel • Manipulations multidimensionnelles • Intégration de documents • Validation • Conclusion & perspectives Analyse en ligne (OLAP) de documents Décembre 2007

  50. Architecture (1/3) • 4 niveaux Analyse en ligne (OLAP) de documents Décembre 2007

More Related