1 / 33

OLAP

OLAP. Équipe: Johanne Lavoie Giovanni Malizia. Présenté le 26 avril 2004. Prof. : Robert Godin Cours : INF7115 Session : Hiver 2004. Plan de présentation. Survol Problématiques Approches OLAP Amélioration de la performance Processus de sélection des vues à matérialiser

laurie
Download Presentation

OLAP

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. OLAP Équipe: Johanne Lavoie Giovanni Malizia Présenté le 26 avril 2004 Prof. : Robert Godin Cours : INF7115 Session : Hiver 2004

  2. Plan de présentation • Survol • Problématiques • Approches OLAP • Amélioration de la performance • Processus de sélection des vues à matérialiser • Hiérarchies des attributs • Contexte étudié • Cadre du treillis • Algorithmes glouton • Modèle de coût • Produits commerciaux • Conclusion • Références

  3. Survol • Introduit en 1993 par E.F. Codd • Utilisation pour l’aide à la décision • Utilisateurs OLAP autonomes • Différents types : MOLAP, ROLAP, HOLAP, DOLAP • Étroitement lié aux entrepôts de données • Performance inacceptable sur un environnement opérationnel

  4. Défis • Croissance constante des données • Complexité des requêtes • Temps de réponse • Coûts Le dilemme Quelles vues doit-on matérialiser pour optimiser le temps de réponse, minimiser l’espace disque occupé et diminuer les coûts ?

  5. Approche MOLAP • Les données sont nettoyées, agrégées dans des dimensions multiples • Les données sont emmagasinées dans des rangées multidimensionnelles • Pré compilation des rangées d'organisation et de données qui peuvent être consultées directement et plus rapidement • Joints déjà fait • Vue multidimensionnelle directe des données • Facilité d'utilisation Crystal decisions, « Compound OLAP. An OLAP Architecture for the Real World », 2001, p.1-15

  6. Approche ROLAP • Données volatiles • Données agrégées et emmagasinées avec les bases de données relationnelles • Manipulation de requêtes complexes • Interface multidimensionnelle aux données relationnelles • Intégration possible à des BDs relationnelles existantes • Jointures au moment de la requête Requête utilisant SQL Crystal decisions, « Compound OLAP. An OLAP Architecture for the Real World », 2001, p.1-15

  7. Amélioration de la performance • Optimisateurs de requêtes • Techniques d’évaluation de requête • Stratégies d’indexation • Index « bit-map » • Index de jointures • Alternatives pour la matérialisation des vues (cubes) • Toutes les vues • Aucune vue • Quelques vues (une partie du cube)

  8. Processus de sélection des vues à matérialiser Bellatreche, Ladjel, Techniques d’optimisation des requêtes dans les data warehouses, Laboratoire d’Informatique Scientifique et Industrielle, 2003, http://www.lisi.ensma.fr/

  9. Période Jour Jours du mois (1-31) Semaine Mois Semaines du mois (1-5) Année Jours du mois (1-31) Jan. Avr. Déc. Aucun Année Hiérarchies des attributs • Deux types d’opérations couramment utilisées pendant les requêtes : Le pliage (roll up) et le dépliage (drill down) X X Harinarayan, Venky, Rajaraman, Anand, Ullman, Jeffrey, D., « Implementing Data Cubes Efficiently », Proceedings of the 1996 ACM SIGMOD international conference on Management of Data, p.205-216, ISSN:0163-5808

  10. Cadre de treillis Modèle de coût 1 2 3 Vues possibles Algorithme glouton Taille / Temps Espace / Temps Contexte étudié

  11. Cadre de treillis Vues possibles Cadre de treillis

  12. Treillis des 8 vues TPC-D • Huit (8) vues possibles • 1. Pièce, fournisseur, client (6M) • 2. Pièce, client (6M) • 3. Pièce, fournisseur (0,8M) • 4. Fournisseur, client (6M) • 5. Pièce (0,2M) • 6. Fournisseur (0,01M) • 7. Client (0,1M) • 8. None (1) Total: 19.1M Total: 7.1M

  13. Pièce Taille Type Aucun Treillis composé de dimensions hiérarchiques Combinaison de deux dimensions hiérarchiques c = client n = par pays p = pièce s = taille t = type de pièce Client + Pays Aucun Harinarayan, Venky, Rajaraman, Anand, Ullman, Jeffrey, D., « Implementing Data Cubes Efficiently », Proceedings of the 1996 ACM SIGMOD international conference on Management of Data, p.205-216, ISSN:0163-5808

  14. Avantages du treillis composé • Fournit un cadre pour évaluer les dimensions hiérarchiques • Améliore la modélisation des requêtes communes entre les utilisateurs • Indique dans quel ordre matérialiser les vues • Réduction de l’accès aux données sources

  15. Cadre de treillis Modèle de coût 1 2 3 Vues possibles Algorithme glouton Taille / Temps Espace / Temps Contexte étudié

  16. Algorithme glouton Espace / Temps Algorithme glouton

  17. Déroulement de l’algorithme glouton (greedy) • La vue haut niveau est matérialisée • Sélection des vues additionnelles à matérialiser, une à une, jusqu’à l’atteinte du coût total choisie • À chaque étape, choisir la vue non matérialisée, avec les bénéfices les plus avantageux

  18. Numéro Sélection Bénéfice Temps total Espace total 1 c p infinit 72M 6M 2 n s 24M 48M 6M 3 n t 12M 36M 6M 4 c 5,9M 30,1M 6,1M 5 p 5,8M 24,3M 6,3M 6 c s 1M 23,3M 11,3M 7 n p 1M 22,3M 16,3M 8 c t 0,01M 22,3M 22,3M 9 t petit 22,3M 22,3M 10 n petit 22,3M 22,3M 11 s petit 22,3M 22,3M 12 aucune petit 22,3M 22,3M Résultats de l’algorithme glouton c = client n = par pays p = pièce s = taille t = type de pièce Temps Espace Nombre de vues

  19. Cadre de treillis Modèle de coût 1 2 3 Vues possibles Algorithme glouton Taille / Temps Espace / Temps Contexte étudié

  20. Modèle de Coût 1 2 3 Taille / Temps Modèle de Coût

  21. Huit (8) vues possibles • 1. Pièce, fournisseur, client (6M) • 2. Pièce, client (6M) • 3. Pièce, fournisseur (0,8M) • 4. Fournisseur, client (6M) • 5. Pièce (0,2M) • 6. Fournisseur (0,01M) • 7. Client (0,1M) • 8. None (1) Rappel: Treillis des 8 vues TPC-D

  22. Modèle linéaire de coût • T = m * S + c • (T) temps d’exécution • (S) taille d’une vue • (c) coût fixe • (m) ratio du temps de requête/taille de la vue Temps de réponse de la requête par rapport à la taille de la vue 2,38 – 2,07 = (0,31)/10000 = ,000031 Harinarayan, Venky, Rajaraman, Anand, Ullman, Jeffrey, D., « Implementing Data Cubes Efficiently », Proceedings of the 1996 ACM SIGMOD international conference on Management of Data, p.205-216, ISSN:0163-5808

  23. Produits commerciaux

  24. Catégorisation ROLAP MOLAP DOLAP Multi-pass SQL Cartesis Magnitude MicroStrategy Multidimensional server engine Crystal Holos (ROLAP mode) SAS CFO Vision Hyperion Essbase Crystal Holos Longview Khalix Comshare Decision Speedware Media/MR Hyperion Essbase Microsoft Analysis Services Oracle Express Oracle Express (ROLAP mode) Oracle OLAP Option AW Oracle OLAP Option (ROLAP mode) Gentia Pilot Analysis Server Microsoft Analysis Services WhiteLight PowerPlay Enterprise Server Pilot Analysis Server Applix TM1 Client multidimensional engine Oracle Discoverer Comshare FDC Hyperion Intelligence Dimensional Insight BusinessObjects Hyperion Enterprise Cognos PowerPlay Hyperion Pillar Personal Express TM1 Perspectives http://www.olapreport.com/Architectures.htm#Matrix

  25. Tendance de part du marché http://www.olapreport.com/market.htm

  26. Résultats TPC Résultats des essais à 1,000 GB Réf.: www.tpc.org

  27. Conclusion • La distribution de l’espace disque entre les vues et les index • L’algorithme glouton considère seulement la contrainte de l’espace disque et exclut l’utilisation des index par les vues • Le découplage de la maintenance des vues dans l’entrepôt de données par rapport aux mises à jour constantes des données sources

  28. Références Ullman, Jeffrey D., « Efficient Implementation of Data Cubes Via Materialized Views », KDD Proceedings, 1996, p.386-388 Harinarayan, Venky, Rajaraman, Anand, Ullman, Jeffrey, D., « Implementing Data Cubes Efficiently », Proceedings of the 1996 ACM SIGMOD international conference on Management of Data, p.205-216, ISSN:0163-5808 Gupta, Ashish, Mumick, Inderpal Singh, Ross, Kenneth A., « Adapting Materialized Views after Redefinition », ACM SIGMOD Conference, 1995, p.211-222 Goldstein, Jonathan, Larson, Per-Åke, « Optimizing Queries Using Materialized Views: A Practical, Scalable Solution », ACM SIGMOD Conference, 2001, Vol. 2 No. 3, 1999, p.331-342 Gupta, Himanshu, « Selection of Views to Materialized in a Data Warehouse », Proceedings of 23rd VLDB Conference, Athens, Greece 1997, p.1-15 Gupta, Himanshu, Mumick, Inderpal Singh, « Selection of Views to Materialize Under a Maintenance Cost Constraint », Proceeding of the 7th International Conference on Database Theory, 1999, p. 453-470 Bellatreche, Ladjel, Techniques d’optimisation des requêtes dans les data warehouses, Laboratoire d’Informatique Scientifique et Industrielle, 2003, http://www.lisi.ensma.fr/

  29. Diapositives d'appui

  30. Autres algorithmes

  31. Tendances de recherche • OLAP Stream Data • Cube Iceberg • Cube-H • Cube Étoile (Star cubing)

  32. Techniques d’indexages http://common.ziffdavisinternet.com/download/0/1387/ExtendedFeatures_SQL.xls

More Related