1 / 109

Data Warehouse Day 2

Data Warehouse Day 2. Day 1 Review / Recall. Name the phases of the Business Intelligence process ! How would you describe the current business dynamic ? Why focus on Customers and Customer behavior ? How would you describe a Customer ? What is a profitable Customer ?

starr
Download Presentation

Data Warehouse Day 2

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Warehouse Day 2 Day 1 Review / Recall Name the phases of the Business Intelligence process ! How would you describe the current business dynamic ? Why focus on Customers and Customer behavior ? How would you describe a Customer ? What is a profitable Customer ? What information do we need to record about them ? What‘s the technical and logical reason for a Data Warehouse solution contrary to an operative system ? BA Lörrach, WI 4.Semester 4/21/2002

  2. Data Warehouse Glossary Data Warehousing Requirements • Unabhängigkeit zwischen Datenquellen und Analyse-systemen (bzgl. Verfügbarkeit, Belastung, laufender Änderungen) • Dauerhafte Bereitstellung integrierter und abgeleiteter Daten (Persistenz) • Mehrfachverwendbarkeit der bereitgestellten Daten • Möglichkeit der Durchführung prinizipiell beliebiger Auswertungen BA Lörrach, WI 4.Semester 4/21/2002

  3. Data Warehouse Glossary Data Warehouse Requirements II • Unterstützung individueller Sichten (z.B. bzgl. Zeithorizont, Struktur) • Erweiterbarkeit (z.B. Integration neuer Quelle) • Automatisierung der Abläufe • Eindeutigkeit über Datenstrukturen, Zugriffsberechtigungen und Prozesse • Ausrichtung am Zweck: Analyse der Daten BA Lörrach, WI 4.Semester 4/21/2002

  4. Data Warehouse Glossary Data Warehouse Characteristics Priorities - Easy of use, flexible access, refresh, query Processor Use - Highly unpredictable (unvorhersehbar) Response Time - Seconds to hours (data mining may take hours) Database - usually relational (RDBMS) Data Content - Organized by subject partitioned Nature of Data - Historical Application Processing - unstructured, heuristic, analytical End Users - management, decision makers, knowledge workers BA Lörrach, WI 4.Semester 4/21/2002

  5. Data Warehouse Glossary Data Warehouse Characteristics II • User Expectations • differences in response time may be significant between DWH and a client-server front end application • you need to control user’s expectations regarding response • set reasonable and achievable targets for query response, which can be assessed and proved in the first increment of development • then you can define, specify and agree SLA • Talk to the users ! BA Lörrach, WI 4.Semester 4/21/2002

  6. Data Warehouse Glossary Data Warehouse Characteristics III • Exponential Growth and Use • once implemented, DWH continue to grow in size • each refresh time - more data is added (or archived) • DWH grow very quickly - magnitude of gigabytes a month, terabytes over year • once the success of a DWH implementation is proven, the use increases dramatically • use often grows faster than expected BA Lörrach, WI 4.Semester 4/21/2002

  7. Data Warehouse Glossary Data Warehouse Properties BA Lörrach, WI 4.Semester 4/21/2002

  8. Data Warehouse Glossary Data Warehouse Properties II BA Lörrach, WI 4.Semester 4/21/2002

  9. Data Warehouse Glossary Data Warehouse Properties III • Subject Areas • For a given subject - snapshots of data across the business • different time periods, different emphasis of data view • Typical subject areas • Customer accounts • Product sales • Customer savings (Spareinlagen) • Toll calls (telecommunication) • Airline passenger booking information • Insurance claim data (Ansprueche) BA Lörrach, WI 4.Semester 4/21/2002

  10. Data Warehouse Glossary Data Warehouse Properties IV • Subject Areas and Warehouse Data Model • you develop a data model to hold the data that you will use measure the business • you include the information that you will use to analyze the business • you measure the business according sales figures • you analyze the sales by Customers, Region, Salesperson, Territory, Store (or any combination) • Subject oriented information provides information departments within a corporation with a common understanding of their business BA Lörrach, WI 4.Semester 4/21/2002

  11. Data Warehouse Glossary Data Warehouse Properties V BA Lörrach, WI 4.Semester 4/21/2002

  12. Data Warehouse Glossary Data Warehouse Properties VI • Data status of online transaction processing data: • dispersed (verteilt) in diverse (verschiedene) and independent legacy systems • it’s impossible to measure the business performance, because • of the diversity • inconsistency in the data • differences in database management systems • lack of external information BA Lörrach, WI 4.Semester 4/21/2002

  13. Data Warehouse Glossary Data Warehouse Properties VII • DWH to integrate the data into one set quality information, which is: • meaningful, accurate and intelligible (verstaendlich) for analysis • Standardization, Integration of Data: • Naming conventions • Coding structures • Physical data attributes • Measurement of variables • Cleaning and integration process is time-consuming and costly ! BA Lörrach, WI 4.Semester 4/21/2002

  14. Data Warehouse Glossary Data Warehouse Properties VIII BA Lörrach, WI 4.Semester 4/21/2002

  15. Data Warehouse Glossary Data Warehouse Properties IX • Time key is a vital database attribute • analysis of data is over a time period (days, weeks, month, quarters, years) • database key columns contain an element of time that determinates the business period to which the data relates • structure and meaning of the element varies between implementation and business needs • Refresh Cycles • must be determined in the early stages of the analysis of the business user’s requirements BA Lörrach, WI 4.Semester 4/21/2002

  16. Data Warehouse Glossary Data Warehouse Properties X • Grain of Data (granularity - Körnigkeit) • grain is level at which the data is held in DWH-tables • operational system: grain of data is transactional (one record for each transaction) • refresh cycle may not have the same grain as the data cycle • it’s more usual to store data in a summarized form by week, month or other business defined time period • you may choose refresh the data warehouse every week, but the grain of the data may be daily totals (monthly - week, etc.) BA Lörrach, WI 4.Semester 4/21/2002

  17. Data Warehouse Glossary Data Warehouse Properties XI BA Lörrach, WI 4.Semester 4/21/2002

  18. Data Warehouse Glossary Data Warehouse Properties XII • Changing Data - the following operations are typical of a DWH • initial set of data is loaded (first time load) • frequent snapshots of core data are added, according to the refresh cycle • DWH-Data may need to changed in other ways • business determines how much historical data is needed for analysis (older: archived, purged (gesäubert)) • inappropriate (unangebrachte) or inaccurate data values may be deleted from or migrated out of the DWH BA Lörrach, WI 4.Semester 4/21/2002

  19. Data Warehouse Glossary Enterprise -Wide Data Warehouse • Stores all data from all subject areas within the business for analysis by end users • the scope is the entire business and all operational aspects within the business • normally created through a series of incrementally developed solutions • EDWH provides: • a single source of corporate enterprise-wide data • a single source of synchronized data for each subject area • a single point for distribution of data to dependent data marts BA Lörrach, WI 4.Semester 4/21/2002

  20. Data Warehouse Glossary Data Marts • Aufgabe • Bereitstellung einer inhaltlich beschränkten Sicht auf das DW (z.B. für Abteilung, oder Funktionen) • Gründe • Eigenständigkeit, Datenschutz, Lastverteilung, Datenvolumen, etc. • Realisierung • Verteilung der DW-Daten • Formen • Abhängige Data Marts, Unabhängige Data Marts BA Lörrach, WI 4.Semester 4/21/2002

  21. Data Warehouse Glossary Data Marts II • Benefits • provides localization - they server users at a specific level or for a specific purpose • smaller and easier to manage then a EDWH • the need may come from geographical, functional divisions or technical groups within an enterprise • DM reduce the demands on warehouse date and also the data access traffic BA Lörrach, WI 4.Semester 4/21/2002

  22. Data Warehouse Glossary Data Marts Independent BA Lörrach, WI 4.Semester 4/21/2002

  23. Data Warehouse Glossary Data Marts Independent II • build and loaded directly from operational system • motivation for this kind of implementation: • Line Of Business (LOB) empowerment • short time frame for implementation • the methods for extracting and loading of operational data as in the DH solution • Integration and Transformation retrospectively (nachtraeglich) into a single DW-solution is possible • Issue: independent data transformation process BA Lörrach, WI 4.Semester 4/21/2002

  24. Data Warehouse Glossary Data Marts Dependent BA Lörrach, WI 4.Semester 4/21/2002

  25. Data Warehouse Glossary Data Marts Dependent II • subset of enterprise-wide data • built and loaded from the Enterprise DW • need only extract from the data warehouse and transport the date into themselves, higher grain then DW • they don’t transform any data (faster, cheaper) • other advantages • performance, availability, connection costs • more resistant to change • maintains a single version of data BA Lörrach, WI 4.Semester 4/21/2002

  26. Data Warehouse Glossary Data Mart Dependent III • Strukturelle Extrakte • Beschränkung auf Teile des Schemas • Bsp.: nur bestimmte Kennzahlen oder Dimensionen • Inhaltliche Extrakte • inhaltliche Beschränkung • Bsp.: nur bestimmte Filialen oder das letzte Jahresergebnis • Aggregierte Extrakte • Verringerung der Granularität • Bsp.: Beschränkung auf Monatsergebnisse BA Lörrach, WI 4.Semester 4/21/2002

  27. Data Warehouse Glossary Data Mart Considerations • avoid disparate (unvereinbare) data mart solution • build towards the enterprise-wide strategy • consistent use of products, technology and processes are vital • always employ (einsetzen) dependent data mart solutions to avoid the disparity problems BA Lörrach, WI 4.Semester 4/21/2002

  28. Data Warehouse Glossary Data Mart Characteristics Priorities - Easy of use, flexible data access Processor Use - Highly unpredictable (unvorhersehbar) Response Time - Seconds to several minutes Database - Relational, multidimensional Data Content - Organized by subject for LOB Nature of Data - historical (month, weeks rather then years) Application Processing - unstructured, heuristic, analytical End Users - see DW, + statisticians BA Lörrach, WI 4.Semester 4/21/2002

  29. Data Warehouse Glossary Operational Data Store BA Lörrach, WI 4.Semester 4/21/2002

  30. Data Warehouse Glossary Operational Data Store • holds the current data for analysis or application integration • may form a staging area for the Warehouse • may contain integrated, clean, summarized data • limited summary life expectation • may be updated • synchronously with operational system • on a store-and forward basis • exists in a separate environment BA Lörrach, WI 4.Semester 4/21/2002

  31. Data Warehouse Glossary ODS - Characteristics Priorities - Easy of use, flexible data access Response Time - Seconds to minutes Database - relational Data Content - organized by subject, current value data, integrated Nature of Data - Dynamic Processing - structured, analytical End Users - DBA’s, clerical users BA Lörrach, WI 4.Semester 4/21/2002

  32. Data Warehouse Glossary Meta Data • Begriff: • „ jede Art von Information, die für den Entwurf, die Konstruktion und die Benutzung eines Informationssystems benötigt wird“ • für DW: • notwendig zur Abdeckung der Informations-Schutz-und Sicherheitsbedürfnisse der Anwender und der Software • werden in allen Phasen produziert und genutzt • konsistente Bereitstellung der Metadaten aus • unterschiedlichen Quellen notwendig -> Repository BA Lörrach, WI 4.Semester 4/21/2002

  33. Data Warehouse Glossary Meta Data Nutzung • Passiv: • als Dokumentation der verschiedenen Aspekte eines DW-Systems • Aktiv: • Speicherung semantischer Aspekte (z.B. Transformationsregeln) sowie deren Interpretation zur Laufzeit • Semiaktiv: • Speicherung von Strukturinformationen (Tabellendefinitionen, • Konfigurationsspezifikationen) und Nutzung zur Überprüfung (nicht direkt zur Ausführung) BA Lörrach, WI 4.Semester 4/21/2002

  34. Data Warehouse Glossary Meta Data Objekte • Betriebswirtschaftliche Kennzahlen • Sichten für einzelne Anwendergruppen • Transformation der Daten aus Quellsystemen in das DW • Laderoutinen und Regeln • Aufbau von Anfragen, Filter, Anzeigeschablonen, BA Lörrach, WI 4.Semester 4/21/2002

  35. Data Warehouse Glossary Meta Data Objekte II • Administrationsinformationen: Zugriffsstatistiken,Backup/Recovery, Bildung von Aggregaten, ... • Datenbankparameter und -einstellungen: • Server, Hardware-Umgebung, Tuning-Parameter • Anfrage-Performance: • vorberechnete Aggregate, Caching, Optimierungsstrategien • Granularität der Daten BA Lörrach, WI 4.Semester 4/21/2002

  36. Data Warehouse Glossary Meta Data Objekte III • allgemeine Attribute: • Maßeinheiten etc. • Sicherheitsstrategie: • Anwenderprofile und -gruppen, Einschränkungen der Sichten • Berichts- und Analyseobjekte, Reports BA Lörrach, WI 4.Semester 4/21/2002

  37. Data Warehouse Glossary Meta Data Repository • Ziel 1: • Minimierung des Aufwandes für Aufbau und Betrieb eines DW • Systemintegration: • Integration auf Schema- und Datenebene erfordert Information über Struktur und Semantik der Quell- und Zielsysteme • einheitliche Verwaltung von Metadaten für Integration der DW-Werkzeuge • Automatisierung der Administration • Steuerung der DW-Prozesse über Scheduling-/ Konfigurationsmetadaten • Daten über Ausführung der Prozesse (Protokolle etc.) BA Lörrach, WI 4.Semester 4/21/2002

  38. Data Warehouse Glossary Meta Data Repository II • Ziel 1 (cont.): • Minimierung des Aufwandes für Aufbau und Betrieb eines DW • Flexibler Softwareentwurf • explizite Repräsentation sich häufig ändernder Aspekte (z.B. Transformationsregeln) • verbesserte Wartbarkeit und Erweiterbarkeit • Schutz- und Sicherheitsaspekte • Behandlung von Zugriffs- und Benutzerrechten als Metadaten • globale Zugriffsmechanismen BA Lörrach, WI 4.Semester 4/21/2002

  39. Data Warehouse Glossary Meta Data Repository III • Ziel 2: • Gewährleistung eines optimalen Informationsgewinns für alle Anwendergruppen • Datenqualität • Sicherstellung der geforderten Qualität durch Überprüfungsregeln • Nachvollziehbarkeitsinformationen (Quellsystem, Autor, Zeitpunkt usw.) • Terminologie • einheitliche Terminologie als Voraussetzung für einheitliche • Interpretation • zentrale Verwaltung im Metadaten-Repository BA Lörrach, WI 4.Semester 4/21/2002

  40. Data Warehouse Glossary Meta Data Repository IV • Ziel 2 (cont.): • Gewährleistung eines optimalen Informationsgewinns für alle Anwendergruppen • Datenanalyse • Metadaten über Bedeutung von Daten, Kennzahlensysteme, BA Lörrach, WI 4.Semester 4/21/2002

  41. Data Warehouse Glossary Meta Data Anforderungen bzgl. Funktionalität • Anwenderzugriff • Mechanismen zur Navigation, Filterung, Selektion von Metadaten • Unterstützung manueller Aktualisierung • Interoperabilität und Werkzeugunterstützung • Programmierschnittstelle für lesenden und schreibenden Zugriff • Import- und Exportschnittstellen • Erweiterbares Metamodell • Change Management • Versions- und Konfigurationsverwaltung • Benachrichtigungsmechanismen BA Lörrach, WI 4.Semester 4/21/2002

  42. Data Warehouse Architecure Reference Architecture I BA Lörrach, WI 4.Semester 4/21/2002

  43. Data Warehouse Architecure Reference Architecture II BA Lörrach, WI 4.Semester 4/21/2002

  44. Data Warehouse Architecure Extraction, Transformation and Load Process (ETL) • ETL-Prozeß • Integrationsprobleme • Data Cleaning • Data Capture Methods • Staging Area • Load Window This area typically takes 70% of the overall effort in building DWH ! BA Lörrach, WI 4.Semester 4/21/2002

  45. Data Warehouse Architecure ETL - Probleme • Vielzahl von Quellen • Heterogenität • Datenvolumen • Komplexität der Transformation • Schema- und Instanzintegration • Datenbereinigung • Kaum durchgängige Methoden- und System-unterstützung, jedoch Vielzahl von Werkzeugen vorhanden BA Lörrach, WI 4.Semester 4/21/2002

  46. Data Warehouse Architecure Extraction, Transformation and Load Process (ETL) Extraktion: Selektion eines Ausschnitts der Daten aus den Quellen und Bereitstellung für Transformation Transformation: Anpassung der Daten an vorgegebene Schema- und Qualitätsanforderungen Load: physisches Einbringen der Daten aus dem Arbeitsbereich (staging area) in das Data Warehouse (einschl. eventuell notwendiger Aggregationen) BA Lörrach, WI 4.Semester 4/21/2002

  47. Data Warehouse Architecure ETL - Definitionsphase BA Lörrach, WI 4.Semester 4/21/2002

  48. Data Warehouse Architecure ETL - Integrationsprobleme • Schwerpunkt: • Probleme der Datenintegration • Ausgangspunkt: • Daten liegen in den operativen Informationssystemen unterschiedliche Systeme • -> Heterogenität BA Lörrach, WI 4.Semester 4/21/2002

  49. Data Warehouse Architecure ETL - Anforderungen an Integration • alle relevanten Daten aus den operativen Systeme müssen im Data Warehouse aufgenommen werden können • Überführung unterschiedliche Strukturierungen / Darstellungen semantisch gleicher oder zusammengehöriger Daten aus den Quellsystemen in eine gemeinsame Repräsentation • Identifizierungen gleicher Informationen, die aus mehreren Systemen stammen • Beseitigung ungewünschter Redundanz, die Analyseergebnisse verfälschen kann BA Lörrach, WI 4.Semester 4/21/2002

  50. Data Warehouse Architecure ETL - Integrationskonflikten • Beschreibungskonflikte • Heterogenitätskonflikte • Strukturelle Konflikte • in der Regel kombiniertes Auftreten dieser Konfliktarten • zusätzlich- für Data Warehouses besonders wichtig: • Datenkonflikte BA Lörrach, WI 4.Semester 4/21/2002

More Related