Informationsintegration anwendungsszenarien
This presentation is the property of its rightful owner.
Sponsored Links
1 / 59

Informationsintegration Anwendungsszenarien PowerPoint PPT Presentation


  • 61 Views
  • Uploaded on
  • Presentation posted in: General

Informationsintegration Anwendungsszenarien. 20.10.2004 Felix Naumann. Überblick. Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Potential und Probleme der Informations-integration Redundanz Komplementierung. Real-life Informationsintegration.

Download Presentation

Informationsintegration Anwendungsszenarien

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Informationsintegration anwendungsszenarien

InformationsintegrationAnwendungsszenarien

20.10.2004

Felix Naumann


Berblick

Überblick

  • Beispiele der Informationsintegration

    • Data Warehouse

    • Föderierte Datenbanken

  • Potential und Probleme der Informations-integration

    • Redundanz

    • Komplementierung

Felix Naumann, VL Informationsintegration, WS 05/06


Real life informationsintegration

Real-life Informationsintegration

  • Überblick: Zwei wesentliche Modelle

    • Data Warehouses

      • Materialisierte Integration

      • Am Beispiel Buchhändler (Folien von Prof. Leser)

    • Föderierte Datenbanken

      • Virtuelle Integration

      • Am Beispiel einer Life Sciences DB (DiscoveryLink)

      • Weitere Beispiele

Felix Naumann, VL Informationsintegration, WS 05/06


Data warehouse

Data Warehouse

  • Eine oder mehrere (ähnliche) Datenbanken mit Bücherverkaufsinformationen

  • Daten werden oft aktualisiert

    • Jede Bestellung einzeln

    • Katalog Updates täglich

  • Management benötigt Entscheidungshilfen (decision support)

  • Komplexe Anfragen

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


B cher im internet bestellen

BackupDurchsatzLoad-balancing

PortfolioUmsatzWerbung

Datenbank

Bücher im Internet bestellen

Zielkonflikt

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


Die datenbank dazu

Order

Order_id

Book_idamount

single_price

Orders

Id

Day_id

Customer_id

Total_amt

Day

Iddaymonth_id

Month

IdMonth

year_id

Year

idyear

Customer

idname

Book

idBook_group_id

Bookgroup

idname

Die Datenbank dazu

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


Fragen eines marketingleiters

Customer

idname

Order

Order_id

book_idamount

single_price

Orders

Id

Day_id

Customer_id

Total_amt

Day

Iddaymonth_id

Month

IdMonth

year_id

Year

idyear

Book

idBook_group_id

Bookgroup

idname

Fragen eines Marketingleiters

Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach Produktgruppen?

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


Technisch

Customer

idname

Book

idBook_group_id

Orders

Id

Day_id

Customer_id

Total_amt

Month

IdMonth

year_id

Year

idyear

Bookgroup

idname

Order

Order_id

Book_idamount

single_price

Day

Iddaymonth_id

Technisch

SELECTY.year, PG.name, count(B.id)FROMyear Y, month M, day D, order O, orders OS, book B, bookgroup BGWHEREM.year = Y.id andM.id = D.month andO.day_id = D.id andOS.order_id = O.id andB.id = O.book_id andB.book_group_id = BG.id andday < 24 and month = 12GROUP BY Y.year, PG.product_nameORDER BY Y.year

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


Technisch1

  • 6 Joins

  • Year: 10 Records

  • Month: 120 Records

  • Day: 3650 Records

  • Orders:36.000.000

  • Order:72.000.000

  • Books: 200.000

  • Bookgroups:100

  • Problem!

  • Schwierig zu optimieren (Join-Reihenfolge)

  • Je nach Ausführungsplan riesige Zwischenergebnisse

  • Ähnliche Anfragen – ähnlich riesige Zwischenergebnisse

Technisch

SELECTY.year, PG.name, count(B.id)FROMyear Y, month M, day D, order O, orders OS,book B, bookgroup BGWHEREM.year = Y.id andM.id = D.month andO.day_id = D.id andOS.order_id = O.id andB.id = O.book_id andB.book_group_id = BG.id andday < 24 and month = 12GROUP BY Y.year, PG.product_nameORDER BY Y.year

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


In wahrheit noch schlimmer

In Wahrheit ... noch schlimmer

  • Es gibt noch:

    • Amazon.de

    • Amazon.fr

    • Amazon.it

    • ...

  • Verteilte Ausführung

    • Count über Union mehrerer gleicher Anfragen in unterschiedlichen Datenbanken

HILFE!

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


In wahrheit

In Wahrheit ...

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


Technisch eine view

Technisch: Eine VIEW

CREATE VIEW christmas AS

SELECT Y.year, PG.name, count(B.id)FROM DE.year Y, DE.month M, DE.day D, DE.order O, ... WHERE M.year = Y.id and...GROUP BYY.year, PG.product_nameORDER BY Y.year

UNION

SELECT Y.year, PG.name, count(B.id)FROMEN.year Y, EN.month M, EN.day D, DE.order O, ...WHEREM.year = Y.id and...

SELECT year, name, count(B.id)FROM christmasGROUP BYyear, nameORDER BYyear

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


Probleme

Probleme

  • Count über Union über verteilte Datenbanken?

    • Integrationsproblem

  • Berechnung riesiger Zwischenergebnisse bei jeder Anfrage?

    • Datenmengenproblem

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


L sung des integrationsproblems

Lösung des Integrationsproblems?

Zentrale Datenbank

  • Aber Probleme:

    • Zweigstellen schreiben übers Netz

    • Schlechter Durchsatz

    • Lange Antwortzeiten im operativen Betrieb

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


L sung datenmengenproblem

Lösung Datenmengenproblem?

Denormalisierte Schema

  • Aber Probleme:

    • Jeder lesende / schreibende Zugriff erfolgt auf eine Tabelle mit 72 Mill. Records

    • Lange Antwortzeiten im operativen Betrieb

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


Zielkonflikt

Zielkonflikt

Felix Naumann, VL Informationsintegration, WS 05/06


Tats chliche l sung

Tatsächliche Lösung

Aufbau eines Data Warehouse

  • Redundante, transformierte Datenhaltung

  • Asynchrone Aktualisierung

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


Weitere anwendungsgebiete data warehouses

Weitere Anwendungsgebiete: Data Warehouses

  • „Customer Relationship Management“ (CRM)

    • Identifikation von Premiumkunden

    • Personalisierung / Automatische Kundenberatung

    • Gezielte Massen-Mailings (Direktvertrieb)

  • Controlling / Rechnungswesen

    • Kostenstellen

    • Organisationseinheiten

    • Personalmanagement

  • Logistik

    • Flottenmanagement, Tracking

  • Gesundheitswesen

    • Studienüberwachung, Patiententracking

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


Berblick1

Überblick

  • Beispiele der Informationsintegration

    • Data Warehouse

    • Föderierte Datenbanken

  • Probleme und Potential der Informationsintegration

    • Redundanz

    • Komplementierung

Felix Naumann, VL Informationsintegration, WS 05/06


F derierte datenbanken

Föderierte Datenbanken

  • Mehrere autonome Informationsquellen

  • Mit unterschiedlichsten Inhalten

    • Gene, Proteine, BLAST, etc.

  • Und unterschiedlichsten Schnittstellen

    • HTML-Form, flat file, SQL, etc.

  • Wissenschaftler (Biologe) benötigt z.B. möglichst viele Informationen über ein bestimmtes Protein

    • Funktion, Veröffentlichungen, verwandte Proteine usw.

  • Sehr komplexe Anfragen

  • Üblicher Ansatz: Browsing, Note-Taking, Copy & Paste

  • Föderierte Datenbanken (wie DiscoveryLink) helfen.

Felix Naumann, VL Informationsintegration, WS 05/06


Frage eines biologen

Frage eines Biologen

Finde alle menschlichen EST Sequenzen, die nach BLAST

zu mindestens 60% über mindestens 50 Aminosäuren

identisch sind mit mouse-channel Genen im Gewebe des

zentralen Nervensystems.

Quelle für das komplette Beispiel: A Practitioner’s Guide to Data Management and

Data Integration in Bioinformatics, Barbara A. Eckman in

Bioinformatics by Zoe Lacroix and Terence Critchlow, 2003, Morgan Kaufmann.

Felix Naumann, VL Informationsintegration, WS 05/06


Verschiedene informationsquellen

Verschiedene Informationsquellen

  • Beteiligte Informationsquellen

    • Mouse Genome Database (MGD) @ Jackson Labs

    • SwissProt @ EBI

    • BLAST tool @ NCBI

    • GenBank nucleotide sequence database @ NCBI

  • Alle Quellen sind frei verfügbar

Felix Naumann, VL Informationsintegration, WS 05/06


Herk mmlicher ansatz browsing

Herkömmlicher Ansatz: Browsing

1. Suche „channel“ Sequenzen im Gewebe des ZNS durch MGD HTML Formular

Felix Naumann, VL Informationsintegration, WS 05/06


Herk mmlicher ansatz browsing1

Herkömmlicher Ansatz: Browsing

  • MGD Resultat

    • 14 Gene aus 17 Experimenten

Felix Naumann, VL Informationsintegration, WS 05/06


Herk mmlicher ansatz browsing2

Herkömmlicher Ansatz: Browsing

  • Details zu jedem der 14 Gene ansehen

  • Durchschnittlich fünf SwissProt Links pro Gen

Felix Naumann, VL Informationsintegration, WS 05/06


Herk mmlicher ansatz browsing3

Herkömmlicher Ansatz: Browsing

  • Betrachten jedes SwissProt Eintrages

  • Durch Klick BLAST Algorithmus anwerfen

Felix Naumann, VL Informationsintegration, WS 05/06


Herk mmlicher ansatz browsing4

Herkömmlicher Ansatz: Browsing

  • Betrachten jedes BLAST Resultats um

    • nicht-menschliche Treffer zu eliminieren,

    • andere Bedingungen zu prüfen (>60% Identität, etc.)

Felix Naumann, VL Informationsintegration, WS 05/06


Herk mmlicher ansatz browsing5

Herkömmlicher Ansatz: Browsing

  • Für jeden verbleibenden Eintrag

    • Komplette EST Sequenz bei GenBank holen

Alles sehr mühselig!

Felix Naumann, VL Informationsintegration, WS 05/06


Idee der integration

Idee der Integration

  • Bildung eines globalen Schemas (Schemaintegration)

    • Gespeichert als Datenbankschema in DiscoveryLink

  • Generierung von Wrappern für jede Datenquelle

    • Softwarekomponente

    • Mapping von lokalen Schemata auf globales Schema

    • Kennt Anfragefähigkeiten der Quellen

Felix Naumann, VL Informationsintegration, WS 05/06


Discoverylink architektur

DiscoveryLink Architektur

Felix Naumann, VL Informationsintegration, WS 05/06


Eigenschaften f derierter is und discoverylink

Eigenschaften föderierter IS (und DiscoveryLink)

  • Daten bleiben vor Ort.

  • Informationsquellen sind autonom (und wissen oft nicht von ihrer Integration).

  • Anfragen werden deklarativ an das globale Schema gestellt.

  • Anfrage wird so verteilt wie möglich ausgeführt.

    • Je nach Mächtigkeit der Quellen

    • DiscoveryLink gleicht etwaige mangelnder Fähigkeiten aus.

Felix Naumann, VL Informationsintegration, WS 05/06


F derierter dbms ansatz

Föderierter DBMS Ansatz

„Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems.“

  • „Einfache“ SQL-Anfrage um alle vorigen Schritte zu vereinen:

    SELECTg.accnum,g.sequence

    FROMgenbank g, blast b, swissprot s, mgd m

    WHERE m.exp = “CNS”

    ANDm.defn LIKE “%channel%”

    ANDm.spid = s.id AND s.seq = b.query

    AND b.hit = g.accnum

    AND b.percentid > 60 AND b.alignlen > 50

Felix Naumann, VL Informationsintegration, WS 05/06


F derierter dbms ansatz1

Föderierter DBMS Ansatz

  • Effiziente Ausführung durch Optimierer

    • Herkömmliche Optimierung

    • Wrapper helfen mit

      • Kostenmodell

      • domänenspezifischen Funktionen

  • Sichere Ausführung

    • Wiederholbar

    • Transaktional

Felix Naumann, VL Informationsintegration, WS 05/06


Weitere anwendungsgebiete f derierte datenbanken

Weitere Anwendungsgebiete: Föderierte Datenbanken

  • Meta-Suchmaschinen

  • Unternehmensfusionen

    • Kundendatenbanken

    • Personaldatenbanken

  • Grid

  • Krankenhausinformationssysteme

    • Röntgenbilder

    • Krankheitsverlauf (Akte)

    • Verwaltung

    • Krankenkasse...

  • Verteiltes Arbeiten („groupware“)

  • Peer Data Management und P2P

Felix Naumann, VL Informationsintegration, WS 05/06


Berblick2

Überblick

  • Beispiele der Informationsintegration

    • Data Warehouse

    • Föderierte Datenbanken

  • Probleme und Potential der Informationsintegration

    • Redundanz

    • Komplementierung

Felix Naumann, VL Informationsintegration, WS 05/06


Integrationspotential

Integrationspotential

  • Wann ist Informationsintegration möglich?

    • Intensionale Redundanz

  • Wann ist Informationsintegration schwierig?

    • Extensionale Redundanz

  • Wann ist Informationsintegration nützlich?

    • Extensionale Komplementierung

    • Intensionale Komplementierung

Felix Naumann, VL Informationsintegration, WS 05/06


Intension extension

Intension & Extension

  • Definition: Intension

    • Die Intension eines Informationssystems ist die Menge der Schemainformationen und deren Semantik (Bedeutung).

  • Definition: Extension

    • Die Extension eines Informationssystems ist die Menge aller zur Intension gehörigen, zugreifbaren Daten.

Felix Naumann, VL Informationsintegration, WS 05/06


Intension extension1

Intension & Extension

  • Die Intension einer Datenbank

    • Schema für eine Menge von Entitäten/Dingen

    • Semantik

  • Die Extension einer Datenbank

    • Zustand

    • Menge von Entitäten

Buch

Felix Naumann, VL Informationsintegration, WS 05/06


Redundanz und komplementierung

Redundanz und Komplementierung

  • Redundanz hilft

    • zur Verifikation

    • Nur bei gewisser Redundanz kann Komplementierung genutzt werden

  • Komplementierung ist gut

    • Hier liegt der eigentliche „Sinn“ der Informationsintegration.

    • Informationen mehrerer (sich komplementierender) Quellen werden zu einem größeren Ganzen integriert.

Felix Naumann, VL Informationsintegration, WS 05/06


Intensionale redundanz

Intensionale Redundanz

Intensionale Redundanz liegt vor, wenn das Entfernen von Teilen

der Intension die Gesamtintension nicht verändert.

Felix Naumann, VL Informationsintegration, WS 05/06


Intensionale redundanz1

Intensionale Redundanz

Intensionale Redundanz trotz unterschiedlicher Label?

Ja, denn Semantik zählt!

Felix Naumann, VL Informationsintegration, WS 05/06


Intensionale redundanz2

Intensionale Redundanz

Quelle 1

Quelle 2

Intensionale Redundanz auch über mehrere Relationen und Quellen.

Felix Naumann, VL Informationsintegration, WS 05/06


Potential intensionaler redundanz

Potential Intensionaler Redundanz

Quelle 1

Quelle 2

Verifikation

Felix Naumann, VL Informationsintegration, WS 05/06


Potential intensionaler redundanz1

Potential Intensionaler Redundanz

Quelle 1

Quelle 2

Integration

Felix Naumann, VL Informationsintegration, WS 05/06


Potential intensionaler redundanz2

Potential Intensionaler Redundanz

Quelle 1 + 2

Integration

Felix Naumann, VL Informationsintegration, WS 05/06


Intensionale komplementierung

Intensionale Komplementierung

Quelle 1

Quelle 2

  • Intensionale Komplementierung liegt vor, wenn von zwei Intensionen

  • mindestens eine Differenz ist nicht leer ist,

  • und deren Schnittmenge nicht leer ist.

Felix Naumann, VL Informationsintegration, WS 05/06


Potential intensionaler komplementierung

Potential Intensionaler Komplementierung

Quelle 1

Quelle 2

???

Verdichtung: Mehr Informationen über einzelne Objekte

???

Felix Naumann, VL Informationsintegration, WS 05/06


Potential intensionaler komplementierung1

Potential Intensionaler Komplementierung

Quelle 1

Quelle 2

???

Verdichtung nicht immer leicht.

???

Felix Naumann, VL Informationsintegration, WS 05/06


Extensionale redundanz

Extensionale Redundanz

Quelle 1

Quelle 2

Extensionale Redundanz liegt vor, wenn die Menge der von zwei

Quellen gemeinsam repräsentierten Objekte nicht leer ist.

Felix Naumann, VL Informationsintegration, WS 05/06


Extensionale redundanz1

Extensionale Redundanz

Quelle 1

Quelle 2

Extensionale Redundanz nur über Teile der Quellen.

Felix Naumann, VL Informationsintegration, WS 05/06


Probleme extensionaler redundanz

Extensionale Redundanz

Daten-Konflikt

Probleme Extensionaler Redundanz

Quelle 1

Quelle 2

Extensionale Redundanz ist nur auf „real-world“ Objekten definiert,

nicht auf den Daten über sie.

Felix Naumann, VL Informationsintegration, WS 05/06


Extensionale komplementierung

Extensionale Komplementierung

Quelle 1

Quelle 2

Extensionale Komplementierung liegt vor, wenn die Differenz der

repräsentierten Objekte zweier Quellen nicht leer ist.

Felix Naumann, VL Informationsintegration, WS 05/06


Potential extensionaler komplementierung

Potential Extensionaler Komplementierung

Quelle 1 + Quelle 2

Höhere Überdeckung

Felix Naumann, VL Informationsintegration, WS 05/06


Extensionaler komplementierung mit extensionaler redundanz

Extensionaler Komplementierung mit Extensionaler Redundanz

Quelle 1

Quelle 2

Felix Naumann, VL Informationsintegration, WS 05/06


Probleme extensionaler komplementierung und redundanz

Probleme Extensionaler Komplementierung und Redundanz

Quelle 1 + Quelle 2

Datenkonflikt

Felix Naumann, VL Informationsintegration, WS 05/06


Der allgemeine fall

Der Allgemeine Fall

Quelle 1A(V)B(W)C(X)D(Y)

a1 b1 c1 d1

a2 b2 - d2

Intensionale Redundanz

Extensionale Redundanz

Extensionale

Komplementierung

Quelle 2A(V)D(W)E(X)F(Z)

a2 d2 c2 -

a3 d3 e3 f3

Intensionale

Komplementierung

Quelle 1 & 2A(V)B/D(W) C/E(X) D(Y)F(Z)

a1 b1 c1 d1 -

a2f(b2,d2) c2 d2 -

a3 d3 e3 - f3

Felix Naumann, VL Informationsintegration, WS 05/06


Zusammenfassung redundanz

Zusammenfassung Redundanz

  • Intensionale Redundanz ermöglicht extensionale Komplementierung

    • Zwei Quellen mit gleichem Schema können zu einer überdeckenderen Quelle integriert werden

    • Coverage

  • Extensionale Redundanz ermöglicht intensionale Komplementierung

    • Zwei Quellen, die über gleiche Dinge sprechen können zu einer dichteren Quelle integriert werden.

    • Density

  • Insgesamt ist das Ziel der Integration eine vollständigere Quelle (completeness)

Felix Naumann, VL Informationsintegration, WS 05/06


Zusammenfassung data warehouse

Zusammenfassung: Data Warehouse

Aufbau eines Data Warehouse

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06


Zusammenfassung f derierte dbms is

Zusammenfassung: Föderierte DBMS/IS

Felix Naumann, VL Informationsintegration, WS 05/06


  • Login