informationsintegration anwendungsszenarien
Download
Skip this Video
Download Presentation
Informationsintegration Anwendungsszenarien

Loading in 2 Seconds...

play fullscreen
1 / 59

Informationsintegration Anwendungsszenarien - PowerPoint PPT Presentation


  • 82 Views
  • Uploaded on

Informationsintegration Anwendungsszenarien. 20.10.2004 Felix Naumann. Überblick. Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Potential und Probleme der Informations-integration Redundanz Komplementierung. Real-life Informationsintegration.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Informationsintegration Anwendungsszenarien' - tucker-bender


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
berblick
Überblick
  • Beispiele der Informationsintegration
    • Data Warehouse
    • Föderierte Datenbanken
  • Potential und Probleme der Informations-integration
    • Redundanz
    • Komplementierung

Felix Naumann, VL Informationsintegration, WS 05/06

real life informationsintegration
Real-life Informationsintegration
  • Überblick: Zwei wesentliche Modelle
    • Data Warehouses
      • Materialisierte Integration
      • Am Beispiel Buchhändler (Folien von Prof. Leser)
    • Föderierte Datenbanken
      • Virtuelle Integration
      • Am Beispiel einer Life Sciences DB (DiscoveryLink)
      • Weitere Beispiele

Felix Naumann, VL Informationsintegration, WS 05/06

data warehouse
Data Warehouse
  • Eine oder mehrere (ähnliche) Datenbanken mit Bücherverkaufsinformationen
  • Daten werden oft aktualisiert
    • Jede Bestellung einzeln
    • Katalog Updates täglich
  • Management benötigt Entscheidungshilfen (decision support)
  • Komplexe Anfragen

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

b cher im internet bestellen

BackupDurchsatzLoad-balancing

PortfolioUmsatzWerbung

Datenbank

Bücher im Internet bestellen

Zielkonflikt

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

die datenbank dazu

Order

Order_id

Book_idamount

single_price

Orders

Id

Day_id

Customer_id

Total_amt

Day

Iddaymonth_id

Month

IdMonth

year_id

Year

idyear

Customer

idname

Book

idBook_group_id

Bookgroup

idname

Die Datenbank dazu

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

fragen eines marketingleiters

Customer

idname

Order

Order_id

book_idamount

single_price

Orders

Id

Day_id

Customer_id

Total_amt

Day

Iddaymonth_id

Month

IdMonth

year_id

Year

idyear

Book

idBook_group_id

Bookgroup

idname

Fragen eines Marketingleiters

Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach Produktgruppen?

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

technisch

Customer

idname

Book

idBook_group_id

Orders

Id

Day_id

Customer_id

Total_amt

Month

IdMonth

year_id

Year

idyear

Bookgroup

idname

Order

Order_id

Book_idamount

single_price

Day

Iddaymonth_id

Technisch

SELECT Y.year, PG.name, count(B.id)FROM year Y, month M, day D, order O, orders OS, book B, bookgroup BGWHERE M.year = Y.id and M.id = D.month and O.day_id = D.id and OS.order_id = O.id and B.id = O.book_id and B.book_group_id = BG.id and day < 24 and month = 12GROUP BY Y.year, PG.product_nameORDER BY Y.year

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

technisch1

6 Joins

  • Year: 10 Records
  • Month: 120 Records
  • Day: 3650 Records
  • Orders: 36.000.000
  • Order: 72.000.000
  • Books: 200.000
  • Bookgroups: 100
  • Problem!
  • Schwierig zu optimieren (Join-Reihenfolge)
  • Je nach Ausführungsplan riesige Zwischenergebnisse
  • Ähnliche Anfragen – ähnlich riesige Zwischenergebnisse
Technisch

SELECT Y.year, PG.name, count(B.id)FROM year Y, month M, day D, order O, orders OS, book B, bookgroup BGWHERE M.year = Y.id and M.id = D.month and O.day_id = D.id and OS.order_id = O.id and B.id = O.book_id and B.book_group_id = BG.id and day < 24 and month = 12GROUP BY Y.year, PG.product_nameORDER BY Y.year

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

in wahrheit noch schlimmer
In Wahrheit ... noch schlimmer
  • Es gibt noch:
    • Amazon.de
    • Amazon.fr
    • Amazon.it
    • ...
  • Verteilte Ausführung
    • Count über Union mehrerer gleicher Anfragen in unterschiedlichen Datenbanken

HILFE!

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

in wahrheit
In Wahrheit ...

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

technisch eine view
Technisch: Eine VIEW

CREATE VIEW christmas AS

SELECT Y.year, PG.name, count(B.id)FROM DE.year Y, DE.month M, DE.day D, DE.order O, ... WHERE M.year = Y.id and...GROUP BY Y.year, PG.product_nameORDER BY Y.year

UNION

SELECT Y.year, PG.name, count(B.id)FROM EN.year Y, EN.month M, EN.day D, DE.order O, ...WHERE M.year = Y.id and...

SELECT year, name, count(B.id)FROM christmasGROUP BY year, nameORDER BY year

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

probleme
Probleme
  • Count über Union über verteilte Datenbanken?
    • Integrationsproblem
  • Berechnung riesiger Zwischenergebnisse bei jeder Anfrage?
    • Datenmengenproblem

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

l sung des integrationsproblems
Lösung des Integrationsproblems?

Zentrale Datenbank

  • Aber Probleme:
    • Zweigstellen schreiben übers Netz
    • Schlechter Durchsatz
    • Lange Antwortzeiten im operativen Betrieb

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

l sung datenmengenproblem
Lösung Datenmengenproblem?

Denormalisierte Schema

  • Aber Probleme:
    • Jeder lesende / schreibende Zugriff erfolgt auf eine Tabelle mit 72 Mill. Records
    • Lange Antwortzeiten im operativen Betrieb

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

zielkonflikt
Zielkonflikt

Felix Naumann, VL Informationsintegration, WS 05/06

tats chliche l sung
Tatsächliche Lösung

Aufbau eines Data Warehouse

  • Redundante, transformierte Datenhaltung
  • Asynchrone Aktualisierung

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

weitere anwendungsgebiete data warehouses
Weitere Anwendungsgebiete: Data Warehouses
  • „Customer Relationship Management“ (CRM)
    • Identifikation von Premiumkunden
    • Personalisierung / Automatische Kundenberatung
    • Gezielte Massen-Mailings (Direktvertrieb)
  • Controlling / Rechnungswesen
    • Kostenstellen
    • Organisationseinheiten
    • Personalmanagement
  • Logistik
    • Flottenmanagement, Tracking
  • Gesundheitswesen
    • Studienüberwachung, Patiententracking

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

berblick1
Überblick
  • Beispiele der Informationsintegration
    • Data Warehouse
    • Föderierte Datenbanken
  • Probleme und Potential der Informationsintegration
    • Redundanz
    • Komplementierung

Felix Naumann, VL Informationsintegration, WS 05/06

f derierte datenbanken
Föderierte Datenbanken
  • Mehrere autonome Informationsquellen
  • Mit unterschiedlichsten Inhalten
    • Gene, Proteine, BLAST, etc.
  • Und unterschiedlichsten Schnittstellen
    • HTML-Form, flat file, SQL, etc.
  • Wissenschaftler (Biologe) benötigt z.B. möglichst viele Informationen über ein bestimmtes Protein
    • Funktion, Veröffentlichungen, verwandte Proteine usw.
  • Sehr komplexe Anfragen
  • Üblicher Ansatz: Browsing, Note-Taking, Copy & Paste
  • Föderierte Datenbanken (wie DiscoveryLink) helfen.

Felix Naumann, VL Informationsintegration, WS 05/06

frage eines biologen
Frage eines Biologen

Finde alle menschlichen EST Sequenzen, die nach BLAST

zu mindestens 60% über mindestens 50 Aminosäuren

identisch sind mit mouse-channel Genen im Gewebe des

zentralen Nervensystems.

Quelle für das komplette Beispiel: A Practitioner’s Guide to Data Management and

Data Integration in Bioinformatics, Barbara A. Eckman in

Bioinformatics by Zoe Lacroix and Terence Critchlow, 2003, Morgan Kaufmann.

Felix Naumann, VL Informationsintegration, WS 05/06

verschiedene informationsquellen
Verschiedene Informationsquellen
  • Beteiligte Informationsquellen
    • Mouse Genome Database (MGD) @ Jackson Labs
    • SwissProt @ EBI
    • BLAST tool @ NCBI
    • GenBank nucleotide sequence database @ NCBI
  • Alle Quellen sind frei verfügbar

Felix Naumann, VL Informationsintegration, WS 05/06

herk mmlicher ansatz browsing
Herkömmlicher Ansatz: Browsing

1. Suche „channel“ Sequenzen im Gewebe des ZNS durch MGD HTML Formular

Felix Naumann, VL Informationsintegration, WS 05/06

herk mmlicher ansatz browsing1
Herkömmlicher Ansatz: Browsing
  • MGD Resultat
    • 14 Gene aus 17 Experimenten

Felix Naumann, VL Informationsintegration, WS 05/06

herk mmlicher ansatz browsing2
Herkömmlicher Ansatz: Browsing
  • Details zu jedem der 14 Gene ansehen
  • Durchschnittlich fünf SwissProt Links pro Gen

Felix Naumann, VL Informationsintegration, WS 05/06

herk mmlicher ansatz browsing3
Herkömmlicher Ansatz: Browsing
  • Betrachten jedes SwissProt Eintrages
  • Durch Klick BLAST Algorithmus anwerfen

Felix Naumann, VL Informationsintegration, WS 05/06

herk mmlicher ansatz browsing4
Herkömmlicher Ansatz: Browsing
  • Betrachten jedes BLAST Resultats um
    • nicht-menschliche Treffer zu eliminieren,
    • andere Bedingungen zu prüfen (>60% Identität, etc.)

Felix Naumann, VL Informationsintegration, WS 05/06

herk mmlicher ansatz browsing5
Herkömmlicher Ansatz: Browsing
  • Für jeden verbleibenden Eintrag
    • Komplette EST Sequenz bei GenBank holen

Alles sehr mühselig!

Felix Naumann, VL Informationsintegration, WS 05/06

idee der integration
Idee der Integration
  • Bildung eines globalen Schemas (Schemaintegration)
    • Gespeichert als Datenbankschema in DiscoveryLink
  • Generierung von Wrappern für jede Datenquelle
    • Softwarekomponente
    • Mapping von lokalen Schemata auf globales Schema
    • Kennt Anfragefähigkeiten der Quellen

Felix Naumann, VL Informationsintegration, WS 05/06

discoverylink architektur
DiscoveryLink Architektur

Felix Naumann, VL Informationsintegration, WS 05/06

eigenschaften f derierter is und discoverylink
Eigenschaften föderierter IS (und DiscoveryLink)
  • Daten bleiben vor Ort.
  • Informationsquellen sind autonom (und wissen oft nicht von ihrer Integration).
  • Anfragen werden deklarativ an das globale Schema gestellt.
  • Anfrage wird so verteilt wie möglich ausgeführt.
    • Je nach Mächtigkeit der Quellen
    • DiscoveryLink gleicht etwaige mangelnder Fähigkeiten aus.

Felix Naumann, VL Informationsintegration, WS 05/06

f derierter dbms ansatz
Föderierter DBMS Ansatz

„Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems.“

  • „Einfache“ SQL-Anfrage um alle vorigen Schritte zu vereinen:

SELECT g.accnum,g.sequence

FROM genbank g, blast b, swissprot s, mgd m

WHERE m.exp = “CNS”

AND m.defn LIKE “%channel%”

AND m.spid = s.id AND s.seq = b.query

AND b.hit = g.accnum

AND b.percentid > 60 AND b.alignlen > 50

Felix Naumann, VL Informationsintegration, WS 05/06

f derierter dbms ansatz1
Föderierter DBMS Ansatz
  • Effiziente Ausführung durch Optimierer
    • Herkömmliche Optimierung
    • Wrapper helfen mit
      • Kostenmodell
      • domänenspezifischen Funktionen
  • Sichere Ausführung
    • Wiederholbar
    • Transaktional

Felix Naumann, VL Informationsintegration, WS 05/06

weitere anwendungsgebiete f derierte datenbanken
Weitere Anwendungsgebiete: Föderierte Datenbanken
  • Meta-Suchmaschinen
  • Unternehmensfusionen
    • Kundendatenbanken
    • Personaldatenbanken
  • Grid
  • Krankenhausinformationssysteme
    • Röntgenbilder
    • Krankheitsverlauf (Akte)
    • Verwaltung
    • Krankenkasse...
  • Verteiltes Arbeiten („groupware“)
  • Peer Data Management und P2P

Felix Naumann, VL Informationsintegration, WS 05/06

berblick2
Überblick
  • Beispiele der Informationsintegration
    • Data Warehouse
    • Föderierte Datenbanken
  • Probleme und Potential der Informationsintegration
    • Redundanz
    • Komplementierung

Felix Naumann, VL Informationsintegration, WS 05/06

integrationspotential
Integrationspotential
  • Wann ist Informationsintegration möglich?
    • Intensionale Redundanz
  • Wann ist Informationsintegration schwierig?
    • Extensionale Redundanz
  • Wann ist Informationsintegration nützlich?
    • Extensionale Komplementierung
    • Intensionale Komplementierung

Felix Naumann, VL Informationsintegration, WS 05/06

intension extension
Intension & Extension
  • Definition: Intension
    • Die Intension eines Informationssystems ist die Menge der Schemainformationen und deren Semantik (Bedeutung).
  • Definition: Extension
    • Die Extension eines Informationssystems ist die Menge aller zur Intension gehörigen, zugreifbaren Daten.

Felix Naumann, VL Informationsintegration, WS 05/06

intension extension1
Intension & Extension
  • Die Intension einer Datenbank
    • Schema für eine Menge von Entitäten/Dingen
    • Semantik
  • Die Extension einer Datenbank
    • Zustand
    • Menge von Entitäten

Buch

Felix Naumann, VL Informationsintegration, WS 05/06

redundanz und komplementierung
Redundanz und Komplementierung
  • Redundanz hilft
    • zur Verifikation
    • Nur bei gewisser Redundanz kann Komplementierung genutzt werden
  • Komplementierung ist gut
    • Hier liegt der eigentliche „Sinn“ der Informationsintegration.
    • Informationen mehrerer (sich komplementierender) Quellen werden zu einem größeren Ganzen integriert.

Felix Naumann, VL Informationsintegration, WS 05/06

intensionale redundanz
Intensionale Redundanz

Intensionale Redundanz liegt vor, wenn das Entfernen von Teilen

der Intension die Gesamtintension nicht verändert.

Felix Naumann, VL Informationsintegration, WS 05/06

intensionale redundanz1
Intensionale Redundanz

Intensionale Redundanz trotz unterschiedlicher Label?

Ja, denn Semantik zählt!

Felix Naumann, VL Informationsintegration, WS 05/06

intensionale redundanz2
Intensionale Redundanz

Quelle 1

Quelle 2

Intensionale Redundanz auch über mehrere Relationen und Quellen.

Felix Naumann, VL Informationsintegration, WS 05/06

potential intensionaler redundanz
Potential Intensionaler Redundanz

Quelle 1

Quelle 2

Verifikation

Felix Naumann, VL Informationsintegration, WS 05/06

potential intensionaler redundanz1
Potential Intensionaler Redundanz

Quelle 1

Quelle 2

Integration

Felix Naumann, VL Informationsintegration, WS 05/06

potential intensionaler redundanz2
Potential Intensionaler Redundanz

Quelle 1 + 2

Integration

Felix Naumann, VL Informationsintegration, WS 05/06

intensionale komplementierung
Intensionale Komplementierung

Quelle 1

Quelle 2

  • Intensionale Komplementierung liegt vor, wenn von zwei Intensionen
  • mindestens eine Differenz ist nicht leer ist,
  • und deren Schnittmenge nicht leer ist.

Felix Naumann, VL Informationsintegration, WS 05/06

potential intensionaler komplementierung
Potential Intensionaler Komplementierung

Quelle 1

Quelle 2

???

Verdichtung: Mehr Informationen über einzelne Objekte

???

Felix Naumann, VL Informationsintegration, WS 05/06

potential intensionaler komplementierung1
Potential Intensionaler Komplementierung

Quelle 1

Quelle 2

???

Verdichtung nicht immer leicht.

???

Felix Naumann, VL Informationsintegration, WS 05/06

extensionale redundanz
Extensionale Redundanz

Quelle 1

Quelle 2

Extensionale Redundanz liegt vor, wenn die Menge der von zwei

Quellen gemeinsam repräsentierten Objekte nicht leer ist.

Felix Naumann, VL Informationsintegration, WS 05/06

extensionale redundanz1
Extensionale Redundanz

Quelle 1

Quelle 2

Extensionale Redundanz nur über Teile der Quellen.

Felix Naumann, VL Informationsintegration, WS 05/06

probleme extensionaler redundanz

Extensionale Redundanz

Daten-Konflikt

Probleme Extensionaler Redundanz

Quelle 1

Quelle 2

Extensionale Redundanz ist nur auf „real-world“ Objekten definiert,

nicht auf den Daten über sie.

Felix Naumann, VL Informationsintegration, WS 05/06

extensionale komplementierung
Extensionale Komplementierung

Quelle 1

Quelle 2

Extensionale Komplementierung liegt vor, wenn die Differenz der

repräsentierten Objekte zweier Quellen nicht leer ist.

Felix Naumann, VL Informationsintegration, WS 05/06

potential extensionaler komplementierung
Potential Extensionaler Komplementierung

Quelle 1 + Quelle 2

Höhere Überdeckung

Felix Naumann, VL Informationsintegration, WS 05/06

extensionaler komplementierung mit extensionaler redundanz
Extensionaler Komplementierung mit Extensionaler Redundanz

Quelle 1

Quelle 2

Felix Naumann, VL Informationsintegration, WS 05/06

probleme extensionaler komplementierung und redundanz
Probleme Extensionaler Komplementierung und Redundanz

Quelle 1 + Quelle 2

Datenkonflikt

Felix Naumann, VL Informationsintegration, WS 05/06

der allgemeine fall
Der Allgemeine Fall

Quelle 1 A(V) B(W) C(X) D(Y)

a1 b1 c1 d1

a2 b2 - d2

Intensionale Redundanz

Extensionale Redundanz

Extensionale

Komplementierung

Quelle 2 A(V) D(W) E(X) F(Z)

a2 d2 c2 -

a3 d3 e3 f3

Intensionale

Komplementierung

Quelle 1 & 2 A(V) B/D(W) C/E(X) D(Y) F(Z)

a1 b1 c1 d1 -

a2 f(b2,d2) c2 d2 -

a3 d3 e3 - f3

Felix Naumann, VL Informationsintegration, WS 05/06

zusammenfassung redundanz
Zusammenfassung Redundanz
  • Intensionale Redundanz ermöglicht extensionale Komplementierung
    • Zwei Quellen mit gleichem Schema können zu einer überdeckenderen Quelle integriert werden
    • Coverage
  • Extensionale Redundanz ermöglicht intensionale Komplementierung
    • Zwei Quellen, die über gleiche Dinge sprechen können zu einer dichteren Quelle integriert werden.
    • Density
  • Insgesamt ist das Ziel der Integration eine vollständigere Quelle (completeness)

Felix Naumann, VL Informationsintegration, WS 05/06

zusammenfassung data warehouse
Zusammenfassung: Data Warehouse

Aufbau eines Data Warehouse

Quelle: Ulf Leser, VL Data Warehouses

Felix Naumann, VL Informationsintegration, WS 05/06

zusammenfassung f derierte dbms is
Zusammenfassung: Föderierte DBMS/IS

Felix Naumann, VL Informationsintegration, WS 05/06