1 / 35

Schema Matching

Schema Matching. Seminar Informationsintegration und –qualität Andreas Rumpf 7.7.2006. Gliederung. Motivation Taxonomie Schemabasierte Verfahren Cupid Similiarity Flooding S-Match Instanzenbasierte Verfahren LSD SEMINT Evaluation Fazit. 1. Motivation. Schema A: <electronics>

clyde
Download Presentation

Schema Matching

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Schema Matching Seminar Informationsintegration und –qualität Andreas Rumpf 7.7.2006

  2. Gliederung • Motivation • Taxonomie • Schemabasierte Verfahren • Cupid • Similiarity Flooding • S-Match • Instanzenbasierte Verfahren • LSD • SEMINT • Evaluation • Fazit 1

  3. Motivation Schema A: <electronics> <Photo_and_Cameras> <PID type=string/> <Name type=string/> <Qty type= positiveInteger/> <Price type=double/> </Photo_and_Cameras> ... </electronics> Schema B: <electronics> <Cameras_and_Photo> <Accessories/> <DigitalCameras/> <ID type=int/> <Brand type=string/> <Amount type=int/> <Price type=float/> </Cameras_and_Photo> ... </electronics> ? 2

  4. Motivation Schema A: <electronics> <Photo_and_Cameras> <PID type=string/> <Name type=string/> <Qty type= positiveInteger/> <Price type=double/> </Photo_and_Cameras> ... </electronics> Schema B: <electronics> <Cameras_and_Photo> <Accessories/> <DigitalCameras/> <ID type=int/> <Brand type=string/> <Amount type=int/> <Price type=float/> </Cameras_and_Photo> ... </electronics> 2

  5. Taxonomie 3

  6. Taxonomie (2) • Instanzen- vs. schemabasiert • Element- vs. Struktur-Matching • Sprache vs. Constraints • Kardinalitäten: 1:1, 1:n, n:1, n:m 4

  7. Cupid • 2001 von Rahm, Bernstein, Madhavan entwickelt • Soll generisch sein • Betrachtet Schemata als gerichtete Graphen • Besteht aus linguistischem und strukturellem Matcher 5

  8. Cupid: Graph zu Schema A Schema A: <electronics> <Photo_and_Cameras> <PID type=string/> <Name type=string/> <Qty type= positiveInteger/> <Price type=double/> </Photo_and_Cameras> ... </electronics> electronics Photo and Cameras PID Name Qty Price 6

  9. Cupid: Linguistischer Matcher • Arbeitet auf Element-Ebene • Ziel: Für jedes Element-Paar die Ähnlichkeit sim(s,t) [0,1] berechnen • Arbeitet in drei Phasen: • Normalisierung • Tokenization (Photo_and_Cameras = {Photo;and;Cameras}) • Expansion (Qty = Quantity) • Elimination (and) • Kategorisierung • Vergleich 7

  10. Cupid: Struktureller Matcher • Benutzt Ergebnisse des linguistischen Matchers und Datentyp-Kompatibilität als Ausgangspunkt • Schemata werden post-order durchlaufen (bottom-up-Strategie) • Starke Verbindung: Ähnlichkeit >= Schwellwert • Heuristik: Für zwei Elemente s, t ist die relative Anzahl von starken Verbindungen ihrer Blätter Maß für Ähnlichkeit 8

  11. Cupid: Mappings • 1:1 • Wähle für Element s das t, für das sim(s,t) maximal (und >= Schwellwert) • 1:n • Wähle für Element s alle t, für die sim(s,t) >= Schwellwert 9

  12. Cupid: Vor- und Nachteile • Vorteile: • generisch • kann auch 1:n-Kardinalitäten finden • Nachteil: • für große Schemata noch ungeeignet (Speichermangel) 10

  13. Similarity Flooding • wurde 2001 von Melnik, Garcia-Molina, Rahm entwickelt • generischer Algorithmus, um Ähnlichkeit zwischen gerichteten markierten Graphen zu bestimmen • basiert auf einer Fixpunktiteration • Fixpunkt muss nicht existieren • Heuristik: Zwei Elemente sind ähnlich, wenn ihre Nachbarn ähnlich sind 11

  14. Similarity Flooding: Beispiel Modell A Modell B a b L1 L1 L1 L2 a1 a2 b1 b2 L2 L2 12

  15. Similarity Flooding: Beispiel Modell A Modell B Pairwise Connectivity Graph a b a,b a1,b L1 L1 L2 L1 L1 L1 L2 a1,b1 a2,b1 a2,b2 a1 a2 b1 b2 L2 L2 L2 a1,b2 12

  16. Similarity Flooding: Beispiel Pairwise Connectivity Graph Induced Propagation Graph a,b a1,b a,b a1,b L1 L1 0.5 0,5 L2 1,0 1,0 1,0 a1,b1 a2,b1 a2,b2 a1,b1 a2,b1 a2,b2 L2 1,0 1,0 a1,b2 a1,b2 13

  17. Similarity Flooding: Beispiel Induced Propagation Graph 1.0 1.0 0.5 0,5 1,0 1,0 1,0 1.0 1.0 1.0 1,0 1,0 1.0 14

  18. Similarity Flooding: Beispiel Induced Propagation Graph Induced Propagation Graph 1.0 1.0 3.0 2.0 0.5 0,5 0.5 0,5 1,0 1,0 1,0 1,0 1,0 1,0 1.0 1.0 1.0 1.5 2.5 2.0 1,0 1,0 1,0 1,0 1.0 2.0 14

  19. Similarity Flooding: Beispiel Induced Propagation Graph Induced Propagation Graph 3.0 2.0 1.0 0.6 0.5 0,5 0.5 0,5 1,0 1,0 1,0 1,0 1,0 1,0 1.5 2.5 2.0 0.5 0.8 0.6 1,0 1,0 1,0 1,0 2.0 0.6 14

  20. Similarity Flooding: Beispiel • Nach 5 Iterationen: 15

  21. Similarity Flooding: Vor- und Nachteile • Vorteile: • allgemeiner Graphenalgorithmus • einfach zu implementieren • Nachteile: • allgemeiner Graphenalgorithmus • stark abhängig von Struktur 16

  22. S-Match • wurde von Giunchiglia, Shvaiko, Yatskevich 2005 entwickelt • arbeitet ausschließlich auf XML-Schemata • Idee: Semantik erfassen • Semantik in aussagenlogische Formeln abbilden • suche das mächtigste Matching, das keine Formel verletzt 17

  23. S-Match (2) • Bezeichner werden durch WordNet auf Konzepte abgebildet: Photo  K(Photo) (Atome) • Markierungen werden in aussagenlogische Formel übersetzt: „Photo and Cameras“ = K(Photo) v K(Camera) • Formeln beschreiben Mengen von Instanzen • Zusammenhänge von Mengen A, B: • A = B A <-> B • A <= B A -> B • A >= B B -> A • A ┴ B (disjunkt) ~(A & B) • A idk B • Ziel: Matrix von Relationen 18

  24. S-Match: Vor- und Nachteile • Vorteile: • keine Ähnlichkeiten, sondern Relationen • schnell • Nachteile: • Überlappungen werden nicht gefunden 19

  25. LSD • LSD (Learning Source Descriptions) wurde 2001 von Doan, Domingos, Halevy entwickelt • Ziel: Abbildung von mehreren Quell-Schemata zu Ziel-Schema • Benutzt Machine-Learning-Techniken • Arbeitet nur auf XML (und DTD) • Setzt auf Lern-Algorithmen auf Element-Ebene • und auf kombinierenden Lerner (Meta-Lerner) 20

  26. LSD: Trainingsphase Ziel-Schema Quell-Schema Quell-Schema Extrahierte Daten Extrahierte Daten Trainingsdaten Trainingsdaten Trainingsdaten Basislerner Basislerner Basislerner Meta-Lerner 21

  27. LSD: Matching-Phase • Nach der Trainingsphase: Automatisches Matchen • Verbesserung der Ergebnisse durch Constraints • Generierte Mappings werden validiert und als Fallbeispiele aufgenommen 22

  28. LSD: Basislerner • Name Matcher: • nutzt Bezeichner eines XML-Elements • Bezeichner von „ Qty“ = „Electronics -- Photo and Cameras – Qty“ • Fallbeispiele sind (Quell-Tag, Ziel-Tag)-Paare • berechnet mit WHIRL die Ähnlichkeiten und lernt Schwellwert • Content Matcher: • ähnlich dem Name Matcher, aber: arbeitet auf Instanzen • Fallbeispiele sind (Quell-Inhalt, Ziel-Tag)-Paare 23

  29. LSD: Basislerner (2) • Naiver Bayes-Klassifikator • arbeitet auf Texten der Instanzen • Dokument X = (Token1, Token2, …, TokenN) • Klassifikationsproblem: Mit welcher Wahrscheinlichkeit gehört X zu Klasse C? • XML-Klassifikator • baut auf Naivem Bayes-Klassifikator auf • nutzt zusätzlich Baumstruktur: unterscheidet Knoten-Tokens und Kanten-Tokens 24

  30. LSD: Vor- und Nachteile • Vorteile: • lernt dazu • kann z.T. mit unstrukturierten Texten umgehen • Nachteile: • Mappings als Fallbeispiele müssen manuell erstellt werden • Constraints müssen manuell eingegeben werden 25

  31. SEMINT • SEMINT (Semantic Integrator) wurde 2000 von Li, Clifton entwickelt • Wie LSD nicht rein instanzenbasiert • Benutzt neuronale Netze, um das Match-Problem als Klassifikationsproblem zu lösen • Berechnet Ähnlichkeiten zwischen Attributen in Datenbanken 26

  32. SEMINT (2) • Parst die Datenbankschemata, um Informationen aus der Datenbank automatisch zu extrahieren • Instanzen  statistische Merkmale eines Attributes (Durchschnittswerte, Minimum, Maximum)  Attribut = (x1, x2, …, xN) • Attribut-Typ wird berücksichtigt • Punkte werden in Cluster eingeteilt (Schema A) • Punkte von Schema B werden in Cluster abgebildet 27

  33. SEMINT: Vor- und Nachteile • Vorteile: • vollautomatisch • skaliert gut (dank Clusterbildung) • Nachteile: • Mehraufwand durch Clusterbildung für Benutzer • String-Daten machen Probleme 28

  34. Evaluation 29

  35. Fazit • Automatisches Schema-Matching ist schwierig; aufwändige Implementierungen • Schema-Matching ist subjektiv • Praxis-Tauglichkeit? • Schema-Matching ist KI-vollständig! 30

More Related