110 likes | 187 Views
Überblick Datacleaning. Gliederung. Definition Datacleaning Workflow Data Analyse Data Profiling Datamining Distanzmetriken Verfahren zur Duplikatenerkennung Literaturquellen. Definition.
E N D
Gliederung • Definition • Datacleaning Workflow • Data Analyse • Data Profiling • Datamining • Distanzmetriken • Verfahren zur Duplikatenerkennung • Literaturquellen
Definition • Datacleaning:Data cleaning, also called data cleansing or scrubbing, deals with detecting and removing errors and inconsistencies from data in order to improve the quality of data. [Eduard Rahm and Hong Do. Data cleaning: Problems and current approaches. 2000]
Datacleaning Workflow • Data Analysis: • Analyse des Datenbestandes • Gewinnung von zusätzlichen Metadaten (Data Profiling) • Beispiele: • Min/Max Werte für bestimmte Attribute • Verteilungen für Attributwerte • Erkennung von Stringmustern z.B. bei Adressen, Telefonnummern… • Erkennung nicht explizit als unique gekennzeichneter Attribute • Erkennen von Funktionalen Abhängigkeiten (Data Mining) • Beispiele: • Preis = Menge * Stückpreis • Bestelldatum ≤ Lieferdatum ≤ Rechnungsdatum • Bereinigung der Daten (Data Cleaning) • Wiederholung der Schritte 1 und 2 bis ein akzeptables Ergebnis erreicht wurde. • Im ETL Prozess folgt dann die Daten Integration in das Datawarehouse
Nutzung der Metadaten des Data Profiling • Min/Maxwerte können zum Erkennen von Ausreißern verwendet werden • Zusätzliche Unique Attribute können zur Erkennung von Duplikaten genutzt werden • |Ausprägungen des Attributes| < Datensätze Duplikate vorhanden • Erkannte Stringmuster werden zum Schemamatching und Instancematching benötigt • Beispiel: • Muster 1(Adresse): PLZ, Straße, Hausnummer • Muster 2(Adresse): Straße, Hausnummer, PLZ • Matching: (Pseudocode)
Distanzmetriken • Werden genutzt um die Ähnlichkeit von Datensätzen zu bestimmen • Grund : in den meisten Fällen handelt es sich nicht um vollständige Duplikate sondern um „fuzzy duplicates“ • Beispiele: • Editierdistanz • Jaro Winkler Distanzmetrik • Tokenbasierte Distanzmetriken • Bei Überführung der Attribute eines Datensatzes in einen Zahlenvektor: • Euklidische Distanz • Manhattan Distanz • Beliebige andere Distanzmaße
Compact Set und Sparse Neighborhood • Compact Set: • eine Menge S von Tupeln einer Relation R ist ein Compact Set, wenn gilt. (Compact Set) • Zusätzlich muss das Sparse Neighborhood Kriterium: erfüllt sein.
Context Attraction Principle • Eine weitere Möglichkeit Duplikate zu charakterisieren • Context Attraction Principle • 1. wenn zwei Representationen das selbe Objekt beschreiben, existiert eine hohe Wahrscheinlichkeit, dass sie über verschiedene Relationen, implizit oder explizit, innerhalb der Datenbank stark verbunden sind. • 2. wenn zwei Representationen dagegen verschiedene Objekte beschreiben wird ihre Verbindung über diese Relationen im Gegensatzt dazu nur schwach sein. • Verwendung eines Attributed Relational Graphs (ARG) • ARG wird erstellt und über Graphpartitionsalgorithmen geteilt • Problem : Domainwissen unbedingt von Nöten • Vor allem zur Gewichtung der Kanten des ARG
Datentransformation • Grund: • Heterogene Quellen mit heterogenen Schemata für ähnliche Daten • Um die Daten effektiv bereinigen zu können, müssen sie vereinheitlicht werden • Im ETL-Prozess kommt noch die dadurch ermöglichte gemeinsame Speicherung hinzu • zum größten Teil über User Defined Functions oder Views in den Quelldatenbanken realisiert • Vorteil: • hohe Performanz • Wiederverwendbarkeit • Verringert Redundanz im ETL-Prozess
[Eduard Rahm and Hong Do. Data cleaning: Problems and current approaches. 2000] Einordnung in den ETL - Prozess Der ETL Prozess: Data Analyse gehört zur Extractionphase Duplikatenerkennung und Bereinigung sind Teil der Integration Phase
Literatur • Surajit Chaudhuri, Venkatesh Ganti, and Rajeev Motwani. Robust identication of fuzzy duplicates. Proceedings of the 21st International Conference on Data Engineering (ICDE 2005), 2005. • Eduard Rahm and Hong Do. Data cleaning: Problems and current approaches.2000. • Zhaoqi Chen, Dmitri V. Kalashnikov, and Sharad Mehrotra. Exploiting relationships for object consolidation. IQIS, 2005.