1 / 11

Überblick Datacleaning

Überblick Datacleaning. Gliederung. Definition Datacleaning Workflow Data Analyse Data Profiling Datamining Distanzmetriken Verfahren zur Duplikatenerkennung Literaturquellen. Definition.

juanita
Download Presentation

Überblick Datacleaning

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Überblick Datacleaning

  2. Gliederung • Definition • Datacleaning Workflow • Data Analyse • Data Profiling • Datamining • Distanzmetriken • Verfahren zur Duplikatenerkennung • Literaturquellen

  3. Definition • Datacleaning:Data cleaning, also called data cleansing or scrubbing, deals with detecting and removing errors and inconsistencies from data in order to improve the quality of data. [Eduard Rahm and Hong Do. Data cleaning: Problems and current approaches. 2000]

  4. Datacleaning Workflow • Data Analysis: • Analyse des Datenbestandes • Gewinnung von zusätzlichen Metadaten (Data Profiling) • Beispiele: • Min/Max Werte für bestimmte Attribute • Verteilungen für Attributwerte • Erkennung von Stringmustern z.B. bei Adressen, Telefonnummern… • Erkennung nicht explizit als unique gekennzeichneter Attribute • Erkennen von Funktionalen Abhängigkeiten (Data Mining) • Beispiele: • Preis = Menge * Stückpreis • Bestelldatum ≤ Lieferdatum ≤ Rechnungsdatum • Bereinigung der Daten (Data Cleaning) • Wiederholung der Schritte 1 und 2 bis ein akzeptables Ergebnis erreicht wurde. • Im ETL Prozess folgt dann die Daten Integration in das Datawarehouse

  5. Nutzung der Metadaten des Data Profiling • Min/Maxwerte können zum Erkennen von Ausreißern verwendet werden • Zusätzliche Unique Attribute können zur Erkennung von Duplikaten genutzt werden • |Ausprägungen des Attributes| < Datensätze  Duplikate vorhanden • Erkannte Stringmuster werden zum Schemamatching und Instancematching benötigt • Beispiel: • Muster 1(Adresse): PLZ, Straße, Hausnummer • Muster 2(Adresse): Straße, Hausnummer, PLZ • Matching: (Pseudocode)

  6. Distanzmetriken • Werden genutzt um die Ähnlichkeit von Datensätzen zu bestimmen • Grund : in den meisten Fällen handelt es sich nicht um vollständige Duplikate sondern um „fuzzy duplicates“ • Beispiele: • Editierdistanz • Jaro Winkler Distanzmetrik • Tokenbasierte Distanzmetriken • Bei Überführung der Attribute eines Datensatzes in einen Zahlenvektor: • Euklidische Distanz • Manhattan Distanz • Beliebige andere Distanzmaße

  7. Compact Set und Sparse Neighborhood • Compact Set: • eine Menge S von Tupeln einer Relation R ist ein Compact Set, wenn gilt. (Compact Set) • Zusätzlich muss das Sparse Neighborhood Kriterium: erfüllt sein.

  8. Context Attraction Principle • Eine weitere Möglichkeit Duplikate zu charakterisieren • Context Attraction Principle • 1. wenn zwei Representationen das selbe Objekt beschreiben, existiert eine hohe Wahrscheinlichkeit, dass sie über verschiedene Relationen, implizit oder explizit, innerhalb der Datenbank stark verbunden sind. • 2. wenn zwei Representationen dagegen verschiedene Objekte beschreiben wird ihre Verbindung über diese Relationen im Gegensatzt dazu nur schwach sein. • Verwendung eines Attributed Relational Graphs (ARG) • ARG wird erstellt und über Graphpartitionsalgorithmen geteilt • Problem : Domainwissen unbedingt von Nöten • Vor allem zur Gewichtung der Kanten des ARG

  9. Datentransformation • Grund: • Heterogene Quellen mit heterogenen Schemata für ähnliche Daten • Um die Daten effektiv bereinigen zu können, müssen sie vereinheitlicht werden • Im ETL-Prozess kommt noch die dadurch ermöglichte gemeinsame Speicherung hinzu • zum größten Teil über User Defined Functions oder Views in den Quelldatenbanken realisiert • Vorteil: • hohe Performanz • Wiederverwendbarkeit • Verringert Redundanz im ETL-Prozess

  10. [Eduard Rahm and Hong Do. Data cleaning: Problems and current approaches. 2000] Einordnung in den ETL - Prozess Der ETL Prozess: Data Analyse gehört zur Extractionphase Duplikatenerkennung und Bereinigung sind Teil der Integration Phase

  11. Literatur • Surajit Chaudhuri, Venkatesh Ganti, and Rajeev Motwani. Robust identication of fuzzy duplicates. Proceedings of the 21st International Conference on Data Engineering (ICDE 2005), 2005. • Eduard Rahm and Hong Do. Data cleaning: Problems and current approaches.2000. • Zhaoqi Chen, Dmitri V. Kalashnikov, and Sharad Mehrotra. Exploiting relationships for object consolidation. IQIS, 2005.

More Related