UNIVERSITA’ DEGLI STUDI DI MILANO BICOCCA
This presentation is the property of its rightful owner.
Sponsored Links
1 / 26

UNIVERSITA’ DEGLI STUDI DI MILANO BICOCCA FACOLTA’ DI SCIENZE MATEMATICHE, FISICHE E NATURALI PowerPoint PPT Presentation


  • 103 Views
  • Uploaded on
  • Presentation posted in: General

UNIVERSITA’ DEGLI STUDI DI MILANO BICOCCA FACOLTA’ DI SCIENZE MATEMATICHE, FISICHE E NATURALI Corso di Laurea in Informatica. Analisi di Metriche e Algoritmi per la Qualità dei Dati. Progettazione e Realizzazione di un Framework per l’Assessment della Qualità. Supervisori:

Download Presentation

UNIVERSITA’ DEGLI STUDI DI MILANO BICOCCA FACOLTA’ DI SCIENZE MATEMATICHE, FISICHE E NATURALI

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

UNIVERSITA’ DEGLI STUDI DI MILANO BICOCCA

FACOLTA’ DI SCIENZE MATEMATICHE, FISICHE E NATURALI

Corso di Laurea in Informatica

Analisi di Metriche e Algoritmi per la Qualità dei Dati.

Progettazione e Realizzazione di un Framework per l’Assessment della Qualità.

Supervisori:

Chiar.mo Prof. Carlo BATINI

Dott. Daniele BARONE

Relazione della prova finale di:

Carmine Carella

Matricola: 055465

Anno Accademico 2005/2006


Overview

Overview

  • La Qualità dei Dati e la sua Importanza

  • Aree di Ricerca nell’Ambito della Qualità dei Dati

  • Dimensioni dei Valori dei Dati

  • Data Quality Framework

  • Caso di Studio

  • GUI e Funzioni

  • Accuratezza Sintattica

  • Metadati

  • Appendice


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

La Qualità dei Dati e la sua Importanza

  • I dati sono elementi chiave nei processi aziendali

    • Decisionali: guidano le decisioni di planning

    • Operazionali: sono utilizzati nelle decisioni a livello operativo

  • La scarsa qualità dei dati:

    • Aumenta con il tempo

    • È pervasiva (si diffonde)

    • È costosa (mancati ricavi, extra costi)

  • Nel processo di creazione e utilizzo dei dati si rendono necessarie attività appositamente dedicate alla gestione della qualità:

    • Valutazione (assessment)

    • Miglioramento (improvement)


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Aree di Ricerca nell’Ambito della Qualità dei Dati

  • Dimensioni: le dimensioni sono proprietà che caratterizzano uno specifico aspetto della qualità. Possono essere associate a livello:

    • dello schema

    • della rappresentazione dei dati

    • dei valori dei dati

  • Metriche: associate alle dimensioni di qualità ne misurano il livello

    • qualitative o quantitative

    • su diversi tipi di dati (strutturati, semistrutturati e non strutturati)

    • per i dati strutturati ai diversi livelli di granularità

  • Tecniche: algoritmi, euristiche, conoscenze per lo specifico problema di DQ

    • Le tecniche necessitano del supporto di tools: procedure automatizzate

    • Un insieme di tools prende il nome di framework


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Aree di Ricerca nell’Ambito della Qualità dei Dati

  • Dimensioni: le dimensioni sono proprietà che caratterizzano uno specifico aspetto della qualità. Possono essere associate a livello:

    • dello schema

    • della rappresentazione dei dati

    • dei valori dei dati

  • Metriche: associate alle dimensioni di qualità ne misurano il livello

    • qualitative o quantitative

    • su diversi tipi di dati (strutturati, semistrutturati e non strutturati)

    • per i dati strutturati ai diversilivelli di granularità

  • Tecniche: algoritmi, euristiche, conoscenze per lo specifico problema di DQ

    • Le tecniche necessitano del supporto di tools: procedure automatizzate

    • Un insieme di tools prende il nome di framework


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Dimensioni dei Valori dei Dati

  • Accuratezza: vicinanza tra un valore v e un valore v’ considerato la corretta rappresentazione del mondo reale che v vuole rappresentare. Si distingue in accuratezza semantica e accuratezza sintattica.

    • Accuratezza Sintattica: vicinanza di un valore v agli elementi del corrispondente dominio di definizione D.

Descritta durante il caso di studio

  • Completezza: il grado con il quale la relazione rappresenta la corrispondente parte del mondo reale. Definita in base a:

    • Modello con valori nulli (significato valore nullo: generale, di valore mancante).

    • Assunzione CWA (closed world assumption): i valori presenti in una tabella relazionale e nessun altro valore rappresentano i fatti veri del mondo reale.

  • Currency: quanto tempestivamente i dati sono aggiornati. (accuratezza temporale).

  • Consistenza: rileva le violazioni di regole semantiche definite su un insieme di dati. Vincoli di integrità, istanza regole semantiche, nel modello relazionale.

Presentate nell’ appendice


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Data Quality Framework


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Caso di Studio

  • Utilizzato per testare il framework

    Il test è stato effettuato per

  • Verificare la correttezza dei risultati

  • Funzionamento degli algoritmi

    Database MySQL

  • Recuperato dal sito del progetto Eclipse-BIRT relativo ad una compagnia ClassicModels Inc. per la vendita di modelli in scala di automobili, treni, navi, autobus, aerei, ect.

  • Contiene 8 relazioni, 60 attributi, 3864 tuple

  • Relazioni contenenti tipici dati di business: offices, employees, customers, orders, order details, payments, products, product lines

  • Prima di eseguire il test con tale database, i dati sono stati “sporcati” per poi poter rilevare provlemi di qualità


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Framework : GUI e Funzioni

Gestione Metadati Misurazione

Connessione e Disconnesione database

Gestione Reports Completi

Funzioni per l’assessment

Visualizzazione Report Parziale e Metadati Misurazione

Struttura Database connesso

Area Risultati

Visualizzazione grafica risultati

Informazioni sul percorso metadati misurazione

Informazioni sul percorso metadati dimensione

Informazioni sul database connesso

Informazioni sulla singola relazione


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Accuratezza Sintattica

  • Lookup table: informazioni che vengono consultate durante la misurazione dell’accuratezza

  • Funzioni di distanza: Jaro

  • Simple Ratio:

    • risultati desiderati / numero totale risultati

    • 1 – ( risultati non desiderati / numero totalerisultati)

Accuratezza Sintattica Attributo:due metriche

  • Metrica basata sulla presenza della lookup table

    • Lookup table

    • Jaro

    • Simple Ratio

  • Metrica basata sulla frequenza dei valori dell’attributo

    • Jaro

    • Soundex

      Accuratezza Sintattica Tupla e Relazione:una metrica

  • Metrica basata sulla tecnica del Record Linkage

    • Lookup table


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

  • Accuratezza Sintattica Attributo

  • Prima metrica basata sulla presenza della lookup table

  • Lookup table: rappresenta il dominio di definizione dell’attributo

  • Algoritmo

  • Accuratezza sintattica del singolo valore dell’attributo

  • Per ogni valore v dell’attributo, controlla che v sia uno dei valori nel dominio

  • Determinazione insieme valori accurati e dell’ insieme non accurati

  • Per ogni valore dell’insieme non accurati, si effettua il confronto con ogni valore del dominio tramite Jaro, per trovare il valore massimo di similarità e il valore più vicino

  • Accuratezza sintattica dell’attributo

  • 4. Determinazione accuratezza attributo tramite simple ratio


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Inserimento lookup table Accuratezza Sintattica Attributo city della relazione offices

Relazione d’appartenenza dell’attributo

Nome attributo a cui associare la lookup table

Coordinate MySQL della lookup table


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Accuratezza Sintattica Attributo city della relazione offices con metrica lookup table

Valore accuratezza dell’attributo

Correzione suggerita

Accuratezza singolo valore


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

ID

Tipo

Nome

Città

Provincia

1

Corso

Vittorio Emanuele

Milano

Mi

Città

Tipo_Nome

Provincia

Milano

Corso Vittorio Emanuele

Mi

Key

Dug

Nome

Comune

Provincia

ID

Indirizzo

3

Corso Vittorio Emanuele Milano Mi

1

Corso

Vittorio Emanuele

Milano

Mi

Accuratezza Sintattica Tuple e Relazioni

  • Metrica ispirata alla metodologia ISTAT per la qualità dei dati toponomastici e a tecniche di Record Linkage

  • Lookup table: relazione contenete le istanze corrette della relazione da valutare, rappresentanti la parte del mondo reale che si vuole modellare

  • In base all’ algoritmo di record matching utilizzato (confronto tra sottostringhe), la relazione da valutare e la lookup table dovrebbero avere la stessa struttura: ugual numero di attributi e stesso ordine

  • Fase di configurazione della misurazione: in cui adattare le strutture e scegliere tutti o un sottoinsieme degli attributi e in quale ordine. (normalizzazione formati)

  • Fase di misurazione: algoritmo di record matching che restituisce per ogni tupla “non accurata” il valore di accuratezza e la tupla più vicina della lookup table

  • Accuratezza Relazione: simple ratio, rapporto tra numero di tuple non accurate (match < 100%) e numero totale di tuple della relazione, sottratto ad uno

Relazione da valutare

Lookup table con fase configurazione

Chiave primaria dello stesso tipo

Stesso numero e ordine attributi

Lookup table senza fase configurazione


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Fase di configurazione accuratezza sintattica tuple della relazione employees

Struttura relazione da valutare

Struttura lookup table


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Accuratezza Sintattica Tupledella relazione employees

Tupla corretta della lookup table

Valore accuratezza tupla

Tupla non accurata della relazione valutata


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

  • Metadati(informazioni circa un dato)

  • Organizzati e strutturati tramite un modello di metadati, metamodello

  • Modello concettuale: schema ER

  • Modello Logico: documento XML

  • Metadati misurazione: contengono le informazioni aggiuntive necessarie alle misurazioni come lookup table per l’accuratezza sintattica dell’attributo, della relazione e delle tuple, frequenza media di aggiornamento per la currency, coordinate relazione per la consistenza

  • Metadati dimensione: per ogni dimensione valutata danno informazioni circa la data, la metrica utilizzata, il livello di granularità, il valore della misurazione e eventuali metadati misurazione utilizzati. Viene creato il report parziale/totale con formattazione XSL


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Report delle valutazioni delle dimensioni


Conclusioni e sviluppi futuri

Conclusioni e Sviluppi Futuri

Il framework potrà essere ancora migliorato:

  • L’attivita di assessment

    • Creazione metriche per la valutazione di nuove dimensioni di qualità

    • migliorando gli algoritmi esistenti

  • Un’attività di miglioramento (improvement) della qualità


Appendice

Appendice


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

NomiImpiegati

….

Paolo

Marco

Luca

Paolo

Palo

Marco

Giacomo

Max

Giacomo

Mal

Max

Seconda metrica basata sulla frequenza dei valori dell’attributo

Confronto tra valori attualmente presenti nell’attributo

Analisi dei valori, alla ricerca dei valori con una bassa frequenza (numero di occorrenze uguale ad uno), possibili candidati ad avere errori di accuratezza

Valori con frequenza alta costituiscono il dominio di confronto

Primo confronto tramite funzione Jaro per determinare i valori a bassa frequenza accurati e valori da analizzare nuovamente con il secondo confronto

Secondo confronto, tra valore bassa frequenza con valore più vicino, con la funzione soundex per determinare se i due valori rappresentano o meno lo stesso concetto del mondo reale

Determinazione accuratezza attributo tramite simple ratio

Valori frequenza bassa

Valori accurati

Luca

Palo

Mal

Luca

Jaro

Nuova Analisi

Valori più vicini

Soundex

Palo

Mal

Paolo

Max

Soundex

Paolo

Marco

Giacomo

Max

Errore Accuratezza Sintattica

Palo = Paolo

Dominio confronto

Mal ≠ Max


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Accuratezza Sintattica Attributo contactFirstName della relazione customers con metrica frequenza valori

Valore accuratezza dell’attributo

Correzione suggerita


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

  • Completezza

  • Livelli di granularità: Relazione, Attributo, Tupla

  • Metrica basata sul modello a valori nulli, sull’assunzione CWA. Utilizza la forma funzionale simple ratio.

  • Simple ratio:

    • risultati desiderati / numero totale risultati

    • 1 – ( risultati non desiderati / numero totale risultati)

  • Algoritmo

  • Ricerca e conteggio valori nulli (Nvn)

  • Determinazione numero attributi (Na) e numero tuple (Nt) e numero massimo di valori che la relazione può contenere (N)

  • La completezza è determinata tramite

  • Per l’attributo: CA=1 – ( Nvn / Nt)

  • Per la relazione: CR= ( Nvnn / N) dove Nvnn numero valori non nulli

  • Per la tupla: CT=1 – ( Nvn / Na) determinata per ogni tupla della relazione


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

e-mail

timestamp

[email protected]

31/12/2005

[email protected]

08/01/2006

[email protected]

20/01/2006

  • Currency: tempestività di aggiornamento dei dati.

  • Livello granularità: Attributo.

  • Scala risultati: <current, not current>

  • Tre Metriche basate sul metadato “last update”, implementato con il campo Timestamp di MySQL.

  • Primametrica si basa sul recupero della data di ultimo aggiornamento (massimo valore timestamp).

  • Due metriche basate anche sul metadato “frequenza media di aggiorn.” (espressa in giorni).

  • Seconda metrica con “frequenza media” inserita dall’utente

    • Differenza tra istante misurazione e last update = delta (es. 14 giorni fa)

    • Recupero frequenza media (es. 13 giorni)

    • Se delta > frequenza media→ not current altrimenti se delta≤frequenza media → current

  • Terza metrica con “frequenza media” ricavata dai valori del timestamp

    • uguale alla precedente metrica nei passi (1) e (3) con l’eccezione (passo 2) che la frequenza viene calcolata a runtime: con una differenza tra aggiornamenti successivi.

Differenze

(08/01/2006) − (31/12/2005) = 8 giorni

(20/01/2006) − (08/01/2006) = 12 giorni

Somma 8 + 12 = 20 giorni

Frequenza media di aggiornamento

Rapporto 20 / 3 = 6 giorni

Ordinamento valori timestamp


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Consistenza

  • Ricerca delle violazioni ai vincoli di integrità in particolare ai vincoli interrelazionali quindi vincoli di integrità referenziale.

  • Livello di granularità: attributo ma anche tupla (se si considerano più attributi)

  • Metrica basata sul record matching con una fase di configurazione

  • Consideriamo il livello dell’attributo, l’idea è quella di confrontare i valori di un attributo A di una relazione R1 con i valori di un altro attributo B di una relazione R2 che si suppone contenga gli stessi valori di A, in quanto B rappresenta lo stesso concetto del mondo reale di A (caso vincoli interrelazionali). Se A è chiave primaria di R1 e B chiave esterna di R2 allora caso integrità referenziale. Durante il confronto si determinano i valori inconsistenti.

    Algoritmo

    Controllo consistenza dei valori di un attributo chiave esterna

  • Scelta di due relazioni sul quale è definito un vincolo di integrità referenziale

  • Collegamento relazioni con inserimento coordinate connessione della relazione con chiave esterna nei metadati

  • Fase di configurazione per la scelta degli attributi, sui cui valori deve essere controllata la consistenza

  • Misurazione con record matching

  • Per ogni valore non consistente: percentuale di consistenza e valore più vicino (ricavato dalla relazione con chiave primaria)


Universita degli studi di milano bicocca facolta di scienze matematiche fisiche e naturali

Consistenza attributo productCode chiave primaria di product e chiave esterna di orderdetails

Valore chiave primaria più vicino

Valore di consistenza

Valore chiave esterna inconsistente


  • Login