1 / 21

Sorgenti di dati

Sorgenti di dati. Siamo in grado di accedere in modo uniforme a: File di testo CSV FLV ARFF File XML ROW ELEMENTS RDBMS ODBC JDBC OLE DB. Interpretation and Evaluation. Data Mining & OLAP Cubes. Selection and Preprocessing. Data Consolidation. p(x) = 0.02. Warehouse.

jael-horne
Download Presentation

Sorgenti di dati

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lab. Sistemi Informativi Economico-Aziendali Sorgenti di dati • Siamo in grado di accedere in modo uniforme a: • File di testo • CSV • FLV • ARFF • File XML • ROW • ELEMENTS • RDBMS • ODBC • JDBC • OLE DB

  2. Lab. Sistemi Informativi Economico-Aziendali Interpretation and Evaluation Data Mining & OLAP Cubes Selection and Preprocessing Data Consolidation p(x) = 0.02 Warehouse Patterns & Models Prepared Data Consolidated Data Knowledge Data Sources LSA 4 lezioni OLAP 4 lezioni DM 3 lezioni 2 lezioni 5 lezioni

  3. Extract Transform and Load LSA - Laboratorio di Sistemi Informativi Economico-Aziendali Salvatore Ruggieri Dipartimento di Informatica, Università di Pisa

  4. Lab. Sistemi Informativi Economico-Aziendali Cos’è l’ETL L’ETL (extract transform and load) è il processo di estrazione, trasformazione e consolidamento di dati da sorgenti eterogenee in un data warehouse. Supportato da tools grafici: • Microsoft SQL Server 2000 DTS (Data Transformation Services) • DB2 Warehouse Manager • Oracle Warehouse Builder • Business Objects Data Integrator

  5. Lab. Sistemi Informativi Economico-Aziendali Operazioni ETL • Extract: accesso alle sorgenti di dati • Interne vs Esterne, Localizzazione e formato • Transform: trasformazione, pulizia e integrazione dei dati • Selezione • dati non necessari, duplicati, corrotti, fuori dai limiti (eta=999) • Valori mancanti • default, valor medio, filtro • Codifiche e normalizzazioni • dei dati al fine di risolvere differenti formati (CSV,ARFF), misure (metri, pollici), codici (codice fiscale o id per identificare clienti), rapp. tempo (formato data) • Splitting/merging • di attributi (attributo Indirizzo vs attributi Via+Citta+CAP+Stato)

  6. Lab. Sistemi Informativi Economico-Aziendali Operazioni ETL • Chiavi surrogate • gen. chiavi indipendenti da quelle operazionali • Aggregazione di dati • Grana “ordini” (id, quantità, prezzo) a grana “cliente” (id, numero ordini, fatturato), differenti grane di tempo • Attributi derivati • calcolati a partire da quelli disponibili (margine di utile nelle vendite) • Qualità dei dati • Dati criptici, contraddittori, dummy values • Ruggeri Salvatore è (?) Ruggieri Salvatore • Dip. Informatica Corso Italia 40 è (?) Dip. Informatica Via Buonarroti 2 • 56100 è il CAP di tutti i clienti della Banca X • Join • di sorgenti di dati relazionate (prezzo di vendita e costo di acquisto) • Merge-Purge • fusione di dati da diverse sorgenti (anagrafica clienti, anagrafica fornitori, dati ISTAT)

  7. Lab. Sistemi Informativi Economico-Aziendali Operazioni ETL • Load • Data staging area • Area con risultati intermedi, parzialmente o totalmente trasformati • Initial Load • caricamento iniziale dei dati sul datawarehouse • Incremental load • Append • aggiunta nuovi dati (nuovi clienti) • Merge distruttivo • aggiornamento dati esistenti con nuovi dati (nuovo indirizzo di cliente esistente) • Merge costruttivo • aggiunta nuovi dati marcando quelli esistenti (si mantiene vecchio e nuovo indirizzo di cliente esistente) • Full refresh • caricamento dati eliminando quelli esistenti

  8. Lab. Sistemi Informativi Economico-Aziendali Processo ETL • Gestione del processo di ETL • Sequenza di operazioni • Scheduling • Metadati • Sorgenti, trasformazioni, caricamenti • Infrastruttura • HW, SW, Personale

  9. SQL Server 2000 Data Transformation Services

  10. Lab. Sistemi Informativi Economico-Aziendali DTS Designer Il DTS designer permette di creare, modificare e configurare un DTS package utilizzando un interfaccia grafica con funzionalità drag and drop.

  11. Lab. Sistemi Informativi Economico-Aziendali DTS Designer Task toolbar Connection properties DTS workflow Data toolbar

  12. Lab. Sistemi Informativi Economico-Aziendali DTS Package Un DTS Package specifica un insieme di connessioni, task e vincoli utili alla soluzione di un problema di ETL.

  13. Lab. Sistemi Informativi Economico-Aziendali DTS Package

  14. Lab. Sistemi Informativi Economico-Aziendali DTS connection È una connessione ad una sorgente e/o destinazione di dati. Esempi: • SQL Server, Access, Excel • File testo • Sorgenti ODBC • Sorgenti OLE DB

  15. Lab. Sistemi Informativi Economico-Aziendali DTS task È una funzionalità eseguita in un singolo passo Esempi: • Esecuzione di una query SQL su una connessione • Trasformazione di dati da una connessione ad un’altra • Copia di oggetti da una connessione ad un’altra • Esecuzione di programmi esterni

  16. Lab. Sistemi Informativi Economico-Aziendali DTS workflow È un insieme di vincoli di precedenza imposti sull’ordine di esecuzione dei singoli task Esempio • Vincoli di precedenza: un task può essere eseguito solo dopo che un altro è terminato con successo. • N.B.: I task non vincolati tra di loro possono essere eseguiti in qualsiasi ordine (anche in parallelo).

  17. Lab. Sistemi Informativi Economico-Aziendali Esempi di DTS

  18. Lab. Sistemi Informativi Economico-Aziendali Esercitazione: da db operazionale …

  19. Lab. Sistemi Informativi Economico-Aziendali … ad uno snowflake schema

  20. Lab. Sistemi Informativi Economico-Aziendali Esercitazione: • Sorgenti di dati: • ETLSource.mdb per tutte le tabelle tranne • Product e Suppliers, le quali sono accessibili via FTP come file di testo • ETLSource.mdb non specifica alcuna chiave primaria / esterna

  21. Lab. Sistemi Informativi Economico-Aziendali Esercitazione (continued): • Successivamente ad una ristrutturazione aziendale: • il nuovo organigramma (tabella Employee) è disponibile via FTP come file di testo • include altro personale • non mantiene i precedenti codici EmployeeID • Aggiornare la tabella Employee ed, eventualmente, le altre tabelle necessarie

More Related