1 / 14

Řízení datové kvality

Řízení datové kvality. Ing. David Pejčoch Cvičení č. 1. Osnova. Cíle praktických cvičení Výstupy ze cvičení Analýza zadání praktické úlohy Proč se zabývat datovou kvalitou Architektura auditované firmy Popis situace Seznámení s dostupnými datovými zdroji pro úlohu

elia
Download Presentation

Řízení datové kvality

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Řízení datové kvality Ing. David Pejčoch Cvičení č. 1

  2. Osnova • Cíle praktických cvičení • Výstupy ze cvičení • Analýza zadání praktické úlohy • Proč se zabývat datovou kvalitou • Architektura auditované firmy • Popis situace • Seznámení s dostupnými datovými zdroji pro úlohu • Popis nástroje Talend Open Studio • Popis nástroje CADaQuES

  3. Cíle praktických cvičení • Seznámit s funkcionalitou nástrojů pro řízení datové kvality • Na praktických úlohách vyzkoušet audit datové kvality a návrh nápravných opatření • Praktická demonstrace metod pro zvyšování datové kvality

  4. Zadání praktické úlohy – 1. část S pomocí nástroje Talend Open Studio for Data Quality vytvořte profilaci dat (základní popisné statistiky, četnosti jednotlivých vzorů, …) Proveďte verifikaci proti dostupným číselníkům, registrům a validaci pomocí regulárních výrazů) Spočtěte úroveň kvantitativních vlastností dat (správnost, úplnost, konzistentnost, …) Na příkladu modelové firmy odhadněte roční výši nákladů na nekvalitní data Porovnejte možné přínosy nápravných opatření s vynaloženými náklady Proveďte prioritizaci scope řízení datové kvality Navrhněte externí datové zdroje pro obohacení Navrhněte strategii pro doplnění chybějících hodnot Výstup: dokument Zpráva auditora (viz šablona)

  5. Zadání praktické úlohy – 2. část Proveďte standardizaci hodnot vybraných atributů Doplňte chybějící hodnoty podle navržené strategie Proveďte unifikaci a deduplikaci klientů Navrhněte byznys pravidla pro předcházení dalšímu vzniku chyb v datech Výstup: příloha k dokumentu Zpráva auditora, výstupní data (viz pokyny níže)

  6. Pokyny pro formát odevzdaných dat • Datová kvalita je vždy dodatečná informace, proto imputované / opravené hodnoty, informaci o slučování klientů, určení master záznamu vkládejte vždy do nových atributů označených suffixem _CL. • Data odevzdejte formou txt extraktu (textový soubor oddělený svislítkem jako oddělovačem, kódování UTF8)

  7. Architektura auditované firmy: jak to má být

  8. Popis situace • V architektuře pojišťovny zcela chybí MDM Hub centralizující kmenová data klientů. • Vstupní kontroly duplicit jsou realizovány pouze na úrovni dvou oddělených provozních systémů. • Online pojištění má svou vlastní datovou bázi a je s provozním systémem neživotního pojištění integrováno až v okamžiku, kdy dojde k platbě prvního pojistného. • Klienti jsou v rámci aplikace pro online pojištění vždy nově zakládáni a stejně tak následně při jejich importu do systému neživotního pojištění. • Provizní systém je napojen na oba systémy pro správu smluv, nicméně v rámci něj opět nedochází k deduplikaci klienta, neboť pro něj je stěžejní pohled přes jednotlivé získatele jednotlivých smluv, kteří mohou být u jednoho klienta rozdílní. • K deduplikaci nedochází ani na úrovni datového skladu. Klient je na jeho úrovni definován na bázi identifikátoru z primárního systému, resp. rodného čísla / IČa.

  9. Architektura auditované firmy

  10. Datový model: PART_PARTY

  11. Datový model: PART_ADDRESS

  12. Datový model: PART_CONTACT

  13. Datový model: PROD_CONTRACT

  14. Relevantní datové zdroje • UIR-ADR • Registr ekonomických subjektů (není volně dostupný) • Číselníky České pošty • Registr vozidel MVČR • Číselníky titulů, jmen a příjmení na MVČR • Credit Info – možný extrakt? • Číselníky ČSÚ • Kódy měn – ČNB • Kody zemí - ČSÚ

More Related