1 / 22

Multirelační GUHA, Ferda a genetická data

Multirelační GUHA, Ferda a genetická data. Martin Ralbovský KIZI FIS VŠE. Metoda GUHA. Původní česká metoda explorační analýzy dat Založena na logice (observační kalkuly) statistice (testování hypotéz) Téměř 40 let vývoje. Metoda GUHA - princip. Patterny , hypotézy, verifikace.

Download Presentation

Multirelační GUHA, Ferda a genetická data

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Multirelační GUHA, Ferda a genetická data Martin Ralbovský KIZI FIS VŠE

  2. Metoda GUHA • Původní česká metoda explorační analýzy dat • Založena na • logice (observační kalkuly) • statistice (testování hypotéz) • Téměř 40 let vývoje

  3. Metoda GUHA - princip

  4. Patterny, hypotézy, verifikace • Pattern – jedna vygenerovaná formulka observačního kalkulu • Prime pattern – pattern, který je pravdivý v datech a nevyplývá z jiného jednoduššího pravdivého patternu • Hypotéza = pattern • Verifikace = ověření jednoho patternu

  5. Příklad procedury – 4FT • Hledá asociační pravidla ve tvaru A ~ B kde A a B jsou Booleovské atributy a ~ je 4ft-kvantifikátor • Příklad pravidla: District(SouthEast) ~ Status(Good)

  6. Proč multirelační? • Původní metoda byla omezena na minování pouze nad jednou tabulkou • Jedna tabulka – tvrzení o vlastnostech jedné entity • Více tabulek – vztahy mezi entitami Motivační příklad: • Údaje o klientech v jedné tabulce • Údaje o transakcích klientů v druhé tabulce

  7. (Multi)relační metody - ILP • ILP – inductivelogicprogramming vhodné pro HODNĚ relací, z pozitivních a negativních příkladů (+ background knowledge) inferuje tvrzení • ILP propozicionalizace z vícero tabulek sestrojí jednu, nad kterou se dají spustit jiné algoritmy výsledné atributy jsou konjunkce (negovaných) literálů predikátové logiky

  8. (Multi)relační metody - další WARMR • Spojení ILP a asociačních pravidel • Nejdříve provede propozicionalizaci a potom hledá asociační pravidla RELAGGS • Vypočítá agregace záznamů přímo v databázi • Poté hledá asociační pravidla

  9. Multirelační GUHA - princip • Rozdělení úlohy na hlavní a vedlejší • Master a detail tabulka - hvězdicové schéma • Přidávání patternů z vedlejší úlohy do hlavní – virtuální atributy Příklad: • Detail tabulka – klient často platící kartou ClientID~Payment(CreditCard) • Master tabulka District(SoutEast)&ClientPayingByCreditCard ~ Status(Good)

  10. Multirelační GUHA – detaily • Pro každého klienta se vyberou pouze jemu odpovídající řádky v tabulce transakcí • Pro každého klienta je různá hodnota virtuálního atributu (prozatím 0, 1) • Co odpovídá virtuálnímu atributu – hypotéza nebo pattern?

  11. Multirelační GUHA – omezení • Problém s počtem virtuálních atributů v hlavní tabulce • Hvězdicové schéma není teoretickým, ale praktickým omezením • Příklad

  12. Multirelační GUHA vs. Ostatní metody • Ze všech metod umožňuje GUHA největší expresivitu • Tato je vykoupena omezením na malý počet relací • Hodí se na úlohy s málo tabulkami, ideálně velká master a malá detail.

  13. Multirelační GUHA - implementace • Konec 90. let – implementace v rámci systému LISp-Miner – nepoužívala se • Disertace T. Karbana, Rel-Miner– nedokončeno • Diplomová práce A. Kuzmina, Ferda – implementace multirelačních 4FT a SD4FT • Neúspěšné pokusy na Barboře • Slibné pokusy na genetických datech

  14. Ferda - historie • Poslední z nástrojů implementující metodu GUHA • Původně projekt MFF UK, nyní vyvíjen na KIZI FIS VŠE • Založen 2003/2004 • Obhájen 2006 • Dále 6 diplomových a 1 bakalářská práce

  15. Devatero řemesel… • Vysoce modulární systém: • Používá se middleware pro komunikaci • Moduly mohou být napsány v 5 různých jazycích • Moduly mohou komunikovat libovolně po síti • Vlastní částečně rekurzivní programovací jazyk • 7 relačních GUHA procedur, 2 multirelační procedury, nové kvantifikátory • Podpora ontologií, podpora uživatelského rozhodování…

  16. Ferda - architektura

  17. FrontEnd – praktická ukázka

  18. Genetická data • Datový zdroj zkompilovaný na FEL ČVUT • Měření expresí genů pomocí DNA mikrosond Affymetrics • 2 zkoumané typy buňek– hematopoetická a stromální (tvorba kostní dřeně) • 3 zkoumané organismy • Data měření obohacená o informace o pathways a fluxes

  19. Pathway a flux • Molekulární pathway – graf reprezentující síť molekulárních reakcí a interakcí • Full-coupled-flux (FCF) – lineární podgraf pathway (všechny geny v něm mají expresi) Pracovní hypotéza: exprese genů nějakým způsobem souvisí s tvorbou buňek • Úroveň genů je příliš malá granularita • Úroveň pathways je příliš velká granularita • Zkusme FCF!

  20. Schéma genetických dat – původní podoba

  21. Experimenty • Virtuální atributy typu „Vysoká exprese genu X ve FCF“ • Výsledek: pravidla ve tvaru [FluxID(a) ~ GeneLevel(b)] ~ CellType(c) Použité kvantifikátory: 100% konfidence • Prohlížení experimentů

  22. Další práce • Odladění + škálování • Správná diskretizace hodnot atributů • Sonda vs. chip

More Related