1 / 33

Webgráfokról és fehérje-fehérje interakciós gráfokról

Webgráfokról és fehérje-fehérje interakciós gráfokról. Grolmusz Vince matematikus egyetemi tanár ELTE Matematikai Intézet Protein Információs Technológia Csoport. Az ELTE Matematikai Intézete. A hazai matematika oktatás és kutatás egyik fellegvára, Itt oktatott Fejér Lipót,

avani
Download Presentation

Webgráfokról és fehérje-fehérje interakciós gráfokról

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Webgráfokról és fehérje-fehérje interakciós gráfokról Grolmusz Vince matematikus egyetemi tanár ELTE Matematikai Intézet Protein Információs Technológia Csoport

  2. Az ELTE Matematikai Intézete • A hazai matematika oktatás és kutatás egyik fellegvára, • Itt oktatott Fejér Lipót, Hajós György, Riesz Frigyes, Rényi Alfréd, Turán Pál

  3. A Protein Információs TechnológiaiCsoport Célunk: az utóbbi 2-3 évtizedben kidolgozott kombinatorikai,gráfelméleti, adatbányászati technikák alkalmazása biológiai és gyógyszerkutatási problémák megoldására, ezzel a matematikus-biológus-vegyész szakmák közötti “kulturális gátak” lebontása http://pitgroup.org

  4. Hogy kerül össze a matematika, a biológia és a kémia? • Régen még nem váltak el egymástól • Ma a tudósok szűk területekre specializálódnak • Sok olyan matematikai, számítógéptudományi módszer fejlődött ki az utóbbi 20-30 évben, amely alkalmas nagy tömegű adat nemtriviális elemzésére • 20-30 éve a biológusoknak, kémikusoknak nem volt még nagy tömegű adatuk; ma van. • Ezek feldolgozása, és az ezekben történő keresés sokszor nemtriviális matematikát kíván.

  5. Webgráfok és fehérje interakciós gráfok • Webgráf: A WWW gráfja, a 90-es évek elején nézték komolyan (pl. Google PageRank: a fontos csúcsok meghatározása) • Fehérje-fehérje interakciós gráfok: ezredfordulótól nézik széleskörűen Miről lesz szó? • A webgráfokra kifejlesztett eljárások biológiai alkalmazásai

  6. Néhány vélemény szerint: • A jelenlegi egy-egy fehérjét vagy egy receptort tekintő vagy támadó terápiás eljárásokból túl sok új eredményt nem lehet kihozni. • Sok betegség komplex, sok biokémiai folyamatot érint, sok fehérjével van kapcsolatban. • Pl. depresszió: nem felelős érte egyetlen fehérje. Molekuláris mechanizmus nincs felderítve, molekuláris marker sincs.

  7. Több fehérje együttes hatását kell nézni! • Rendszerbiológia, • Proteomika, • (metabolomika, genomika, stb.)

  8. The number of pharmaceutical target proteins Overington et al.Nature Reviews Drug Discovery5, 993–996 (December 2006) | doi:10.1038/nrd2199 There are a little bit more than 100 000 human proteins, encoded by 21 000 genes Mycobacterium tuberculosis: 4000 genes, Plasmodium falciparum: 5200 genes

  9. Very few proteins are targeted Needed: novel protein targets in pathogen microorganisms. How to choose new targets: - Similarity to old targets; - Expert opinion - Objective method

  10. Proteomikai technikák széles körű elterjedése Hatalmas mennyiségű mérési adat és fehérjehálózat Az eredmények „kézzel”, „ránézéssel” nem értékelhetők ki Gyors, hibatűrő, biológiailag verifikált kiértékelési eljárásokra van szükség

  11. Itt és most nagy hálózatokban a fontos csúcsok megtalálására szeretnénk koncentrálni. Egy csúcs lehet fontos: 1. önmagában, a teljes hálózatban, 2. vagy néhány más csúcshoz képest A 2. típusú kérdés a biológiában például proteomikai mérések kiértékelésénél merül fel: Ha néhány fehérje koncentrációja megváltozik egy folyamatban, akkor szeretnénk tudni, hogy mely más fehérjék vannak ezekkel szoros kapcsolatban. A cél: fontos csúcsok megtalálása fehérjehálózatokban

  12. Ha nem a saját méréseinket használjuk, hol találunk fehérjehálózatokat? MINT (UniRoma): 112957 él, 29587 fehérje, csak kisérleti DIP (UCLA): 57 683 él, 20 728 fehérje HPRD (Johns Hopkins): 38 806 él, 27 801 fehérje, humán IntAct (EMBL-EBI): 195 719 él, 59 017 fehérje KEGG (Kyoto Univ.) metabolikus hálózatok Generált hálózatok: nascent.pitgroup.org, nem csak modell organizmusokra A cél: fontos csúcsok megtalálása fehérjehálózatokban

  13. Milyen hálózatokat tekintünk? • Fizikai interakciós hálózatok: • Csúcsok: fehérjék, élek: két fehérje • éllel van összekötve, ha köztük interakció van: • mért {TAP, Y2H, ko-immunoprecitipáció vagy egyéb}, • jósolt • Irányítatlan gráfok: A cél: fontos csúcsok megtalálása fehérjehálózatokban

  14. Milyen hálózatokat tekintünk? Metabolikus hálózatokat: Csúcsok: reakciók, élek az A-ból B-be: ha van az A reakciónak olyan terméke, amelyet a B használ fel. A B Az éleket lehet a fluxussal is címkézni. Példa: Az Mtb mikolsav pathway-e A cél: fontos csúcsok megtalálása fehérjehálózatokban

  15. hálózat = gráf • Konkrét, nagy gráfok struktúrájának gyakorlati • vizsgálatához a WWW web-gráfjának tanulmányozása • vezetett a 90-es évek közepén és végén; • A cél a fontos csúcsok kiszűrése volt a web-gráfból: • ez azért volt érdekes, mert amikor valaki rákeres egy • web-keresőben (pl. Google) egy kifejezésre, akkor a • fontos találatokat akarja látni az elsők közt. Sokszor • azonban több millió találat van... A cél: fontos csúcsok megtalálása fehérjehálózatokban

  16. Diverzió: Hogy működik egy webkereső? • Letöltés (robot, crawler) • Tárolás • Indexezés • Inverz indexezés De: kell, hogy a több milliárd weboldal közül a többmillió találatból a találati lista elején a FONTOS találatok legyenek.

  17. Web-gráf: csúcsok: a web oldalai élek: A B, ha az A oldal hivatkozik B-re; DEF 1:Fontos oldal azaz fontos csúcs: amelyre sokan hivatkoznak,azaz magas a be-foka: Sok alkalmazás; scientometria: hivatkozások száma, impakt faktor be-fok=4 hátránya: nem veszi figyelembe a hivatkozók minőségét, ezért befolyásolható A cél: fontos csúcsok megtalálása fehérjehálózatokban

  18. DEF 2: Fontos oldal azaz fontos csúcs: amelyre sok fontos csúcs hivatkozik... Mint definíció, ez így persze rossz. De könnyen lehet egy iteratív algoritmust csinálni belőle: az elején mindenkinek adok egy egységnyi „fontosságot”, aztán ezt (pongyolán fogalmazva) a csúcsok átörökítik azokra a csúcsokra, akikre mutatnak, és ezt ismételjük, amíg egy stabilizálódott határ-eloszláshoz nem jutunk (ez legtöbbször létezik). Könnyen, gyorsan számolható, általában gyorsan konvergál. Ennek az eljárásnak a hibatűrését és robusztusságát lehet egy új ötlettel növelni. Ezt véletlen bolyongással lehet jól elmondani. A cél: fontos csúcsok megtalálása fehérjehálózatokban

  19. Elindítunk egy sétáló embert a gráfon: ha egy csúcsba ér, akkor egyenletes valószínűséggel valamely kimenő élen megy tovább, vagy egy c valószínűséggel teleportál, egy véletlenül kiválasztott csúcsba: PageRank Pl. c=0.2 8/50 Egy csúcs fontossága az a valószínűség, amellyel ott tartózkodunk (pontosabban a határeloszlás)

  20. Ezt használta az első időkben a Google (Brin & Page 1998), tehát csak a linkek struktúrájából osztályozott). Előnyei: Aránylag nehéz mesterségesen befolyásolni (WWW) Hibatűrő (Biológiai felhasználások) A megváltozott csúcsok PageRangjainak összege PageRang vektorok különbségének normája c a teleportálási valószínűség, c=0.2-re ez 8 Ha a fontos csúcsoknál kevés hiba van, akkor ez hibatűrő!

  21. Irányítatlan gráfokban (ilyenek a fizikai interakciókat leíró gráfok) a PageRang nagyjából arányos a fokszámmal, azaz felesleges használni. De! Metabolikus gráfokban érdemes, hiszen azok irányítottak; sőt, a fluxust is figyelembe lehet venni: az élválasztási valószínűségeket lehet vele súlyozni.

  22. Fontos csúcsok az Mtb metabolikus hálózatában Two dense subgraphs from the metabolic graph of the Mycobacterium tuberculosis. On the left panel, large nodes correspond to large degree, but yellowish colors correspond to low PageRank. On the right panel,the small but orange-colored R06613 correspond to the KEGG reaction ID, catalyzed by the ThyX enzyme.

  23. PageRang relativizált változata: a perszonalizált PageRang c vsz-el teleportál egyenletesen; d vsz-el a kiválasztott csúcsokba 1-(c+d) vsz. Azért nevezték perszonalizáltnak, mert a web egyes felhasználóinak személyes érdeklődését is figyelembe lehet venni a csúcsok fontosságának kiszámolásánál.

  24. A perszonalizált PageRank néhány tulajdonsága: • A biológiai hálózatok jelenlegi méreteire könnyen, • gyorsan számolható; • hibatűrő, • Jól használható irányítatlan, fizikai interakciós • hálózatokra is • óriási hálózatokra (több millió csúcstól) jó közelítő • algoritmusok vannak a gyors kiszámítására is (így pl. • www, vagy az agy hálózatára is használható • {Fogaras, Rácz}).

  25. Miért hangsúlyozzuk a kiértékelő módszer hibatűrését? Proteomikai mérések erősen laborfüggő eredményeket szolgálatnak gyakran; Pl. 2006-ban a Nature ugyanazon számában jelent meg Gavin et al. és Krogan et al. két cikke az élesztő (S. cerevisiae) teljes interaktómjáról; nagy különbségek voltak a két csoport eredményei között. Értelmes kiértékeléshez jelentősen hibatűrő eljárások kellenek, különben értéktelen „eredményeket” kapunk.

  26. Az alábbiakban Gavin et al. legnagyobb élesztő-fehérje • komplexét tekintjük; • véletlenül kiválasztunk belőle néhány fehérjét; • ezekre perszonalizálunk; • azt nézzük, hogy mennyire „húzza be” a PageRang • a többi csúcsot:

  27. A perszonalizált PageRang biológiai alkalmazásai - 1

  28. A perszonalizált PageRang biológiai alkalmazásai - 1

  29. Alkalmazás proteomikai adatok analízisére Forgber et al (PlosOne 2009. ápr.) melanoma páciensek vérszérumában az alábbi fehérjék megnövekedett szintjét találta: Enolase 1: P06733 Calumenin: O43852 HSP70 protein B: P08107 2,4-dienoyl-CoA reductase: Q9NUI1 Aldolase A: P04075 Fumarate hydratase: P07954 Aldose reductase: P15121 HSP70 protein 9B: Q96EY1 Aconitase 2: P21399 hnRNP1: P26599 VCP: P55072 LDH H: P07195 LAP3: Q944P7 UniProt accession numbers A perszonalizált PageRang biológiai alkalmazásai - 2

  30. Tekintettük a HPRD-ben megtalálható humán interaktomot (38 806 él, 27 801 fehérje); • perszonalizáltunk az előző oldalon látható mérési eredményekre • megnéztük a legnagyobb perszonalizált PageRang-ú csúcsokat: A perszonalizált PageRang biológiai alkalmazásai - 2

  31. Köszönöm a figyelmet!

More Related