1 / 28

Sekvensklassificering & Hidden Markov Models

Sekvensklassificering & Hidden Markov Models. Bioinformatik 3p 24 Januari 2002 Patrik Johansson, Inst. f ör Cell & Molekylärbiologi, Uppsala Universitet. Craig. ?. Klassificering baserat p å deterministiska regler. Konsensussekvenser (kvalitativ / fix längd)

maille
Download Presentation

Sekvensklassificering & Hidden Markov Models

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sekvensklassificering & Hidden Markov Models Bioinformatik 3p 24 Januari 2002 Patrik Johansson, Inst. för Cell & Molekylärbiologi, Uppsala Universitet

  2. Craig ?

  3. Klassificering baserat på deterministiska regler • Konsensussekvenser (kvalitativ / fix längd) • AT{LV}G{CA} ATLGC, ATLGA, ATVGC, ATVGA • Weight matrices (kvantitativ / fix längd) • ex. GYCG, GYGG, GYCC

  4. Klassificering baserat på deterministiska regler.. • Prosites (kvalitativ / variabel längd) • G{YF}W(3,5)NH GYWACLNH, GFWSFAEVNH ... • Profiles (kvantitativ / variabel längd) • Positionsspecifik viktmatris + Gap penalty

  5. A A A B B B C C C Hidden Markov Models, introduktion • Generell metod för mönsterigenkänning, jmfr. Profiles & neurala nätverk • En Markovkjedja av händelser • Tre mynt A, B & C CAABA.. Sekvens, ex. Heads Heads Tails, genereras av gömd Markovkjedja

  6. A A B A B B C C C Heads Tails Tails Hidden Markov Models, introduktion.. • En HMM genererar sekvenser / sekvensdistributioner • Emitterar symbol (T, H) i varje state baserat på en emissionssannolikhet ei Väljer nästföljande state utifrån • någon övergångssannolikhet ai,j • Ex. sekvensen ‘Tails Heads Tails’

  7. M1 Mj MN B E Profile Hidden Markov Model arkitektur • En första approach för • sekvensdistributionsmodellering

  8. Mj - Mj Mj+ Ij B E Profile Hidden Markov Model arkitektur.. • Modellering av insertioner ejI(a) =q(a) , där q(a) är bakgrundsdistributionen av aminosyror

  9. Mj Mj Dj Profile Hidden Markov Model arkitektur.. • Modellering av deletioner

  10. Dj Ij E B Mj Profile Hidden Markov Model arkitektur.. Insert & deletestates generaliseras till alla positioner. Modellen genererar sekvenser från state Bgenom succesiva emissioner och transitioner tills state E nås

  11. Probabilistisk sekvensmodellering • Klassificeringskriterium ( 1 ) Bayes sats ; ( 2 ) ..men, P(M) & P(s)..? ( 3 )

  12. Probabilistisk sekvensmodellering.. Om N tillåts modellera hela sekvensrymden tex. genom N = q ; ( 4 ) Eftersom , logaritmsannolikheter smidigare Def., log-odds score ; ( 5 )

  13. Probabilistisk sekvensmodellering.. Ekv. ( 4 ) & ( 5 ) ger ett nytt klassificeringskriterium ; ( 6 ) Milosavljevics algoritmsignifikanstest  ..för viss signifikansnivå , dvs. antalet felaktigt klassificerade sekvenser av en n stor databas, krävs visst threshold d  ( 7 )

  14. Probabilistisk sekvensmodellering.. Exempel. Om z=e eller z=2, signifikansnivån väljs till en felaktig klassificering, en false positive, per tiotusen och vi klassificerar n=1000 sekvenser ; bits nits, Man brukar definiera känslighet, ‘hur många hittas’ ; ..och selektivitet, ‘hur många är korrekta’ ;

  15. Modellkonstruktion • Från initial alignment • Vanligaste metoden, utgå från multipel alignment av tex. en proteinfamilj • Iterativt • Genom att sucessivt söka i en databas och inkorporera nya sekvenser över något visst threshold till modellen • Neuralt inspirerad • Modellen tränas mha. någon kontinuerlig minimerings- algoritm, ex. Baum-Welsh eller Steepest Descent

  16. D2 I2 M3 B M2 M1 D2 I2 D2 M3 E E E E B M2 M1 I2 M3 B M2 M1 D2 I2 M3 B M2 M1 Modellkonstruktion.. Initial alignment, potentiella matchstates markerade med ()

  17. Dj-1 Ij-1 Mj-1 Mj Evaluering av sekvenser Den optimala alignmenten, dvs. den path som har störst sannolikhet att generera sekvensen s, beräknas mha. dynamisk programmering Det maximala log-odds scoret VjM(si) för matchstate j som emitterar aminosyra si beräknas från emissionsscore, föregående maxscore och transitionsscore

  18. Evaluering av sekvenser.. Viterbis Algoritm, ( 8 ) ( 9 ) ( 10 )

  19. Parameterestimering, bakgrund Proteiner med liknande struktur och funktion kan ha mycket olika sekvenser Klassisk sekvensalignment baserad på heuristiska parametrar klarar inte en sekvensidentitet under ~ 50-60% Substitutionsmatriser för in statisk a priori information om aminosyror och proteinsekvenser  korrekta alignments ned till ~ 35% sekvensidentitet, ex. CLUSTAL Hur komma längre ned I ‘the twilight zone’..? - Mer och dynamisk a priori information..!

  20. Parameterestimering Vad är sannolikheten att emittera alanin I första matchstatet, eM1(‘A’)..? • Maximum likelihood-estimering

  21. Parameterestimering.. • Add-one pseudocount estimering • Background pseudocount estimering

  22. Parameterestimering.. • Substitutionmixture estimering • Score :  Maximum likelihood ger pseudocounts  : Total estimering :

  23. Parameterestimering.. • Ovanstående metoder är trots sin dynamiska utformning till viss del baserade på heuristiska parametrar. • Metod som kompenserar och kompletterar eventuell brist på data på ett statistiskt korrekt sätt ; • Dirichlet mixture estimering Bayes sats beskriver hur a priori information A värderas I vissa strukturella omgivningar verkar det finnas några vanligt förekomande aminosyradistributioner inte bara en, bakgrundsdistributionen q Antar att det finns k st probabilitetsdensiteter som genererar dessa

  24. Parameterestimering, Dirichlet Mixtures En metod som gör en separat estimering för alla j=1..k komponenter och sedan viktar ihop dem med sannolikheten att vår countvektor är genererad just av den komponenten Om de k komponenterna modelleras från en kurerad databas med alignments tex. som sk. Dirichlet densiteter kan ett explicit uttryck för sannolikheten att genererats från komponent j ställas upp mha. Bayes sats

  25. Parameterestimering, Dirichlet Mixtures.. De k komponenterna ger upphov till toppar av aa-distributioner i någon multidimensionell sekvensrymd Beroende på var i sekvensrymden vår countvektor n ligger, dvs beroende på vilka komponenter som antas har genereratn, inkorporeras distributionsinformation från dessa

  26. Klassifikationsexempel Alignment av några kända Glykosidhydrolassekvenser från familj GH16 • Definiera vilka kolumner som ska utgöra basis för matchstates • Ställ upp den korresponderande HMM-grafen för vår modell M • Estimera emissions- och transitionssannolikheter, ej& ajk • Evaluera sannolikheten / log-odds scoret att en viss sekvens s från någon databas har genererats av M med hjälp av Viterbis algoritm • Ifall score(s | M) > d, kan sekvensen s klassificeras till familjen GH16

  27. Klassifikationsexempel.. En viss sekvens s1=WHKLRQevalueras och får ett score på -17.63 nits, dvs. sannolikheten att modellen M har genererat s1 är mycket liten En annan sekvens s2=SDGSYT får ett score på 27.49 nits och kan med god signifikans klassificeras till familjen

  28. Sammanfattning • Hidden Markov Models används dels för klassificering / sökning (PFAM) och dels för sekvensmappning / homologimodellering • Till skillnad från vanlig alignment används en positionsspecifik approach för sekvens-, insertions- och deletionsdistributioner • Desto mer a priori information som inkorporeras, desto större känslighet men mindre selektivitet. Analogt för omvändningen

More Related