h idden m arkov m odel n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
H idden M arkov M odel PowerPoint Presentation
Download Presentation
H idden M arkov M odel

Loading in 2 Seconds...

play fullscreen
1 / 24

H idden M arkov M odel - PowerPoint PPT Presentation


  • 170 Views
  • Uploaded on

H idden M arkov M odel. A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'H idden M arkov M odel' - onaona


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
h idden m arkov m odel
Hidden Markov Model
  • A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak
  • A matematkai módszer alkalmazható szekvencia-illesztésre, homológia-keresésre, gén-keresésre, stb.
a hidden markov model ltal nos szerkezete
A Hidden Markov Model általános szerkezete
  • A modellt fázisok,átmenetek és valószínűségek alkotják
  • Minden fázist sorban meglátogatunk
  • Az egyes fázisok egy-egy jelet bocsátanak ki
  • Mindenátmenetnekéskibocsátott jelnek meghatározott valószínűsége van; Σpi=1
  • A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett
  • A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott jelek megfigyelhető sorrendjét szolgáltatja
  • A valószínűségek az egyes fázisokban a többi fázistól függetlenek (távoli hatásokat nem vesz figyelembe)
1 p lda egy v gtelen szekvencia adott r sze at gazdag vagy gc gazdag
1. példa:“Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?”

Megfigyelések:

  • A DNS szekvenciának kétFÉLE szakasza van:
    • AT-gazdag (1) és
    • GC-gazdag (2)
  • AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”)
  • AT-gazdag szakaszban is lehet G/C (és ford.)
  • A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán)
  • A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok

Markov-lánc

Megfigyeltszekvencia

Ezek alapján három dolgot rendelünk egymáshoz:

A megfigyelt szekvenciát

A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC)

A modellt

(Ezek közül kettőből TÖBB KÜLÖNBÖZŐ harmadik lenne származtatható)

Modell

1 p lda egy v gtelen szekvencia adott r sze at gazdag vagy gc gazdag1

Két fázis

Fázis-átmeneti valószínűségek

Jelek és kibocsátási valószínűségeik

A Modell

Egy lehetséges„Markov-chain”

A megfigyeltszekvencia

Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ez a HMM ezzel a fázis-sorrenddel ezta szimbólum-szekvenciát generálja

1. példa:“Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?”
a megv laszolhat k rd sek
A megválaszolható kérdések
  • Az adott HMM milyen valószínűséggel generálja az adott szekvenciát? (Scoring)
  • Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment)
  • Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training)

Két fázis

Fázis-átmenetivalószínűségek

Jelek és kibocsátási valószínűségeik

A Modell

Egy lehetséges„Markov-chain”

A megfigyeltszekvencia

slide6
Minden lehetséges út kiszámítása rendkívül időigényes lenne,emiatt itt is speciális algoritmusokat alkalmazunk
  • Scoring: Forward algoritmusA megelőző valószínűségek összege
  • Alignment: Viterbi algoritmusA megelőző valószínűségek legnagyobbika + back-tracking
  • Training Forward-Backward algoritmusMultiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”)
p lda profile vs hmm
Példa: Profile vs.HMM

Vezérelv: Több adattal és alaposabb módszerrel pontosabb eredményt lehet kapni

PROFILE

HMM

hmmer2
HMMER2

A jelenleg talán legjobb program homológia keresésre és hasonló feladatokra

az evol ci sor n fell p mut ci k a feh rje szerkezet ben nem okoznak azonnal v ltoz sokat
Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat
  • Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja
  • (kivétel: konvergens evolúció!!!)
  • Emiatt a szerkezet felderítése segíthet a funkció megtalálásában
slide12

Hasonló funkció

Hasonló szerkezet

Hogyan határozhatjuk meg a szerkezetet a szekvenciából?

3D szerkezet

G=H-TS

a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét

VIGYÁZAT!!!

A fehérje szerkezetek nem nagyon stabilak

Ált. 20-60kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H2O-H2O H-H kötés)

k zeli homol ggal nem rendelkez feh rj k funkci j nak meghat roz sa homol gia alapj n
Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján

15000 protein szerkezete ismert

A hasonlóság elve alapján következtethetünk egyes sajátságokra

Fold recognition

szekvencia

Másodlagos szerkezet

SCOP, ...

PSI-BLAST, HMM

FASTA, BLAST

CASP

Vélt funkció

KÍSÉRLET

Mol.biol, Biochem

a feh rje molekula t bb dom nb l p lhet fel
A fehérje molekula több doménből épülhet fel
  • A domének szerkezetileg és részben funkcionálisan független egységek
  • Szerkezetük ill. funkciójuk külön-külön vizsgálandó
  • Egy domén: gyakran több motif
  • A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes fehérje
  • A fehérjéket domének szerint csoportosíthatjukConserved Domain Database (CDD) (NCBI)Simple Modular Architecture Research Tool (SMART)
sasisekharan ramakrishnan ramchandran plot
Sasisekharan-Ramakrishnan-Ramchandran plot
  • A peptid kötés ált. sík (ált. trans ill a prolinnál cis)
  • Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet
  • 6-20 αR konformáció: α hélix
  • többβ-konformáció: „extended szerkezet” – β strand 2 v. több β strand: β sheet
m sodlagos szerkezeti elemek el rejelz se
Másodlagos szerkezeti elemek előrejelzése
  • Hidrofil- és hidrofób oldalláncok váltakozása 2(β) ill. 3,5(α) aminoavanként
    • α helix hidrofil- és hidrofób oldala: Helical wheel
  • Hosszabb (15-30 aa) hidrofób régió: TM
  • Az egyes aminosavaknak az egyes másodlagos szerkezetekben való eloszlási valószínűsége különbözik
  • Sok egyéb
slide17

Másodlagos szerkezeti elemek előrejelzése

  • A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen)
  • A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni
    • Új modellek, új algoritmusok
    • Homológ fehérjeszekvenciák (Multiple Alignment)
    • Hasonló célú programok eredményei
      • JPRED
    • A módszerek értékelése
      • CASP
a harmadlagos szerkezet meghat roz s ra t bb f ggetlen megk zel t st alkalmaznak
A harmadlagos szerkezet meghatározására több független megközelítést alkalmaznak
  • (Ismert szerkezetű homológ esetén: homológia modellezés)
  • 3D profiles (Adott szerkezetekben az egyes aminosavak környezete nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután „Folding Pattern” keresést lehet végezni)
  • Threading (készítsünk szerkezeteket a kérdéses molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket az ismert 3D szerkezetekre)
  • ...
harmadlagos szerkezetek oszt lyoz sa egym sra kereszthivatkoz speci lis adatb zisokkal t rt nik
Harmadlagos szerkezetek osztályozása (egymásra kereszthivatkozó) speciális adatbázisokkal történik
  • SCOP: (Structural Classification of Proteins)
    • Domains (a PDB adatbázisból)
    • Families (Homológ domének. Szekveniájuk, szerkezetük ill. funkciójuk hasonlósága közös őst valószínűsít)
    • Superfamilies (Hasomló szerkezetű és funkciójú fehérjék családjai, ahol a rokonság valószínűsíthető, de nem bizonyított)
    • Folds (hasonló topológiájú „Superfamilies”
    • CLASS (all-α; all-β; α/β; α+β, multi-domén;membrán- és sejtfelszín; egyéb kis proteinek, peptidek;)
  • CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten: Class(C), Architecture(A), Topology(T) and Homologous superfamily (H).
  • ...
slide20
Protein: Flavodoxin from Anabaena
  • Lineage:
  • Root: scop
  • Class: Alpha and beta proteins (a/b) [51349] Mainly parallel beta sheets (beta-alpha-beta units)
  • Fold: Flavodoxin-like [52171] 3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345
  • Superfamily: Flavoproteins [52218]
  • Family: Flavodoxin-related [52219] binds FMN
  • Protein: Flavodoxin [52220]
  • Species: Anabaena, pcc 7119 and 7120 [52223]
  • PDB Entry Domains:
  • 1obocomplexed with fmn, so4; mutant
    • chain a [86776]
    • chain b [86777]
  • 1rcf [31170] complexed with fmn, so4
  • 1dx9apo formcomplexed with so4; mutant
    • chain a [31171]
    • chain b [31172]
    • chain c [31173]
a bioinformatika is k s rletes tudom ny
A bioinformatika is kísérletes tudomány
  • Kizárólag ab inito módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható
  • „Knowledge-based” módszereket alkalmazunk
  • A „knowledge” egyre bűvül  az ezen alapuló módszerek is folyamatosan fejlődnek
  • A módszereket tesztelni kell (in silico KÍSÉRLET)
  • CASP: Critical Assessment of Techniques for Protein Structure Prediction
    • 2 évente végzett „blind test”
    • Különböző nehézségi kategóriákban meghirdetett szekvenciák
    • Titokban tartott, újonnan meghatározott szerkezetekkel
p lda hmmspectr
példa: HMMSPECTR

A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat

Két, hasonló funkciójú de nagyon különböző szekvenciájú fehérje hasonló szerkezeti elemeinek kimutatása:

slide24

PERL

Ezzel foglalkozunk a következő órán

  • A bioinformatikában igen gyakran
  • több különálló programnak
  • sok szekvenciával,
  • sokszori futtatása során keletkező
  • rengeteg, jellemzően szöveges file-t kell
  • értelmezni,
  • értékelni, ezek alapján
  • dönteni a továbi lépésekről.

Ez a tevékenység maga is egy számítógépes felhasználás

Többek között az ilyen feladatok ellátásának is széles körben elterjedt eszköze a