1 / 45

6. Kahden jonon rinnastus

6. Kahden jonon rinnastus. Sekvenssitaso (DNA, proteiini): identiteetti, samankaltaisuus, homologia Aakkostotaso (DNA, proteiini): identiteetti, vastaavuus, lisäys, poisto

artan
Download Presentation

6. Kahden jonon rinnastus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 6. Kahden jonon rinnastus • Sekvenssitaso (DNA, proteiini):identiteetti, samankaltaisuus, homologia • Aakkostotaso (DNA, proteiini):identiteetti, vastaavuus, lisäys, poisto • Yritetään päätellään sekvenssien suhteita käyttämällä aakkostoja ja erilaisia kustannusfunktioita, joilla yritetään mallintaa evoluutiota Johdatus bioinformatiikkaan / T. Pasanen

  2. Rinnastus Johdatus bioinformatiikkaan / T. Pasanen

  3. Johdatus bioinformatiikkaan / T. Pasanen

  4. Johdatus bioinformatiikkaan / T. Pasanen

  5. Rinnastus ... ACTGC ACCGC A-CGCA-CGTC • Kaksi rinnastustaACTG-C tai ACTG-CA-CGTC AC-GTC • Kumpi rinnastuksista on oikea/parempi? • Evoluutiota ei voi arvata rinnastuksella • Lisäyksiä ja poistoja ei voi erottaa Johdatus bioinformatiikkaan / T. Pasanen

  6. Rinnastus ... Johdatus bioinformatiikkaan / T. Pasanen

  7. Samankaltaisuuden mitta • Ei ole yhteisesti hyväksyttyä tarkkaa tapaa mitata samankaltaisuutta • Perusoperaatiot: Identiteetti, Korvaus, Lisäys ja Poisto; yleisestimax{ (x)I (x)K (x)L  (x)P} • Miten funtiot , ,  ja  määritellään?Voivat olla monimutkaisia funktioita (positio, positioiden peräkkäisyys jne) Johdatus bioinformatiikkaan / T. Pasanen

  8. Yksinkertaistus • Lasketaan vain Identiteetit, Korvaukset ja Aukot (gaps) eli poistot: max{ (x)I (x)K (x)A } • Identiteettien ja korvauksien arvot (“hyvyydet”) annetaan matriisimuodossa ja aukon sakkokustannus (x) tehtävän mukaan (yleensä vakio) Johdatus bioinformatiikkaan / T. Pasanen

  9. Rinnastuksen tulokset • Rinnastuksen tuottama samankaltai-suusarvo on suurin funktion M = max{ (x)I (x)K (x)A } arvo • Samalla annetaan myös kaikki sekvenssien erilaiset rinnastukset joiden tuottama samankaltaisuusarvo on M eli voi olla useita sekvenssien rinnastuksia jotka tuottavat arvon M Johdatus bioinformatiikkaan / T. Pasanen

  10. Korvaus-kustannus Johdatus bioinformatiikkaan / T. Pasanen

  11. Dayhoff mutaatiomatriisit PAM = Point Accepted Mutations • Todennäköisyysmatriisit perustuvat 85% identtisiin sekvensseihin • Matriiseja kertomalla saadaan todennäköisyydet kaukaisille jonoille • Käytettävä matriisi pitäisi valita jonojen etäisyyden perusteella?, esim 250 PAM kun identiteettejä on vain 20% • Arvot on muutettu kokonaisluvuiksi Johdatus bioinformatiikkaan / T. Pasanen

  12. Korvaus-kustannus Johdatus bioinformatiikkaan / T. Pasanen

  13. Identtisyys ja PAM luvut • Ongelma: miten tehdä sellainen matriisi jolla tunnistetaan sekvenssien sukulaisuudet kun jonoissa on vain 20% identtisiä merkkejä? Johdatus bioinformatiikkaan / T. Pasanen

  14. BLOSUM matriisit • BLOcks SUBstitution Matrix • Tehty BLOCKS kannan perusteella • BLOSUM X on tehty sekvenssiryppään perusteella jossa kaikki jonot ovat ainakin X% samanlaisia, esim BLOSUM 62, BLOSUM 80 jne Johdatus bioinformatiikkaan / T. Pasanen

  15. Korvaus-kustannus Johdatus bioinformatiikkaan / T. Pasanen

  16. Matriisien vaikutus Johdatus bioinformatiikkaan / T. Pasanen

  17. Tilastollinen arviointi • Arvo = score ja Expect = mitä lähempänä 0:llaa sitä “todellisempi” täsmäys Johdatus bioinformatiikkaan / T. Pasanen

  18. Globaali rinnastus • kaavassa funktio d kuvaa poiston kustannusta ja funktio s alkioiden samankaltaisuutta • erilaisia rinnastuksia 2O(n) Johdatus bioinformatiikkaan / T. Pasanen

  19. Laskenta matriisissa Johdatus bioinformatiikkaan / T. Pasanen

  20. Algoritmi (Gotoh 1982) S0,0  0 for i  1..n do Si,0  Si-1,0-d for j  1..m do S0,j  S0,j-1-d for i  1..n do for j  1..m do Si,j  max{Si-1,j - d, Si-1,j-1 + s(xi,yj), Si,j-1 - d} Johdatus bioinformatiikkaan / T. Pasanen

  21. Merkityksiä • Ensimmäisen rivi kertoo kustannukset kun jonosta y postetaan kirjaimia alusta • Ensimmäisen sarake kertoo kustannukset kun jonosta x poistetaan kirjaimia alusta • Matriisin alkio (i, j) kertoo jonojen x1..xi ja y1..yj samankaltaisuuden eli paikasta (n, m) löydetään globaalin rinnastuksen arvo Johdatus bioinformatiikkaan / T. Pasanen

  22. Esimerkki Johdatus bioinformatiikkaan / T. Pasanen

  23. Esimerkki ... Johdatus bioinformatiikkaan / T. Pasanen

  24. Alkuperäinen Needleman-Wunsch (1970) Johdatus bioinformatiikkaan / T. Pasanen

  25. Alkuperäinen Needleman-Wunsch algoritmi ... Johdatus bioinformatiikkaan / T. Pasanen

  26. Alkuperäinen Needleman-Wunsch algoritmi ... Johdatus bioinformatiikkaan / T. Pasanen

  27. Alkuperäinen Needleman-Wunsch algoritmi ... Johdatus bioinformatiikkaan / T. Pasanen

  28. Dotplot Johdatus bioinformatiikkaan / T. Pasanen

  29. Dotplot ... Johdatus bioinformatiikkaan / T. Pasanen

  30. Lokaali rinnastus Johdatus bioinformatiikkaan / T. Pasanen

  31. Lokaali rinnastusalgoritmi for i  0..n do Si,0  0 for j  0..m do S0,j  0 for i  1..n do for j  1..m do Si,j  max{0, Si-1,j - d, Si-1,j-1 + s(xi,yj), Si,j-1 - d} Johdatus bioinformatiikkaan / T. Pasanen

  32. Merkitykset • Ensimmäinen nollarivi antaa anteeksi tuhotut kirjaimet jonosta y • Ensimmäinen nollasarake antaa anteeksi tuhotut kirjaimet jonosta x • 0 rekursiyhtälössä sallii uuden rinnastuksn aloittamisen mistä vain • Rinnastuksen arvo on max{(i, j)} mikä antaa anteeksi rinnastuksen xi+1..xn ja yj+1..yn Johdatus bioinformatiikkaan / T. Pasanen

  33. Lokaali rinnastus ... Johdatus bioinformatiikkaan / T. Pasanen

  34. Smith-Waterman rinnastus Johdatus bioinformatiikkaan / T. Pasanen

  35. Smith-Waterman rinnastus ... • täsmäys 1.0 ja epätäsmäys -0.33 Johdatus bioinformatiikkaan / T. Pasanen

  36. Smith-Waterman rinnastus ... Johdatus bioinformatiikkaan / T. Pasanen

  37. Dynaaminen ohjelmointi • Edellä esitetyt algoritmit ovat esimerkkejä ns. dynaamisesta ohjelmoinnista • Ongelma voidaan hajoittaa osaongelmiin (tyypillisesti päälekkäisiä), joiden arvon tallentamisesta voidaan hyötyä myöhemmin kun niitä ei tarvitse laskea uudelleen Johdatus bioinformatiikkaan / T. Pasanen

  38. FastA (1985) • Haetaan lyhyet samanlaiset osajonot (proteiinit 1-2, DNA 6) vrt dotplot • Yhdistellään saatuja pätkiä ja jos täsmäyksiä löytyy paljon niin käytetään dynaamista ohjelmointia Johdatus bioinformatiikkaan / T. Pasanen

  39. BLAST (1990) P35348 • Basic Local Alignment Search Tool • Erittäin nopea, koska optimoitu rinnakkaisille UNIX koneille • Esii kaikki tietyn mittaiset yhtenäiset osajonot joiden saama samankaltai-suusarvo ylittää tietyn kynnysarvon • Näitä täsmäyksiä pidennetään tietyin ehdoin ja ne annetaann tulokseksi Johdatus bioinformatiikkaan / T. Pasanen

  40. BLAST aukoilla • Etsitään joinoista vain alue, jonka antama samankaltaisuuarvo on korkein ja laajennetaan tätä täsmäystä dynaamisella ohjelmoinnilla • Nopeampi kuin edellinen (n. kolme kertaa) koska ei tarvitse tarkastella kaikki tarpeeksi hyviä täsmäyksiä Johdatus bioinformatiikkaan / T. Pasanen

  41. Osittain päälekkäinen täsmäys • Hännistä ei haluta maksaa! Johdatus bioinformatiikkaan / T. Pasanen

  42. Rekursioyhtälö • Yhtälö sama kuin globaalissa rinnastuksessa, mutta alkuarvot samat kuin lokaalissa rinnastuksessa Johdatus bioinformatiikkaan / T. Pasanen

  43. Algoritmi for i  0..n do Si,0  0 for j  0..m do S0,j  0 for i  1..n do for j  1..m do Si,j  max{Si-1,j - d, Si-1,j-1 + s(xi,yj), Si,j-1 - d} Johdatus bioinformatiikkaan / T. Pasanen

  44. Merkitykset • Ensimmäinen nollarivi (vast. nollasarake) antaa anteeksi tuhotut kirjaimet jonosta x (vast. y) • Maksimin etsiminen alimmaiselta riviltä (vast. sarakkeelta) antaa anteeksi jonon x (vast. y) loppuosan • Rinnastuksen tulos on max{{(n, j)  1  jm}, {(i, m)  1  in}} Johdatus bioinformatiikkaan / T. Pasanen

  45. Esimerkki Johdatus bioinformatiikkaan / T. Pasanen

More Related