1 / 25

UNIVERSITATEA POLITEHNICA TIMIŞOARA

UNIVERSITATEA POLITEHNICA TIMIŞOARA. MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății. www.medinfo.umft.ro/dim / bioinformatica.htm. BIOINFORMATICA. Prof Dr George I Mihala ş UMF Victor Babeş. CURSUL 8. COMPARAREA A DOUĂ SECVENŢE (III).

alair
Download Presentation

UNIVERSITATEA POLITEHNICA TIMIŞOARA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UNIVERSITATEAPOLITEHNICA TIMIŞOARA MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății

  2. www.medinfo.umft.ro/dim/bioinformatica.htm

  3. BIOINFORMATICA Prof Dr George I Mihalaş UMF Victor Babeş

  4. CURSUL 8

  5. COMPARAREA A DOUĂ SECVENŢE (III)

  6. Potriviri repetate (Repeatedmatches) [i] • Aplicaţii • Găseşte copii (nesuprapuse) ale unei secţiuni care se repetă(există domenii numite “motive”)

  7. Potriviri repetate [ii] • Aspecte teoretice • Se ia un prag T (threshold) • Se reţin doar secvenţele pentru care se ajunge la scoruri > T • Prima linie F(i,0) = max [F(i-1,0), F(i-1,j)-T, pt. j=1,…,m] • La F(i,j), în loc de 0 punem F(i,0) • Comentarii • T mare – poate exclude potriviri • T mic – divizează secvenţele ca să găsească şi potriviri slabe

  8. Potriviri suprapuse (Overlapmatches) [i] • Aplicaţii • Când ne aşteptăm ca o secvenţă să o conţină pe cealaltă, sau să se suprapună parţial • La compararea fragmentelor genomice de ADN • La compararea unor secvenţe cromozomale mari

  9. Potriviri suprapuse [ii] • Aspecte teoretice • Nu se penalizează gap-urile de la margini • Marginile se iniţializează cu 0 şi se aplică algoritmul N-W • Se setează maximul Fmax la valoarea maximă de pe linia de jos sau coloana din dreapta • “traceback” începe de la Fmax până la marginea de sus sau stânga • Există versiune cu “repeat”: F(i,0) = max [F(i-1,0), F(i-1,m)-T]

  10. Potriviri hibride (Hybrid matchconditions) • Aplicaţii • Fiecare variantă are avantaje şi dezavantaje • Exemple ce necesită abordări specifice: • O secvenţă repetitivă tinde să fie găsită în copii tandem neseparate • Căutăm secvenţe ce încep la startul ambelor secvenţe dar se pot termina în orice punct • Avem probabilitate mare ca o secvenţă să fie regăsită integral în alta, dar şi o probabilitate de a găsi numai un segment (căutări în familii) • Este bine să ştim ce potriviri căutăm • Aspecte teoretice • Cazurile standard sunt limitate, dar putem găsi ceva apropiat • Se pot face “postprocesări”

  11. Programare dinamică – modele complexe • Aplicaţii • Gap-urile sunt adesea “în lanţ” • Aspecte teoretice • Tipuri de penalizare gap: • Liniară γ(g) = - g d (g = nr.gap-uri, d = penalizare 1 gap) • Gap-uri afine: γ(g) = - d – (g-1) e (e = penalizare gap în lanţ; e << d) • Modificarea relaţiilor de recurenţă • “Automate cu stări finite”, modele complexe • Scoruri diferite la substituţie în diverse regiuni (transmembranar, intracelular, extracelular) • Metode euristice - BLAST

  12. MATRICI DESUBSTITUȚIE

  13. Matrici de substituţie pentruproteine [i] A. Matrici PAM – PercentAcceptedMutations • Ipoteză – fiecare schimbare a unui AA este independentă de alte schimbări anterioare • Calculul matricilor PAM (Margaret Dayhoff, 1978) • Au fost evaluate 1572 schimbări în 71 grupe de secvenţe proteice cu similaritate cel puţin 85% • PAM1 – se acceptă 1 mutaţie la 100 AA • PAM10 – 10 mutaţii, etc • PAM-N = PAM1 x PAM1 x … de N ori • Folosire în funcţie de procent de similaritate • PAM250 pt 20%, PAM120 / 80 / 60 pt 40%, 50%, 60%

  14. Exprimare cu “log odds” • Fiecare celulă = log OR (scor aditiv) OR = p(AA1mAA2) / fr(AA1) = frecv.rel.a schimbării

  15. B. Matrici BLOSUM • Blocks (Amino Acid)Substitution Matrices • Stephen şi Georgia Henikoff (1992) • Pe baza a 2000 patternuri de AA organizaţi în blocuri • (blocuri – semnăturile unor familii de proteine) • BLOSUM50,60,80 – secvenţe 50% (60%, 80%) similare, etc s(a,b) = (1/λ) log [p(a,b) / fafb]

  16. Blosum62

  17. Matrici de substituţiepentruAciziNucleici[ii] • Matrici pentru Acizi nucleici • bazate pe modele de evoluţie / substituţie a nucleotidelor A) Modelul Jukes-Cantor • rate uniforme la mutaţii B) Modelul Kimura • rate diferite la mutaţii

  18. ModelulKimura- tranziţii (conservă purină/pirimidină), - rata α- transversii – rate mai mici β < α

  19. Aspecte Statistice

  20. Testarea semnificaţiei alinierii Distribuţia Poisson (Gumbel) E = K m n e- λS E = nr alinieri cu scor min. S m, n = lungimile secvenţelor K, λ = parametrii statistici ai S S = 10 log x

  21. Semnificaţia alinierii - Normalizare • Nr bits (log2) de informaţie în scor • Nr nats (ln) • Conversia la biţi: S’ = (λ S – ln K) / ln 2 E = m n 2- S’ • Valori P – probabilitatea de a obţine S la întâmplare P = 1 – e –E~ e –E • Determinarea rapidă a semnificaţiei • Uzual K = 0.1, λ este precalculat în PAM şi BLOSUM • Ex: matricea log odds în biţi: λ = ln 2 şi prag = ln (mn)

  22. PAUZA

More Related