slide1
Download
Skip this Video
Download Presentation
ENTREZ - Genomes

Loading in 2 Seconds...

play fullscreen
1 / 77

ENTREZ - Genomes - PowerPoint PPT Presentation


  • 106 Views
  • Uploaded on

ENTREZ - Genomes. Map Viewer I. Map Viewer II. Map Viewer IIII. Map Viewer IV. European Bioinformatics Institute (EBI). European Bioinformatics Institute (EBI). Readseq: szekvencia formátum konvertáló. nameless_1. nameless_1 Length: 457 Nov 15, 2004 10:24 Check: 7178.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' ENTREZ - Genomes' - aren


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide9

nameless_1

nameless_1 Length: 457 Nov 15, 2004 10:24 Check: 7178 ..

1 GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG

51 CCATGGCTGT ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC

101 TTCGTGAAAG ATCACCACGA GCAGCCCGAA GACGATGGCC ATCCACACGA

151 CGTGAATGAA CCGCGCCCTC CATGCGGTCC GCGGTTTTTC AATGATCGAA

201 AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG TCCCTTTGGG

251 AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC

301 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC

351 CGGTTCCAGT

CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC

401 GGGACACTAG CCAACCGGGC AGTGTCCACT GGGCAGCGGG CAGGGTCTCC

451 CCCGGGA

Szekvencia formátumok I.

>nameless_1 457 bp GGCGAAGATTCGGCCAGGCAAAGAAGAGCGCGACGAATGGGAGCATGTAGCCATGGCTGTATTCCTCCGTACCCCATGCCCCAACCATGCGAGTCAAACCTTCGTGAAAGATCACCACGAGCAGCCCGAAGACGATGGCCATCCACACGACGTGAATGAACCGCGCCCTCCATGCGGTCCGCGGTTTTTCAATGATCGAAAGGGAATCGGCAACTTGAGTGGAGTCAGTCATATCAGGAGTCCCTTTGGGAGATGCTTCAGAGAGCAAGGTTCGTTGCCTCGGACCTGCATCACCCAACCATACAGATGCTCGGTTCGCGACGGCCTGCGTTGATTGCGCTGAGGATACCCGGTTCCAGTCCGTGCGACGACCATTAATAAGGCGCTCCACAGTTCCCGCGGGACACTAGCCAACCGGGCAGTGTCCACTGGGCAGCGGGCAGGGTCTCCCCCGGGA

FASTA

GCG

slide13

KERESÉS AZ ADATBNKOKBAN:

HASONLÓSÁG

Elsődleges DNS vagy fehérje szekvencia összehasonlítása

más elsődleges szekvenciákhoz

abban a reményben, hogy annak a funkciója ismert

a kísérletek szükségessége

analogikus gondolkodás

ha valamilyen fehérje hasonlít valami ismert funkiójú

fehérjéhez, akkor a funkció is hasonló

kérdés: mi hordozza a funkciót?

fehérje, vagy fehérje rész,

hány funkciója van egy fehérjének?

globalitás - lokalitás

illeszt s h tt r
Illesztés - héttér

“For many protein sequences, evolutionary history can be traced back 1-2 billion years”

-William Pearson

  • When we align sequences, we assume that they share a common ancestor
    • They are then homologous
  • Protein fold is much more conserved than protein sequence
  • DNA sequences tend to be less informative than protein sequences
slide16

Szekvenciák illesztése

  • Nagyon sok illesztés, alignment lehetséges.
  • Két szekvenciát mindig lehet illeszteni
  • Kérdés: jó-e, valós hasonlóságot mutat-e az illesztése.
  • Ehhez
  • az illesztések “jóságát” pontozni kell
  • Gyakran több illeszkedés is jó, ugyanolyan ponttal
slide17

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

Szekvenciák illesztése….

actaccagttcatttgatacttctcaaa

Szekvencia 1

Szekvencia 2

taccattaccgtgttaactgaaaggacttaaagact

slide18

Globális – lokális

TEGNAP VELED VOLTAM

TEGNAP VELED MAGOLTAM VELE DALOLTAM

:::::::::::: : :::::

TEGNAP VELED----------V-------OLTAM

TEGNAP VELED MAGOLTAM VELE DALOLTAM

:::::::::::: .:::::

TEGNAP-VELED---VOLTAM--------------

Globális

TEGNAP VELED MAGOLTAM VELE DALOLTAM

:::::::::::: .:::::

TEGNAP VELED ----------------VOLTAM

TEGNAP VELED MAGOLTAM VELE DALOLTAM

:::::: :::: : .:::::

TEGNAP----------------VELE-D-VOLTAM

Lokális

TEGNAP VELED MAGOLTAM

:::::::::::: .:::::

TEGNAP VELED---VOLTAM

TEGNAP VELED

:::::::::::

TEGNAP VELED

VELE DALOLTAM

:::: : .:::::

VELE-D-VOLTAM

pontoz s
Pontozás
  • Szekvenciaszerkesztés:

AGGCCTC

    • Mutációk

AGGACTC

    • Inszerciók

AGGGCCTC

    • Deléciók

AGG.CTC

Pontozás:

Illeszkedés: +m

Eltérés: -s

Lyuk: -d

Pont: F = (# illeszkedés)  m - (# eltérés)  s – (#lyukak)  d

slide20

DNSpontozási rendszer

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

Szekvencia1

Szekvencia 2

A G C T

A1 0 0 0

G 0 1 0 0

C 0 0 1 0

T 0 0 0 1

Illik: 1

Nem illik: 0

pont = 5

slide21

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

Szekvenciák illesztése….

actaccagttcatttgatacttctcaaa

Szekvencia 1

Szekvencia 2

taccattaccgtgttaactgaaaggacttaaagact

slide22

DNSpontozási rendszer

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

Szekvencia1

Szekvencia 2

Negatívérték bünteti az eltéréseket:

A T C G

A 5 -4 -4 -4

T -4 5 -4 -4

C -4 -4 5 -4

G -4 -4 -4 5

Illik: 5

Nem illik: 19

Score: 5 x 5 + 19 x (-4) = - 51

slide23

A T G C S W R Y K M B V H D N U

A 5 4 4 4 4 1 1 4 4 1 4 1 1 1 2 4

T 4 5 4 4 4 1 4 1 1 4 1 4 1 1 2 5

G 4 4 5 4 1 4 1 4 1 4 1 1 4 1 2 4

C 4 4 4 5 1 4 4 1 4 1 1 1 1 4 2 4

S 4 4 1 1 1 4 2 2 2 2 1 1 3 3 1 4

W 1 1 4 4 4 1 2 2 2 2 3 3 1 1 1 1

R 1 4 1 4 2 2 1 4 2 2 3 1 3 1 1 4

Y 4 1 4 1 2 2 4 1 2 2 1 3 1 3 1 1

K 4 1 1 4 2 2 2 2 1 4 1 3 3 1 1 1

M 1 4 4 1 2 2 2 2 4 1 3 1 1 3 1 4

B 4 1 1 1 1 3 3 1 1 3 1 2 2 2 1 1

V 1 4 1 1 1 3 1 3 3 1 2 1 2 2 1 4

H 1 1 1 4 3 1 1 3 1 3 2 2 2 1 1 1

D 1 1 1 4 3 1 1 3 1 3 2 2 2 1 1 1

N 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 2

U 4 5 4 4 4 1 4 1 1 4 1 4 1 1 2 5

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

A T G C

A 5 -4 -4 -4

T -4 5 -4 -4

G –4 -4 5 -4

C -4 -4 -4 5

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

Dotplots

Illeszkedési Mátrix

slide24

5

5

5

5

5

5

5

5

5

5

A T G C

A 5 -4 -4 -4

T -4 5 -4 -4

G –4 -4 5 -4

C -4 -4 -4 5

Pro

Leu

5

5

5

5

5

5

-4

5

5

-4

Pro

Leu

Dotplots

CCTCCTTTGT

Pont = 50

CCTCCTTTGT

CCTCCTTTGG

Pont = 32

CCTCCCTTAG

slide25

Protein pontozási rendszer

  • Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket

pici

P

alifás

C

kicsi

S+S

G

G

I

A

S

V

C

N

SH

L

D

T

hidrofób

Y

M

K

E

Q

F

W

H

R

pozitív

aromás

poláris

töltött

slide26

Fehérjepontozási rendszer

  • Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket
  • Pontozó mátrixnak tükröznie kell
    • a kölcsönös szubsztitúciók valószínűségét
    • az aminosavak előfordulási valószínűségét
  • Általánosan használt mátrixok:
    • PAM
    • BLOSUM
slide27

PAM (Percent Accepted Mutations) mátrixok

  • Fehérje családokból globál illesztéséből származik
  • A család tagjai legalább 85%-osan azonosak (Dayhoff et al., 1978)
  • Filogenetikus fa konstrukciója és ősi eredő szekvencia minden fehérje családra
  • aminosav cserék számítógépes analízise
slide28

C

W

W

-8

17

PAM 250

A R N D C Q E G H I L K M F P S T W Y V B Z

A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1

R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2

N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3

D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4

C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4

Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5

E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5

G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1

H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3

I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1

L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1

K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2

M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0

F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4

P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1

S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1

T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1

W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4

Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3

V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0

B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5

Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6

slide29

BLOSUM (Blocks Substitution Matrix)

  • Távoli rokonságban álló fehérjék doménjeinek összehasonlításából (Henikoff & Henikoff,1992).
  • Minden blokk minden oszlopjában minden aminosav előfordulását számolják
  • Az összes blokkból származtatott számokat használják aBLOSUM mátrixokhoz

A

A

C

E

C

A

A

C

E

C

A - C = 4

A - E = 2

C - E = 2

A - A = 1

C - C = 1

slide30

BLOSUM (Blocks Substitution Matrix)

  • A szekvenciákat a blokkokban csoportosítják az azonossági szintjüknek megfelelően.
  • A klasztereket egy szekvenciaként kezelik.
  • A különböző BLOSUM mátrixokkülönböznek abban, hogy hány százalékos szekvenciaazonosságot használtak a klaszterezés során.
  • A mátrix neve mögötti szám (62 BLOSUM62 esetén)a százalékos szekvencia azonosságra utal a mátrix képzése során.
  • Nagyobb számok kisebb evolúciós távolságra utalnak
slide31

BLOSUM 50 mátrix

H E A G A W G H E E

P -2 -1 -1 -2 -1 -4 -2 -2 -1 -1

A -2 -1 5 0 5 -3 0 -2 -1 -1

W -3 -3 -3 -3 -3 15 -3 -3 -3 -3

H10 0 -2 -2 -2 -3 -2 10 0 0

E 0 6 -1 -3 -1 -3 -3 0 66

A -2 -1 5 0 5 -3 0 -2 -1 -1

E 0 6 -1 -3 -1 -3 -3 0 66

slide32

Melyik mátrixot használjuk ?

  • Általában lokális hasonlósg keresés során a BLOSUM mátrixok jobban használhatóak, mint PAMmátrixok (Henikoff & Henikoff, 1993).
  • Amikorközeli rokonságban álló fehérjéket hasonlítunk össze alacsonyabb számúPAMvagy magasabb számú BLOSUM mátrixok ajánlottak, távoli kapcsolatban álló fehérjék esetén a mátrix száma magasabb legyen PAM alacsonyabb BLOSUM mátrix esetén.
  • A BLOSUM62 az “alapmátrix” (default) adatbázis kutatás esetén
slide33

BLOSUM90

PAM30

BLOSUM80

PAM120

BLOSUM62

PAM180

BLOSUM45

PAM240

Rat versus

mouse RBP

Rat versus

bacterial

lipocalin

slide35

Inszerciókés deléciók figyelembe vétele

A T G T A A T G C A

T A T G T G G A A T G A

A T G T - - A A T G C A

T A T G T G G A A T G A

inszerció / deléció

Lyukak keletkezése negatív büntető pontokkal jár

slide36

Hézagok szankcionálása

Lyuk nem megengedett Score: 10

1 GTGATAGACACAGACCGGTGGCATTGTGG 29

||| | | ||| | || || |

1 GTGTCGGGAAGAGATAACTCCGATGGTTG 29

Match = 5

Mismatch = -4

Hézag lehet, de büntetjük Score: 88

1 GTG.ATAG.ACACAGA..CCGGT..GGCATTGTGG 29

||| || | | | ||| || | | || || |

1 GTGTAT.GGA.AGAGATACC..TCCG..ATGGTTG 29

slide37

Hézagok büntetése

  • Két szekvencia optimális alignmentjeáltalában
      • maximálja az illeszkedések
      • minimalizálja a lyukak számát.
  • Inszerciók megengedése túl sok magas pontszámú illesztéshez vezetne  fals következtetés
  • Néhány hézag viszont jót tesz az illesztésnek.
slide38

Hézagok büntetése matematikailag

Lineáris:

(g) = - gd

Két lépcsős büntetés (Affine gap) :

(g) = -d - (g -1)e

(g) = ghosszúságú lyuk büntetőpontja

d = lyuk nyitás

e = lyuk hosszabbítás büntetétőpontja

g = hézaghossz

slide39

Inszerciók ésdeléciók pontozása

passzol = 1

nem passzol = 0

Összpont: 4

A T G T T A T A C

T A T G T G C G T A T A

Összpont:8 - 3.2 = 4.8

A T G T - - - T A T A C

T A T G T G C G T A T A

Hézag paraméterek:

d = 3 (lyuknyitás)

e = 0.1 (lyuktágítás)

g = 3 (lyukhossz)

(g) = -3 - (3 -1) 0.1 = -3.2

inszerció / deléció

alignment t pusok
Alignment típusok
  • Szigorú algoritmusok - időigényes
    • Needleman-Wunsch
    • Smith-Waterman
  • Heurisztikus algoritmusok - gyors
    • BLAST
    • FASTA
slide41

A dinamikus programozás alapelvei

  • - Alignment mátrix létrehozása
  • - Pontszámok lépésenkéntkalkulációja
  • - Visszanyomozás (backtracking)(az optimálisút megállapítása)
az a lignment addit v
Az alignment additív

Két szekvenciarészlet összevetése

x1…xi xi+1…xM

y1…yj yj+1…yN

A két pontszám összeadódik:

F(x[1:M], y[1:N]) = F(x[1:i], y[1:j]) + F(x[i+1:M], y[j+1:N])

d i nami kus p rogram oz s i
Dinamikusprogramozás I.
  • dinamikus programozási algoritmus

Tegyük fel, hogy az alábbi két szekvenciát már illesztettük

x1……xM

y1……yN

Legyen

F(i,j) = az illesztés optimális értéke

x1……xi

y1……yj

d i nami kus p rogram oz s ii
Dinamikusprogramozás II.

m, ha xi = yj

F(i,j) = F(i-1, j-1) +

s, ha nem

Három lehetséges eset van:

  • xipasszintható yj

x1……xi-1 xi

y1……yj-1 yj

2. xihézaghoz illik

x1……xi-1 xi

y1……yj -

  • yjhézaghoz illik

x1……xi -

y1……yj-1 yj

F(i,j) = F(i-1, j) - d

F(i,j) = F(i, j-1) - d

d i nami kus p rogram oz s iii

F(i-1, j-1)F(i, j-1)

F(i-1,j)F(i, j)

s(xi ,yj)

-d

-d

Dinamikusprogramozás III.
  • Honnan tudjuk, mi a korrekt?

Induktív feltételezés:

F(i, j-1), F(i-1, j), F(i-1, j-1)

optimális

Ekkor,

F(i-1, j-1) + s(xi, yj)

F(i, j) = max F(i-1, j) – d

F( i, j-1) – d

Ahol s(xi, yj) = m, ha xi = yj;

s(xi, yj) = s, ha xi yj

ld. mátrixok

needleman wunsch algoritmus
Needleman-Wunsch Algoritmus
  • Kezdeti paraméterek.
    • F(0, 0) = 0
    • F(0, j) = - j  d
    • F(i, 0) = - i  d
  • Fő iterációk.A mátrix kitöltése
    • Minden i = 1……M

Minden j = 1……N

F(i-1,j-1) + s(xi, yj) [1. eset]

F(i, j) = max F(i-1, j) – d [2. eset]

F(i, j-1) – d [3. eset]

átló, [1. eset]

Ptr(i,j) = bal, [2. eset]

fel, [3.eset]

  • Termináció. F(M, N) az optimálispont, és

Ptr(M, N)-bőlaz optimális alignment visszanyomozható

slide47

Azillesztési mátrix kitöltése

H E A G A W G H E E

0

P

A

W

H

E

A

E

-8 -16 -24 -32 -40 -48 -56 -64 -72 -80

-8

-16

-24

-32

-40

-48

-56

Perem feltételek

F(i, 0) = -id

F(j, 0) = -jd

slide48

F(i, j) = F(i-1, j-1) + s(xi ,yj)

F(i, j) = max F(i, j) = F(i-1, j) - d

F(i, j) = F(i, j-1) - d

F(0,0) + s(xi ,yj) = 0 -2 = -2

F(1,1) = max F(0,1) - d = -8 -8= -16 = -2

F(1,0) - d = -8 -8= -16

F(1,0) + s(xi ,yj) = -8 -1 = -9

F(2,1) = max F(1,1) - d = -2 -8 = -10 = -9

F(2,0) - d = -16 -8= -24

-2 -1 = -3

F(2,2) = max -10 -8 = -18 = -3

-9 -8 = -17

-8 -2 = -10

F(1,2) = max -16 -8 = -24 = -10

-2 -8 = -10

Azillesztési mátrix kitöltése

H E A G A W G H E E

0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80

P -8

A -16

W -24

H -32

E -40

A -48

E -56

P-H=-2

E-P=-1

H-A=-2

E-A=-1

-2

-9

-10

-3

slide49

E

E

“Backtracking”

H E A G A W G H E E

0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80

P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73

A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60

W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37

H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19

E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5

A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2

E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1

0

-8

-16

-17

-25

-20

-5

-13

-3

3

-5

1

H

-

E

-

A

P

G

-

G

-

H

H

E

E

-

A

A

A

W

W

Optimális globál alignment:

slide50

Smith - Waterman(lokális alignment)

Két különbség:

1.

2. Az alignment bárhol befejeződhet a mátrixban

0

F(i, j) = F(i-1, j-1) + s(xi ,yj)

F(i, j) = F(i-1, j) - d

F(i, j) = F(i, j-1) - d

F(i, j) = max

Példa:

Szekvencia1 H E A G A W G H E E

Szekvencia2 P A W H E A E

Mátrix: BLOSUMLyukbüntetés: Lineáris, d=8

slide51

E

E

Smith - Waterman alignment

H E A G A W G H E E

0 0 0 0 0 0 0 0 0 0 0

P 0 0 0 0 0 0 0 0 0 0 0

A 0 0 0 5 0 5 0 0 0 0 0

W 0 0 0 0 2 0 20 12 4 0 0

H 0 10 2 0 0 0 12 18 22 14 6

E 0 2 16 8 0 0 4 10 18 28 20

A 0 0 8 21 13 5 0 4 10 20 27

E 0 0 6 13 18 12 4 0 4 16 26

0

5

20

12

22

28

AA

WW

G-

HH

Optimal local alignment:

slide52

Extended Smith & Waterman

  • Több lokális alignment kapható:
  • a legjobb útvonal körüli régió törlése
  • ismételt visszanyomozás (backtracking)
slide53

Extended Smith & Waterman

0

5

20 12 4

12 18 22 14 6

4 10 18 28 20

4 10 20 27

4 16 26

H E A G A W G H E E

0 0 0 0 0 0 0 0 0 0 0

P 0 0 0 0 0 0 0 0 0

A 0 0 0 5 0 0 0 0 0 0

W 0 0 0 0 2 0 0 0

H 0 10 2 0 0 0

E 0 2 16 8 0 0

A 0 0 8 21 13 5 0

E 0 0 6 13 18 12 4 0

slide54

Extended Smith & Waterman

A

A

H E A G A W G H E E

0 0 0 0 0 0 0 0 0 0 0

P 0 0 0 0 0 0 0 0 0 0

A 0 0 0 5 0 0 0 0 0 0

W 0 0 0 0 2 0 0 0

H 0 10 2 0 0 0

E 0 2 16 8 0 0

A 0 0 8 21 13 5 0

E 0 0 6 13 18 12 4 0

0

10

16

21

H

H

EE

Másodiklegjobblokális alignment:

HEA

HEA

heuristic methods
Heuristic Methods
  • FastA (Pearson and Lipman)
  • Blast / Blast2 (Altschul)
fasta pearson and lipman
FastA (Pearson and Lipman)
  • 1.Rövid, rögzített hosszúságú azonos betűsor keresése
  • 2.Minden átló pontszámát meghatározzuk.
  • 3.A 10 legmagasabbpontszámú átlós régiót újrapontozzuk
  • a pontszám táblázatok alapján (kezdeti régiók).
  • A legmagasabb pontszám (score) init1.
  • 4.Szomszédos kezdeti átlók összekötése.
  • A legmagasabb pontszám (score) initn.
  • 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy
  • küszöbértéket (treshold)opt-score, z-score, és E() értéket
  • számolunk.
  • Azokat a szekvenciákat listázzuk, amiknek az E() értéke
  • kisebb, mint egy adott küszöbérték
r gz tett hossz s g azonos szavak keres se

Példa:

1 lépés

FastA

Rögzített hosszúságú azonos szavak keresése

adatbázis

szekvencia

Szó hossz:DNS: 6

Protein: 2

kereső szekvencia

fasta pearson and lipman1
FastA (Pearson and Lipman)
  • 1.Rövid, rögzített hosszúságú azonos betűsor keresése
  • 2.Minden átló pontszámát meghatározzuk.
  • 3.A 10 legmagasabbpontszámú átlós régiót újrapontozzuk
  • a pontszám táblázatok alapján (kezdeti régiók).
  • A legmagasabb pontszám (score) init1.
  • 4.Szomszédos kezdeti átlók összekötése.
  • A legmagasabb pontszám (score) initn.
  • 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy
  • küszöbértéket (treshold)opt-score, z-score, és E() értéket
  • számolunk.
  • Azokat a szekvenciákat listázzuk, amiknek az E() értéke
  • kisebb, mint egy adott küszöbérték
tl k pontoz sa

Példa:

2. lépés

FastA

Átlók pontozása

adatbázis

szekvencia

DNS:Passzol: 5

Eltérés: - 4

Protein:

Pontszám mátrixok

kereső szekvencia

Pontszám = 60

fasta pearson and lipman2
FastA (Pearson and Lipman)
  • 1.Rövid, rögzített hosszúságú azonos betűsor keresése
  • 2.Minden átló pontszámát meghatározzuk.
  • 3.A 10 legmagasabbpontszámú átlós régiót újrapontozzuk
  • a pontszám táblázatok alapján (kezdeti régiók).
  • A legmagasabb pontszám (score) init1.
  • 4.Szomszédos kezdeti átlók összekötése.
  • A legmagasabb pontszám (score) initn.
  • 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy
  • küszöbértéket (treshold)opt-score, z-score, és E() értéket
  • számolunk.
  • Azokat a szekvenciákat listázzuk, amiknek az E() értéke
  • kisebb, mint egy adott küszöbérték
az tl k pontoz sa

Példa:

3. lépés

FastA

Az átlók pontozása

adatbázis

szekvencia

DNS:Passzol:5

Eltérés: - 4

Protein:

Pontszám mátrixok

kereső szekvencia

Pontszám > 60 (INIT1)

fasta pearson and lipman3
FastA (Pearson and Lipman)
  • 1.Rövid, rögzített hosszúságú azonos betűsor keresése
  • 2.Minden átló pontszámát meghatározzuk.
  • 3.A 10 legmagasabbpontszámú átlós régiót újrapontozzuk
  • a pontszám táblázatok alapján (kezdeti régiók).
  • A legmagasabb pontszám (score) init1.
  • 4.Szomszédos kezdeti átlók összekötése.
  • A legmagasabb pontszám (score) initn.
  • 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy
  • küszöbértéket (treshold)opt-score, z-score, és E() értéket
  • számolunk.
  • Azokat a szekvenciákat listázzuk, amiknek az E() értéke
  • kisebb, mint egy adott küszöbérték
a szomsz dok tl s szakaszok sszek t se

Példa:

4. lépés

FastA

A szomszédok átlós szakaszok összekötése

adatbázis

szekvencia

kereső szekvencia

INITN = pont + pont - “kapcsolási büntetés”

zöld

sárga

fasta pearson and lipman4
FastA(Pearson and Lipman)
  • 1.Rövid, rögzített hosszúságú azonos betűsor keresése
  • 2.Minden átló pontszámát meghatározzuk.
  • 3.A 10 legmagasabbpontszámú átlós régiót újrapontozzuk
  • a pontszám táblázatok alapján (kezdeti régiók).
  • A legmagasabb pontszám (score) init1.
  • 4.Szomszédos kezdeti átlók összekötése.
  • A legmagasabb pontszám (score) initn.
  • 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy
  • küszöbértéket (treshold)opt-score, z-score, és E() értéket
  • számolunk.
  • Azokat a szekvenciákat listázzuk, amiknek az E() értéke
  • kisebb, mint egy adott küszöbérték
pontsz m kalkul ci

5. lépés

FastA

Pontszám kalkuláció

Opt-score: Smith-Waterman pontszám

Z-score: normalizált az adatbázis szekvencia hosszára

E() value A pontszám várható értéke

Mi az oka a jó pontszámnak? A sorrend vagy az összetétel?

Z= (Sc – MSc) / σ

Mi az oka a jó pontszámnak? A homológia vagy a nagy adatbázis?

E: annak a valószínűsége, hogy az adott (homológiájú) szekvencia véletlen szerűen szerepel az adatbázisban;Az ilyen homológiát mutató szekvenciák várható száma

fasta pearson and lipman5
FastA(Pearson and Lipman)
  • 1.Rövid, rögzített hosszúságú azonos betűsor keresése
  • 2.Minden átló pontszámát meghatározzuk.
  • 3.A 10 legmagasabbpontszámú átlós régiót újrapontozzuk
  • a pontszám táblázatok alapján (kezdeti régiók).
  • A legmagasabb pontszám (score) init1.
  • 4.Szomszédos kezdeti átlók összekötése.
  • A legmagasabb pontszám (score) initn.
  • 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy
  • küszöbértéket (treshold)opt-score, z-score, és E() értéket
  • számolunk.
  • Azokat a szekvenciákat listázzuk, amiknek az E() értéke
  • kisebb, mint egy adott küszöbérték
fasta eredm ny

Példa:

FastA

FastA

FastA eredmény:

Results sorted and z-values calculated from opt score

1770 scores saved that exceeded 107

4614416 optimizations performed

Joining threshold: 47, optimization threshold: 32, opt. width: 16

The best scores are: init1 initnopt z-sc E(5219455)

EMORG:CHPHET01 Begin: 1 End:162

! M37322 P.hybrida chloroplast rpS19 810 810 810 614.0 5e-25

EMORG:CHPHETIR Begin:31 End:183 Strand: -

! M35955 P.hybrida chloroplast rps19\' 410 410 699 531.8 1.7e-20

EMORG:SNCPJLB Begin: 2 End:150

! Z71250 S.nigrum chloroplast JLB reg 457 457 659 499.2 6.8e-19

EMORG:NPCPJLB Begin: 2 End:151

! Z71235 N.palmeri chloroplast JLB re 642 642 659 501.5 7e-19

EMORG:NBCPJLB Begin: 2 End:158

! Z71226 N.bigelovii chloroplast JLB 472 472 644 485.5 2.7e-18

EMORG:STCPJLB Begin: 2 End:149

! Z71248 S.tuberosum chloroplast JLB 452 452 641 485.4 3.7e-17

f ast a program ok
FASTA programok:

hasonlóság keresés kereső szekvenciaés bármilyen típusú szekvencia között(DNSés Protein).

peptid szekvenciákat nukleotid szekvenciákkal szemben.

nukleotidek szekvenciákatfehérje adatbázissal szemben“frameshift“-eket figyelembe véve.

nukleotid szekvenciákat nukleotid szekvenciaadatbázissalfehérje szinten.

FastA

TFastA

FastX

TFastX

blast
BLAST

(Basic Local Alignment Search Tool)

Alapok:

  • A kereső szekvencia összes lehetséges szavából létrehoz egy szótárat
  • Lokális alignmentet indít minden szóraami talál párt az adatbázisban

Futási idő: O(MN)

Nagyságrendekkel gyorsabb, mint a Smith-Waterman

query

DB

blast eredeti ver zi
BLAST Eredeti Verzió

……

query

Szótár:

Minden k hosszú szó (~11)

Alignment aszavak között, ezek pontja legyen  T

(tipikusan T = k)

Alignment:

Ungapped extenziókamíga pontszám a statisztikaiküszöb (threshold) alatt

Kimenet:

Minden olyan alignment, melynek pontszáma > statisztikai küszöb(threshold)

……

scan

DB

query

blast eredeti verzi
BLAST Eredeti verzió

Példa:

k = 4,

T = 4

Az illesztett szó GGTC iniciál egy alignmentet

Hézagmentes extenzióbalra és jobbra gaps,amíg az alignment < 50%

kimenet:

GTAAGGTCC

GTTAGGTCC

A C G A A G T A A G G T C C A G T

C C C T T C C T G G A T T G C G A

gapped blast
Gapped BLAST

A C G A A G T A A G G T C C A G T

Plussz tulajdonságok:

  • szó párokkal lehet

kezdeni

  • Extenziók lyukakkal a váz körüli sávon belül

Kimenet:

GTAAGGTCCAGT

GTTAGGTC-AGT

C T G A T C C T G G A T T G C G A

gapped blast1
Gapped BLAST

A C G A A G T A A G G T C C A G T

Plussz tulajdonságok:

  • szó párokkal lehet

kezdeni

  • Közeli alignmentekösszeolvasztva
  • Extenziókhézagokkal amíg a pontszám < T az addigi legjobb pontszám alá kerül

Kimenet:

GTAAGGTCCAGT

GTTAGGTC-AGT

C T G A T C C T G G A T T G C G A

blast vari ci k
BLAST variációk
  • MEGABLAST:
    • Nagyon hasonló szekvenciák összahasonlítására van optimalizálva
      • Legjobban működik, ha k = 4i  16
      • Lineárislyuk szankció
  • PSI-BLAST:
    • BLAST-tal sok találat
    • ezeket illesztjük, és mintázatot (pattern)kreálunk
    • ezt a mintázatot használjuk a következő kereséshez

ezeket a lépéseket iteratíve ismételjük

  • WU-BLAST: (Wash U BLAST)
    • Optimilizált, extra tulajdonságok
  • BlastZ
    • BLAST/PatternHunter metódus kombinációja
slide75

BLAST programok

ProgramInput Adatbázis

1

blastnDNADNA

1

blastpproteinprotein

6

blastxDNAprotein

6

tblastnproteinDNA

36

tblastxDNADNA

p lda
Példa

Query:gattacaccccgattacaccccgattaca (29 letters) [2 mins]

Database: All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences) 1,726,556 sequences; 8,074,398,388 total letters

>gi|28570323|gb|AC108906.9|Oryza sativa chromosome 3 BAC OSJNBa0087C10 genomic sequence, complete sequence Length = 144487 Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plus

Query: 4 tacaccccgattacaccccga 24

||||||| |||||||||||||

Sbjct: 125138 tacacccagattacaccccga 125158

Score = 34.2 bits (17),

Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plus

Query: 4 tacaccccgattacaccccga 24

||||||| |||||||||||||

Sbjct: 125104 tacacccagattacaccccga 125124

>gi|28173089|gb|AC104321.7| Oryza sativa chromosome 3 BAC OSJNBa0052F07 genomic sequence, complete sequence Length = 139823 Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plus

Query: 4 tacaccccgattacaccccga 24

||||||| |||||||||||||

Sbjct: 3891 tacacccagattacaccccga 3911

p lda1
Példa

Query: Human atoh enhancer, 179 letters [1.5 min]

Result: 57 blast hits

  • gi|7677270|gb|AF218259.1|AF218259 Homo sapiens ATOH1 enhanc... 355 1e-95
  • gi|22779500|gb|AC091158.11| Mus musculus Strain C57BL6/J ch... 264 4e-68
  • gi|7677269|gb|AF218258.1|AF218258 Mus musculus Atoh1 enhanc... 256 9e-66
  • gi|28875397|gb|AF467292.1| Gallus gallus CATH1 (CATH1) gene... 78 5e-12
  • gi|27550980|emb|AL807792.6| Zebrafish DNA sequence from clo... 54 7e-05
  • gi|22002129|gb|AC092389.4| Oryza sativa chromosome 10 BAC O... 44 0.068
  • gi|22094122|ref|NM_013676.1| Mus musculus suppressor of Ty ... 42 0.27
  • gi|13938031|gb|BC007132.1| Mus musculus, Similar to suppres... 42 0.27

gi|7677269|gb|AF218258.1|AF218258 Mus musculus Atoh1 enhancer sequence Length = 1517

Score = 256 bits (129), Expect = 9e-66 Identities = 167/177 (94%),

Gaps = 2/177 (1%) Strand = Plus / Plus

Query: 3 tgacaatagagggtctggcagaggctcctggccgcggtgcggagcgtctggagcggagca 62

||||||||||||| ||||||||||||||||||| ||||||||||||||||||||||||||

Sbjct: 1144 tgacaatagaggggctggcagaggctcctggccccggtgcggagcgtctggagcggagca 1203

Query: 63 cgcgctgtcagctggtgagcgcactctcctttcaggcagctccccggggagctgtgcggc 122

|||||||||||||||||||||||||| ||||||||| |||||||||||||||| |||||

Sbjct: 1204 cgcgctgtcagctggtgagcgcactc-gctttcaggccgctccccggggagctgagcggc 1262

Query: 123 cacatttaacaccatcatcacccctccccggcctcctcaacctcggcctcctcctcg 179

||||||||||||| || ||| |||||||||||||||||||| |||||||||||||||

Sbjct: 1263 cacatttaacaccgtcgtca-ccctccccggcctcctcaacatcggcctcctcctcg 1318

ad