ENTREZ-Genomes
This presentation is the property of its rightful owner.
Sponsored Links
1 / 77

ENTREZ-Genomes PowerPoint PPT Presentation


  • 69 Views
  • Uploaded on
  • Presentation posted in: General

ENTREZ-Genomes. Map Viewer I. Map Viewer II. Map Viewer IIII. Map Viewer IV. European Bioinformatics Institute (EBI). European Bioinformatics Institute (EBI). Readseq: szekvencia formátum konvertáló. nameless_1. nameless_1 Length: 457 Nov 15, 2004 10:24 Check: 7178.

Download Presentation

ENTREZ-Genomes

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Entrez genomes

ENTREZ-Genomes


Entrez genomes

Map Viewer I.


Entrez genomes

Map Viewer II.


Entrez genomes

Map Viewer IIII.


Entrez genomes

Map Viewer IV.


Entrez genomes

European Bioinformatics Institute (EBI)


Entrez genomes

European Bioinformatics Institute (EBI)


Entrez genomes

Readseq: szekvencia formátum konvertáló


Entrez genomes

nameless_1

nameless_1 Length: 457 Nov 15, 2004 10:24 Check: 7178 ..

1 GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG

51 CCATGGCTGT ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC

101 TTCGTGAAAG ATCACCACGA GCAGCCCGAA GACGATGGCC ATCCACACGA

151 CGTGAATGAA CCGCGCCCTC CATGCGGTCC GCGGTTTTTC AATGATCGAA

201 AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG TCCCTTTGGG

251 AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC

301 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC

351 CGGTTCCAGT

CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC

401 GGGACACTAG CCAACCGGGC AGTGTCCACT GGGCAGCGGG CAGGGTCTCC

451 CCCGGGA

Szekvencia formátumok I.

>nameless_1 457 bp GGCGAAGATTCGGCCAGGCAAAGAAGAGCGCGACGAATGGGAGCATGTAGCCATGGCTGTATTCCTCCGTACCCCATGCCCCAACCATGCGAGTCAAACCTTCGTGAAAGATCACCACGAGCAGCCCGAAGACGATGGCCATCCACACGACGTGAATGAACCGCGCCCTCCATGCGGTCCGCGGTTTTTCAATGATCGAAAGGGAATCGGCAACTTGAGTGGAGTCAGTCATATCAGGAGTCCCTTTGGGAGATGCTTCAGAGAGCAAGGTTCGTTGCCTCGGACCTGCATCACCCAACCATACAGATGCTCGGTTCGCGACGGCCTGCGTTGATTGCGCTGAGGATACCCGGTTCCAGTCCGTGCGACGACCATTAATAAGGCGCTCCACAGTTCCCGCGGGACACTAGCCAACCGGGCAGTGTCCACTGGGCAGCGGGCAGGGTCTCCCCCGGGA

FASTA

GCG


Entrez genomes

Szekvencia formátumok II.

GenBank

EMBL


Entrez genomes

Readseq: szekvencia formátum konvertáló, fehérje


Entrez genomes

Szekvencia formátumok III. – fehérjék

NBRF

PIR


Entrez genomes

KERESÉS AZ ADATBNKOKBAN:

HASONLÓSÁG

Elsődleges DNS vagy fehérje szekvencia összehasonlítása

más elsődleges szekvenciákhoz

abban a reményben, hogy annak a funkciója ismert

a kísérletek szükségessége

analogikus gondolkodás

ha valamilyen fehérje hasonlít valami ismert funkiójú

fehérjéhez, akkor a funkció is hasonló

kérdés: mi hordozza a funkciót?

fehérje, vagy fehérje rész,

hány funkciója van egy fehérjének?

globalitás-lokalitás


Entrez genomes

Szekvencia illesztés


Illeszt s h tt r

Illesztés - héttér

“For many protein sequences, evolutionary history can be traced back 1-2 billion years”

-William Pearson

  • When we align sequences, we assume that they share a common ancestor

    • They are then homologous

  • Protein fold is much more conserved than protein sequence

  • DNA sequences tend to be less informative than protein sequences


Entrez genomes

Szekvenciák illesztése

  • Nagyon sok illesztés, alignment lehetséges.

  • Két szekvenciát mindig lehet illeszteni

  • Kérdés: jó-e, valós hasonlóságot mutat-e az illesztése.

  • Ehhez

  • az illesztések “jóságát” pontozni kell

  • Gyakran több illeszkedés is jó, ugyanolyan ponttal


Entrez genomes

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

Szekvenciák illesztése….

actaccagttcatttgatacttctcaaa

Szekvencia 1

Szekvencia 2

taccattaccgtgttaactgaaaggacttaaagact


Entrez genomes

Globális – lokális

TEGNAP VELED VOLTAM

TEGNAP VELED MAGOLTAM VELE DALOLTAM

:::::::::::: : :::::

TEGNAP VELED----------V-------OLTAM

TEGNAP VELED MAGOLTAM VELE DALOLTAM

:::::::::::: .:::::

TEGNAP-VELED---VOLTAM--------------

Globális

TEGNAP VELED MAGOLTAM VELE DALOLTAM

:::::::::::: .:::::

TEGNAP VELED ----------------VOLTAM

TEGNAP VELED MAGOLTAM VELE DALOLTAM

:::::: :::: : .:::::

TEGNAP----------------VELE-D-VOLTAM

Lokális

TEGNAP VELED MAGOLTAM

:::::::::::: .:::::

TEGNAP VELED---VOLTAM

TEGNAP VELED

:::::::::::

TEGNAP VELED

VELE DALOLTAM

:::: : .:::::

VELE-D-VOLTAM


Pontoz s

Pontozás

  • Szekvenciaszerkesztés:

    AGGCCTC

    • Mutációk

      AGGACTC

    • Inszerciók

      AGGGCCTC

    • Deléciók

      AGG.CTC

      Pontozás:

      Illeszkedés: +m

      Eltérés: -s

      Lyuk:-d

      Pont: F = (# illeszkedés)  m - (# eltérés)  s – (#lyukak)  d


Entrez genomes

DNSpontozási rendszer

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

Szekvencia1

Szekvencia 2

AGCT

A1000

G0100

C0010

T0001

Illik: 1

Nem illik: 0

pont = 5


Entrez genomes

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

Szekvenciák illesztése….

actaccagttcatttgatacttctcaaa

Szekvencia 1

Szekvencia 2

taccattaccgtgttaactgaaaggacttaaagact


Entrez genomes

DNSpontozási rendszer

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

Szekvencia1

Szekvencia 2

Negatívérték bünteti az eltéréseket:

A T C G

A 5-4-4-4

T-4 5-4-4

C-4-4 5-4

G-4 -4-4 5

Illik: 5

Nem illik: 19

Score: 5 x 5 + 19 x (-4) = - 51


Entrez genomes

A T G C S W R Y K M B V H D N U

A 5 4 4 4 4 1 1 4 4 1 4 1 1 1 2 4

T 4 5 4 4 4 1 4 1 1 4 1 4 1 1 2 5

G 4 4 5 4 1 4 1 4 1 4 1 1 4 1 2 4

C 4 4 4 5 1 4 4 1 4 1 1 1 1 4 2 4

S 4 4 1 1 1 4 2 2 2 2 1 1 3 3 1 4

W 1 1 4 4 4 1 2 2 2 2 3 3 1 1 1 1

R 1 4 1 4 2 2 1 4 2 2 3 1 3 1 1 4

Y 4 1 4 1 2 2 4 1 2 2 1 3 1 3 1 1

K 4 1 1 4 2 2 2 2 1 4 1 3 3 1 1 1

M 1 4 4 1 2 2 2 2 4 1 3 1 1 3 1 4

B 4 1 1 1 1 3 3 1 1 3 1 2 2 2 1 1

V 1 4 1 1 1 3 1 3 3 1 2 1 2 2 1 4

H 1 1 1 4 3 1 1 3 1 3 2 2 2 1 1 1

D 1 1 1 4 3 1 1 3 1 3 2 2 2 1 1 1

N 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 2

U 4 5 4 4 4 1 4 1 1 4 1 4 1 1 2 5

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

A T G C

A 5 -4 -4 -4

T -4 5 -4 -4

G –4 -4 5 -4

C -4 -4 -4 5

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

Dotplots

Illeszkedési Mátrix


Entrez genomes

5

5

5

5

5

5

5

5

5

5

A T G C

A 5 -4 -4 -4

T -4 5 -4 -4

G –4 -4 5 -4

C -4 -4 -4 5

Pro

Leu

5

5

5

5

5

5

-4

5

5

-4

Pro

Leu

Dotplots

CCTCCTTTGT

Pont = 50

CCTCCTTTGT

CCTCCTTTGG

Pont = 32

CCTCCCTTAG


Entrez genomes

Protein pontozási rendszer

  • Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket

pici

P

alifás

C

kicsi

S+S

G

G

I

A

S

V

C

N

SH

L

D

T

hidrofób

Y

M

K

E

Q

F

W

H

R

pozitív

aromás

poláris

töltött


Entrez genomes

Fehérjepontozási rendszer

  • Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket

  • Pontozó mátrixnak tükröznie kell

    • a kölcsönös szubsztitúciók valószínűségét

    • az aminosavak előfordulási valószínűségét

  • Általánosan használt mátrixok:

    • PAM

    • BLOSUM


Entrez genomes

PAM (Percent Accepted Mutations) mátrixok

  • Fehérje családokból globál illesztéséből származik

  • A család tagjai legalább 85%-osan azonosak (Dayhoff et al., 1978)

  • Filogenetikus fa konstrukciója és ősi eredő szekvencia minden fehérje családra

  • aminosav cserék számítógépes analízise


Entrez genomes

C

W

W

-8

17

PAM 250

A R N D C Q E G H I L K M F P S T W Y V B Z

A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1

R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2

N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3

D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4

C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4

Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5

E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5

G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1

H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3

I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1

L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1

K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2

M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0

F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4

P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1

S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1

T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1

W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4

Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3

V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0

B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5

Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6


Entrez genomes

BLOSUM (Blocks Substitution Matrix)

  • Távoli rokonságban álló fehérjék doménjeinek összehasonlításából (Henikoff & Henikoff,1992).

  • Minden blokk minden oszlopjában minden aminosav előfordulását számolják

  • Az összes blokkból származtatott számokat használják aBLOSUM mátrixokhoz

A

A

C

E

C

A

A

C

E

C

A - C = 4

A - E = 2

C - E = 2

A - A = 1

C - C = 1


Entrez genomes

BLOSUM (Blocks Substitution Matrix)

  • A szekvenciákat a blokkokban csoportosítják az azonossági szintjüknek megfelelően.

  • A klasztereket egy szekvenciaként kezelik.

  • A különböző BLOSUM mátrixokkülönböznek abban, hogy hány százalékos szekvenciaazonosságot használtak a klaszterezés során.

  • A mátrix neve mögötti szám (62 BLOSUM62 esetén)a százalékos szekvencia azonosságra utal a mátrix képzése során.

  • Nagyobb számok kisebb evolúciós távolságra utalnak


Entrez genomes

BLOSUM 50 mátrix

H E A G A W G H E E

P -2 -1 -1 -2 -1 -4 -2 -2 -1 -1

A -2 -1 5 0 5 -3 0 -2 -1 -1

W -3 -3 -3 -3 -3 15 -3 -3 -3 -3

H10 0 -2 -2 -2 -3 -2 10 0 0

E 0 6 -1 -3 -1 -3 -3 0 66

A -2 -1 5 0 5 -3 0 -2 -1 -1

E 0 6 -1 -3 -1 -3 -3 0 66


Entrez genomes

Melyik mátrixot használjuk ?

  • Általában lokális hasonlósg keresés során a BLOSUM mátrixok jobban használhatóak, mint PAMmátrixok (Henikoff & Henikoff, 1993).

  • Amikorközeli rokonságban álló fehérjéket hasonlítunk össze alacsonyabb számúPAMvagy magasabb számú BLOSUM mátrixok ajánlottak, távoli kapcsolatban álló fehérjék esetén a mátrix száma magasabb legyen PAM alacsonyabb BLOSUM mátrix esetén.

  • A BLOSUM62 az “alapmátrix” (default) adatbázis kutatás esetén


Entrez genomes

BLOSUM90

PAM30

BLOSUM80

PAM120

BLOSUM62

PAM180

BLOSUM45

PAM240

Rat versus

mouse RBP

Rat versus

bacterial

lipocalin


Entrez genomes

Blosum62 scoring matrix


Entrez genomes

Inszerciókés deléciók figyelembe vétele

A T G T A A T G C A

T A T G T G G A A T G A

A T G T - - A A T G C A

T A T G T G G A A T G A

inszerció / deléció

Lyukak keletkezése negatív büntető pontokkal jár


Entrez genomes

Hézagok szankcionálása

Lyuk nem megengedettScore: 10

1 GTGATAGACACAGACCGGTGGCATTGTGG 29

||| | | ||| | || || |

1 GTGTCGGGAAGAGATAACTCCGATGGTTG 29

Match = 5

Mismatch = -4

Hézag lehet, de büntetjük Score: 88

1 GTG.ATAG.ACACAGA..CCGGT..GGCATTGTGG 29

||| || | | | ||| || | | || || |

1 GTGTAT.GGA.AGAGATACC..TCCG..ATGGTTG 29


Entrez genomes

Hézagok büntetése

  • Két szekvencia optimális alignmentjeáltalában

    • maximálja az illeszkedések

    • minimalizálja a lyukak számát.

  • Inszerciók megengedése túl sok magas pontszámú illesztéshez vezetne  fals következtetés

  • Néhány hézag viszont jót tesz az illesztésnek.


  • Entrez genomes

    Hézagok büntetése matematikailag

    Lineáris:

    (g) = - gd

    Két lépcsős büntetés (Affine gap) :

    (g) = -d - (g -1)e

    (g) = ghosszúságú lyuk büntetőpontja

    d = lyuk nyitás

    e = lyuk hosszabbítás büntetétőpontja

    g = hézaghossz


    Entrez genomes

    Inszerciók ésdeléciók pontozása

    passzol = 1

    nem passzol = 0

    Összpont: 4

    A T G T T A T A C

    T A T G T G C G T A T A

    Összpont:8 - 3.2 = 4.8

    A T G T - - - T A T A C

    T A T G T G C G T A T A

    Hézag paraméterek:

    d = 3(lyuknyitás)

    e = 0.1(lyuktágítás)

    g = 3(lyukhossz)

    (g) = -3 - (3 -1) 0.1 = -3.2

    inszerció / deléció


    Alignment t pusok

    Alignment típusok

    • Szigorú algoritmusok - időigényes

      • Needleman-Wunsch

      • Smith-Waterman

    • Heurisztikus algoritmusok- gyors

      • BLAST

      • FASTA


    Entrez genomes

    A dinamikus programozás alapelvei

    • - Alignment mátrix létrehozása

    • - Pontszámok lépésenkéntkalkulációja

    • - Visszanyomozás (backtracking)(az optimálisút megállapítása)


    Az a lignment addit v

    Az alignment additív

    Két szekvenciarészlet összevetése

    x1…xixi+1…xM

    y1…yjyj+1…yN

    A két pontszám összeadódik:

    F(x[1:M], y[1:N]) = F(x[1:i], y[1:j]) + F(x[i+1:M], y[j+1:N])


    D i nami kus p rogram oz s i

    Dinamikusprogramozás I.

    • dinamikus programozási algoritmus

      Tegyük fel, hogy az alábbi két szekvenciát már illesztettük

      x1……xM

      y1……yN

      Legyen

      F(i,j) = az illesztés optimális értéke

      x1……xi

      y1……yj


    D i nami kus p rogram oz s ii

    Dinamikusprogramozás II.

    m, ha xi = yj

    F(i,j) = F(i-1, j-1) +

    s, ha nem

    Három lehetséges eset van:

    • xipasszintható yj

      x1……xi-1 xi

      y1……yj-1 yj

      2.xihézaghoz illik

      x1……xi-1 xi

      y1……yj -

    • yjhézaghoz illik

      x1……xi -

      y1……yj-1 yj

    F(i,j) = F(i-1, j) - d

    F(i,j) = F(i, j-1) - d


    D i nami kus p rogram oz s iii

    F(i-1, j-1)F(i, j-1)

    F(i-1,j)F(i, j)

    s(xi ,yj)

    -d

    -d

    Dinamikusprogramozás III.

    • Honnan tudjuk, mi a korrekt?

      Induktív feltételezés:

      F(i, j-1), F(i-1, j), F(i-1, j-1)

      optimális

      Ekkor,

      F(i-1, j-1) + s(xi, yj)

      F(i, j) = max F(i-1, j) – d

      F( i, j-1) – d

      Ahol s(xi, yj) = m, ha xi = yj;

      s(xi, yj) = s, ha xi yj

    ld. mátrixok


    Needleman wunsch algoritmus

    Needleman-Wunsch Algoritmus

    • Kezdeti paraméterek.

      • F(0, 0) = 0

      • F(0, j) = - j  d

      • F(i, 0)= - i  d

    • Fő iterációk.A mátrix kitöltése

      • Minden i = 1……M

        Mindenj = 1……N

        F(i-1,j-1) + s(xi, yj) [1. eset]

        F(i, j) = max F(i-1, j) – d [2. eset]

        F(i, j-1) – d [3. eset]

        átló, [1. eset]

        Ptr(i,j)= bal,[2. eset]

        fel,[3.eset]

    • Termináció. F(M, N) az optimálispont, és

      Ptr(M, N)-bőlaz optimális alignment visszanyomozható


    Entrez genomes

    Azillesztési mátrix kitöltése

    H E A G A W G H E E

    0

    P

    A

    W

    H

    E

    A

    E

    -8 -16 -24 -32 -40 -48 -56 -64 -72 -80

    -8

    -16

    -24

    -32

    -40

    -48

    -56

    Perem feltételek

    F(i, 0) = -id

    F(j, 0) = -jd


    Entrez genomes

    F(i, j) = F(i-1, j-1) + s(xi ,yj)

    F(i, j) = max F(i, j) = F(i-1, j) - d

    F(i, j) = F(i, j-1) - d

    F(0,0) + s(xi ,yj) = 0 -2 = -2

    F(1,1) = max F(0,1) - d = -8 -8= -16 = -2

    F(1,0) - d = -8 -8= -16

    F(1,0) + s(xi ,yj) = -8 -1 = -9

    F(2,1) = max F(1,1) - d = -2 -8 = -10 = -9

    F(2,0) - d = -16 -8= -24

    -2 -1 = -3

    F(2,2) = max -10 -8 = -18 = -3

    -9 -8 = -17

    -8 -2 = -10

    F(1,2) = max -16 -8 = -24 = -10

    -2 -8 = -10

    Azillesztési mátrix kitöltése

    H E A G A W G H E E

    0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80

    P -8

    A -16

    W -24

    H -32

    E -40

    A -48

    E -56

    P-H=-2

    E-P=-1

    H-A=-2

    E-A=-1

    -2

    -9

    -10

    -3


    Entrez genomes

    E

    E

    “Backtracking”

    H E A G A W G H E E

    0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80

    P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73

    A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60

    W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37

    H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19

    E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5

    A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2

    E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1

    0

    -8

    -16

    -17

    -25

    -20

    -5

    -13

    -3

    3

    -5

    1

    H

    -

    E

    -

    A

    P

    G

    -

    G

    -

    H

    H

    E

    E

    -

    A

    A

    A

    W

    W

    Optimális globál alignment:


    Entrez genomes

    Smith - Waterman(lokális alignment)

    Két különbség:

    1.

    2. Az alignment bárhol befejeződhet a mátrixban

    0

    F(i, j) = F(i-1, j-1) + s(xi ,yj)

    F(i, j) = F(i-1, j) - d

    F(i, j) = F(i, j-1) - d

    F(i, j) = max

    Példa:

    Szekvencia1 H E A G A W G H E E

    Szekvencia2P A W H E A E

    Mátrix:BLOSUMLyukbüntetés:Lineáris, d=8


    Entrez genomes

    E

    E

    Smith - Waterman alignment

    H E A G A W G H E E

    0 0 0 0 0 0 0 0 0 0 0

    P 0 0 0 0 0 0 0 0 0 0 0

    A 0 0 0 5 0 5 0 0 0 0 0

    W 0 0 0 0 2 0 20 12 4 0 0

    H 0 10 2 0 0 0 12 18 22 14 6

    E 0 2 16 8 0 0 4 10 18 28 20

    A 0 0 8 21 13 5 0 4 10 20 27

    E 0 0 6 13 18 12 4 0 4 16 26

    0

    5

    20

    12

    22

    28

    AA

    WW

    G-

    HH

    Optimal local alignment:


    Entrez genomes

    Extended Smith & Waterman

    • Több lokális alignment kapható:

    • a legjobb útvonal körüli régió törlése

    • ismételt visszanyomozás (backtracking)


    Entrez genomes

    Extended Smith & Waterman

    0

    5

    20 12 4

    12 18 22 14 6

    4 10 18 28 20

    4 10 20 27

    4 16 26

    H E A G A W G H E E

    0 0 0 0 0 0 0 0 0 0 0

    P 0 0 0 0 0 0 0 0 0

    A 0 0 0 5 0 0 0 0 0 0

    W 0 0 0 0 2 0 0 0

    H 0 10 2 0 0 0

    E 0 2 16 8 0 0

    A 0 0 8 21 13 5 0

    E 0 0 6 13 18 12 4 0


    Entrez genomes

    Extended Smith & Waterman

    A

    A

    H E A G A W G H E E

    0 0 0 0 0 0 0 0 0 0 0

    P 0 0 0 0 0 0 0 0 0 0

    A 0 0 0 5 0 0 0 0 0 0

    W 0 0 0 0 2 0 0 0

    H 0 10 2 0 0 0

    E 0 2 16 8 0 0

    A 0 0 8 21 13 5 0

    E 0 0 6 13 18 12 4 0

    0

    10

    16

    21

    H

    H

    EE

    Másodiklegjobblokális alignment:

    HEA

    HEA


    Heuristic methods

    Heuristic Methods

    • FastA (Pearson and Lipman)

    • Blast / Blast2 (Altschul)


    Fasta pearson and lipman

    FastA (Pearson and Lipman)

    • 1.Rövid, rögzített hosszúságú azonos betűsor keresése

    • 2.Minden átló pontszámát meghatározzuk.

    • 3.A 10 legmagasabbpontszámú átlós régiót újrapontozzuk

    • a pontszám táblázatok alapján (kezdeti régiók).

    • A legmagasabb pontszám (score) init1.

    • 4.Szomszédos kezdeti átlók összekötése.

    • A legmagasabb pontszám (score) initn.

    • 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy

    • küszöbértéket (treshold)opt-score, z-score, és E() értéket

    • számolunk.

    • Azokat a szekvenciákat listázzuk, amiknek az E() értéke

    • kisebb, mint egy adott küszöbérték


    R gz tett hossz s g azonos szavak keres se

    Példa:

    1 lépés

    FastA

    Rögzített hosszúságú azonos szavak keresése

    adatbázis

    szekvencia

    Szó hossz:DNS: 6

    Protein: 2

    kereső szekvencia


    Fasta pearson and lipman1

    FastA (Pearson and Lipman)

    • 1.Rövid, rögzített hosszúságú azonos betűsor keresése

    • 2.Minden átló pontszámát meghatározzuk.

    • 3.A 10 legmagasabbpontszámú átlós régiót újrapontozzuk

    • a pontszám táblázatok alapján (kezdeti régiók).

    • A legmagasabb pontszám (score) init1.

    • 4.Szomszédos kezdeti átlók összekötése.

    • A legmagasabb pontszám (score) initn.

    • 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy

    • küszöbértéket (treshold)opt-score, z-score, és E() értéket

    • számolunk.

    • Azokat a szekvenciákat listázzuk, amiknek az E() értéke

    • kisebb, mint egy adott küszöbérték


    Tl k pontoz sa

    Példa:

    2. lépés

    FastA

    Átlók pontozása

    adatbázis

    szekvencia

    DNS:Passzol: 5

    Eltérés: - 4

    Protein:

    Pontszám mátrixok

    kereső szekvencia

    Pontszám = 60


    Fasta pearson and lipman2

    FastA (Pearson and Lipman)

    • 1.Rövid, rögzített hosszúságú azonos betűsor keresése

    • 2.Minden átló pontszámát meghatározzuk.

    • 3.A 10 legmagasabbpontszámú átlós régiót újrapontozzuk

    • a pontszám táblázatok alapján (kezdeti régiók).

    • A legmagasabb pontszám (score) init1.

    • 4.Szomszédos kezdeti átlók összekötése.

    • A legmagasabb pontszám (score) initn.

    • 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy

    • küszöbértéket (treshold)opt-score, z-score, és E() értéket

    • számolunk.

    • Azokat a szekvenciákat listázzuk, amiknek az E() értéke

    • kisebb, mint egy adott küszöbérték


    Az tl k pontoz sa

    Példa:

    3. lépés

    FastA

    Az átlók pontozása

    adatbázis

    szekvencia

    DNS:Passzol:5

    Eltérés: - 4

    Protein:

    Pontszám mátrixok

    kereső szekvencia

    Pontszám > 60 (INIT1)


    Fasta pearson and lipman3

    FastA (Pearson and Lipman)

    • 1.Rövid, rögzített hosszúságú azonos betűsor keresése

    • 2.Minden átló pontszámát meghatározzuk.

    • 3.A 10 legmagasabbpontszámú átlós régiót újrapontozzuk

    • a pontszám táblázatok alapján (kezdeti régiók).

    • A legmagasabb pontszám (score) init1.

    • 4.Szomszédos kezdeti átlók összekötése.

    • A legmagasabb pontszám (score) initn.

    • 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy

    • küszöbértéket (treshold)opt-score, z-score, és E() értéket

    • számolunk.

    • Azokat a szekvenciákat listázzuk, amiknek az E() értéke

    • kisebb, mint egy adott küszöbérték


    A szomsz dok tl s szakaszok sszek t se

    Példa:

    4. lépés

    FastA

    A szomszédok átlós szakaszok összekötése

    adatbázis

    szekvencia

    kereső szekvencia

    INITN = pont + pont - “kapcsolási büntetés”

    zöld

    sárga


    Fasta pearson and lipman4

    FastA(Pearson and Lipman)

    • 1.Rövid, rögzített hosszúságú azonos betűsor keresése

    • 2.Minden átló pontszámát meghatározzuk.

    • 3.A 10 legmagasabbpontszámú átlós régiót újrapontozzuk

    • a pontszám táblázatok alapján (kezdeti régiók).

    • A legmagasabb pontszám (score) init1.

    • 4.Szomszédos kezdeti átlók összekötése.

    • A legmagasabb pontszám (score) initn.

    • 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy

    • küszöbértéket (treshold)opt-score, z-score, és E() értéket

    • számolunk.

    • Azokat a szekvenciákat listázzuk, amiknek az E() értéke

    • kisebb, mint egy adott küszöbérték


    Pontsz m kalkul ci

    5. lépés

    FastA

    Pontszám kalkuláció

    Opt-score:Smith-Waterman pontszám

    Z-score:normalizált az adatbázis szekvencia hosszára

    E() valueA pontszám várható értéke

    Mi az oka a jó pontszámnak? A sorrend vagy az összetétel?

    Z= (Sc – MSc) / σ

    Mi az oka a jó pontszámnak? A homológia vagy a nagy adatbázis?

    E: annak a valószínűsége, hogy az adott (homológiájú) szekvencia véletlen szerűen szerepel az adatbázisban;Az ilyen homológiát mutató szekvenciák várható száma


    Fasta pearson and lipman5

    FastA(Pearson and Lipman)

    • 1.Rövid, rögzített hosszúságú azonos betűsor keresése

    • 2.Minden átló pontszámát meghatározzuk.

    • 3.A 10 legmagasabbpontszámú átlós régiót újrapontozzuk

    • a pontszám táblázatok alapján (kezdeti régiók).

    • A legmagasabb pontszám (score) init1.

    • 4.Szomszédos kezdeti átlók összekötése.

    • A legmagasabb pontszám (score) initn.

    • 5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy

    • küszöbértéket (treshold)opt-score, z-score, és E() értéket

    • számolunk.

    • Azokat a szekvenciákat listázzuk, amiknek az E() értéke

    • kisebb, mint egy adott küszöbérték


    Fasta eredm ny

    Példa:

    FastA

    FastA

    FastA eredmény:

    Results sorted and z-values calculated from opt score

    1770 scores saved that exceeded 107

    4614416 optimizations performed

    Joining threshold: 47, optimization threshold: 32, opt. width: 16

    The best scores are: init1 initnopt z-sc E(5219455)

    EMORG:CHPHET01 Begin: 1 End:162

    ! M37322 P.hybrida chloroplast rpS19 810 810 810 614.0 5e-25

    EMORG:CHPHETIR Begin:31 End:183 Strand: -

    ! M35955 P.hybrida chloroplast rps19' 410 410 699 531.8 1.7e-20

    EMORG:SNCPJLB Begin: 2 End:150

    ! Z71250 S.nigrum chloroplast JLB reg 457 457 659 499.2 6.8e-19

    EMORG:NPCPJLB Begin: 2 End:151

    ! Z71235 N.palmeri chloroplast JLB re 642 642 659 501.5 7e-19

    EMORG:NBCPJLB Begin: 2 End:158

    ! Z71226 N.bigelovii chloroplast JLB 472 472 644 485.5 2.7e-18

    EMORG:STCPJLB Begin: 2 End:149

    ! Z71248 S.tuberosum chloroplast JLB 452 452 641 485.4 3.7e-17


    F ast a program ok

    FASTA programok:

    hasonlóság keresés kereső szekvenciaés bármilyen típusú szekvencia között(DNSés Protein).

    peptid szekvenciákat nukleotid szekvenciákkal szemben.

    nukleotidek szekvenciákatfehérje adatbázissal szemben“frameshift“-eket figyelembe véve.

    nukleotid szekvenciákat nukleotid szekvenciaadatbázissalfehérje szinten.

    FastA

    TFastA

    FastX

    TFastX


    Blast

    BLAST

    (Basic Local Alignment Search Tool)

    Alapok:

    • A kereső szekvencia összes lehetséges szavából létrehoz egy szótárat

    • Lokális alignmentet indít minden szóraami talál párt az adatbázisban

      Futási idő: O(MN)

      Nagyságrendekkel gyorsabb, mint a Smith-Waterman

    query

    DB


    Blast eredeti ver zi

    BLAST Eredeti Verzió

    ……

    query

    Szótár:

    Minden k hosszú szó (~11)

    Alignment aszavak között, ezek pontja legyen  T

    (tipikusan T = k)

    Alignment:

    Ungapped extenziókamíga pontszám a statisztikaiküszöb (threshold) alatt

    Kimenet:

    Minden olyan alignment, melynek pontszáma > statisztikai küszöb(threshold)

    ……

    scan

    DB

    query


    Blast eredeti verzi

    BLAST Eredeti verzió

    Példa:

    k = 4,

    T = 4

    Az illesztett szó GGTC iniciál egy alignmentet

    Hézagmentes extenzióbalra és jobbra gaps,amíg az alignment < 50%

    kimenet:

    GTAAGGTCC

    GTTAGGTCC

    A C G A A G T A A G G T C C A G T

    C C C T T C C T G G A T T G C G A


    Gapped blast

    Gapped BLAST

    A C G A A G T A A G G T C C A G T

    Plussz tulajdonságok:

    • szó párokkal lehet

      kezdeni

    • Extenziók lyukakkal a váz körüli sávon belül

      Kimenet:

      GTAAGGTCCAGT

      GTTAGGTC-AGT

    C T G A T C C T G G A T T G C G A


    Gapped blast1

    Gapped BLAST

    A C G A A G T A A G G T C C A G T

    Plussz tulajdonságok:

    • szó párokkal lehet

      kezdeni

    • Közeli alignmentekösszeolvasztva

    • Extenziókhézagokkal amíg a pontszám < T az addigi legjobb pontszám alá kerül

      Kimenet:

      GTAAGGTCCAGT

      GTTAGGTC-AGT

    C T G A T C C T G G A T T G C G A


    Blast vari ci k

    BLAST variációk

    • MEGABLAST:

      • Nagyon hasonló szekvenciák összahasonlítására van optimalizálva

        • Legjobban működik, ha k = 4i  16

        • Lineárislyuk szankció

    • PSI-BLAST:

      • BLAST-tal sok találat

      • ezeket illesztjük, és mintázatot (pattern)kreálunk

      • ezt a mintázatot használjuk a következő kereséshez

        ezeket a lépéseket iteratíve ismételjük

    • WU-BLAST: (Wash U BLAST)

      • Optimilizált, extra tulajdonságok

    • BlastZ

      • BLAST/PatternHunter metódus kombinációja


    Entrez genomes

    BLAST programok

    ProgramInputAdatbázis

    1

    blastnDNADNA

    1

    blastpproteinprotein

    6

    blastxDNAprotein

    6

    tblastnproteinDNA

    36

    tblastxDNADNA


    P lda

    Példa

    Query:gattacaccccgattacaccccgattaca (29 letters) [2 mins]

    Database: All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences) 1,726,556 sequences; 8,074,398,388 total letters

    >gi|28570323|gb|AC108906.9|Oryza sativa chromosome 3 BAC OSJNBa0087C10 genomic sequence, complete sequence Length = 144487 Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plus

    Query: 4 tacaccccgattacaccccga 24

    ||||||| |||||||||||||

    Sbjct: 125138 tacacccagattacaccccga 125158

    Score = 34.2 bits (17),

    Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plus

    Query: 4 tacaccccgattacaccccga 24

    ||||||| |||||||||||||

    Sbjct: 125104 tacacccagattacaccccga 125124

    >gi|28173089|gb|AC104321.7| Oryza sativa chromosome 3 BAC OSJNBa0052F07 genomic sequence, complete sequence Length = 139823 Score = 34.2 bits (17), Expect = 4.5 Identities = 20/21 (95%) Strand = Plus / Plus

    Query: 4 tacaccccgattacaccccga 24

    ||||||| |||||||||||||

    Sbjct: 3891 tacacccagattacaccccga 3911


    P lda1

    Példa

    Query: Human atoh enhancer, 179 letters[1.5 min]

    Result: 57 blast hits

    • gi|7677270|gb|AF218259.1|AF218259 Homo sapiens ATOH1 enhanc... 355 1e-95

    • gi|22779500|gb|AC091158.11| Mus musculus Strain C57BL6/J ch... 264 4e-68

    • gi|7677269|gb|AF218258.1|AF218258 Mus musculus Atoh1 enhanc... 256 9e-66

    • gi|28875397|gb|AF467292.1| Gallus gallus CATH1 (CATH1) gene... 78 5e-12

    • gi|27550980|emb|AL807792.6| Zebrafish DNA sequence from clo... 54 7e-05

    • gi|22002129|gb|AC092389.4| Oryza sativa chromosome 10 BAC O... 44 0.068

    • gi|22094122|ref|NM_013676.1| Mus musculus suppressor of Ty ... 42 0.27

    • gi|13938031|gb|BC007132.1| Mus musculus, Similar to suppres... 42 0.27

      gi|7677269|gb|AF218258.1|AF218258 Mus musculus Atoh1 enhancer sequence Length = 1517

      Score = 256 bits (129), Expect = 9e-66 Identities = 167/177 (94%),

      Gaps = 2/177 (1%) Strand = Plus / Plus

      Query: 3 tgacaatagagggtctggcagaggctcctggccgcggtgcggagcgtctggagcggagca 62

      ||||||||||||| ||||||||||||||||||| ||||||||||||||||||||||||||

      Sbjct: 1144 tgacaatagaggggctggcagaggctcctggccccggtgcggagcgtctggagcggagca 1203

      Query: 63 cgcgctgtcagctggtgagcgcactctcctttcaggcagctccccggggagctgtgcggc 122

      |||||||||||||||||||||||||| ||||||||| |||||||||||||||| |||||

      Sbjct: 1204 cgcgctgtcagctggtgagcgcactc-gctttcaggccgctccccggggagctgagcggc 1262

      Query: 123 cacatttaacaccatcatcacccctccccggcctcctcaacctcggcctcctcctcg 179

      ||||||||||||| || ||| |||||||||||||||||||| |||||||||||||||

      Sbjct: 1263 cacatttaacaccgtcgtca-ccctccccggcctcctcaacatcggcctcctcctcg 1318


  • Login