MOLEKULÁRNÍ TAXONOMIE
This presentation is the property of its rightful owner.
Sponsored Links
1 / 42

MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek PowerPoint PPT Presentation


  • 86 Views
  • Uploaded on
  • Presentation posted in: General

MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek. 23.2. - Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA 2.3. - Databáze sekvencí a vyhledávání v nich (Marián Novotný) 9.3. - Alignment sekvencí (Marián Novotný)

Download Presentation

MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Molekul rn taxonomie rozpis p edn ek

MOLEKULÁRNÍ TAXONOMIE

Rozpis přednášek

  • 23.2. - Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA

  • 2.3. - Databáze sekvencí a vyhledávání v nich (Marián Novotný)

  • 9.3. - Alignment sekvencí (Marián Novotný)

  • 16.3. - Získávání nesekvenčních molekulárních dat - multilokusové metody (RAPD, RFPL aj.), mikrosatelity, minisatelity, izoenzymová a alozymová analýza, imunologické metody

  • Praktikum 19.3.: Získávání sekvencí, alignment, odečet výsledků RAPD/RFLP

  • 23.3. - Evoluce sekvencí, odhad evoluční vzálenosti (distance)

  • 30.3. - Fylogenetické stromy I. - anatomie stromů, konstrukce stromů z genetických vzdáleností, algoritmy a hledání stromu s nejlepším skóre

  • 6.4. - Fylogenetické stromy II. Metoda maximální parsimonie, artefakty konstrukce stromů

  • 13.4. - Fylogenetické stromy III. - Metoda maximum likelihood, Bayéská metoda

  • 20.4. - Fylogenetické stromy IV. - Multigenové analýzy, určení věrohodnosti větvení stromů, nalezení kořene, testy topologie, datování pomocí molekulárních hodin

  • Praktikum 23.4.: Konstrukce stromů ze sekvencí DNA a z RAPD/RFLP dat

  • 27.4. - Identifikace jedinců, určování rodičovství, DNA barkóding

  • Praktikum 30.4.: Konstrukce stromů ze sekvencí proteinů

  • 4.5. - Vnitrodruhová fylogeneze, struktura populace a genový tok, fylogeografie, příklady

  • 11.5. - Speciace a hybridizace, kryptické druhy, příklady – odevzdání nepovinného eseje

  • Praktikum 15.5.: Různé testy, zpracování dat získaných analýzou mikrosatelitů

  • 18.5. - Prezentace studentů


Molekul rn taxonomie rozpis p edn ek

SITE HETEROGENEITY

r1 r2 r3 r4 r5 r6

P(A|C,t)= eδt

P(A|C,t)= erδt

Taxon A C C C T G GTaxon B A C T T G A

P(A|C,t)= ∫0 f(r) erδt

P(A|C,t)= 1/4 er1δt+ 1/4 er2δt

+ 1/4 er3δt+ 1/4 er4δt


Molekul rn taxonomie rozpis p edn ek

KONSEZUÁLNÍ STROM

Stromy, které obsahují stejnou sadu OTU mohou být, je-li to třeba kombinovány do jednoho.

Existuje několik způsobů, jak to udělat.


Molekul rn taxonomie rozpis p edn ek

STRIKTNÍ KONSENZUS

Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech

B

B

B

A

A

A

E

E

E

C

C

C

D

D

D

B

A

E

C

D


Molekul rn taxonomie rozpis p edn ek

STRIKTNÍ KONSENZUS

Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech

B

B

A

A

E

E

C

C

D

D

B

A

E

C

D


Molekul rn taxonomie rozpis p edn ek

MAJORITY RULE KONSENZUS

Obsahuje „bipartitions“, které se vyskytují ve v nadpoloviční většině stromů.

B

B

B

A

A

A

E

E

E

C

C

C

D

D

D

B

A

E

C

D


Molekul rn taxonomie rozpis p edn ek

EXTENDED MAJORITY RULE KONSENZUS

Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie)

F

F

B

B

A

A

B

B

B

B

B

A

A

A

A

A

E

E

E

E

E

E

E

C

C

C

C

D

D

C

C

C

D

D

F

F

F

D

D

D

B

F

F

F

A

E

C

3/7

D


Molekul rn taxonomie rozpis p edn ek

OTÁZKY, KTERÉ BYCHOM SI MĚLI KLÁST

  • Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsem získal?

  • Je můj strom skutečně lepší než nějaký jiný?

  • Je vůbec strom vhodné vysvětlovat příbuzenské vztahy mezi mými OTU pomocí stromu?


Molekul rn taxonomie rozpis p edn ek

PROČ KLÁST TYTO NEPŘÍJENÉ OTÁZKY?

Každá data nám totiž poskytnou strom

1 ACCGAGCAA

2 ACCGAGCAA

3 ACCGAGCAA

4 ACCGAGCAA

3

1

1 ACCGAATGA

2 ACCGAGCAG

3 GTTAGGCAG

4 GTTAGATGA

2

4


Molekul rn taxonomie rozpis p edn ek

DATA MOHOU OBSAHOVAT MNOHO PROBLÉMŮ?

  • Přesycení (saturace) – příliš mnoho substitucí (a mmnohonásobných!), aby byly patrné příbuzenské vztahy

  • Nedostatek signálu – některé krátké větve stromu mohou být podpořeny jen několika málo znaky

  • Data mohou obsahovat zavádějící signál (artefakt).


Molekul rn taxonomie rozpis p edn ek

STATISTICKÁ PODPORA VĚTVENÍ


Molekul rn taxonomie rozpis p edn ek

POSTERIORNÍ PRAVDĚPODOBNOSTI

Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu

Rovnovážný

stav

T1

T2


Molekul rn taxonomie rozpis p edn ek

POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ


Z kladn princip

RESAMPLING METODY

Základní princip

  • Vytvořit ze vzorku dat (sloupců alignmentu) nový vzorek a podívat se jestli dostaneme stejnou odpověď

  • Udělat to mnohokrát (100vky opakování)

  • Naznačit výsledek na původní strom.


Molekul rn taxonomie rozpis p edn ek

BOOTSTRAP

  • Z původného vzorku vybíráme s vracením

  • Původní alignmnet: nsloupců

  • Bootstrappový alignment: nsloupců

  • Aleněkteré sloupce se tam budou vyskytovat několikrát a některé budou úplně chybět.


Molekul rn taxonomie rozpis p edn ek

BOOTSTRAP

Bootstrappované

alignmenty

Stromy

Bootstrapové alignmenty

(n opakování)

Alignment

515621

123456

Acatcga

Bccgggt

Cgcggga

Dgaacgt

364122

615343

414436

Rekonstruovaný strom


Molekul rn taxonomie rozpis p edn ek

BOOTSTRAP

Namapovat hodnoty bootstrapu na původní strom.

Bootstrap pro větev (“bipartition”) odpovídá frekvenci, s jakou se daná větev vyskytuje mezi bootstrapovými opakováními

70% je považováno za „dobrý“ bootstrap

65%

(weak)

100%

(absolutní podpora)


Molekul rn taxonomie rozpis p edn ek

JACKKNIFE

  • Jiná resampling metoda

  • Místo vybírání s vracením vybere jen k % sloupců alignmentu bez vracení.


Molekul rn taxonomie rozpis p edn ek

JACKKNIFE

50% jackknife

Jackknifované

alignmenty

Stromy

Jackknife alignmenty

(n opakování)

Alignment

342

123456

Acatcga

Bccgggt

Cgcggga

Dgaacgt

136

514

256

Rekonstruovaný

strom

Namapování hodnot jackknifu na originální strom provedeme stejně jako v případě bootstrapu


Molekul rn taxonomie rozpis p edn ek

OMEZENÍ NEPARAMETRICKÝCH METOD

  • Neparametrické bootstrapování a jackknifování, o kterých jsme dosud mluvili je omezeno dostupností použitelných dat.

  • Rádi bychom více dat! Ale, kde je vzít?


Molekul rn taxonomie rozpis p edn ek

PARAMETRICKÝ BOOTSTRAP

  • Pomocísimulacenagenerujeme vzorky dat, které odpovídají hypotéze (substitučnímu modelu a stromu s délkami větví), ke které jsme dospěli.

  • K takové simulaci potřebujeme parametry (model a strom), které jsme získali z empirických dat.

  • Jak probíhá simulace?


Molekul rn taxonomie rozpis p edn ek

PARAMETRICKÝ BOOTSTRAP

GAACCAAT

GAATCAAC

Simulujemesubstituce podél větví stromu

podle substitučního modelu

GAATCAGC

TAGGCAAT

TAAGCAAC

Počáteční sekvuence

(náhodná, odpovídající frekvenci nukleotidů)

TAAGCAAC

TAAGCAAC

Simulaci opakujeme mnohokrát(100?), zaznamenáme sekvence na koncových uzlech a pokaždé z nich spočítáme strom


Molekul rn taxonomie rozpis p edn ek

TESTY TOPOLOGICKÝCH HYPOTÉZ

L1

L0

δ= ln L1-lnL0

Je L1 signifikantně vyšší než L0? Potřebujeme znát rozložení δ….


Molekul rn taxonomie rozpis p edn ek

TESTY TOPOLOGICKÝCH HYPOTÉZ

AU test

L1L2L3L4L5L6

Acatcga

Bccgggt

Cgcggga

Vypočteme

„site likelihoods“ L1, L2, L3, L4, L5, L6 L1, L2, L3, L4, L5, L6

Provedeme permutaci

„site likelihoods“

a vypočteme celkový

Likelihood L1= L1*L2* L2* L3*L4* L2L0= L1*L1* L6* L3*L4* L5

Spočítáme δδ= lnL1-lnL0

Opakujeme mnohokrát Procento případů, kdy δ ≤ 0 je hodnota p

s jakou můžeme H0 zavrhnout


Molekul rn taxonomie rozpis p edn ek

VÝBĚR MODELU

  • Odměňuje nárůst likelihoodu, ale trestá za nadbytečné parametry

    Akaike Information Criterion

    AICi = -2lnLi + 2pi

    Abychom nalezli nejlepší rovnováhu mezi funkčností modelu a jeho složitostí musíme minimalizivat AIC

Log-likelihood

pro model i

Počet parametrů

pro model i


Molekul rn taxonomie rozpis p edn ek

LIKELIHOOD RATIO TEST

V rámci maximum likelihoodu je možné rozhodovat, jestli složitější model dává signifikantně lepší výsledek pomocí likelihood ratio testu (LRT).

δ=2(ln L1-lnL0 )

lnL1….věrohodnost stromu podle složitějšího modelu

lnL0….věrohodnost stromu podle jednoduššího modelu (nulová hypotéza)

Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely.

Program Modeltest


Molekul rn taxonomie rozpis p edn ek

GENOVÝ STROM X DRUHOVÝ STROM

Mohou se odlišovat, protože historie genu nemusí přesně kopírovat historii druhu.

Gen může prodělat

horizontální genový přenos.


Molekul rn taxonomie rozpis p edn ek

GENOVÝ STROM X DRUHOVÝ STROM

Rozdíl může způsobit také mezidruhový přenos polymorfismu

t1

t2

X

Y

Z

X

Y

Z

X

Y

Z

Průměrná doba (T) potřebná k eliminaci polymorfismu prostřednictvím genetického driftu 4Ne

T = t1- t2

Ne: efektivní velikost¨populace.


Molekul rn taxonomie rozpis p edn ek

JAK SPOJIT RŮZNÉ SADY DAT?

?


Molekul rn taxonomie rozpis p edn ek

JAK SPOJIT RŮZNÉ SADY DAT?

Mnoho stromů

Mnoho alignmentů

Jeden strom

Jeden alignment


Molekul rn taxonomie rozpis p edn ek

SUPER MATICE

Gen 1

Gen 2

Gen 3

Gen 4

A

B

C

D

E

?

Prostě je seřadíme za sebe. A co když někde gen chybí? Pokud množství chybějících genů nepřesahuje rozumnou míru, nevadí.


Molekul rn taxonomie rozpis p edn ek

SUPER MATICE

  • Také se jim říká ‘konkatenace’

  • Předpokládá, že geny sdílejí společnou evoluční minulost (hmmm…)

  • Je dobré, a schůdné, „dovolit“, aby pro každý gen platily jiné parametry substitučního modelu.


Molekul rn taxonomie rozpis p edn ek

SUPERTREE

Mnoho stromů

Mnoho alignmentů

Jeden strom

Uděláme konsenzus, ale co když se jednotlivé stromy trochu liší zastoupením taxonů

33


Matrix representation with parsimony baum and ragan 1992

SUPERTREE

Matrix Representation with Parsimony(Baum and Ragan, 1992)

  • Uděláme ze stromů alignent (‽)

  • Každá „bipartition“ představuje v alignmentu jeden sloupec


Molekul rn taxonomie rozpis p edn ek

SUPERTREE

A

C

D

A * * * *B * * * -

C * . . *

D * . . .

E . . * -

F . . * .

Z tohoto alignmentu udělej strom podle maximální parsimonie

F

A

B

C

D

E

F


Neighbor net bryant and moulton 2004

SÍŤ

Neighbor-net(Bryant and Moulton, 2004)

  • Je založena na neighbor-joining ale umožňuje spojovat více taxonů


Molekul rn taxonomie rozpis p edn ek

SÍŤ

Neighbor-net


Molekul rn taxonomie rozpis p edn ek

ZAKOŘENĚNÍ STROMU


Molekul rn taxonomie rozpis p edn ek

METODA OUTGROUPŮ

Všechny zmíněné metody produkují nezakořeněný strom!!!Pro zakořenění se nejčastěji používá metoda „outgroupů“ – organismů/sekvencí nepatřících do skupiny kterou studujeme.


Molekul rn taxonomie rozpis p edn ek

METODA OUTGROUPŮ

Outgroup ukáže, kde je kořen vašeho stromu. Outgroup by měl být co možná nejbližší skupině, kterou studujete.


Molekul rn taxonomie rozpis p edn ek

MIDPOINT ROOT

Kořen umístí to poloviny nejdelší cesty stromem


Software

SOFTWARE

Software

  • Distační metody – PAUP (spíše DNA), PHYLIP, MEGA, Neighbor-net

  • Parsimonie– PAUP, PHYLIP, MEGA

  • Maximum likelihood – PAUP (jen DNA), RAxML, Phyml, IQPNNI, TreePuzzle, PHYLIP

  • Bayéská metoda –MrBayes Phylobayes


  • Login