MOLEKULÁRNÍ TAXONOMIE
This presentation is the property of its rightful owner.
Sponsored Links
1 / 42

MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek PowerPoint PPT Presentation


  • 93 Views
  • Uploaded on
  • Presentation posted in: General

MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek. 23.2. - Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA 2.3. - Databáze sekvencí a vyhledávání v nich (Marián Novotný) 9.3. - Alignment sekvencí (Marián Novotný)

Download Presentation

MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


MOLEKULÁRNÍ TAXONOMIE

Rozpis přednášek

  • 23.2. - Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA

  • 2.3. - Databáze sekvencí a vyhledávání v nich (Marián Novotný)

  • 9.3. - Alignment sekvencí (Marián Novotný)

  • 16.3. - Získávání nesekvenčních molekulárních dat - multilokusové metody (RAPD, RFPL aj.), mikrosatelity, minisatelity, izoenzymová a alozymová analýza, imunologické metody

  • Praktikum 19.3.: Získávání sekvencí, alignment, odečet výsledků RAPD/RFLP

  • 23.3. - Evoluce sekvencí, odhad evoluční vzálenosti (distance)

  • 30.3. - Fylogenetické stromy I. - anatomie stromů, konstrukce stromů z genetických vzdáleností, algoritmy a hledání stromu s nejlepším skóre

  • 6.4. - Fylogenetické stromy II. Metoda maximální parsimonie, artefakty konstrukce stromů

  • 13.4. - Fylogenetické stromy III. - Metoda maximum likelihood, Bayéská metoda

  • 20.4. - Fylogenetické stromy IV. - Multigenové analýzy, určení věrohodnosti větvení stromů, nalezení kořene, testy topologie, datování pomocí molekulárních hodin

  • Praktikum 23.4.: Konstrukce stromů ze sekvencí DNA a z RAPD/RFLP dat

  • 27.4. - Identifikace jedinců, určování rodičovství, DNA barkóding

  • Praktikum 30.4.: Konstrukce stromů ze sekvencí proteinů

  • 4.5. - Vnitrodruhová fylogeneze, struktura populace a genový tok, fylogeografie, příklady

  • 11.5. - Speciace a hybridizace, kryptické druhy, příklady – odevzdání nepovinného eseje

  • Praktikum 15.5.: Různé testy, zpracování dat získaných analýzou mikrosatelitů

  • 18.5. - Prezentace studentů


SITE HETEROGENEITY

r1 r2 r3 r4 r5 r6

P(A|C,t)= eδt

P(A|C,t)= erδt

Taxon A C C C T G GTaxon B A C T T G A

P(A|C,t)= ∫0 f(r) erδt

P(A|C,t)= 1/4 er1δt+ 1/4 er2δt

+ 1/4 er3δt+ 1/4 er4δt


KONSEZUÁLNÍ STROM

Stromy, které obsahují stejnou sadu OTU mohou být, je-li to třeba kombinovány do jednoho.

Existuje několik způsobů, jak to udělat.


STRIKTNÍ KONSENZUS

Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech

B

B

B

A

A

A

E

E

E

C

C

C

D

D

D

B

A

E

C

D


STRIKTNÍ KONSENZUS

Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech

B

B

A

A

E

E

C

C

D

D

B

A

E

C

D


MAJORITY RULE KONSENZUS

Obsahuje „bipartitions“, které se vyskytují ve v nadpoloviční většině stromů.

B

B

B

A

A

A

E

E

E

C

C

C

D

D

D

B

A

E

C

D


EXTENDED MAJORITY RULE KONSENZUS

Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie)

F

F

B

B

A

A

B

B

B

B

B

A

A

A

A

A

E

E

E

E

E

E

E

C

C

C

C

D

D

C

C

C

D

D

F

F

F

D

D

D

B

F

F

F

A

E

C

3/7

D


OTÁZKY, KTERÉ BYCHOM SI MĚLI KLÁST

  • Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsem získal?

  • Je můj strom skutečně lepší než nějaký jiný?

  • Je vůbec strom vhodné vysvětlovat příbuzenské vztahy mezi mými OTU pomocí stromu?


PROČ KLÁST TYTO NEPŘÍJENÉ OTÁZKY?

Každá data nám totiž poskytnou strom

1 ACCGAGCAA

2 ACCGAGCAA

3 ACCGAGCAA

4 ACCGAGCAA

3

1

1 ACCGAATGA

2 ACCGAGCAG

3 GTTAGGCAG

4 GTTAGATGA

2

4


DATA MOHOU OBSAHOVAT MNOHO PROBLÉMŮ?

  • Přesycení (saturace) – příliš mnoho substitucí (a mmnohonásobných!), aby byly patrné příbuzenské vztahy

  • Nedostatek signálu – některé krátké větve stromu mohou být podpořeny jen několika málo znaky

  • Data mohou obsahovat zavádějící signál (artefakt).


STATISTICKÁ PODPORA VĚTVENÍ


POSTERIORNÍ PRAVDĚPODOBNOSTI

Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu

Rovnovážný

stav

T1

T2


POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ


RESAMPLING METODY

Základní princip

  • Vytvořit ze vzorku dat (sloupců alignmentu) nový vzorek a podívat se jestli dostaneme stejnou odpověď

  • Udělat to mnohokrát (100vky opakování)

  • Naznačit výsledek na původní strom.


BOOTSTRAP

  • Z původného vzorku vybíráme s vracením

  • Původní alignmnet: nsloupců

  • Bootstrappový alignment: nsloupců

  • Aleněkteré sloupce se tam budou vyskytovat několikrát a některé budou úplně chybět.


BOOTSTRAP

Bootstrappované

alignmenty

Stromy

Bootstrapové alignmenty

(n opakování)

Alignment

515621

123456

Acatcga

Bccgggt

Cgcggga

Dgaacgt

364122

615343

414436

Rekonstruovaný strom


BOOTSTRAP

Namapovat hodnoty bootstrapu na původní strom.

Bootstrap pro větev (“bipartition”) odpovídá frekvenci, s jakou se daná větev vyskytuje mezi bootstrapovými opakováními

70% je považováno za „dobrý“ bootstrap

65%

(weak)

100%

(absolutní podpora)


JACKKNIFE

  • Jiná resampling metoda

  • Místo vybírání s vracením vybere jen k % sloupců alignmentu bez vracení.


JACKKNIFE

50% jackknife

Jackknifované

alignmenty

Stromy

Jackknife alignmenty

(n opakování)

Alignment

342

123456

Acatcga

Bccgggt

Cgcggga

Dgaacgt

136

514

256

Rekonstruovaný

strom

Namapování hodnot jackknifu na originální strom provedeme stejně jako v případě bootstrapu


OMEZENÍ NEPARAMETRICKÝCH METOD

  • Neparametrické bootstrapování a jackknifování, o kterých jsme dosud mluvili je omezeno dostupností použitelných dat.

  • Rádi bychom více dat! Ale, kde je vzít?


PARAMETRICKÝ BOOTSTRAP

  • Pomocísimulacenagenerujeme vzorky dat, které odpovídají hypotéze (substitučnímu modelu a stromu s délkami větví), ke které jsme dospěli.

  • K takové simulaci potřebujeme parametry (model a strom), které jsme získali z empirických dat.

  • Jak probíhá simulace?


PARAMETRICKÝ BOOTSTRAP

GAACCAAT

GAATCAAC

Simulujemesubstituce podél větví stromu

podle substitučního modelu

GAATCAGC

TAGGCAAT

TAAGCAAC

Počáteční sekvuence

(náhodná, odpovídající frekvenci nukleotidů)

TAAGCAAC

TAAGCAAC

Simulaci opakujeme mnohokrát(100?), zaznamenáme sekvence na koncových uzlech a pokaždé z nich spočítáme strom


TESTY TOPOLOGICKÝCH HYPOTÉZ

L1

L0

δ= ln L1-lnL0

Je L1 signifikantně vyšší než L0? Potřebujeme znát rozložení δ….


TESTY TOPOLOGICKÝCH HYPOTÉZ

AU test

L1L2L3L4L5L6

Acatcga

Bccgggt

Cgcggga

Vypočteme

„site likelihoods“ L1, L2, L3, L4, L5, L6 L1, L2, L3, L4, L5, L6

Provedeme permutaci

„site likelihoods“

a vypočteme celkový

Likelihood L1= L1*L2* L2* L3*L4* L2L0= L1*L1* L6* L3*L4* L5

Spočítáme δδ= lnL1-lnL0

Opakujeme mnohokrát Procento případů, kdy δ ≤ 0 je hodnota p

s jakou můžeme H0 zavrhnout


VÝBĚR MODELU

  • Odměňuje nárůst likelihoodu, ale trestá za nadbytečné parametry

    Akaike Information Criterion

    AICi = -2lnLi + 2pi

    Abychom nalezli nejlepší rovnováhu mezi funkčností modelu a jeho složitostí musíme minimalizivat AIC

Log-likelihood

pro model i

Počet parametrů

pro model i


LIKELIHOOD RATIO TEST

V rámci maximum likelihoodu je možné rozhodovat, jestli složitější model dává signifikantně lepší výsledek pomocí likelihood ratio testu (LRT).

δ=2(ln L1-lnL0 )

lnL1….věrohodnost stromu podle složitějšího modelu

lnL0….věrohodnost stromu podle jednoduššího modelu (nulová hypotéza)

Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely.

Program Modeltest


GENOVÝ STROM X DRUHOVÝ STROM

Mohou se odlišovat, protože historie genu nemusí přesně kopírovat historii druhu.

Gen může prodělat

horizontální genový přenos.


GENOVÝ STROM X DRUHOVÝ STROM

Rozdíl může způsobit také mezidruhový přenos polymorfismu

t1

t2

X

Y

Z

X

Y

Z

X

Y

Z

Průměrná doba (T) potřebná k eliminaci polymorfismu prostřednictvím genetického driftu 4Ne

T = t1- t2

Ne: efektivní velikost¨populace.


JAK SPOJIT RŮZNÉ SADY DAT?

?


JAK SPOJIT RŮZNÉ SADY DAT?

Mnoho stromů

Mnoho alignmentů

Jeden strom

Jeden alignment


SUPER MATICE

Gen 1

Gen 2

Gen 3

Gen 4

A

B

C

D

E

?

Prostě je seřadíme za sebe. A co když někde gen chybí? Pokud množství chybějících genů nepřesahuje rozumnou míru, nevadí.


SUPER MATICE

  • Také se jim říká ‘konkatenace’

  • Předpokládá, že geny sdílejí společnou evoluční minulost (hmmm…)

  • Je dobré, a schůdné, „dovolit“, aby pro každý gen platily jiné parametry substitučního modelu.


SUPERTREE

Mnoho stromů

Mnoho alignmentů

Jeden strom

Uděláme konsenzus, ale co když se jednotlivé stromy trochu liší zastoupením taxonů

33


SUPERTREE

Matrix Representation with Parsimony(Baum and Ragan, 1992)

  • Uděláme ze stromů alignent (‽)

  • Každá „bipartition“ představuje v alignmentu jeden sloupec


SUPERTREE

A

C

D

A * * * *B * * * -

C * . . *

D * . . .

E . . * -

F . . * .

Z tohoto alignmentu udělej strom podle maximální parsimonie

F

A

B

C

D

E

F


SÍŤ

Neighbor-net(Bryant and Moulton, 2004)

  • Je založena na neighbor-joining ale umožňuje spojovat více taxonů


SÍŤ

Neighbor-net


ZAKOŘENĚNÍ STROMU


METODA OUTGROUPŮ

Všechny zmíněné metody produkují nezakořeněný strom!!!Pro zakořenění se nejčastěji používá metoda „outgroupů“ – organismů/sekvencí nepatřících do skupiny kterou studujeme.


METODA OUTGROUPŮ

Outgroup ukáže, kde je kořen vašeho stromu. Outgroup by měl být co možná nejbližší skupině, kterou studujete.


MIDPOINT ROOT

Kořen umístí to poloviny nejdelší cesty stromem


SOFTWARE

Software

  • Distační metody – PAUP (spíše DNA), PHYLIP, MEGA, Neighbor-net

  • Parsimonie– PAUP, PHYLIP, MEGA

  • Maximum likelihood – PAUP (jen DNA), RAxML, Phyml, IQPNNI, TreePuzzle, PHYLIP

  • Bayéská metoda –MrBayes Phylobayes


  • Login