filogenetica
Download
Skip this Video
Download Presentation
Filogenetica

Loading in 2 Seconds...

play fullscreen
1 / 42

Filogenetica - PowerPoint PPT Presentation


  • 189 Views
  • Uploaded on

Filogenetica. Andrea G. B. Tettamanzi. Scopi. Data una famiglia di sequenze, trovare l’albero di mutazione più parsimonioso ricostruire l’albero filogenetico valutare la significatività di un dato albero filogenetico. Memorizzazione efficiente di sequenze. 1. AGGATGAATGGGCGAACAGC

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Filogenetica' - siobhan


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
filogenetica

Filogenetica

Andrea G. B. Tettamanzi

scopi
Scopi

Data una famiglia di sequenze,

  • trovare l’albero di mutazione più parsimonioso
  • ricostruire l’albero filogenetico
  • valutare la significatività di un dato albero filogenetico
memorizzazione efficiente di sequenze
Memorizzazione efficiente di sequenze

1. AGGATGAATGGGCGAACAGC

2. TGCTCGCGGGTAGAAGAAC

3. TAGATGAATGGTAGAACAAC

4. TGCAGCGTGATAGAACAAC

5. TGGAGAAATGATAGAACAAC

6. TGCACGCGGCATAGAACGAC

7. TGGATAGATGATACCACAAT

m. TGGATGAATGATAGAACAAC (majority rule)

slide4
Memorizzazione efficiente di sequenze

1. AGGATGAATGGGCGAACAGC

2. TGCTCGCGGG TAGAAGAAC

3. TAGATGAATGGTAGAACAAC

4. TGCAG CGTGATAGAACAAC

5. TGGAGAAATGATAGAACAAC

6. TGCACGCGGCATAGAACGAC

7. TGGATAGATGATACCACAAT

m. TGGATGAATGATAGAACAAC (majority rule)

slide5
Memorizzazione efficiente di sequenze

1. A=========GGC=====G=

2. ==CTC=CGG=.=====G===

3. =A========G=========

4. ==C=G.CG============

5. ====GA==============

6. ==C=C=CGGC=======G==

7. =====AG======CC====T

m. TGGATGAATGATAGAACAAC (majority rule)

slide6
Memorizzazione efficiente di sequenze

1. A=========GGC=====G=

2. ==CTC=CGG=.=====G===

3. =A========G=========

4. ==C=G.CG============

5. ====GA==============

6. ==C=C=CGGC=======G==

7. =====AG======CC====T

m. TGGATGAATGATAGAACAAC {1, 3, 5, 7, m’}

m’. ==C=C=CGG=========== {2, 4, 6}

slide7
Memorizzazione efficiente di sequenze

m. TGGATGAATGATAGAACAAC

1. A=========GGC=====G=

3. =A========G=========

5. ====GA==============

7. =====AG======CC====T

m’. ==C=C=CGG===========

2. ===T======.=====G===

4. ====G.==T===========

6. =========C=======G==

m

a

g

m’

5

7

3

1

2

4

6

spazio delle sequenze
Spazio delle sequenze

alfabeto:

insieme delle sequenze

diventa uno spazio quando è dotato di operazioni, distanza

similarit di sequenze
Similarità di sequenze

(Ovvero, distanza genetica)

  • Efficiente
  • Plausibile biologicamente

Mutazione puntuale  distanza di Hamming

Cancellazione/inserimento  metriche di Hamming con salti

Rimescolamento, inversione, ecc.  ...

Considerando diversi tipi di mutazione con probabilità differenti  distanze di Hamming pesate = edit distance

edit distances
Edit Distances

Edit Operations:

(a, a) Match

(a, b) Replace

(a, _) Delete

(_, a) Insert

operation weight or cost

Levenshtein Distance (after В. Левенштейн):

Cost of an alignment:

sum of the costs of all edit operations

that lead from s to t.

Optimal alignment

Edit distance: cost of the optimal alignment

algoritmi di linkage
Algoritmi di “linkage”

1

2

3

funzione di combinazione

assunzione di fondo
Assunzione di fondo
  • La distanza genetica tra due sequenze è direttamente proporzionale al tempo che le separa dalla loro sequenza progenitrice comune
average linkage esempio
Average linkage: esempio

1 2 3 4 5 6 7 8

- 2 4 4 6 8 10 11 1

- 4 4 7 7 10 11 2

- 2 6 6 11 12 3

- 7 8 12 10 4

- 3 7 7 5

- 7 7 6

- 2 7

- 8

slide18
1 2 3 4 5 6 7 8

- 2 4 4 6 8 10 11 1

- 4 4 7 7 10 11 2

- 2 6 6 11 12 3

- 7 8 12 10 4

- 3 7 7 5

- 7 7 6

- 2 7

- 8

{1,2} 3 4 5 6 7 8

- 4 4 6.5 7.5 10 11 {1,2}

- 2 6 6 11 12 3

- 7 8 12 10 4

- 3 7 7 5

- 7 7 6

- 2 7

- 8

{1,2} 3 4 5 6 7 8

- 4 4 6.5 7.5 10 11 {1,2}

- 2 6 6 11 12 3

- 7 8 12 10 4

- 3 7 7 5

- 7 7 6

- 2 7

- 8

{1,2} 3 4 5 6 7 8

- 4 4 6.5 7.5 10 11 {1,2}

- 2 6 6 11 12 3

- 7 8 12 10 4

- 3 7 7 5

- 7 7 6

- 2 7

- 8

{1,2} {3,4} 5 6 7 8

- 4 6.5 7.5 10 11 {1,2}

- 6.5 7 11.5 11 {3,4}

- 3 7 7 5

- 7 7 6

- 2 7

- 8

{1,2} {3,4} {5,6} {7,8}

- 4 7 10.5 {1,2}

- 6.75 11.25 {3,4}

- 7 {5,6}

- {7,8}

{1,2,3,4} {5,6} {7,8}

- 6.875 10.875 {1,2,3,4}

- 7 {5,6}

- {7,8}

{1,2} {3,4} 5 6 {7,8}

- 4 6.5 7.5 10.5 {1,2}

- 6.5 7 11.25 {3,4}

- 3 7 5

- 7 6

- {7,8}

{1-6} {7,8}

- 8.9375 {1-6}

- {7,8}

algoritmi di linkage discussione
Algoritmi di Linkage: discussione
  • Nessuno dei tre algoritmi garantisce di ottenere il “vero” albero filogenetico delle sequenze prese in esame
  • Se tutti e tre gli algoritmi producono lo stesso albero, è molto plausibile che quello sia il “vero” albero filogenetico
  • Se un certo raggruppamento/sottoalbero (ingl. clade, da gr. κλάδος, “gruppo”) compare in tutti e tre gli alberi, è molto plausibile che si tratti di un’unità valida filogeneticamente.
trasformata di farris 1
Trasformata di Farris (1)

Tutti e tre gli algoritmi di linkage forniscono sempre il risultato

corretto se

Idea: usiamo una mappa reale

Esempio:

trasformata di farris 2
Trasformata di Farris (2)

similarità

distanza

aggiustata

soddisfa la diseguaglianza ultrametrica:

algoritmo di linkage additivo
Algoritmo di linkage additivo

1

fissare arbitrariamente una sequenza k

2

3

N.B.: il risultato è un albero senza radice

neighbor joining method
Neighbor-Joining Method
  • N. Saitou e M. Nei. Molecular Biology and Evolution, 4:406-425, 1987

1

i

2

j

N

la lunghezza degli archi deve essere

“una buona approssimazione” delle

distanze

neighbor joining method25
Neighbor-Joining Method
  • Basato sulla ricerca di unità tassonomiche operative (UTO)
    • che minimizzino la lunghezza totale dei rami dell’albero
    • e questo ad ogni passo dell’algoritmo di raggruppamento
  • Scopo: ottenere un albero additivo senza radice che approssimi la matrice delle distanze tra le sequenze
  • Si procede in N – 2cicli, ripetendo i passi seguenti:
    • raggruppare le due UTO più prossime, creando un arco interno tra quella coppia e le altre UTO, seguendo un criterio di minimizzazione della lunghezza dell’abero ottenuto;
    • calcolare la valutazione intermedia
    • ricalcolare la matrice delle distanze raggruppando secondo l’average linkage.
nj selezione delle otu pi prossime
NJ: Selezione delle OTU più prossime

lunghezza dell’albero per una topologia in cui i e j sono

raggruppati insieme

k

i

{i, j}

x

j

h

nj lunghezze degli archi
NJ: Lunghezze degli archi

ad ogni iterazione, si calcolano solo le lunghezze di questi

due nuovi archi.

phylip
PHYLIP

http://cmgm.stanford.edu/phylip/index.html

Phylogeny Inference Package

Una collezione di metodi e algoritmi per la filogenetica molecolare

free, public domain e open-source.

massima verosimigianza
Massima Verosimigianza
  • Assume un tasso di mutazione costante
  • Tra tutti i possibili alberi, sceglie quello che soddisfa il criterio di massima verosimigianza (probabilità massima).
  • Approccio perfezionato da Felsenstein (1973) e Thompson (1975).
  • Casi particolari sono l’algoritmo di Fitch e Margoliash (1967), minimi errori standard, e di Cavali-Sforza ed Edwards (1967), minimi quadrati.
  • Anche se non esiste allo stato attuale una dimostrazione, si pensa che questo approccio alla costruzione di alberi filogenetici sia NP-difficile (è simile alla costruzione di alberi di Steiner).
algoritmi evolutivi
Algoritmi Evolutivi

Numero di alberi possibili di n sequenze:

Approcci alla costruzione di alberi filogenetici basata sul criterio

di massima verosimiglianza con algoritmi genetici sono stati proposti

da Lewis (1998) e Matsuda (1996)

split decomposition
Split Decomposition

Invece di tentare a tutti i costi

di ricostruire un albero, è possibile

produrre un grafo più generale

che riassume tutti gli alberi

filogenetici plausibili sulla base dei

dati.

SplitsTree

http://www.mathematik.uni-bielefeld.de/~huson/phylogenetics/splitstree.html

phylogenetic split fissione filogenetica
Phylogenetic Split (Fissione Filogenetica)

è un d-split se e solo se

Indice di isolamento di uno split

misura quanto una fissione è supportata dai dati, e idealmente

coincide con la lunghezza del ramo che unisce i due sottoalberi

split metric
Split Metric

soddisfa

distanza residua:

definisce una metrica che non ammette ulteriori fissioni con indice

di isolamento positivo: è il rumore non scomponibile per fissioni.

percentuale scomponibile per fissioni della

matrice delle distanze

split decomposition algoritmo
Split Decomposition: Algoritmo
  • Ricorsivamente: posto che tutti i d-split relativi al sottoinsieme {1,…, i – 1} siano già stati determinti;
  • per ogni split S = (A, B) di questo sottoinsieme, verificare se

o

siano ammissibili come d-split dell’insieme allargato a i.

  • La procedura termina quando i = N.
  • Si può dimostrare che la complessità di questo algoritmo è
metodi basati sui caratteri
Metodi Basati sui Caratteri
  • Tutti i metodi visti fin qui utilizzano una matrice di distanze tra sequenze
  • Metodi basati sulle distanze guardano all’evoluzione “da lontano”, ignorando informazioni di dettaglio
  • Metodi basati sui caratteri partono dal dettaglio
  • Cercano di ripercorrere le traiettorie seguite dall’evoluzione
  • Ricostruzione “filologica” delle sequenze dei progenitori comuni
  • Siccome i metodi basati sulle distanze e sui caratteri sono fondamentalmente differenti, una loro concordanza nelle conclusioni è considerata una forte prova a favore di un albero filogenetico
parsimonia
Parsimonia
  • Premesse di fondo:
    • Le mutazioni sono eventi estremamente rari
    • Più eventi improbabili un modello deve assumere, meno è probabile che il modello sia corretto
  • Allineamento multiplo di sequenze
  • Concetto di “sito informativo”: per essere informativa, una posizione deve:
    • contenere almeno due nucleotidi diversi
    • ciascuno di questi nucleotidi deve comparire almeno due volte
  • Parsimonia “pesata”
esempio
1

1

1

3

2

2

2

3

4

4

4

3

Esempio

1 2 3 4 5* 6*

1. G G G G G G

2. G G G A G T

3. G G A T A G

4. G A T C A T

ricostruzione
Ricostruzione

G~A~T

G~T~A

R

G~A

G~T

A

G

A

S

G

T

G

G

A

A

T

G

G

T

A

A

G~A

G

IF S  T   THEN

R = S  T

ELSE

R = S  T

A

G

G

T

G

A

A

strategie di ricerca
Strategie di Ricerca
  • La ricerca esaustiva su tutti gli alberi non è proponibile
  • Metodo branch and bound (Hardy e Penny 1982):
    • Costruzione incrementale dell’albero
    • Limite superiore della lunghezza di un albero parsimonioso
    • Non si esplorano strade che portano ad alberi peggiori
    • Garanzia di trovare l’ottimo, ma miglioramento solo di scala temporale, non di complessità, che resta esponenziale
  • Metodi euristici, approssimati
    • Essenzialmente basati su hillclimbing o simulated annealing
    • L’ottimo globale non è garantito
bootstrapping
Bootstrapping
  • Serve a misurare il grado di confidenza nell’albero ricostruito
  • Creazione di insiemi di sequenze artificiali, ottenuti estraendo a caso le colonne delle sequenze reali con reimbussolamento
  • Costruzione per ciascun insieme artificiale, di un albero
  • Se gli alberi ricostruiti sono sempre uguali o molto simili => buona confidenza
  • Risultati da trattare con molta attenzione:
    • Necessità di eseguire moltissimi test, altrimenti rumore;
    • Tende a sottostimare la confidenza a livelli alti, e a sovrastimarla a livelli bassi
    • “Fallacy of multiple tests” = semplici fluttuazioni statistiche sembrano avere significatività statistica