Biologia computazionale
This presentation is the property of its rightful owner.
Sponsored Links
1 / 45

Biologia computazionale PowerPoint PPT Presentation


  • 89 Views
  • Uploaded on
  • Presentation posted in: General

Università degli studi di milano. Docente: Giulio Pavesi Istruttore: Matteo Re. C.d.l. Biotecnologie Industriali e Ambientali. Biologia computazionale. A.A. 2011-2012 semestre I. 5. Evoluzione e filogenesi - 2. Costruzione di alberi filogenetici :

Download Presentation

Biologia computazionale

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Biologia computazionale

Università degli studi di milano

Docente: Giulio Pavesi

Istruttore: Matteo Re

C.d.l. Biotecnologie Industriali e Ambientali

Biologia computazionale

A.A. 2011-2012 semestre I

5

Evoluzione e filogenesi - 2


Metodi basati su

Costruzione di alberifilogenetici:

Classi di metodidisponibili

Bio

CS

  • Distanza

  • Massimaparsimonia (minima evoluzione)

  • Massimaverosimiglianza

    Abbiamogiàdiscusso un medotobasatosudistanze:

    UPGMA

Metodibasatisu:


Abbiamo bisogno di altri metodi

Costruzione di alberifilogenetici:

Classi di metodidisponibili

Bio

CS

Abbiamo già discusso un medoto basato su distanze:

UPGMA

Abbiamobisogno di altri metodi?


Cosa non va in upgma rivediamo l esempio

Costruzione di alberifilogenetici:

problemi con UPGMA…

Bio

CS

?

A

B

C

D

Quest’albero … implica che la distanza tra B e C ha lo stesso valore della distanza tra B e D?

Ma la matrice delle distanze non conteneva valori diversi?

Cosa non va in UPGMA? (rivediamol’esempio…)


Biologia computazionale

Costruzione di alberifilogenetici:

problemi con UPGMA…

Bio

CS

  • UPGMA calcola la media delle due distanze e pone sia C che D alla medesima distanza (1.5) da B …

  • Cosa succede se le velocità evolutive dopo la divergenzasono diverse?

.5

.5

4

2.5

1

2

A

B

C

D

NB: è un effetto dell’ipotesi dell’orologio molecolare!


Biologia computazionale

Costruzione di alberifilogenetici:

problemi con UPGMA…

Bio

CS

  • Velocità evolutive differenti(non contemplate dall’ipotesi dell’orologio molecolare) possono causare problemi a UPGMA

  • Specialmente nel caso di taxa molto simili (distanze molto piccole)!

TAXA MOLTO SIMILI

Produce questamatrice

..che produce

quest’albero

Questoalbero

1

1

2

1

A

B

B

C

A

C

… e i due alberi sono DIVERSI !


Biologia computazionale

Costruzione di alberifilogenetici:

Cronogrammi

Bio

CS

Alberi ultrametrici

( cronogrammi)

1

3

1

1

3

2

1

1

1

1

a

b

c

Le distanze (nei cronogrammi) devono obbedire a 4 regole:

Non-negatività:d(a,b) ≥ 0

Distinguibilità: d(a,b) = 0 if and only if a = b

Simmetria:d(a,b) = d(b,a)

Disug. triangolare:d(a,c) ≤ d(a,b) + d(b,c)

Inoltre devono anche soddisfare la:

Condizione dei tre punti: d(a,b) ≤ max( d(a,c), d(b,c) )

1

2

0.4

1

c

b

a


Biologia computazionale

Costruzione di alberifilogenetici:

Cronogrammi

Bio

CS

Alberi ultrametrici

( cronogrammi)

1

3

1

1

3

2

1

1

1

1

a

b

c

Le distanze (nei cronogrammi) devono obbedire a 4 regole:

Non-negatività:d(a,b) ≥ 0

Distinguibilità: d(a,b) = 0 if and only if a = b

Simmetria:d(a,b) = d(b,a)

Disug. triangolare:d(a,c) ≤ d(a,b) + d(b,c)

Inoltre devono anche soddisfare la:

Condizione dei tre punti: d(a,b) ≤ max( d(a,c), d(b,c) )

1

2

0.4

1

c

b

a


Biologia computazionale

Costruzione di alberifilogenetici:

Motivideiproblemidi UPGMA

Bio

CS

  • UPGMA è molto sensibile alla presenza di velocità evolutive differenti (assume che esse siano uguali su tutti i rami).

  • Il clustering funziona SOLO SEi dati sono ultrametrici

  • Le distanze sono ultrametriche SE soddisfano la ‘condizione dei tre punti'.

Condizione dei tre punti:

B

A

A

B

C

C

Per ogni combinazione di tre taxa, le due distanze maggioridevono essere uguali.


Biologia computazionale

 A

 B

 C

 D

 E

 B

 5

 C

 4

 7

 D

 7

 10

 7

 E

 6

 9

 6

 5

 F

 8

 11

 8

 9

 8

Costruzione di alberifilogenetici:

Esempiodierroredi UPGMA

Bio

CS

Velocità evolutive non costanti

TOPOLOGIA ERRATA


Biologia computazionale

 A

 B

 C

 D

 E

 B

 5

 C

 4

 7

 D

 7

 10

 7

 E

 6

 9

 6

 5

 F

 8

 11

 8

 9

 8

Costruzione di alberifilogenetici:

Esempiodierroredi UPGMA

Bio

CS

Velocità evolutive non costanti

TOPOLOGIA ERRATA

Esiste un metodo chiamato Neighbor Joining che avrebbe ricostruito la topologia dell’albero in modo corretto.


Biologia computazionale

Costruzione di alberifilogenetici:

NeighborJoining (NJ)

Bio

CS

Neighbor Joining e costruzione di alberi additivi (filogrammi, lunghezza rami proporzionale a distanze genetiche)

A

C

c

a

x

b

d

D

B

A e B sono neighbors (“vicini”) poichè sono connessi da un singolo nodo interno.

Anche C e D sono vicini, ma A e D non lo sono.


Biologia computazionale

Costruzione di alberifilogenetici:

Alberiadditivi

Bio

CS

Se l’albero è additivo, allora deve essere rispettata la:

Condizione dei 4 punti

A

C

c

a

x

b

d

D

B

dAC + dBD = dAD + dBC = a + b + c + d + 2x = dAB + dCD + 2x

dAB + dCD < dAC + dBD

Condizione dei 4 punti

dAB + dCD < dAD + dBC

non-vicini

vicini

Fondamentalmente dice che la distanza tra i vicini è minore di quella tra i non-vicini.


Biologia computazionale

Costruzione di alberifilogenetici:

Neighbor Joining (NJ)

Bio

CS

NJ: costruzione dell’albero più corto

Partiamo da una struttura a stella (nessuna struttura gerarchica)

C

A

D

B

Distanze pair-wise

Lunghezza dell’albero

Numero di taxa


Biologia computazionale

Costruzione di alberifilogenetici:

Neighbor Joining (NJ)

Bio

CS

Possiamo utilizzare queste formule per calcolare la lunghezza del nuovo albero:

(Saitou and Nei, 1987)


Biologia computazionale

Costruzione di alberifilogenetici:

Neighbor Joining (NJ)

Bio

CS

Ad ogni passo tutte le coppie di vicini vengono esaminate e viene scelta quella che produce l’albero più corto (criterio di minima evoluzione).

(Saitou and Nei, 1987)


Biologia computazionale

Costruzione di alberifilogenetici:

Neighbor Joining (NJ)

Bio

CS

Come nel caso di UPGMA ad ogni ciclo viene aggiunto un ramointerno … ma adesso è sempre il ramo più corto possibile !

(Saitou and Nei, 1987)


Biologia computazionale

Costruzione di alberifilogenetici:

Neighbor Joining (NJ)

Bio

CS

Come nel caso di UPGMA ad ogni ciclo viene aggiunto un ramointerno … ma adesso è sempre il ramo più corto possibile !

Albero non radicato

(Saitou and Nei, 1987)


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Definizione:

    parsimònia s. f. [dal lat. parsimonia, der. di parcĕre «risparmiare» (supino parsum)]. – La qualità di chi è parco; moderazione, giusta misura nell’uso del denaro o di altri beni, per un senso di doverosa economia o per abituale frugalità di vita: avere, usare p.; …

    Principio, o legge, della p.: uno dei modi con cui viene denominato il principio (altrimenti detto legge di economia, o principio del minimo sforzo, o del minimo mezzo, o del minimo lavoro) così enunciato da G. Galilei nel «Dialogo sopra i due massimi sistemi» (Giornata seconda): la natura ... non opera con l’intervento di molte cose quel che si può fare col mez(z)o di poche, volendo significare che ogni fenomeno naturale si realizza sempre con il minimo dispendio sia di materia sia di energia.

Massima parsimonia

http://www.treccani.it/vocabolario/parsimonia/


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

In fondo gli alberi filogenetici sono IPOTESI evolutive (come gli allineamenti utilizzati per definire le distanze tra i membri di un set di sequenze…). Quindi tra tutte le possibili ipotesi (alberi)vorremmo scegliere quella che spiega le sequenze con il minor numero di eventi evolutivi (da qui il termine parsimonia).

E’ possibile applicare il concetto di parsimonia alla costruzione di alberi filogenetici?

Tra tutte le possibili ipotesi in grado di spiegare i dati (sequenze) vogliamo scegliere la più SEMPLICE

RASOIO DI OCCAM


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Osserviamo ogni colonna di un allineamento multiplo e costruiamo un albero che la “descriva”

  • Costruiamo un albero consenso

Massima parsimonia:

atgccgca-actgccgcaggagatcaggactttcatgaatatcatcatgcgtggga-ttcag

acctccatacgtgccccaggagatctggactttcacc---tggatcatgcgaccgtacctac

t-atgg-t-cgtgccgcaggagatcaggactttca-gt--g-aatcatctgg-cgc--c-aa

t--tcgt-ac-tgccccaggagatctggactttcaaa---ca-atcatgcgcc-g-tc-tat

aattccgtacgtgccgcaggagatcaggactttcag-t--a-tatcatctgtc-ggc--tag


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Cosaintendiamoquando ci riferiamo ad un albero in grado di “descrivere” (spiegare) unacolonna del multiallineamento?

    Ipotesi di lavoro: Costruiamotutti i possibilialberi per unacolonna del multiallineamento e poi scegliamoilmigliore

    PROBLEMI:

  • Come costruiamotutti i possibilialberiper una data colonna?

  • Come riconosciamol’alberomigliore?

Massima parsimonia:


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Come costruiamotutti i possibilialberiper una data colonna?

  • Come riconosciamol’alberomigliore?

    Ad ogninodointernodell’alberopossiamomettere A oppure G. Allefoglie, invece, dobbiamorispettare le proporzioniosservate (3A, 1G).

Massima parsimonia:

AGCT

AACT

AACT

AACT

? (A or G)

Topologiepossibili : 1

? (A or G)

? (A or G)

A

A

A

G

Al posto dei TAXA abbiamo i nucleotidi (osservati)


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Come costruiamotutti i possibilialberiper una data colonna?

  • Come riconosciamol’alberomigliore?

    Consideriamoil nucleotide piùfrequente (A) come ancestor …

Massima parsimonia:

scelta: A

AGCT

AACT

AACT

AACT

A

0 if A

1 if G

Alberipossibili : 1

0 if A

A or G

A or G

0

0 if A

1 if A

0

A

A

A

G

Al posto dei TAXA abbiamo nt


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Come costruiamotutti i possibilialberiper una data colonna?

  • Come riconosciamol’alberomigliore?

    Scegliamo i nucleotidiainodiinterniin modo da spiegare i taxa (ntosservati) minimizzandoilnumerototale di sostituzioni!

Massima parsimonia:

Alberipossibili : 1

AGCT

AACT

AACT

AACT

A

Totalesostituzioni : 1

(non male…)

A

A

1 if A

A

A

A

G


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Quando gli organismi sono 2 esiste un unico albero possibile:

Come determinare tutti i possibili alberi?

A

B


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Se gli organismi fossero 3

  • Il terzo potrebbe posizionarsi …

Come determinare tutti i possibili alberi?

A

B


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • E se gli organismi fossero 4 ?

  • Per ognuno dei tre possibli alberi precedenti potremmo aggiungere il quarto organismo ad ognuno dei loro 4 rami (o potremmo usarlo come una nuova radice)

  • Il numero di possibili alberi con 4 organismi è quindi:

    • 3*5=15

Come determinare tutti i possibili alberi?

Se partissimo da quest’albero

con 3 organismi

A

B


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Ni : n. di alberi dati i taxa

  • Bi : n. di rami in un albero dati i taxa

  • Bi=Bi-1+2, e anche i * 2-2

  • Ni=Ni-1*(Bi-1+1)

    • + 1 a causa della potenziale nuova radice

  • N2= 1

  • B2=2

Numero dei possibili alberi:


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Ni : n. di alberi dati i taxa

  • Bi : n. di rami in un albero dati i taxa

  • Bi=Bi-1+2, e anche i x 2-2

  • Ni=Ni-1*(Bi-1+1)

    • + 1 a causa della potenziale nuova radice

  • N2= 1

  • B2=2

Numero dei possibili alberi:

A cosaassomigliaquestotassodicrescita?


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Ni : n. di alberi dati i taxa

  • Bi : n. di rami in un albero dati i taxa

  • Bi=Bi-1+2, e anche i x 2-2

  • Ni=Ni-1*(Bi-1+1)

    • + 1 a causa della potenziale nuova radice

  • N2= 1

  • B2=2

Numero dei possibili alberi:

E’ definitodaunarelazionediricorrenza, quindi …

Giusto… come al solito, esponenziale


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Alberi radicati e non radicati

  • Ovunque sia la radice “appiattitela”

Possiamo “risparmiare” qualche albero rinunciando alla radice:


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Sono anch’essi biforcati

    • Non è possibile che 3 rami partano da uno stesso nodo

Regole per alberi non radicati:

A

D

B

C


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Tre alberi possibili

Possibili alberi non radicati per 4 taxa:

A

A

A

D

B

D

D

B

C

B

C

C

Esistonoaltrecombinazioni?


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Per ognuno dei tre alberi (da 4 taxa) possiamo aggiungere un ramo ad ognuno dei 5 rami disponibili

  • 3*5=15 alberi

Possibili alberi non radicati per 5 taxa:

A

D

B

C


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Outgroup

    • Includere un organismo che sappiamo a priori essere più distante evolutivamente da ogni taxa rispetto ad ogni distanza tra i taxa appartenenti all’albero da radicare

“Radicare” un albero:

A

D

B

C

se outgroup si posiziona qui …

A

B

C

D

outgroup


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Ni : num. alberi dati i taxa

  • Bi : num. rami in un albero dati i taxa

  • Bi=Bi-1+2, e anche i * 2-3

  • Ni=Ni-1*(Bi-1)

    • non serve il +1 per l’eventuale nuova radice … qui non ci sono radici

  • N2= 1

  • B2=2

Numero di alberi non radicati:


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Riduzione consistente del numero di alberi

  • … e nonstante questo abbiamo guadagnato un solo taxa (in termini di relazione tra num. alberi e num. taxa)

Comparazione (alberi non radicati vs radicati):


Biologia computazionale

Costruzione di alberifilogenetici:

Massimaparsimonia

Bio

CS

  • Non possiamo utilizzare la programmazione dinamica …

    • Il problema non è composto da sottoproblemi ripetitivi

    • Ogni sottoproblema è un albero … e ogni albero è unico …

Come possiamo ridurre la complessità del problema?

La complessità è ancoraesponenziale…

EURISTICHE


Biologia computazionale

Costruzione di alberi filogenetici:

Euristiche che evitano l’enumerazione di

tutti gli alberi

Bio

CS

  • Ignorare larghi subset di possibili soluzioni

  • Utilizzare euristiche o metodi di predizione

Ignorare questa

combinazione di

rami


Biologia computazionale

Costruzione di alberi filogenetici:

euristica Branch and Bound

Bio

CS

Poniamo un limite superiore ragionevole alla lunghezza complessiva dell’albero utilizzando un algoritmo veloce (ad es. UPGMA)

Poi esploriamo le possibili soluzioni purchè non superino la lunghezza stimata inizialmente

B & B dipende molto dalla qualità dei dati … e non garantisce di trovare la soluzione ottimale


Biologia computazionale

Costruzione di alberi filogenetici:

euristica Branch and Bound

Bio

CS

Branch and Bound ci fa “perdere” taxa nella soluzione finale? NO

Ci fa perdere alcune “topologie” tra le possibili soluzioni? SI(è proprio questo il suo obiettivo … ma tra di esse potrebbe esserci la soluzione ottimale)

A

D

B

C

Non preoccupiamoci di questi possibili modi di ramificare … vanno oltre la soglia di lunghezza

X

X

X


Biologia computazionale

Torniamo all’algoritmo di

Massima parsimonia

Bio

CS

  • In alcune colonne i simboli sono tutti uguali

    • Non forniscono nessuna informazione

    • Tutti gli alberi hanno costo minimo

  • In alcune colonne i simboli sono tutti diversi

    • Anche queste sono inutili

  • Colonne informative devono contenere almeno due simboli diversi ed almeno uno di essi deve essere ripetuto almeno due volte

AGCT

AACT

AACT

ACCT

A

0

A

0

A

0

0

0

0

A

A

A

A


Biologia computazionale

Massima Parsimonia:

l’albero consenso

Bio

CS

  • Ogni colonna genera un albero

  • Se le topologiecoincidonol’algoritmofinisce qui

  • Se esistonotopologiedifferentiutilizziamo un criteriodi “maggioranza”

  • Se ilcampione (numerodisequenze) è troppo piccolo eseguiamo un bootstrapping :

    • Estraiamocasualmentesequenzedalmultiallineamento

    • Generiamopiùalberi

    • Etichettiamoirami con la percentualedioccorrenze in cui compaiono in un albero

    • Questeinformazionivengonoutilizzate come misuradi “ripetibilità” (più un ramo è frequente e più lo consideriamosupportatodaidati)


Biologia computazionale

Metodi per costruire alberi filogenetici

Bio

CS

Metodi basati su:

  • Distanza

  • Massima parsimonia

  • Massima verosimiglianza

Questi li abbiamo visti…

Il seguito nella prossima puntata …


  • Login