V Filogenia

VFilogenia Andrés Moreira Departamento de Informática UTFSM

Construyendo árboles • El objetivo del análisis filogenético es • construir un árbol • que refleje las relaciones evolutivas • (a partir de un origen que se supone común) • de un conjunto de objetos sobre los que se tienen datos. • Los objetos pueden ser: • Las secuencias de un set de genes homólogos • Un set de genomas completos de bacterias • Una tabla de características observadas en fósiles de dinosaurios • Un set de idiomas, representados por vocablos • ...etc.

Construyendo árboles  Un posible árbol de los idiomas indo-europeos. El estudio de filogenia de idiomas es anterior a Darwin. De hecho, fue una inspiración para el pensamiento evolucionista. Post-Darwin, se aplicó la lógica de esos estudios a la clasificación de Lineo (en la que se reconoció una aproximación a la filogenia).

Construyendo árboles Algunos errores eran casi inevitables, como suponerle un origen común a los vertebrados de sangre caliente. Por suerte hoy en día podemos usar, en la mayoría de los problemas de interés, información genotípica: secuencias de DNA, RNA, o proteínas.

Construyendo árboles • Algunas gracias de la información genotípica: • Discreta • Abundante (muchos bits por objeto) • La mayoría de las mutaciones son neutrales • se acumula variación “gratis” • es poco probable la convergencia (similaridad sin homología real)

E A C D B Construyendo árboles • Lo que hay que construir es un árbol: • Puede ser con raíz o sin raíz. • A veces la longitud de las aristas es relevante, y refleja distancia evolutiva. • Por lo general es binario, aunque puede haber “politomía” por falta de información o para simplificar.

Construyendo árboles • La # de árboles posibles crece muy rápido. • Todos los criterios usuales para escoger un árbol dan problema NP-duros... •  heurísticas

Construyendo árboles Existen muchos softwares de filogenia computacional: Pero hay menos asociación algoritmo-software que en, digamos, MSA. De hecho los principales paquetes ofrecen todas las aproximaciones principales. Así que hablaremos en términos de esas.

Principales aproximaciones • Principales aproximaciones: • Métodos de distancias: trabajan sólo con una matriz de distancias entre los objetos. • Máxima parsimonia: se intenta minimizar la cantidad de cambios evolutivos implicados por el árbol. • Maxima verosimilitud: se incluye algún modelo de evolución, y de acuerdo con él –y los datos– se busca el árbol más probable.

Principales aproximaciones Según David Mount:

Datos • Para resolver filogenia de especies, la información preferida dependerá del nivel de separación: • Para comparar primates es útil la mitocondria, porque acumula mutaciones rápido. • Para resolver las profundidades del árbol de la vida se usa RNA ribosomal, porque cambia lento.

RNA ribosomal: fuerte conservación debido a estructura 2d, 3d, y a lo esencial de la molécula. • Nótese que el árbol de los tres dominios es sin raíz ; eso se debe a que no hay outgroup posible.

Outgroup • “Outgroup” : método para ponerle raíz a los árboles: • Escogemos algo que sea con certeza pariente más lejano de los objetos en estudio, que ellos entre sí. • No demasiado lejano, para no agregar mucho ruido. • Una vez hecho el árbol, lo enraizamos en la rama que va hacia el outgroup. Otra forma de enraizar un árbol es agregar la hipótesis del “reloj molecular”: suponer tasa de mutación constante.

Filogenia y MSA • La mayoría de los métodos trabajan a partir de un alineamiento múltiple. • Por lo general se descartan las columnas con gaps. • Con frecuencia se alterna entre filogenia y alineamiento, usando uno como input del otro.

Métodos de distancia _ A B C D E A 0 4 6 10 10 B 4 0 4 8 8 C 6 4 0 6 6 D 10 8 6 0 4 E 10 8 6 4 0 • Usan una matriz de distancias (por lo general sacada de un alineamiento). • Pierden datos. • Reconstruyen la topología, y la longitud de las ramas. • Supuesto: la distancia entre dos hojas es igual a la suma de las longitudes del camino entre ellas. D E C A B

S2 S1 a c b e d S3 S4 Distancia en el árbol D12 d12 = a + b + c D13 d13 = a + d D14 d14 = a + b + e D23 d23 = d + b + c D24 d24 = c + e D34 d34 = d + b + e Objetivo: Métodos de distancia: supuesto aditivo Distancia observada

Métodos de distancia: Neighbour Joining NJ: El método de distancia más popular. Idea: Cuando tenemos sólo 3 ramas, se puede resolver: d(A,B)=a+b d(A,C)=a+c d(B,C)=b+c a = ½ [ d(A,B) + d(A,C) - d(B,C) ] b = ½ [ d(A,B) - d(A,C) + d(B,C) ] c = ½ [ -d(A,B) +d(A,C) + d(B,C) ] C B b c a A

C B b c D a d e A E Métodos de distancia: Neighbour Joining Empezamos con una estrella (es el peor caso!), y vamos uniendo. C B c b x d D a • Unimos A y B a un nuevo nodo. • Juntamos en “X” todo lo demás. • Definimos dAX como el promedio de las distancias entre A y los elementos de X. • Ahora aplicamos el caso de tres nodos, a los nodos a, b y X. e A X E

Métodos de distancia: Neighbour Joining dAN = a = ½ (dAB+dAX-dBX) dBN = b = ½ (dAB+dBX-dAX) Para las distancias entre el nuevo y el resto, suponemos aditividad y promediamos lo que dan A y B: dCN = ½(dCA-dAN) + ½(dCB-dBN)...etc C B c b x d D a e A X E • Se aplica esa idea repetidamente. • Para escoger cuáles unir, se aplica una estrategia glotona, que escoge los que reduzcan más la suma de las ramas.

Métodos de distancia • Más detalles, y otros métodos de distancia: en ppt full. • Ventajas de los métodos de distancia: • Son rápidos • Se adaptan bien a ramas de longitudes distintas • Desventajas: • Pierden información • Dependen del supuesto de la aditividad •  la forma en que se calcula la distancia es vital

Distancias Forma trivial de evaluar distancia: • n : # de columnas que uso del alineamiento • nd : # de columnas en que las dos secuencias son  • ¿Qué puede fallar con eso? • Puede haber cambios más probables que otros (incorporar información de matrices de sustitución) • Si ha pasado mucho tiempo, algunos sitios van a haber mutado más de una vez.

Se introducen correcciones. La más simple, de Poisson: En general la corrección depende un asumir un modelo de evolución de la secuencia (como una matriz PAM). Es toda una ciencia; no veremos más.

Máxima parsimonia • Máxima parsimonia, o mínima evolución: • Busca el árbol, coherente con los datos, que requiere menos eventos evolutivos. • Es el método más intuitivo, simple y general • Pero: se porta bien con pocos datos (es caro) y cercanos (poca distancia evolutiva). • Se consideran los “caracteres” de a uno. • “Caracter”: columna del alineamiento, o rasgo morfológico, o cualquier atributo en realidad.

G G A A A A A A C A Máxima parsimonia • Para un árbol dado (sin raíz) y un caracter dado, evaluamos la cantidad mínima de cambios que sea coherente con ese esquema. G A • Evaluar eso es barato (polinomial). • Para el conjunto de caracteres disponibles, sumamos los valores, y eso le da un score al árbol.

G C A A A A Máxima parsimonia A A G A C T G A G C C C T G A G A T T T C A G A G T T C * * • Hay posiciones que no permiten discriminar entre árboles, no interesan. • Para ser informativa, una columna del alineamiento tiene que tener al menos dos letras que estén al menos dos veces. G A G A C A

Máxima parsimonia • La parte difícil (lo NP-duro!) es encontrar el árbol que minimice la suma de los scores. • Si son pocas hojas, se hace exhaustivo. • Si son más, pero tampoco taaantas (digamos, < 20): branch & bound. • De ahí para arriba, heurísticas. Se parte de varios posibles árboles, y se recorre haciendo simulated annealing o hill climbing. Se usa un set de árboles “vecinos” de un árbol dado, vía alguna transformación.

Máxima parsimonia • Un algoritmo glotón: • Parto con un árbol de tres hojas. • Voy agregando hojas de a una. • Al agregar una hoja, escojo la forma de hacerlo que aumente menos el score. • Se puede hacer en O(n2N) [n secuencias, de largo N], • Se puede usar como punto de partida de heurísticas, probando distintos órdenes de agregado.

Máxima parsimonia • Un ejemplo de transformación de árbol, Nearest Neighbor Interchange (NNI): • Para cada arista interior, pruebo las otras dos formas de armar el cuarteto centrado en ella. Hay otras dos transformaciones frecuentes; ver ppt full.

Máxima parsimonia • Ventajas de MP: • Es fácil de aplicar a datos no genómicos. • Es fácil poner ponderaciones distintas a los caracteres. • Se puede exigir un orden a los cambios (ej., “cola corta/mediana/larga”). • Provee secuencias ancestrales.

Máxima parsimonia • Desventajas: • Lento. • No usa toda la información (sólo sitios informativos). • No da información sobre la longitud de las ramas. • No hay corrección para mutaciones múltiples; no hay modelo de evolución asociado. • No es estadísticamente consistente: tiene sesgos en que agregar datos no ayuda.

Máxima verosimilitud • Máxima verosimilitud (ML, por max. likelihood) combina la idea de MP con los modelos de evolución de caracteres (Jukes-Cantor, etc.). • También usa heurísticas para recorrer los árboles posibles. • Es aún más lento que MP. • Pero como permite tasas de evolución distintas por rama, e incorporar distancia evolutiva entre caracteres (Jukes-Cantor, PAMs, etc), es más general y robusto. Y usa mejor los datos.

Máxima verosimilitud Lo que cambia respecto a MP, es lo que le evaluamos a cada árbol candidato. En MP: queremos el árbol con menos evolución. En ML: queremos el árbol más probable. ML evalúa la verosimilitud L (probabilidad relativa) del árbol, y busca maximizarla. ¿Cómo la evalúa? L(árbol)  Probabilidad( datos / árbol )

Máxima verosimilitud • Usa un modelo de evolución: • Probabilidades de sustituciones • Frecuencias de caracteres (en “background”) • Lo desconocido: • El árbol • La longitud de las ramas • Los árboles, los recorre como en MP. • Para cada árbol, determina longitud óptima de las ramas, y con eso y el modelo de evolución, calcula L.

Máxima verosimilitud Al igual que en MP, se asume independencia entre las distintas posiciones del alineamiento. Por lo tanto, P(datos/árbol) se calcula como el producto de P(columna/árbol), sobre todas las columnas. (O más bien, como se juntan números muy chicos, se toman los logs y se suman).

Máxima verosimilitud Evaluemos L(j), dado un árbol y suponiendo que conocemos las longitudes de las ramas. ¿Cuál es la probabilidad de que ese árbol genere la columna j?  • Enraizamos el árbol • Hay que considerar todas las posibles letras en (5) y (6).

Máxima verosimilitud • Para cada caso, el modelo y la longitud de las ramas me dan, en cada rama, una probabilidad. • Las multiplico y tengo la de ese caso. • Sumo las de todos los casos, y tengo la probabilidad de los datos, dada esa topología, ese modelo y esas longitudes.

Máxima verosimilitud Eso, suponiendo que conozco las longitudes de las ramas. Lo que se hace es escoger (con métodos de optimización numérica, tipo Newton-Raphson) las longitudes que maximizan L. Eso es ML clásico (Felsenstein). Existen variantes. PHYML (Guindon & Bascuel, 2003) es muy popular, y alterna entre modificar ramas y modificar la topología del árbol; es un tipo de algoritmo EM.

Hasta aquí

1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 A A G G A G A G C A A T T T T T T T B B G G C G C G A C A T C T C C T T C C G G A C C A C C T C C T C C T T D D G G A C A C C C T C T T T T T T Significatividad • ¿Qué confianza podemos tener en un árbol filogenético? • Lo que se suele hacer es bootstrapear: • Resamplear (con reemplazo) las columnas del alineamiento, obteniendo así un nuevo alineamiento • Calcular un árbol a partir de ese alineamiento. • Hacer eso unas 100 ó 1000 veces.

Significatividad

70 100 80 95 100 Significatividad Hacemos un árbol de consenso. Le asociamos a los nodos interiores el % de veces que aparecieron (con los mismos hijos) en los árboles del bootstrap.

Árbol de consenso Es una forma de combinar un conjunto de árboles, en un único árbol. Idea: si un clado está apoyado por una mayoría de los árboles, entonces el clado se incluye en el árbol de consenso. Combinando los distintos clados, se define el árbol completo, o casi (puede no quedar binario). Detalles técnicos: en ppt full o en libro de Clote-Backofen.

Muchas revistas exigen que los árboles filogenéticos vayan acompañado por valores de bootstrap.

Qué pasó ahí? Las plantas quedan agrupadas con las bacterias! Explicación: adquirieron el gen por transferencia horizontal desde sus cloroplastos.

Ejemplos de usos del análisis filogenético Durante un siglo hubo discusión sobre qué eran los osos pandas: parecen osos, pero no hibernan. En algunos rasgos, se parecen más a los mapaches. 1985: caso resuelto, con datos moleculares.

Ejemplos de usos del análisis filogenético Inferencia de función a partir de filogenia

Ejemplos de usos del análisis filogenético Concordancia entre especies: pistas para el diseño de estrategias de conservación.

Ejemplos de usos del análisis filogenético • Lafayette, Louisiana, 1994. • Una mujer acusó a su ex-amante (un gastroenterólogo) de haberle inyectado sangre con SIDA. • Había registro de que en esa fecha el acusado sacó sangre a un paciente seropositivo. • La defensa alegó coincidencia. • El virus del SIDA (HIV) es altamente variable. De hecho, su juego contra el sistema inmune es evolutivo. Se usaron dos genes del HIV, y tres métodos de reconstrucción filogenética.

Ejemplos de usos del análisis filogenético P: paciente V: víctima LA: otros pacientes seropositivos de la zona Caso resuelto. Acusado  culpable! Todos los detalles sórdidos: Molecular evidence of HIV-1 transmission in a criminal case M. Metzker et al, PNAS (2002) doi : 10.1073/pnas.222522599

Desafíos actuales • Sólo algunos de los principales: • Tradicionalmente se ha trabajado con pocos genes en muchas especies, o muchos genes en pocas especies. Crecientemente, son muchos en muchas. • Transferencia horizontal de genes: ahí no sirven los árboles, hay que pensar en redes. • Filogenia de genomas completos: importa el contenido de genes, y el orden en que están.

V Filogenia

V Filogenia

Presentation Transcript

FILOGENIA L. E. Eguiarte G. Bonilla Evoluci n Molecular

Generalidades Filogenia Especializaciones tegumentarias: garras, u as, cuernos, escamas, secreciones, color

FILOGENIA HUMANA

V iva V acation V ocation !

Uso de la filogenia en estudios ecologico-evolutivos

V v

Evolução e Filogenia

FILOGENIA Evolución del sistema y la respuesta inmune

v v v v v o i c e

V&V

Filogenia molecular e genômica comparativa de bactérias Gram-positivas do trato gastrintestinal

C-V C+V D-V D+V

V V P

V R V

FILOGENIA DE PROTISTAS

V 4+ → V 4+ / V 5 + → V 5+ / V 4+

V+jet/V 

V v

V v

FILOGENIA HUMANA RECONHECENDO-NOS

V . V . Denisenko

V V V V

V Filogenia

V Filogenia

Presentation Transcript

FILOGENIA L. E. Eguiarte G. Bonilla Evoluci n Molecular

Generalidades Filogenia Especializaciones tegumentarias: garras, u as, cuernos, escamas, secreciones, color

FILOGENIA HUMANA

V iva V acation V ocation !

Uso de la filogenia en estudios ecologico-evolutivos

V v

Evolução e Filogenia

FILOGENIA Evolución del sistema y la respuesta inmune

v v v v v o i c e

V&amp;V

Filogenia molecular e genômica comparativa de bactérias Gram-positivas do trato gastrintestinal

C-V C+V D-V D+V

V V P

V R V

FILOGENIA DE PROTISTAS

V 4+ → V 4+ / V 5 + → V 5+ / V 4+

V+jet/V 

V v

V v

FILOGENIA HUMANA RECONHECENDO-NOS

V . V . Denisenko

V V V V

V&V