1 / 17

Maximum likelihood : B úsqueda heurística

Maximum likelihood : B úsqueda heurística. Datos: Alineamiento de secuencias. Parámetros del modelo: Frecuencias nucleot ídicas , tasas de sustituci ón nucleotídica, topología del árbol, largo de ramas. Se elige un valor inicial para todos los par ámetros y se computa su likelihood.

chiku
Download Presentation

Maximum likelihood : B úsqueda heurística

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Maximum likelihood : Búsqueda heurística • Datos: • Alineamiento de secuencias. • Parámetros del modelo: • Frecuencias nucleotídicas, tasas de sustitución nucleotídica, topología del árbol, largo de ramas. Se elige un valor inicial para todos los parámetros y se computa su likelihood. Cambie los parametros levemente de modo de maximizar la likelihood. Repetir hasta encontrar un máximo.

  2. MODELOS

  3. Selección del modelo? Medición del ajuste entre el modelo y los datos (ej., SSE, likelihood, etc.) Cómo podemos comparar distintos tipos de modelos? y = 1.24x - 0.56

  4. Sobre-ajuste: la adición de más parámetros siempre resulta e un mejor ajuste de los datos, pero no siempre en una mejor descripción y = ax + b Modelo de dos parámetros Buena descripción, pobre ajuste y = ax6+bx5+cx4+dx3+ex2+fx+g Modelo de siete parámetros Pobre descripción, buen ajuste

  5. La paradoja de los modelos

  6. Seleccionando el mejor modelo: the likelihood ratio test • El ajuste entre dos modelos puede ser comparado utilizandola razón de sus verosimiltudes ( la razón de sus likelihoods, LRT): LR = P(Datos | M1) = L,M1 P(Datos | M2) L,M2 • Note que LR > 1 si el modelo 1 tiene la mayor likelihood. • Para modelos anidados se puede demostrar que  = 2*ln(LR) = 2* (lnL,M1 - lnL,M2) sigue un distribución de2 con grados de libertad igual al número de parámetros extras en el modelo más complejo. Esto hace posible determinar que modelo describe mejor los datos.

  7. Respondiendo preguntas biológicas en utilizando LRT • Ajuste dos alternativas, anidamiento de los datos. • Registre la likelihood y el número de parámetros de cada modelo. • Evalue si un modelo alternativo (con más parámetros) es significantivamente mejor que el modelo nulo, dado el número de parámetros extra (nextra): • Compute  = 2 x (lnLAlternativo - lnLNulo) • Compare  utilizando una distribución de2con nextra grados de libertad. • Dependiendo del modelo, distintos tipos de preguntas pueden ser establecidas (existencia de reloj molecular, presencia de selección positiva, etc).

  8. Likelihood ratio test : Que modelo se ajusta mejor a los datos: JC or K2P? Modelo de Jukes and Cantor (JC): Todos los nucleótidos tienen la misma frecuencia Todas las sustituciones tienen la misma tasa Modelo de Kimura de 2 parámetros (K2P): Todos los nucleótidos tienen la misma frecuencia Transiciones y transversiones tiene distinta tasa => K2P tiene un parámetro extra comparado con JC

  9. Likelihood ratio test : Que modelo se ajusta mejor a los datos: JC or K2P? • Punto de partida: grupo de secuencias de DNAmt, • calcule las likelihoods de los modelos JC and K2P para los datos, • JC: lnL = -2034.3 • K2P: lnL = -2031.2 K2P tiene un mejor ajuste que JC: lnLK2P > lnLJC Evalue si K2P es significantivamente mejor • = 2 x (lnLAlternative - lnLNull) = 2 x (-2031.2 - -2034.3) = 6.2 Grados de libertad = 1 (K2P tiene un parámetro extra comparado con JC)

  10. Likelihood ratio test : Que modelo se ajusta mejor a los datos: JC or K2P? • = 2 x (lnLAlternativo - lnLNulo) = 6.2 Grados de libertad = 1 • Valor Crítico (5% level) = 3.8415 • Estadístico = 6.2 • => 1% < p < 5% • Diferencia es significativa • K2P es significantivamente una mejor descripción de los datos en comparación a JC

  11. Otras opciones Akaike Information Criteria (AIC) • La idea es encontrar un modelo que minimize la distancia (Kullback–Leibler distance) con el modelo“verdadero”. AIC esta basado en el valor de MV y el número de parámetros del modelo. El AIC para un modelo i es calculado como • Donde corresponde a la Max. Verosimilitud y p es el número de parámetros libres del modelo.

  12. Una variante bayesiana de AIC es BIC. donde nes el número de observaciones. TANTO PARA AIC COMO BIC.- • El primer término se refiere a los costos de usar un modelo muy simple…la ML va a ser baja para modelos que fallan al excluir parámetros importantes. • El segundo término se asocia a los costos del sobreajuste (overfitting). Se favorecen modelos más parsimoniosos.

  13. Otras opciones • Bayes Factor (BF).- Sigue la misma lógica que LRT, valores mayores a 1 muestran que M1 es mejor que M2 y menores a 1 , indican que se debería elegir M2. Donde X denota el número de observaciones.

  14. http://darwin.uvigo.es/software/modeltest.html

  15. ¿Cuál es el modelo a usar que sugiere Modeltest? 137 publicaciones del 2004, publicados en 43 journals.

  16. ¿Cuál es el modelo a usar que sugiere Modeltest?

More Related