1 / 30

Encuentra las 12 diferencias

Encuentra las 12 diferencias. La Bioinformática es una disciplina basada en el conocimiento. Las secuencia del ADN determina la secuencia de una proteína. La secuencia de una proteína determina su estructura 3D. La estructura 3D de una proteína determina su función biológica.

fionn
Download Presentation

Encuentra las 12 diferencias

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Encuentra las 12 diferencias

  2. La Bioinformática es una disciplina basada en el conocimiento

  3. Las secuencia del ADN determina la secuencia de una proteína. La secuencia de una proteína determina su estructura 3D. La estructura 3D de una proteína determina su función biológica. Por tanto, es muy probable que secuencias similares den lugar a proteínas con estructura y función parecidas. Secuencia → Estructura → Función

  4. El análisis de secuencias es una herramienta básica de la bioinformática que permite obtener información funcional, estructural y evolutiva en secuencias biológicas Para comparar secuencias es necesario hacer un alineamiento: se colocan una encima de la otra de modo que el número de símbolos conservados que ocupen una misma posición sea máximo El alineamiento de secuencias permite descubrir el grado de similitud que hay entre ellas para poder determinar si se trata de secuencias homólogas Similar sequence leads to similar structure Similar structure leads to similar function Alineamiento de secuencias

  5. Se conservan las regiones que son importantes para mantener la estructura y/o función Un alineamiento múltiple de secuencias

  6. Determinar la estructura 3D a partir de la secuencia El “santo grial” de la bioinformática

  7. Para alinear dos secuencias de longitud n y m, respectivamente, se colocan una encima de la otra de manera que el número de símbolos coincidentes sea máximo. Si es necesario, se introducen huecos (gaps). * Un sistema de puntuación Alineamiento de secuencias

  8. En cada una de las posiciones de un alineamiento de secuencias se puede encontrar: Un símbolo idéntico (match) que se ha conservado a lo largo de la evolución Un símbolo distinto (mismatch) que ha sido sustituido (o que ha mutado) a lo largo de la evolución Un hueco (gap), que es el resultado de la desaparicón (deletion)de un símbolo en una secuencia o de la inserción (insertion) de un símbolo en la otra. Como ambos casos son indistinguibles, también se les llama indel. Las tres posibilidades: match, mismatch, gap

  9. En función del número de secuencias que se comparan podemos distinguir: Alineamiento de dos secuencias Alineamiento múltiple de secuencias Tipos de alineamiento

  10. A veces es interesante comparar una secuencia consigo misma. En un dot-plot las características más sobresalientes de la secuencia se identifican fácilmente Alineamiento de una secuencia consigo misma

  11. Idénticas Parecidas Ortólogas Análogas Xenólogas Homólogas Parálogas Herencia genética Evolución convergente Comparación de dos secuencias Ancestro común En distintos organismos En un mismo organismo Transferencia horizontal de genes Especiación Duplicación de un gen Conserva la función Adquiere nueva función Posibles causas del parecido entre dos secuencias

  12. Suelen conservar la función Suelen adquirir nuevas funciones Diversos tipos de homología (1)

  13. Diversos tipos de homología (2)

  14. Homólogas: secuencias similares de dos organismos distintos, que proceden de una misma secuencia ancestral. Ortólogas: secuencias similares de dos organismos distintos, que han aparecido durante un proceso de especiación. Conservan la misma función. Parálogas: secuencias similares de un mismo organismo, que han aparecido durante un proceso de duplicación génica. Pueden adquirir distinta función. Xenólogas: secuencias similares que han surgido como consecuencia de un proceso de transferencia horizontal de genes. (virus, simbiosis, etc.) Diversos tipos de homología (2)

  15. HEAGAWGHEE Ejemplo: PAWHEAE HEAGAWGHE-E HEAGAWGHE-E P-A--W-HEAE --P-AW-HEAE Dos secuencias siempre se pueden alinear y son muchos los posibles alineamientos. Para determinar cuál es el mejor, es necesario un sistema de puntuación. ¿Cuál es el mejor? El alineamiento que obtenga la puntuación más elevada se denomina alineamiento óptimo Alineamiento óptimo

  16. Si hay más de un alineamiento con la misma puntuación, será criterio del investigador decir cuál es el más probable. Alineamiento óptimo (2)

  17. El sistema más sencillo consiste en otorgar una puntuación discreta a las coincidencias (match), otra a las diferencias (mismatch) y otra a los huecos (gaps). En muchos casos se utiliza una matriz de puntuación (scoring matrix) donde se tiene en cuenta que no todos los aa sustituyen a otro con la misma probabilidad (muchas de las sustituciones observadas son conservativas) Hay diversos criterios para puntuar los huecos. Se considera que en la evolución es más lógico que se introduzca un hueco de longitud n que n huecos de longitud 1. Por eso se otorga una penalización al introducir un hueco y otra (menor) por cada carácter añadido El sistemas de puntuación

  18. Alineamiento global (longitud de la secuencia parecida) Alineamiento local (longitud de la secuencia parecida) Alineamiento semiglobal (longitud de las secuencias muy distinta Tipos de alineamiento

  19. Un alineamiento global intenta alinear cada residuo de una secuencia con un residuo (o un indel) de la otra. • Es especialmente adecuado cuando: • Se comparan genes o proteínas con una misma función • Las secuencias tienen aproximadamente la misma longitud • Las secuencias están estrechamente relacionadas • Los dominios conservados se encuentran en el mismo orden • Un alineamiento global permite: • establecer relaciones de homología entre las secuencias • hacer un análisis filogenético de las secuencias Para hacer un alineamiento global se utiliza el algoritmo de Needleman y Wunsch Alineamiento global

  20. En un alineamiento local, una o más regiones de una secuencia se alinean con una o más regiones de la otra. • Es especialmente adecuado cuando: • Se comparan secuencias muy divergentes (de igual o distinta longitud) • No se conoce el orden de los dominios conservados • Se compara ADNc (o EST) con el ADN genómico • Un alineamiento local permite: • detectar pequeñas regiones conservadas de similitud local (centros activos, dominios proteicos, exones) • distinguir entre exones y intrones • ensamblar contigs a partir de fragmentos más pequeños Para hacer un alineamiento local se utiliza el algoritmo de Smith y Waterman Alineamiento local

  21. Un alineamiento semiglobal se utiliza para alinear secuencias con una longitud muy distinta • Es especialmente adecuado cuando: • Se comparan secuencias de muy distinta longitud • El final de una secuencia se solapa con el inicio de la otra • Los dominios conservados se encuentran en el mismo orden • Un alineamiento semiglobal permite: • ensamblar contigs a partir de fragmentos más pequeños • comparar ADNc (o EST) con el ADN genómico para establecer la estructura del gen Para hacer un alineamiento semiglobal se utiliza una variante del algoritmo de Smith y Watermina que no aplica penalizaciones ni al principio ni al final de la secuencia Alineamiento semiglobal

  22. Ejemplo de alineamiento semiglobal

  23. En las bases de datos, los 4 nucleótidos aparecen con la misma frecuencia Todos los cambios posibles tienen una probabilidad similar Se basa fundamentalmente en la coincidencia directa entre los textos Método lento, porque las bases de datos de ácidos nucleicos contienen un número muy elevado de caracteres Es preferible “traducir” una secuencia de DNA a 6 proteínas (los 6 ORF) y alinear las secuencias de proteínas No queda más remedio que hacerlo si se trata de secuencias no codificantes Son menos sensibles que los alineamientos de proteínas ... Alineamientos de secuencias de ácidos nucleicos

  24. 1.- Aportan más información (más de 4 bits por aa). 2.- Se obtienen resultados estadísticamente significativos con alineamientos más cortos 3.- El código genético es redundante, casi 1/3 de las bases no están sometidas a presión selectiva y generan ruido, lo que afecta a la sensibilidad de la búsqueda 4.- Las búsquedas en bases de datos de ácidos nucleicos son más lentas porque son mucho más grandes a causa de los proyectos genómicos y, además, contienen muchas secuencias no codificantes. 5.- A diferencia de los nucleótidos, las probabilidades de sustituir un aa por otro son muy distintas. Teniendo en cuenta este hecho se mejora enormemente la eficacia de la búsqueda. Alineamientos de secuencias de proteínas

  25. AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA Hagamos un alineamiento sin huecos: AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA Consideremos estas dos secuencias: Hay 23 nucleótidos idénticos de un total de 42 (Un 55% de similitud) Alineamientos de 2 secuencias de ácidos nucleicos

  26. AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA MELISAISALIVE MELISAISALIVE Secuencias de ADN: Traducción a proteínas: A nivel de aminoácidos, las dos secuencias son idénticas Alineamientos de las proteínas codificadas

  27. La complejidad no es mala

  28. Existen diversos métodos para el alineamiento de dos secuencias: 1.- El algoritmo de fuerza bruta 2.- Matrices de puntos (dot-plot) 3.- El algoritmo de programación dinámica 4.- Métodos heurísticos (FASTA, BLAST) Estrategias para alinear dos secuencias

  29. O (2n× 2m) A lo bestia: el algoritmo de fuerza bruta

  30. Trata de encontrar la secuencia común de mayor tamaño (LCS) entre dos secuencias X e Y de longitudes m y n, respectivamente. Se determinan todas las subsecuencias posibles de X (2m) y se comparan con todas las subsecuencias posibles de Y (2n) En total, hay que hacer 4(m+n) comparaciones Con gaps, hay que repetir los cálculos 2N veces para examinar la presencia de gaps en todas las posiciones posibles de las dos secuencias Según Waterman (1989) comparar dos secuencias de 300 aminoácidos requiere examinar 1088 posibilidades, casi el mismo número de partículas elementales que hay en el Universo. En la práctica, resulta imposible, tanto por el tiempo que se necesita como por los recursos de memoria que le harían falta al ordenador El algoritmo de la “fuerza bruta”

More Related