1 / 35

O ( m × n )

O ( m × n ). Dot-plot (Gibbs and McIntyre, 1970). 1.- Se necesitan dos secuencias: A (de longitud = m ) y B (de longitud = n ). 2.- Se escribe la secuencia A en la fila superior y la secuencia B (longitud = n ) en la columna de la izquierda.

osborn
Download Presentation

O ( m × n )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. O (m × n)

  2. Dot-plot (Gibbs and McIntyre, 1970)

  3. 1.- Se necesitan dos secuencias: A (de longitud = m) y B (de longitud = n). 2.- Se escribe la secuencia A en la fila superior y la secuencia B (longitud = n)en la columna de la izquierda. 3.- Se construye una matriz con m columnas y n filas (mn). 4.- Se compara cada letra de la secuencia A con cada letra de la secuencia B. Si coinciden los caracteres se marca esa posición con un punto. Si no, se deja en blanco. El algoritmo

  4. Construcción de la matriz

  5. Rellenado de la matriz

  6. - Es un método visual que detecta todas las coincidencias posibles entre dos secuencias. Es tarea del investigador determinar cuáles son relevantes. - No proporciona un alineamiento de las secuencias pero nos da una idea de qué regiones deberían estar alineadas después de utilizar cualquiera de los otros métodos y nos puede ayudar a decidir cuál es el alineamiento óptimo. - Detecta relaciones entre las secuencias, o dentro de una misma secuencia que, de otra forma, serían muy difíciles de encontrar Características del dot plot

  7. Secuencia horizontal: gen/proteína c2 del fago P22 Secuencia vertical: gen/proteína cI del fago l DNA Proteína Como hay 20 aminoácidos, hay muchas menos coincidencias por azar y presenta mucho menos ruido Como sólo hay 4 nucleótidos, aparecen muchas coincidencias por mero azar que generan ruido DNA vs. proteína

  8. Se puede eliminar el ruido mediante un filtrado - Secuencia horizontal: gen c2 del fago P22 - Secuencia vertical: gen cI del fago l Tras aplicar un filtro Sin filtrar Filtrado de los datos

  9. La ventana deslizante se define mediante dos parámetros: - TAMAÑO (t): es el número de símbolos que abarca la ventana. Suele ser 15 en el caso del DNA y 2 ó 3 en el caso de proteínas. Ventanas deslizantes (t = 11 y r = 7) - RIGOR (r): es el mínimo número de coincidencias que debe haber entre las dos ventanas para colocar un punto en la matriz Se colocará un punto en la posición correspondiente al centro de la ventana cuando entre ambas ventanas exista, como mínimo, el número de coincidencias indicado por el parámetro r. Reducción del ruido: filtrado mediante ventanas deslizantes

  10. Secuencia horizontal: gen c2 del fago P22 Secuencia vertical: gen cI del fago l (t = 1 y r = 1) (sin filtrado) (t = 11 y r = 7) (t = 23 y r = 15) Ejemplo de la reducción del ruido

  11. En general, hay que utilizar una ventana del tamaño del elemento que quiero localizar - Al comparar secuencias de ácidos nucleicos: - Se utilizan ventanas largas y con rigor elevado (t = 15 y r = 10, por ejemplo) - Al comparar secuencias de proteínas: - Muchas veces no se filtra la matriz (t = 1 y r = 1). - Si se filtra, se utilizan ventanas cortas con un rigor muy pequeño: (t = 2 y r = 2), (t = 3 y r = 2) - Si intento buscar dominios cortos con similitud parcial en secuencias largas usaré una ventana larga y un rigor medio (t = 20 y r = 5, por ejemplo) - A la hora de filtrar se pueden utilizar matrices de puntuación o se puede tener en cuenta la similitud entre las cadenas laterales de los aminoácidos. Valores apropiados para los parámetros de filtrado

  12. Se coloca la secuencia A en la parte superior y la secuencia B en el costado izquierdo. Se coloca un punto allí donde ambas coordenadas contengan un mismo símbolo. Es un método visual que detecta rápidamente todas las coincidencias - Las regiones similares aparecen como diagonales (puede haber más de una) - Los indel provocan desplazamientos de la diagonal (en sentido vertical u horizontal) - Las transposiciones y las secuencias repetidas aparecen como diagonales paralelas a la principal - Las repeticiones inversas y las secuencias palindrómicas aparecen como líneas perpendiculares a la diagonal principal - Las regiones con poca complejidad aparecen como regiones con una elevada densidad de puntos Lo que se puede detectar con un dot-plot

  13. Comparación de dos secuencias similares (de DNA o de proteína), pero no idénticas

  14. - La diagonal principal corresponde a las regiones similares que pueden alinearse Diagonal principal - Con frecuencia, estas regiones corresponden a dominios proteicos conservados Huecos - Los huecos corresponden a las regiones que no son similares y que no podrían alinearse Dominios conservados

  15. Región insertada - Un indel provoca un desplazamiento de la diagonal - El desplazamiento de la diagonal es paralelo a la secuencia que presenta la inserción - Comparando cDNA con el DNA genómico, se pueden identificar los intrones y los exones Indels (insertion/deletions)

  16. Región repetida - Una región repetida provoca un solapamiento en las diagonales Región repetida Región repetida Secuencia repetida en tándem

  17. - Una repetición invertida o una secuencia palindrómica provoca una línea perpendicular a la diagonal Repetición invertida o secuencia palindrómica

  18. Comparación de una secuencia consigo misma (de DNA o de proteína)

  19. (Receptor LDL humano) - Aparece una diagonal de lado a lado - Hay simetría respecto a esa diagonal - Las líneas paralelas a ambos lados de la diagonal corresponden a repeticiones de la secuencia. - Las repeticiones invertidas o las secuencias palindrómicas aparecen como líneas perpendiculares a la diagonal principal - Las áreas con alta densidad de puntos son repeticiones cortas de un mismo nucleótido o aminoácido (regiones de poca complejidad) - Se ve mejor con un filtrado Comparación de una secuencia consigo misma (1)

  20. Región de poca complejidad Repeticiones invertidas Regiones repetidas (t = 1 y r =1) (t = 1 y r =1) (t = 23 y r =7) Factor de transcripción humano Receptor LDL humano (filtrado) Receptor LDL humano (sin filtrar) Comparación de una secuencia consigo misma (2)

  21. Proteína SLIT de Drosophila melanogaster - En el extremo amino hay 4 regiones repetidas, ricas en leucina (A) - Hay otro dominio que se repite unas 6 veces en un tramo pequeño y otra vez más cerca del extremo carboxilo (B). Es el dominio EGF. Secuencias repetidas

  22. Repetición en tándem de un fragmento de la secuencia …ABCDEFGEFGHIJKLMNO… Repetición en tándem

  23. En las repeticiones invertidas (inverted repeats), dos segmentos distintos de la doble hélice se leen igual, pero en sentidos opuestos: 5' AGAACAnnnTGTTCT 3'3' TCTTGTnnnACAAGA 5' Repeticiones invertidas

  24. Las repeticiones invertidas se pueden encontrar en: - Secuencias implicadas en la unión de los factores de transcripción - Transposones de plantas - Genes de retrovirus insertados en el genoma del huésped - Genes duplicados - Estructuras secundarias (stem-loop) del RNA (horquillas de terminación de la transcripción) Repeticiones invertidas

  25. Horquilla de terminación en la secuencia del gen UTP-glucosa-1-fosfato uridililtransferasa de Bacillus subtilis - En las regiones con apareamientos locales (estructuras stem-loop) la secuencia directa coincide con la de la hebra complementaria escrita en sentido inverso Repeticiones invertidas

  26. En las secuencias palindrómicas, la secuencia de una hebra se lee igual que la de su hebra complementaria: 5' GGCC 3'3' CCGG 5' Secuencias palindrómicas

  27. Las secuencias palindrómicas se pueden encontrar en: - Secuencias reconocidas por enzimas de restricción: Secuencias palindrómicas

  28. Receptor LDL humano - Las regiones de baja complejidad aparecen como zonas con una elevada densidad de puntos Regiones con poca complejidad

  29. Proteína P21997 (UniProtKB/Swiss-Prot) - En las regiones de poca complejidad hay un aminoácido que se repite mucho más de lo normal. En este caso es la prolina. - En el dot plot, estas regiones aparecen como cuadrados con una elevada densidad de puntos. Regiones con poca complejidad

  30. Comparación de una secuencia de proteína con su gen de DNA

  31. - Secuencia horizontal: gen J05545.1 - Secuencia vertical: proteína P60204 (una calmodulina) - Al comparar un gen con su producto proteico se pueden diferenciar los exones y los intrones. * En rojo: exones. * En azul: intrones. - También se pueden diferenciar intrones y exones al comparar un cDNA, una EST (expressed sequence tag) o un mRNA con el DNA genómico Identificación de los intrones y exones

  32. http://myhits.isb-sib.ch/cgi-bin/dotlet El programa Dotlet

  33. http://www.vivo.colostate.edu/molkit/dnadot/ El programa Dnadot

  34. http://sonnhammer.sbc.su.se/Dotter.html Descárgate el programa (varias plataformas) El programa Dotter

  35. http://emboss.bioinformatics.nl/cgi-bin/emboss/dottup El programa Dottup

More Related