1 / 39

Anotación de Genomas con ESTs

Anotación de Genomas con ESTs. Eduardo Eyras Bioinformática UPF – Marzo 2006. Objetivos: Conocer un poco más sobre como se anotan genomas automáticamente Y el uso de ESTs para anotar genomas. Objetivo. Localización en el genoma de genes conocidos (known). Proteínas conocidas.

jayme
Download Presentation

Anotación de Genomas con ESTs

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Anotación de Genomas con ESTs Eduardo Eyras Bioinformática UPF – Marzo 2006

  2. Objetivos: • Conocer un poco más sobre como se anotan genomas automáticamente • Y el uso de ESTs para anotar genomas

  3. Objetivo

  4. Localización en el genoma de genes conocidos (known) Proteínas conocidas Secuencias de mRNAs

  5. Alineamiento de proteínas/mRNAs al genoma en dos pasos 1 BLAST proteína/mRNA “query” contra genoma 2 Realinea proteína/mRNA “query” contra región genómica Resultado: estructura exónica

  6. Alineando mRNAs al genoma mRNA “query” . . . GCCGCACCTGAAGAGGGAAAAGC . . . 404 : CAGCCGCACCTGAAGAGG >>>> Target Intron 2 >>>> GAAAAGC : 428 ||||||||||||||||||++ 792 bp ++||||||| 27250191 : CAGCCGCACCTGAAGAGGgt.........................agGAAAAGC : 27251007 Secuencia genómica Programas: Exonerate, Blat, Sim4, Spidey

  7. Alineando Proteínas al genoma Proteína “query” DCUP_HUMAN . . . RFPLDAAIIFSDILVVPQALGMEVTM . . . DCUP_HUMAN 75 RFPLDAAIIFSDILVVPQ ALGMEVTM RF LDAAIIFSDILVVPQ ALGMEVTM RFLLDAAIIFSDILVVPQ ALGMEVTM HS307871 2141 ctccgggaattgacggccGTACCCA Intron 4 CAGgcgaggaa gtttacctttcattttca<0-----[2195 : 2433]-0>ctgtatct cctgttcctccccttacg agcgggcg La traducción de la secuencia genómica Secuencia genómica partida en codones Programas: GeneWise, Exonerate

  8. Combinando proteinas y mRNAs Proteína alineada al genoma mRNA alineado en el mismo locus Anotación de un tránscrito con CDS y UTR

  9. Como encontrar más genes(novel) Programas de predicción de genes: e.g. Genscan, Geneid, SGP2, Twinscan, etc… Predicción Comparamos con bases de datos (Proteínas, mRNAs, ESTs, etc) Tránscrito 1 Tránscrito 2 Contruimos tráncritos a partir de predicciones con evidencia

  10. Anotación Funcional Anotación (predicción a partir de proteína o mRNA) Comparación con Bases de Datos con información Funcional

  11. A la caza de genes • Consorcio Público (HGP): Secuenciación del Genoma Inciativa privada (Craig Venter): Secuenciación de ESTs

  12. ESTs (Expressed Sequence Tags) Traducción: Etiquetas de secuencias expresadas? Son fragmentos de secuencia obtenidos a partir de clones de cDNA Tiene una longitud de 300-600 bases Pueden contener parte del CDS y/o UTR

  13. Obtención de cDNA mRNA extraído de células de un determinado tejido, estado de enfermedad y desarrollo.

  14. ESTs 5’ 3’ AAAAAA Clone cDNA into a vector TTTTTT 3’ 5’ 5’ EST Single-pass sequence reads Multiple cDNA clones 3’ EST

  15. Muestreando el Transcriptoma con ESTs Genoma Tránscrito primario Splicing Variantes de splicing oligo-dT primer Transcriptasa Reversa Clones de cDNA Secuencias de ESTs (una única lectura) 5’ 3’ 5’ 3’

  16. Longitud de los ESTs ~ 450 bp Distribución de longitudes para ESTs de human (dbEST)

  17. Alineamiento de ESTs al genoma para anotar genes EST AG GT AG GT • El alineamiento define exones e intrones

  18. dbEST: Más de 7 MILLONES de ESTs de humano Alineamiento al genoma humano ~ 3 Gigabases

  19. Bioinformática como una Tecnología Desarrollo de software specializado: Programas que mejoran en rapidez sin perder en calidad en los alineamientos. Desarrollo de tecnología especializada: Computación en paralelo con más de 2000 CPUs

  20. Alineamiento de ESTs al genoma Pueden contener colas polyA/polyT del cDNA: tenemos que cortarlas Pueden contener contaminación del vector: tenemos que filtrarlos. Pueden contener intrones no procesados (clones de tránscritos no maduros): damos preferencia a ESTs que alineen con 1 ó más intrones, con dinucleótidos consenso: GT—AG, AT—AC, GC—AG Es secuenciación de baja calidad (1 única pasada): Solo aceptamos “matches” casi exactos al genoma (coverage >= 97%, percent id>= 95%)

  21. Alineamiento de ESTs al genoma EST Stop PolyA * AAAA Pseudogene procesado AG GT AG GT Mejor alineamiento en todo el genoma Parálogo

  22. Alineamiento de ESTs al genoma EST quimérico Trozo de gen A Trozo de gen B Thomson et al.. Fusion of the human gene for the polyubiquitination coeffector UEV1 with Kua, anewly identified gene.Genome Res. 2000 Nov;10(11):1743-56 Parra et al. Tandem chimerism as a means to increase protein complexity in the human genome.Genome Res. 2006 Jan;16(1):37-44

  23. ESTs dan información sobre variantes de splicing ESTs Genoma ¿Cuales son los tránscritos representados por este set de ESTs alienados al genoma? ¿podemos averiguar el conjunto de mRNAs en este locus del genoma que supuestamente han dado lugar ha estos ESTs?

  24. Compatibilidades entre distintos ESTs 2 ESTs pueden tener estructura exónicas redundantes: x z x + z z es redundante con x -> es suficiente quedarnos con x

  25. Extensión de la estructura exónica Consider 2 ESTs in a Genomic Cluster with more ESTS x y x + y y extiende x, podemos asumir que provienen del mismo mRNA

  26. Extensión de la estructura exónica El resultado depende de la representación de exones en los ESTs. Sin embargo, ESTs suelen representar mayormente regiones 3’y 5’. x z w ESTs como z no son muy frecuentes, por lo que tendremos fragmentación

  27. Complejidad de las estructuras exónicas x z w x + z z + w En un grupo de ESTs pueden existir redundancias y extensiones. Todas pueden ser importantes: w es compatible con z pero no con x, mantenemos z a pesar de ser redundante con x, para obtener z + w

  28. Predicción de tránscritos a partir de ESTs ESTs Predicciones Podemos obtener predicciones de mRNAs teniendo en cuenta las compatibilidades entre ESTs. Eyras et al. Genome Research 2004

  29. Secuenciación de ESTs a gran escala en paralelo a la secuenciación de un genoma

  30. Sistema Anatómico Tipo de Célula Patología Estado de Desarrollo ESTs proporcionan información sobre la expresión de genes Ontologías eVOC http://www.sanbi.ac.za/evoc/ El tejido, órgano o sistema anatómico en el que se ha preparado la muestra. Por ejemplo: digestivo, pulmón, retina. El tipo de célula en el que se ha preparado la muestra.Ejemplo: Linfocitos B, Fibroblasto. El estado patológico del tejido en el que se preparó la muestra. Por ejemplo: normal, linfoma. El estadio en el desarrollo del organismo en el cual se preparó la muestra. Por ejemplo: embrión, feto, adulto.

  31. ESTs proporcionan información sobre la expresión de genes Ontologías eVOChttp://www.sanbi.ac.za/evoc/ Sistema Anatómico Estado de Desarrollo Tipo de Célula Patología … nervioso cerebro cerebelo … Librería 1 Librería 2 … ESTs ESTs

  32. Como conectar el vocabulario de expressión con los genes previamente anotados ESTs Genes V Curwen et al. Genome Research (2004)

  33. Vocabulario de expresión

  34. CONCLUSIONES • La anotación de genomas requiere software especializado. • ESTs (muestreo parcial de mRNAs) son útiles para anotar genomas. En particular:, para obtener información sobre splicing alternativo y sobre el contexto de la expresión. • La producción de ESTs es rápida y barata pero los datos necesitan bastante procesamiento. • Los ESTs solo dan información sobre los tránscritos expresados por la célula. Para estudia regiones reguladoras necesitamos el genoma.

  35. FIN

More Related