1 / 64

Genômica e Proteômica

Genômica e Proteômica. Montagem de genomas. Introdução. Queremos conhecer a seqüência de parte ou de todo o DNA de um organismo A tecnologia disponível só recupera pequenas seqüências de DNA. No máximo 700-800 pb. Em média 450 pb

paula-carr
Download Presentation

Genômica e Proteômica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Genômica e Proteômica Montagem de genomas

  2. Introdução • Queremos conhecer a seqüência de parte ou de todo o DNA de um organismo • A tecnologia disponível só recupera pequenas seqüências de DNA. No máximo 700-800 pb. Em média 450 pb • Se queremos pedaços maiores de DNA, temos que a partir destas pequenas seqüências, montar um “quebra-cabeças” LABINFO – LNCC / MCT

  3. Introdução • Um tipo diferente de quebra-cabeças. Temos as peças, mas não sabemos o resultado final • Freqüentemente, nem temos todas as peças • É um problema computacional complexo! • Como ? LABINFO – LNCC / MCT

  4. Introdução • Definir a estratégia de seqüenciamento • Gerar as seqüências • Construção e validação de bibliotecas • Seqüênciar • Montar • Finalizar a seqüência genômica LABINFO – LNCC / MCT

  5. Estratégia de seqüenciamento • Clone-by-clone (“Primeiro mapear, depois seqüênciar”) • Whole-genome shotgun sequencing • Hybrid shotgun sequencing • Expressed Sequence Tag - EST LABINFO – LNCC / MCT

  6. Clone-by-clone e Whole-genome shotgun sequencing LABINFO – LNCC / MCT

  7. Whole-genome shotgun sequencing LABINFO – LNCC / MCT

  8. Whole-genome shotgun sequencing LABINFO – LNCC / MCT

  9. Hybrid shotgun sequencing LABINFO – LNCC / MCT

  10. B1 B2 C1 C2 C3 A1 A2 A3 genoma Mensagem (ou transcrito) gene Splices alternativos do mesmo gene A1 A3 A1 A2 EST Expressed Sequence Tag LABINFO – LNCC / MCT

  11. Bibliotecas • Em qualquer estratégia temos que construir bibliotecas de seqüências de DNA • As bibliotecas devem ser validadas. Garantir: • Que as seqüências tenham o tamanho esperado • Que não exista contaminação e presença excessiva de vetores • Que a distribuição das seqüências seja a esperada • Para EST as bibliotecas podem ser de diferentes tecidos LABINFO – LNCC / MCT

  12. Bibliotecas LABINFO – LNCC / MCT

  13. Administração e gerência • No caso de redes de seqüenciamento, recepcionar os cromatogramas • Armazenar os cromatogramas • Gerar relatórios sobre o seqüenciamento • Divulgação de estatísticas sobre o desenvolvimento do projeto LABINFO – LNCC / MCT

  14. Administração e gerência LABINFO – LNCC / MCT

  15. Administração e gerência LABINFO – LNCC / MCT

  16. Administração e gerência LABINFO – LNCC / MCT

  17. Estratégia híbrida • Leitura dos cromatogramas  converter os dados provenientes de seqüenciadores (reads) em seqüências de nucleotídeos, associando a cada um o seu respectivo valor de qualidade • Montagem  comparar as seqüências, utilizando também os valores de qualidade, para encontrar a sobreposição entre elas e gerar as seqüências de consenso, chamadas contigs • Objetivo: Um contig !!! LABINFO – LNCC / MCT

  18. Estratégia híbrida • Analisar a montagem • Acompanhar a evolução do número de contigs  Determinar quando se deve parar o seqüenciamento de bibliotecas e/ou iniciar o processo de finalização do genoma • Identificar problemas de montagem. Ex.: Presença de repetições gerando montagens erradas LABINFO – LNCC / MCT

  19. Estratégia híbrida • Finalizar o genoma • Ordenar e orientar os contigs (scaffold) • Utilizar os clones de shotgun e de outras bibliotecas (cosmídoes, bacs etc) para construir os scaffolds • Definir estratégias específicas para fechar “gaps” – espaços entre contigs – no genoma • Garantir que todas as bases tenham um valor mínimo de qualidade, para que tenhamos no máximo uma base errada em um milhão. LABINFO – LNCC / MCT

  20. Leitura dos cromatogramas • A leitura dos cromatogramas é a realizada pelo programa phred • O phred nomeia cada base e atribue um valor de qualidade para cada base lida • A qualidade está relacionada a probabilidade que tenha ocorrido um erro na nomeação da base LABINFO – LNCC / MCT

  21. Leitura dos cromatogramas • Q = -10 log10( Pe ) • Q  Qualidade e Pe  Probabilidade de erro • Ex.: 1 erro em 100 bases • Q = -10 log10(1/100)  Q = 20 • Ex.: 1 erro em 10000 bases • Q = -10 log10(1/10000)  Q = 40 • Ex.: 1 erro em 1000000 bases • Q = -10 log10(1/1000000)  Q = 60 LABINFO – LNCC / MCT

  22. Leitura dos cromatogramas LABINFO – LNCC / MCT

  23. Leitura dos cromatogramas LABINFO – LNCC / MCT

  24. Leitura dos cromatogramas • O phred gera um arquivo contendo as bases e as respectivas qualidades LABINFO – LNCC / MCT

  25. Filtragem de vetores • Trechos de seqüências de DNA correspondentes a vetores devem ser filtradas • Utiliza-se um programa (cross_match) de alinhamento de seqüências para procurar na seqüência de cada fragmento a presença do vetor • O trecho correspondente tem cada uma de suas base substituídas por “x” LABINFO – LNCC / MCT

  26. Filtragem de vetores LABINFO – LNCC / MCT

  27. Fragmento ATAGACCCAT GACCCAT ATGCATGCCATA CCAT GACTGCCATA CCATGCATG Alinhamento ATAGACCCAT ---GACCCAT --------ATGCATGCCATA ------CCAT ----------GACTGCCATA ------CCATGCATG ATAGACCCATGCATGCC Consenso Montagem • Determinar a ordem e orientação de uma coleção de fragmentos de um mesmo DNA LABINFO – LNCC / MCT

  28. Montagem LABINFO – LNCC / MCT

  29. Programas / pacotes de montagem • Assembler (www.tigr.org) • Bambus – Programa para gerar scaffold • CAP3 (genome.cs.mtu.edu) • phred/phrap/consed (www.phrap.org) • Staden (www.mrc-lmb.cam.ac.uk) – GAP4 • Pode utilizar o CAP3 ou o phrap LABINFO – LNCC / MCT

  30. CAP3 • Identificação e remoção de regiões de baixa qualidade, no início e no fim dos reads • Alinhamento entre reads para identificação de sobreposição • Identificação e remoção de falsos alinhamentos LABINFO – LNCC / MCT

  31. CAP3 • Formaçãodoscontigsatravésdajunçãodosreadsemordemdecrescentedapontuaçãodosalinhamentos • Correção nos contigs através da validação forward-reverse • Alinhamento múltiplo dos reads para a construção da seqüência de consenso • Geração dos arquivos de saída (links, ace etc) LABINFO – LNCC / MCT

  32. phrap • Tratamento das seqüências • Conversão de trechos de bases iguais, no início e no fim dos reads em “N” • Identificação e exclusão de reads iguais • Exclusão de regiões, provavelmente não filtradas, de vetores do alinhamento • Determinação dos singlets (reads que não tem alinhamento com nenhum outro read) LABINFO – LNCC / MCT

  33. phrap • Identificação de sobreposição • Formação dos contigs • Determinação do consenso • Determinação dos links entre contigs e do scaffold • Geração dos arquivos de saída (log, ace, contigs etc) LABINFO – LNCC / MCT

  34. Entrada: cromatogramas Base-calling (phred) – phd_file Pipeline da montagem Conversão (phd2fasta) phd_files  multifasta e multifasta.qual Montagem (phrap / cap3) Filtragem (cross_match) de vetores e repetições  multifasta.screen Arquivo de * Clones (formcon)  multifasta.screen.con LABINFO – LNCC / MCT * Somente para o CAP3

  35. Análise da montagem LABINFO – LNCC / MCT

  36. Contig 5 Contig 1 Contig 4 bP10g bP9 g bP1 g bP8 g bP7 g bP4 g bP12g bP6 g bP11g bP3 g bP5g bP2 g bC6 g bC4 g bC7 g b C2 g bC5 g bC1 g b C3g Análise da montagem LABINFO – LNCC / MCT

  37. Análise da montagem LABINFO – LNCC / MCT

  38. Análise da montagem LABINFO – LNCC / MCT

  39. Identificação de repetições • Repetição trechos de DNA ao longo do(s) cromossomo(s) • Se a repetição tiver um tamanho próximo ou maior que a média do tamanha dos reads, o programa de montagem pode colocá-lo em uma região errada LABINFO – LNCC / MCT

  40. D C B A D B C A Identificação de repetições • Repetições ambíguas LABINFO – LNCC / MCT

  41. B A C B A C Identificação de repetições • Repetições colapsadas LABINFO – LNCC / MCT

  42. Identificação de repetições • Como identificar: • Regiões de contigs que “empilham” reads • Regiõe(s) que têm match com outras regiõe(s) • Regiões que apresentam links de pontas de clones inconsistentes • Regiões em que existem mais de um read com bases discrepantes em relação ao consenso LABINFO – LNCC / MCT

  43. Identificação de repeats • Regiões que “empilham” reads LABINFO – LNCC / MCT

  44. Identificação de repeats • Regiõe(s)quetêmmatchcomoutrasregiõe(s) LABINFO – LNCC / MCT

  45. Identificação de repeats • Regiõe(s)quetêmmatchcomoutrasregiõe(s) LABINFO – LNCC / MCT

  46. Identificação de repeats • Regiões que apresentam links de pontas de clones inconsistentes LABINFO – LNCC / MCT

  47. Identificação de repeats • Regiões em que existem mais de um read com bases discrepantes em relação ao consenso LABINFO – LNCC / MCT

  48. Problemas nos contigs • Low Consensus Quality(LCQ) É uma região do consenso, cujas bases possuem qualidade menor ou igual a 25. Indica uma região que está coberta por reads de baixa qualidade. • High Quality Discrepancies (HQD) São bases de um read que estão discrepantes em relação ao consenso e são de qualidade superior a 40. • Positions not Confirmed on both Strands (NCBS) Posições no consenso que não estão confirmadas nas duas fitas. • Reads quiméricos LABINFO – LNCC / MCT

  49. Problemas nos contigs - LCQ LABINFO – LNCC / MCT

  50. Problemas nos contigs - HQD LABINFO – LNCC / MCT

More Related