1 / 32

Genómica

Genómica. Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013. Sumário. 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas eucariotas Fase computacional Identificação de repetições, Alinhamento de outras sequências

brian
Download Presentation

Genómica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

  2. Sumário 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas eucariotas Fase computacional Identificação de repetições, Alinhamento de outras sequências Previsão de genes abinitioe baseada em evidência Fase de anotação Anotação automática Visualização dos resultados da anotação Output GMOD Controlo de qualidade de resultados Como monitorizar os resultados da anotação; Jamborees de anotação Publicação dos dados Submissão Actualização Genómica 12-13 MJC

  3. Anotação de genomas • Estrutural • Identificar os genes e as suas fronteiras e composição em: intrões/exões; operões • Funcional • Ligação das estruturas (sequências) a ontologias genéticas Genómica 12-13 MJC

  4. Realidade atual • Sequenciação  Fácil e barata • Montagem e anotação  ainda não acompanharam: • As sequências tornaram-se menores; • Muitos dos genomas atualmente sequenciados são de espécies “exóticas” • Começa a haver muitos dados: • Quantidade • Qualidade (RNA-seq) Projetos de natureza diferente Genómica 12-13 MJC

  5. Da montagem à Anotação • Antes de mais é necessário determinar quando e se uma montagem está pronta para ser anotada. • N50 • Tamanho das gaps no scafold • Número de gaps por scafold • Cobertura do genoma. Devem escolher-se highqualitydrafts (<=> 90% do genoma completo) • Cobertura em termos de genes. Quantos genes são identificados em relação à quantidade estimada. • Cobertura de genes >> cobertura do genoma. Porquê? Genómica 12-13 MJC

  6. Que N50? UTRs Splicing Alternativo • Deve ser próximo do tamanho médio do gene para essa espécie. • Porquê? • Assim em média metade dos genes estão contidos num único scafold. Declive? Genómica 12-13 MJC

  7. As informações anteriores permitem • Sabendo o tamanho esperado do genoma  estimar o tamanho médio dos genes DECLIVE  N50 desejável. • Ferramentas como as do Core Eukaryotic Genes MappingApproach (CEGMA) são úteis. • Ferramenta que usa 458 proteínas altamente conservadas entre eucariotas. Essas proteínas são procuradas na assembly de forma a ver se estão todas contidas num sacaffold. • Os dados podem ser usadas como modelos para a determinação de exões/intrões. Genómica 12-13 MJC

  8. Se • A montagem estiver muito incompleta • N50 for demasiado pequeno…. • A melhor aposta é fazer mais sequenciação. Genómica 12-13 MJC

  9. Fase de computação Genómica 12-13 MJC

  10. Identificação de zonas repetitivas • Baixa complexidade • Trinucleótidos • Transposões, vírus, Long Interspersed Nuclear Elements; Short Long Interspersed Nuclear Elements. • Consituem cerca de 47% do genoma humano • Nem sempre estão completos e as extremidades não estão bem definidas. • As repetições nem sempre são conservadas. Genómica 12-13 MJC

  11. Identificação de zonas repetitivas • Começa por criar-se uma biblioteca de repetições para cada anotação: • Baseada em homologias • De novo (nestas ferramentas geralmente são incluidasoutras repetições como proteínas com várias cópias no genoma como histonas e tubulinas). • Depois de criada a biblioteca ela é alinhada com a montagem para ver se há homologias. • Finalmente dá-se a masking que consiste em por um N (em vez de ATGC) nesses nucleótidos. Porquê? Genómica 12-13 MJC

  12. Alinhamento Genómica 12-13 MJC

  13. Alinhamento das evidênciasjáconhecidas • ESTs • RNA-seq • Proteínas • Do mesmoou de organimosparecidos. • O alinhamento é avaliadopor % identidadeou % de semelhança. • Depoisfaz-se o agrupamento: • Seleção dos alinhamentosrepetidos • Identificação de alinhamentosmuitoexpressosporexemplo (estessãosuportadosporvárias ESTs) • A informação das RNA-seq é essencial mas computacionalmenteaindanãoestámuitoexplorada. Os dados geradossãomuitos e complexos e nemsempre é fácilintegrá-los no algoritmo. Genómica 12-13 MJC

  14. Previsão de genes ab initio • Usammodelosmatemáticos e nãoevidência extra. • Podemseruteisquandonãoháevidênciasexperimetaissobre o genoma • Mas sãomenospoderosos.: • Referemapenas as CDs e não UTRs ousequências de splicing alternativo. • Precisam de dados específicospara o organismocomofrequências dos codões, tamanho dos exões/intrões e % GC. • Precisam de sertreinados com dados o maispertopossível da espécieemanálise. • Existem dados paraosgenomasclássicos mas faltamparaespéciesmais “exóticas”. • Aquios dados do GEGMA podemajudar. • Poedmatingiros 100% de precisão mas normalmenteandampelos 60-70% no que se refere à previsão de exões/intrões. Genómica 12-13 MJC

  15. Previsões baseadas em evidência Genómica 12-13 MJC

  16. Baseada noutro tipo de dados • Usa EST e RNA-seq e até dados de proteómica. • Cada vez mais as soluções usadas passam pelos dois tipos de aproximações. Genómica 12-13 MJC

  17. Fase da anotação Genómica 12-13 MJC

  18. Anotação • Os diferentes protocolos e algoritmos têm aproximações diferentes mas partilham as fases: • Fase da computação • São alinhadas ESTs, proteínas, RNAseq, etc ao genoma montado. • São geradas previsões abinitio ou baseadas em evidências. • Fase da anotação • Feita por pipelines • Anotam o início e fim de cada gene, exões/intrões e UTRs Genómica 12-13 MJC

  19. Fase da anotação Previsão CDCs Anotação Genómica 12-13 MJC

  20. Manual vsautomática • Era feito à mão • Hoje é feito automáticamente dado o volume de dados existentes. • Os anotadores automáticos: • Usam a informação fornecida para encontrar genes. • Alinham essas previsões para obter o melhor consenso. • Alguns usam um método de aprendizagem não supervisionada (não há dados modelo) • Outros usam métodos de aprendizagem supervisionada (estimam os erros cometidos com bases em conjuntos de dados conhecidos). Genómica 12-13 MJC

  21. Visualização da anotação Genómica 12-13 MJC

  22. Os resultados da anotação devem ter: • Estrutura intrão/exão • Codões de inicio e de termino • UTRs • Splicing alternativo • Apresentar os alinhamentos que suportam as previsões • Há 4 formatos mais usados: GeneBank; GFF3, GTF e EMBL. Estes formatos premitem: • Que os resultados sejam usados por outras ferramentas • Uso de vocabulários controlados em termos de ontologias • Permitem análises genómicas comparativas Genómica 12-13 MJC

  23. GeneticModelOrganismDatabase (GMOD) • Ferramentas de descrição e análise, descrição, visualização e redestribuição de anotações de genomas. Genómica 12-13 MJC

  24. Controlo de qualidade Genómica 12-13 MJC

  25. Identificação de anotações incorretas • Essencial pois: • Propagam os erros pois as anotações existentes são muitas vezes usadas como modelos para as anotações futuras. Genómica 12-13 MJC

  26. Como fazer o controlo de qualidade? SN= Sensitivity SP=Specificity AC=Accuracy SN= TP/(TP+FN) SP= TP/(TP+FP) AC=(SN+SP)/2 TP= True positives FN=False negatives TN=True Negatives AED= AnnotationEditDistance AED= 1-AC Genómica 12-13 MJC

  27. Publicação dos dados Genómica 12-13 MJC

  28. Bases de dados de Genomas Bases de dados globais GeneBank Ensembl Bases de dados específicas BeeBase Gramene Plant GDB Phytozome VectorBase Genómica 12-13 MJC

  29. Depois da publicação…. Deve ser feita periodicamente a atualização Genómica 12-13 MJC

  30. Conclusões Genómica 12-13 MJC

  31. Em suma • Sequenciação mais barata  Mais dados para tratar • Alteração dos paradigmas do número e estrutura dos genes codificadores de proteínas para incluir também estruturas como transposões, regiões reguladoras, pseudogenes e ncRNAs. • O controlo de qualidade é tb um obstáculo • Não basta produzir os genomas é necessário anotá-los e atualizar a sua anotação periodicamente. Genómica 12-13 MJC

  32. Bibliografia • Artigo: “ A beginner’sguide to eukarioticgenomeannotation”. Na pasta do molar. Genómica 12-13 MJC

More Related