320 likes | 454 Views
Genómica. Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013. Sumário. 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas eucariotas Fase computacional Identificação de repetições, Alinhamento de outras sequências
E N D
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013
Sumário 4. Anotação de genomas Anotação e Montagem 4.1 Anotação dos genomas eucariotas Fase computacional Identificação de repetições, Alinhamento de outras sequências Previsão de genes abinitioe baseada em evidência Fase de anotação Anotação automática Visualização dos resultados da anotação Output GMOD Controlo de qualidade de resultados Como monitorizar os resultados da anotação; Jamborees de anotação Publicação dos dados Submissão Actualização Genómica 12-13 MJC
Anotação de genomas • Estrutural • Identificar os genes e as suas fronteiras e composição em: intrões/exões; operões • Funcional • Ligação das estruturas (sequências) a ontologias genéticas Genómica 12-13 MJC
Realidade atual • Sequenciação Fácil e barata • Montagem e anotação ainda não acompanharam: • As sequências tornaram-se menores; • Muitos dos genomas atualmente sequenciados são de espécies “exóticas” • Começa a haver muitos dados: • Quantidade • Qualidade (RNA-seq) Projetos de natureza diferente Genómica 12-13 MJC
Da montagem à Anotação • Antes de mais é necessário determinar quando e se uma montagem está pronta para ser anotada. • N50 • Tamanho das gaps no scafold • Número de gaps por scafold • Cobertura do genoma. Devem escolher-se highqualitydrafts (<=> 90% do genoma completo) • Cobertura em termos de genes. Quantos genes são identificados em relação à quantidade estimada. • Cobertura de genes >> cobertura do genoma. Porquê? Genómica 12-13 MJC
Que N50? UTRs Splicing Alternativo • Deve ser próximo do tamanho médio do gene para essa espécie. • Porquê? • Assim em média metade dos genes estão contidos num único scafold. Declive? Genómica 12-13 MJC
As informações anteriores permitem • Sabendo o tamanho esperado do genoma estimar o tamanho médio dos genes DECLIVE N50 desejável. • Ferramentas como as do Core Eukaryotic Genes MappingApproach (CEGMA) são úteis. • Ferramenta que usa 458 proteínas altamente conservadas entre eucariotas. Essas proteínas são procuradas na assembly de forma a ver se estão todas contidas num sacaffold. • Os dados podem ser usadas como modelos para a determinação de exões/intrões. Genómica 12-13 MJC
Se • A montagem estiver muito incompleta • N50 for demasiado pequeno…. • A melhor aposta é fazer mais sequenciação. Genómica 12-13 MJC
Fase de computação Genómica 12-13 MJC
Identificação de zonas repetitivas • Baixa complexidade • Trinucleótidos • Transposões, vírus, Long Interspersed Nuclear Elements; Short Long Interspersed Nuclear Elements. • Consituem cerca de 47% do genoma humano • Nem sempre estão completos e as extremidades não estão bem definidas. • As repetições nem sempre são conservadas. Genómica 12-13 MJC
Identificação de zonas repetitivas • Começa por criar-se uma biblioteca de repetições para cada anotação: • Baseada em homologias • De novo (nestas ferramentas geralmente são incluidasoutras repetições como proteínas com várias cópias no genoma como histonas e tubulinas). • Depois de criada a biblioteca ela é alinhada com a montagem para ver se há homologias. • Finalmente dá-se a masking que consiste em por um N (em vez de ATGC) nesses nucleótidos. Porquê? Genómica 12-13 MJC
Alinhamento Genómica 12-13 MJC
Alinhamento das evidênciasjáconhecidas • ESTs • RNA-seq • Proteínas • Do mesmoou de organimosparecidos. • O alinhamento é avaliadopor % identidadeou % de semelhança. • Depoisfaz-se o agrupamento: • Seleção dos alinhamentosrepetidos • Identificação de alinhamentosmuitoexpressosporexemplo (estessãosuportadosporvárias ESTs) • A informação das RNA-seq é essencial mas computacionalmenteaindanãoestámuitoexplorada. Os dados geradossãomuitos e complexos e nemsempre é fácilintegrá-los no algoritmo. Genómica 12-13 MJC
Previsão de genes ab initio • Usammodelosmatemáticos e nãoevidência extra. • Podemseruteisquandonãoháevidênciasexperimetaissobre o genoma • Mas sãomenospoderosos.: • Referemapenas as CDs e não UTRs ousequências de splicing alternativo. • Precisam de dados específicospara o organismocomofrequências dos codões, tamanho dos exões/intrões e % GC. • Precisam de sertreinados com dados o maispertopossível da espécieemanálise. • Existem dados paraosgenomasclássicos mas faltamparaespéciesmais “exóticas”. • Aquios dados do GEGMA podemajudar. • Poedmatingiros 100% de precisão mas normalmenteandampelos 60-70% no que se refere à previsão de exões/intrões. Genómica 12-13 MJC
Previsões baseadas em evidência Genómica 12-13 MJC
Baseada noutro tipo de dados • Usa EST e RNA-seq e até dados de proteómica. • Cada vez mais as soluções usadas passam pelos dois tipos de aproximações. Genómica 12-13 MJC
Fase da anotação Genómica 12-13 MJC
Anotação • Os diferentes protocolos e algoritmos têm aproximações diferentes mas partilham as fases: • Fase da computação • São alinhadas ESTs, proteínas, RNAseq, etc ao genoma montado. • São geradas previsões abinitio ou baseadas em evidências. • Fase da anotação • Feita por pipelines • Anotam o início e fim de cada gene, exões/intrões e UTRs Genómica 12-13 MJC
Fase da anotação Previsão CDCs Anotação Genómica 12-13 MJC
Manual vsautomática • Era feito à mão • Hoje é feito automáticamente dado o volume de dados existentes. • Os anotadores automáticos: • Usam a informação fornecida para encontrar genes. • Alinham essas previsões para obter o melhor consenso. • Alguns usam um método de aprendizagem não supervisionada (não há dados modelo) • Outros usam métodos de aprendizagem supervisionada (estimam os erros cometidos com bases em conjuntos de dados conhecidos). Genómica 12-13 MJC
Visualização da anotação Genómica 12-13 MJC
Os resultados da anotação devem ter: • Estrutura intrão/exão • Codões de inicio e de termino • UTRs • Splicing alternativo • Apresentar os alinhamentos que suportam as previsões • Há 4 formatos mais usados: GeneBank; GFF3, GTF e EMBL. Estes formatos premitem: • Que os resultados sejam usados por outras ferramentas • Uso de vocabulários controlados em termos de ontologias • Permitem análises genómicas comparativas Genómica 12-13 MJC
GeneticModelOrganismDatabase (GMOD) • Ferramentas de descrição e análise, descrição, visualização e redestribuição de anotações de genomas. Genómica 12-13 MJC
Controlo de qualidade Genómica 12-13 MJC
Identificação de anotações incorretas • Essencial pois: • Propagam os erros pois as anotações existentes são muitas vezes usadas como modelos para as anotações futuras. Genómica 12-13 MJC
Como fazer o controlo de qualidade? SN= Sensitivity SP=Specificity AC=Accuracy SN= TP/(TP+FN) SP= TP/(TP+FP) AC=(SN+SP)/2 TP= True positives FN=False negatives TN=True Negatives AED= AnnotationEditDistance AED= 1-AC Genómica 12-13 MJC
Publicação dos dados Genómica 12-13 MJC
Bases de dados de Genomas Bases de dados globais GeneBank Ensembl Bases de dados específicas BeeBase Gramene Plant GDB Phytozome VectorBase Genómica 12-13 MJC
Depois da publicação…. Deve ser feita periodicamente a atualização Genómica 12-13 MJC
Conclusões Genómica 12-13 MJC
Em suma • Sequenciação mais barata Mais dados para tratar • Alteração dos paradigmas do número e estrutura dos genes codificadores de proteínas para incluir também estruturas como transposões, regiões reguladoras, pseudogenes e ncRNAs. • O controlo de qualidade é tb um obstáculo • Não basta produzir os genomas é necessário anotá-los e atualizar a sua anotação periodicamente. Genómica 12-13 MJC
Bibliografia • Artigo: “ A beginner’sguide to eukarioticgenomeannotation”. Na pasta do molar. Genómica 12-13 MJC