1 / 33

Uma abordagem para detecção e remoção de artefatos em seqüências ESTs

Uma abordagem para detecção e remoção de artefatos em seqüências ESTs. Christian Baudet Zanoni Dias (Orientador). Instituto de Computação – Unicamp Campinas, 01 de Dezembro de 2006. Roteiro. Motivação Conceitos Nova estratégia de detecção de artefatos Detecção e remoção de derrapagem

Download Presentation

Uma abordagem para detecção e remoção de artefatos em seqüências ESTs

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) • Instituto de Computação – Unicamp • Campinas, 01 de Dezembro de 2006

  2. Roteiro • Motivação • Conceitos • Nova estratégia de detecção de artefatos • Detecção e remoção de derrapagem • Detecção e remoção de baixa qualidade • Novo conjunto de procedimentos de detecção e remoção de artefatos • Conclusões e trabalhos futuros

  3. Motivação • Importância da pesquisa genômica • Identificação de genes pode trazer: • Descoberta da cura de doenças • Descoberta de características de interesses comerciais • Conhecimento sobre evolução dos organismos • Necessidade de dados confiáveis

  4. Transcrição e Tradução

  5. O que são ESTs? • EST – Expressed Sequence Tags • Adams et al, 1991 – “Complementary DNA sequencing: expressed sequence tags and the human genome project” • Transcrição • Gene transcrito para mRNA • Produção de cDNA • Enzima transcriptase reversa

  6. E o que são artefatos? • Artefatos são trechos que: • Não pertencem ao organismo alvo do estudo • Baixa qualidade ou baixa complexidade • Remoção necessária • Podem influenciar negativamente a análise dos dados

  7. Seqüência original

  8. Artefatos de baixa qualidade

  9. Artefato de vetor

  10. Artefato de adaptador

  11. Artefato de cauda poli-A

  12. Seqüência final

  13. Detecção e remoçãode artefatos • Conjuntos de procedimentos variam muito de projeto para projeto • Os conjuntos normalmente são formados por várias etapas • As etapas são dependentes entre si • Execução é feita seqüencialmente • Cada etapa depende do resultado da etapa anterior

  14. Nova Estratégia • Detecções de diferentes artefatos • Etapas independentes • Cada etapa analisa a seqüência original • Etapa final • Combina todos os artefatos encontrados • Identifica a região do inserto

  15. Comparação das estratégias

  16. Avaliação da Nova Estratégia • Processamento das seqüências do projeto Cattle EST (Bos taurus) • Procedimentos baseados no trabalho de Telles e da Silva, 2001 – “Trimming and clustering sugarcane ESTs” • Simplificação dos métodos de detecção de vetor e de caudas poli-A/T • Detecção de adaptador separada da detecção de vetor • Algoritmo de subseqüência máxima para detecção de baixa qualidade • Sem detecção de derrapagem

  17. Avaliação da Nova Estratégia • Todos os tipos de artefatos foram detectados • Análise dos artefatos produzidos mostrou: • 2,46% de um total de 12.520 seqüências possuíam artefatos que não seriam identificados caso as etapas não fossem independentes • Remoção de seqüências ribossomais também aplicável a mamíferos • Clustering com maior grau de agrupamento de seqüências • Menor número de singletons e clusters

  18. Derrapagem • Artefato de seqüenciamento • Regiões ricas em grupos ecoados • Trabalho de Telles e da Silva único na literatura • Três novos métodos • Média Aritmética • Média Geométrica • Cobertura por Ecos • Duas estratégias • Sufixo • Subseqüência

  19. Média Aritmética

  20. Média Geométrica

  21. Cobertura por Ecos

  22. Avaliação dos Métodos • Testes • Variação de parâmetros • Processamento de seqüências do projeto SUCEST (291.689 ESTs) • Melhor estratégia: Subseqüência • Encontra artefatos na porção inicial da seqüência • Melhor método: Cobertura por Ecos • Menor perda de hits de BLAST

  23. Baixa Qualidade

  24. Baixa Qualidade • Avaliação de dois algoritmos • Janela deslizante • Subseqüência máxima • Variação exaustiva dos parâmetros • Análise de 1950 execuções distintas • Critério de seleção de alternativas • 2,5% de erro médio (25 bases 5’) • 5,0% de erro médio (25 bases 3’) • 80,0% de preservação média do BLAST hit

  25. Baixa Qualidade • Adição de procedimento para detecção de ilhas de baixa qualidade • Janela deslizante • Tamanho: 10 bases • Erro médio de 20,0% no mínimo • Reprocessamento dos fragmentos • Melhor algoritmo: Subseqüência máxima • Qualidade mínima 11 • Procedimento de detecção de ilhas

  26. Novo conjunto de procedimentos • Combinação dos resultados dos estudos realizados • Nova estratégia • Simplificação de métodos • Adoção das decisões dos estudos de derrapagem e baixa qualidade • Realização de testes com o conjunto completo de ESTs do projeto SUCEST

  27. SUCEST x Novo Conjunto

  28. SUCEST x Novo Conjunto • Produção de clustering: 145.845 seqüências • SUCEST: 118.991 seqüências • 20.202 singletons e 16.394 contigs (36.596) • Novo conjunto: 126.988 seqüências • 22.479 singletons e 17.486 contigs (39.965) • Melhores consistências interna e externa • Menor redundância • Redução do número de hits Full-Length • Diminuição de SNPs e aumento de INDELs

  29. Conclusão • Nova estratégia apresenta bons resultados • Novas alternativas para detecção de derrapagem • Estudo de baixa qualidade • Análise aprofundada • Adição de procedimento para detecção de ilhas de baixa qualidade • Novo conjunto de procedimentos

  30. Trabalhos Futuros • Estudo mais detalhados dos demais artefatos • Estudo de outras variações de parâmetros dos algoritmos para detecção de derrapagem • Estudo do efeito da variação de exigência da qualidade média sobre a construção de clusterings • Aperfeiçoamento de algoritmos de clusterização de seqüências (Projeto de Doutorado)

  31. Trabalhos Publicados • Novaestratégia • C. Baudet and Z. Dias, “New EST trimming strategy”. In J.C. Setubal and S. Verjovski-Almeida, editors, Lectures Notes on Bioinformatics, volume 3594, pages 206-209. Springer-Verlag Berlin Heildelberg, July 2005. Brazilian Symposium on Bioinformatics 2005 (BSB2005), extended abstract. • C. Baudet and Z. Dias, “New EST trimming strategy”, Technical Report: IC-05-09, Institute of Computing – University of Campinas, May 2005.

  32. Trabalhos Publicados • Derrapagem • C. Baudet and Z. Dias, “Analysis of slipped sequences in EST projects”. Genetics and Molecular Research, 5(1):169-181, 2006. • C. Baudet and Z. Dias, “Analysis of slipped sequences in EST projects”. X-Meeting 2005, Caxambu – MG, October 2005, poster.

  33. Trabalhos Publicados • Baixaqualidade • C. Baudet and Z. Dias, “Low quality trimming on SUCEST ESTs”. X-Meeting 2006, Fortaleza – CE, August 2006, poster. • Novoconjuntodeprocedimentos • C. Baudet and Z. Dias, “New EST trimming procedure applied to SUCEST sequences”. 14th Annual International Conference On Intelligent Systems For Molecular Biology (ISMB2006), Fortaleza – CE, August 2006, poster.

More Related