1 / 22

Análises de sequências mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle

Análises de sequências mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp. Resumo. - Revisão - Processamento das sequências DNA ESTs Instalação e uso do programa phred. Revisão.

Download Presentation

Análises de sequências mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análises de sequências mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

  2. Resumo • - Revisão • - Processamento das sequências • DNA • ESTs • Instalação e uso do programa phred

  3. Revisão O programa PHRED lê o chromatograma identificando e dando uma nota para cada base que forma a sequência : 0 0 5 6 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ... Genome Research 8 (3) (1998), 175-185

  4. Qualidade média Qualidade ruim Qualidade boa background

  5. - Sequenciamento produz seqüências da ordem de 500 pb Onde q é a nota phred e P é a probabilidade encontrar uma base errada : - Nota phred = 20 => 1 base errada a cada 100 (99%) - Nota phred = 30 => 1 base errada a cada 1000 (99.9%)

  6. Processamento das sequências - Sequência fasta - Arquivo de qualidade >Unknown sequences #1 0 0 0 5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 56 56 50 50 30 40 40 45 ... Sequências com nota phred = 0 são identificadas pela letra N : >Unknown NNNATCG...

  7. reads clonar em vetor DNA genômico sequenciamento >Unknown sequence NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC Sequência do vetor de clonagem

  8. Como identificar as regiões do vetor ??? • Necessita saber qual o vetor utilizado na clonagem dos fragmentos para pegar a sequência fasta desse vetor (site do fabricante/distribuidor) • http://www.invitrogen.com/content.cfm?pageid=94 • Ou de forma mais geral e automática, criando um arquivo com todas as sequências fastas de todos os vetores utilizados, ou pelo menos os mais utilizados • http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html

  9. A identificação da região do vetor é feita através da comparação da sequência com o banco de vetores e pode ser feita usando vários programas. Exemplo : • Usando o cross_match : • Este programa faz uma comparação entre as sequências e mascara a região do vetor na sequência. Isto é, substitui os nucleotídeos vindos do vetor pela letra X, >Unknown sequence XXXXXXXXXXXXXXXXXXXAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAXXXXXXXXXXXXXXXXXX X => Sequência do vetor de clonagem

  10. Usando o LUCY (Bioinformatics 17 (2001), n. 122001, 1093-1104) : • Este programa faz uma comparação entre as sequências e coloca no cabeçalho do fasta as coordenadas da região sem vetor na sequência Fim da região sem o vetor Início da região sem o vetor >Unknown sequence 19 140 NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC Sequência do vetor de clonagem

  11. - Como as regiões de vetor e qualidade ruim estão sobrepostas o problema pode ser complicado Identificar regiões de baixa qualidade Identificar regiões de vetores Cortar regiões de baixa qualidade e vetor

  12. - Possíveis combinações de regiões com qualidade ruim e vetores Bioinformatics 17 (2001), n. 122001, 1093-1104

  13. - Para cDNA temos que remover o poly-A também : GMB 24 (2001), 17-23

  14. - Depois de excluído as regiões de vetor e qualidade ruim, é necessário checar o tamanho dos fragmentos que sobraram - No final do processo os pedaços com menos de 100 pb são removidos.

  15. Possíveis cortes de qualidade • Nota de corte phred : • Igual a 16 para corte processamento em larga escala • Igual a 30 quando tem a necessidade de trabalhar com sequências de alta qualidade (Exemplo : SNPs) • Igual a 0 quando se está interessado no máximo de informação possível sobre a sequência estudada. Possivelmente uma região de qualidade ruim pode continuar dando similaridade com a proteína de interesse

  16. .TGAAGCTTTCAGCTTCTTTAGGAGGATCGTTTTTAGAATCCCCTGCAAC GTTACCACGGTGGATTTCACTGACTGCGACGTTCTTAACGTTGAATCCAA CGttGCTACCAgggagagcctcagtaagtgcttcatgatgcatttcgaca gaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccatacc aggcttgatgataccagtttcaacgcctcggggccaggctggcgtgaaca gggcctagcgggtccgcgggggaagggtcccggctcaatccaccaataga gcggagctaaagtgacgggggcgcca Phred 15 Query: 469 TTAGGAGGATCGTTTTTAGAATCCCCTGCAACGTTACCACGGTGGATTTCACTGACTGCG 528 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1038 ttaggaggatcgtttttagaatcccctgcaacgttaccacggtggatttcactgactgcg 979 Query: 529 ACGTTCTTAACGTTGAATCCAACGTTGCTACCAgggagagcctcagtaagtgcttcatga 588 ||||||||||||||||| || |||||||||||||||||| |||||||||||||||||||| Sbjct: 978 acgttcttaacgttgaagcccacgttgctaccagggagaccctcagtaagtgcttcatga 919 Query: 589 tgcatttcgacagaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccata 648 |||||||||||||| |||||||||| |||| ||||||||||| ||||||||||||||||| Sbjct: 918 tgcatttcgacagacttgacttcagccgaccaaccttgcggaccaaaagtgacgaccata 859 Query: 649 ccaggcttgatgataccagtttcaacgc 676 |||||||||||||||||||||||||||| Sbjct: 858 ccaggcttgatgataccagtttcaacgc 831

  17. Instalação e uso do phred • Download (www.phrap.com) • “you must email David Gordon the information requested in the academic user agreement including which platform(s) you want and your ip address” • U$10.000,00 para uso não acadêmico • O programa phred faz parte do pacote : phred / phrap / cross_match / consed • Escrito em linguagem C • Roda em sistema operacional linux

  18. Para usar basta criar 3 pastas : • chromat_dir • edit_dir • phd_dir • Copiar os chromatogramas na pasta chromat_dir • Entrar na pasta edit_dir e digitar : • phred -id chromat_dir -pd phd_dir • Esta linha de comando informa ao phred que os chromatogramas estão no chromat_dir e os arquivos phds devem ser gravados no phd_dir

  19. Como resultado para cada chromatograma gravado no chromat_dir existe um arquivo no phd_dir no seguinte formato : BEGIN_SEQUENCE HS01-S1-001-010-A01-HM.F BEGIN_COMMENT CHROMAT_FILE: HS01-S1-001-010-A01-HM.F ABI_THUMBPRINT: 0 PHRED_VERSION: 0.000925.c CALL_METHOD: phred QUALITY_LEVELS: 99 TIME: Wed May 4 14:01:17 2005 TRACE_ARRAY_MIN_INDEX: 0 TRACE_ARRAY_MAX_INDEX: 9404 TRIM: 101 319 0.0500 CHEM: term DYE: ET END_COMMENT BEGIN_DNA c 9 6 g 9 7 a 11 16 a 4 27 c 4 38 a 4 40 g 4 50 a 4 63 t 5 69 ...

  20. Na sequência roda-se o phd2fasta : • phd2fasta -id phd_dir -os seqs_fasta -oq seqs_fasta.qual • Gerando na pasta do edit_dir : • Arquivo com todas as sequências fasta de todos os chromatogramas lidos : • seqs_fasta : • >chromatograma 1 • ATCGCGC... • >chromatograma 2 • TGCGCCA... • Arquivo com todas as notas phred de cada base para todas os chromatogramas lidos : • seqs_fasta.qual : • >chromatograma 1 • 0 10 12 15 12 20 ... • >chromatograma 2 • 0 12 13 5 10 10 ...

  21. Para mascarar o vetor roda-se o cross_match : • cross_match seqs_fasta vector.seq -minmatch 12 -minscore 20 -screen > screen.out • No qual gerar os arquivos : • screen.out => grava as mensagens de saída do programa • seqs_fasta.screen => arquivo fasta igual ao seqs_fasta mas com a letra X substituindo os nucletídeos vindos do vetor

  22. END

More Related