220 likes | 334 Views
Análises de sequências mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp. Resumo. - Revisão - Processamento das sequências DNA ESTs Instalação e uso do programa phred. Revisão.
E N D
Análises de sequências mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp
Resumo • - Revisão • - Processamento das sequências • DNA • ESTs • Instalação e uso do programa phred
Revisão O programa PHRED lê o chromatograma identificando e dando uma nota para cada base que forma a sequência : 0 0 5 6 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ... Genome Research 8 (3) (1998), 175-185
Qualidade média Qualidade ruim Qualidade boa background
- Sequenciamento produz seqüências da ordem de 500 pb Onde q é a nota phred e P é a probabilidade encontrar uma base errada : - Nota phred = 20 => 1 base errada a cada 100 (99%) - Nota phred = 30 => 1 base errada a cada 1000 (99.9%)
Processamento das sequências - Sequência fasta - Arquivo de qualidade >Unknown sequences #1 0 0 0 5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 56 56 50 50 30 40 40 45 ... Sequências com nota phred = 0 são identificadas pela letra N : >Unknown NNNATCG...
reads clonar em vetor DNA genômico sequenciamento >Unknown sequence NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC Sequência do vetor de clonagem
Como identificar as regiões do vetor ??? • Necessita saber qual o vetor utilizado na clonagem dos fragmentos para pegar a sequência fasta desse vetor (site do fabricante/distribuidor) • http://www.invitrogen.com/content.cfm?pageid=94 • Ou de forma mais geral e automática, criando um arquivo com todas as sequências fastas de todos os vetores utilizados, ou pelo menos os mais utilizados • http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html
A identificação da região do vetor é feita através da comparação da sequência com o banco de vetores e pode ser feita usando vários programas. Exemplo : • Usando o cross_match : • Este programa faz uma comparação entre as sequências e mascara a região do vetor na sequência. Isto é, substitui os nucleotídeos vindos do vetor pela letra X, >Unknown sequence XXXXXXXXXXXXXXXXXXXAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAXXXXXXXXXXXXXXXXXX X => Sequência do vetor de clonagem
Usando o LUCY (Bioinformatics 17 (2001), n. 122001, 1093-1104) : • Este programa faz uma comparação entre as sequências e coloca no cabeçalho do fasta as coordenadas da região sem vetor na sequência Fim da região sem o vetor Início da região sem o vetor >Unknown sequence 19 140 NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC Sequência do vetor de clonagem
- Como as regiões de vetor e qualidade ruim estão sobrepostas o problema pode ser complicado Identificar regiões de baixa qualidade Identificar regiões de vetores Cortar regiões de baixa qualidade e vetor
- Possíveis combinações de regiões com qualidade ruim e vetores Bioinformatics 17 (2001), n. 122001, 1093-1104
- Para cDNA temos que remover o poly-A também : GMB 24 (2001), 17-23
- Depois de excluído as regiões de vetor e qualidade ruim, é necessário checar o tamanho dos fragmentos que sobraram - No final do processo os pedaços com menos de 100 pb são removidos.
Possíveis cortes de qualidade • Nota de corte phred : • Igual a 16 para corte processamento em larga escala • Igual a 30 quando tem a necessidade de trabalhar com sequências de alta qualidade (Exemplo : SNPs) • Igual a 0 quando se está interessado no máximo de informação possível sobre a sequência estudada. Possivelmente uma região de qualidade ruim pode continuar dando similaridade com a proteína de interesse
.TGAAGCTTTCAGCTTCTTTAGGAGGATCGTTTTTAGAATCCCCTGCAAC GTTACCACGGTGGATTTCACTGACTGCGACGTTCTTAACGTTGAATCCAA CGttGCTACCAgggagagcctcagtaagtgcttcatgatgcatttcgaca gaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccatacc aggcttgatgataccagtttcaacgcctcggggccaggctggcgtgaaca gggcctagcgggtccgcgggggaagggtcccggctcaatccaccaataga gcggagctaaagtgacgggggcgcca Phred 15 Query: 469 TTAGGAGGATCGTTTTTAGAATCCCCTGCAACGTTACCACGGTGGATTTCACTGACTGCG 528 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1038 ttaggaggatcgtttttagaatcccctgcaacgttaccacggtggatttcactgactgcg 979 Query: 529 ACGTTCTTAACGTTGAATCCAACGTTGCTACCAgggagagcctcagtaagtgcttcatga 588 ||||||||||||||||| || |||||||||||||||||| |||||||||||||||||||| Sbjct: 978 acgttcttaacgttgaagcccacgttgctaccagggagaccctcagtaagtgcttcatga 919 Query: 589 tgcatttcgacagaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccata 648 |||||||||||||| |||||||||| |||| ||||||||||| ||||||||||||||||| Sbjct: 918 tgcatttcgacagacttgacttcagccgaccaaccttgcggaccaaaagtgacgaccata 859 Query: 649 ccaggcttgatgataccagtttcaacgc 676 |||||||||||||||||||||||||||| Sbjct: 858 ccaggcttgatgataccagtttcaacgc 831
Instalação e uso do phred • Download (www.phrap.com) • “you must email David Gordon the information requested in the academic user agreement including which platform(s) you want and your ip address” • U$10.000,00 para uso não acadêmico • O programa phred faz parte do pacote : phred / phrap / cross_match / consed • Escrito em linguagem C • Roda em sistema operacional linux
Para usar basta criar 3 pastas : • chromat_dir • edit_dir • phd_dir • Copiar os chromatogramas na pasta chromat_dir • Entrar na pasta edit_dir e digitar : • phred -id chromat_dir -pd phd_dir • Esta linha de comando informa ao phred que os chromatogramas estão no chromat_dir e os arquivos phds devem ser gravados no phd_dir
Como resultado para cada chromatograma gravado no chromat_dir existe um arquivo no phd_dir no seguinte formato : BEGIN_SEQUENCE HS01-S1-001-010-A01-HM.F BEGIN_COMMENT CHROMAT_FILE: HS01-S1-001-010-A01-HM.F ABI_THUMBPRINT: 0 PHRED_VERSION: 0.000925.c CALL_METHOD: phred QUALITY_LEVELS: 99 TIME: Wed May 4 14:01:17 2005 TRACE_ARRAY_MIN_INDEX: 0 TRACE_ARRAY_MAX_INDEX: 9404 TRIM: 101 319 0.0500 CHEM: term DYE: ET END_COMMENT BEGIN_DNA c 9 6 g 9 7 a 11 16 a 4 27 c 4 38 a 4 40 g 4 50 a 4 63 t 5 69 ...
Na sequência roda-se o phd2fasta : • phd2fasta -id phd_dir -os seqs_fasta -oq seqs_fasta.qual • Gerando na pasta do edit_dir : • Arquivo com todas as sequências fasta de todos os chromatogramas lidos : • seqs_fasta : • >chromatograma 1 • ATCGCGC... • >chromatograma 2 • TGCGCCA... • Arquivo com todas as notas phred de cada base para todas os chromatogramas lidos : • seqs_fasta.qual : • >chromatograma 1 • 0 10 12 15 12 20 ... • >chromatograma 2 • 0 12 13 5 10 10 ...
Para mascarar o vetor roda-se o cross_match : • cross_match seqs_fasta vector.seq -minmatch 12 -minscore 20 -screen > screen.out • No qual gerar os arquivos : • screen.out => grava as mensagens de saída do programa • seqs_fasta.screen => arquivo fasta igual ao seqs_fasta mas com a letra X substituindo os nucletídeos vindos do vetor