Análises de sequências
This presentation is the property of its rightful owner.
Sponsored Links
1 / 22

Análises de sequências [email protected] Marcelo Falsarella Carazzolle PowerPoint PPT Presentation


  • 50 Views
  • Uploaded on
  • Presentation posted in: General

Análises de sequências [email protected] Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp. Resumo. - Revisão - Processamento das sequências DNA ESTs Instalação e uso do programa phred. Revisão.

Download Presentation

Análises de sequências [email protected] Marcelo Falsarella Carazzolle

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

Análises de sequências

[email protected]

Marcelo Falsarella Carazzolle

Laboratório de Genômica e Proteômica

Unicamp


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

Resumo

  • - Revisão

  • - Processamento das sequências

    • DNA

    • ESTs

  • Instalação e uso do programa phred


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

Revisão

O programa PHRED lê o chromatograma identificando e dando uma nota para cada base que forma a sequência :

0 0 5 6 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ...

Genome Research 8 (3) (1998), 175-185


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

Qualidade média

Qualidade ruim

Qualidade boa

background


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

- Sequenciamento produz seqüências da ordem de 500 pb

Onde q é a nota phred e P é a probabilidade encontrar uma base errada :

- Nota phred = 20 => 1 base errada a cada 100 (99%)

- Nota phred = 30 => 1 base errada a cada 1000 (99.9%)


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

Processamento das sequências

- Sequência fasta

- Arquivo de qualidade

>Unknown sequences #1

0 0 0 5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 56 56 50 50 30 40 40 45 ...

Sequências com nota phred = 0 são identificadas pela letra N :

>Unknown

NNNATCG...


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

reads

clonar em vetor

DNA genômico

sequenciamento

>Unknown sequence

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC

Sequência do vetor de clonagem


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

Como identificar as regiões do vetor ???

  • Necessita saber qual o vetor utilizado na clonagem dos fragmentos para pegar a sequência fasta desse vetor (site do fabricante/distribuidor)

  • http://www.invitrogen.com/content.cfm?pageid=94

  • Ou de forma mais geral e automática, criando um arquivo com todas as sequências fastas de todos os vetores utilizados, ou pelo menos os mais utilizados

  • http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

  • A identificação da região do vetor é feita através da comparação da sequência com o banco de vetores e pode ser feita usando vários programas. Exemplo :

  • Usando o cross_match :

    • Este programa faz uma comparação entre as sequências e mascara a região do vetor na sequência. Isto é, substitui os nucleotídeos vindos do vetor pela letra X,

>Unknown sequence

XXXXXXXXXXXXXXXXXXXAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAXXXXXXXXXXXXXXXXXX

X => Sequência do vetor de clonagem


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

  • Usando o LUCY (Bioinformatics 17 (2001), n. 122001, 1093-1104) :

    • Este programa faz uma comparação entre as sequências e coloca no cabeçalho do fasta as coordenadas da região sem vetor na sequência

Fim da região sem o vetor

Início da região sem o vetor

>Unknown sequence 19 140

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC

Sequência do vetor de clonagem


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

- Como as regiões de vetor e qualidade ruim estão sobrepostas o problema pode ser complicado

Identificar regiões de baixa qualidade

Identificar regiões de vetores

Cortar regiões de baixa qualidade e vetor


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

- Possíveis combinações de regiões com qualidade ruim e vetores

Bioinformatics 17 (2001), n. 122001, 1093-1104


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

- Para cDNA temos que remover o poly-A também :

GMB 24 (2001), 17-23


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

- Depois de excluído as regiões de vetor e qualidade ruim, é necessário checar o tamanho dos fragmentos que sobraram

- No final do processo os pedaços com menos de 100 pb são removidos.


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

Possíveis cortes de qualidade

  • Nota de corte phred :

    • Igual a 16 para corte processamento em larga escala

    • Igual a 30 quando tem a necessidade de trabalhar com sequências de alta qualidade (Exemplo : SNPs)

    • Igual a 0 quando se está interessado no máximo de informação possível sobre a sequência estudada. Possivelmente uma região de qualidade ruim pode continuar dando similaridade com a proteína de interesse


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

.TGAAGCTTTCAGCTTCTTTAGGAGGATCGTTTTTAGAATCCCCTGCAAC

GTTACCACGGTGGATTTCACTGACTGCGACGTTCTTAACGTTGAATCCAA

CGttGCTACCAgggagagcctcagtaagtgcttcatgatgcatttcgaca

gaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccatacc

aggcttgatgataccagtttcaacgcctcggggccaggctggcgtgaaca

gggcctagcgggtccgcgggggaagggtcccggctcaatccaccaataga

gcggagctaaagtgacgggggcgcca

Phred 15

Query: 469 TTAGGAGGATCGTTTTTAGAATCCCCTGCAACGTTACCACGGTGGATTTCACTGACTGCG 528

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 1038 ttaggaggatcgtttttagaatcccctgcaacgttaccacggtggatttcactgactgcg 979

Query: 529 ACGTTCTTAACGTTGAATCCAACGTTGCTACCAgggagagcctcagtaagtgcttcatga 588

||||||||||||||||| || |||||||||||||||||| ||||||||||||||||||||

Sbjct: 978 acgttcttaacgttgaagcccacgttgctaccagggagaccctcagtaagtgcttcatga 919

Query: 589 tgcatttcgacagaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccata 648

|||||||||||||| |||||||||| |||| ||||||||||| |||||||||||||||||

Sbjct: 918 tgcatttcgacagacttgacttcagccgaccaaccttgcggaccaaaagtgacgaccata 859

Query: 649 ccaggcttgatgataccagtttcaacgc 676

||||||||||||||||||||||||||||

Sbjct: 858 ccaggcttgatgataccagtttcaacgc 831


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

Instalação e uso do phred

  • Download (www.phrap.com)

    • “you must email David Gordon the information requested in the academic user agreement including which platform(s) you want and your ip address”

    • U$10.000,00 para uso não acadêmico

  • O programa phred faz parte do pacote : phred / phrap / cross_match / consed

  • Escrito em linguagem C

  • Roda em sistema operacional linux


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

  • Para usar basta criar 3 pastas :

    • chromat_dir

    • edit_dir

    • phd_dir

  • Copiar os chromatogramas na pasta chromat_dir

  • Entrar na pasta edit_dir e digitar :

    • phred -id chromat_dir -pd phd_dir

  • Esta linha de comando informa ao phred que os chromatogramas estão no chromat_dir e os arquivos phds devem ser gravados no phd_dir


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

  • Como resultado para cada chromatograma gravado no chromat_dir existe um arquivo no phd_dir no seguinte formato :

BEGIN_SEQUENCE HS01-S1-001-010-A01-HM.F

BEGIN_COMMENT

CHROMAT_FILE: HS01-S1-001-010-A01-HM.F

ABI_THUMBPRINT: 0

PHRED_VERSION: 0.000925.c

CALL_METHOD: phred

QUALITY_LEVELS: 99

TIME: Wed May 4 14:01:17 2005

TRACE_ARRAY_MIN_INDEX: 0

TRACE_ARRAY_MAX_INDEX: 9404

TRIM: 101 319 0.0500

CHEM: term

DYE: ET

END_COMMENT

BEGIN_DNA

c 9 6

g 9 7

a 11 16

a 4 27

c 4 38

a 4 40

g 4 50

a 4 63

t 5 69

...


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

  • Na sequência roda-se o phd2fasta :

    • phd2fasta -id phd_dir -os seqs_fasta -oq seqs_fasta.qual

  • Gerando na pasta do edit_dir :

    • Arquivo com todas as sequências fasta de todos os chromatogramas lidos :

      • seqs_fasta :

        • >chromatograma 1

        • ATCGCGC...

        • >chromatograma 2

        • TGCGCCA...

    • Arquivo com todas as notas phred de cada base para todas os chromatogramas lidos :

      • seqs_fasta.qual :

        • >chromatograma 1

        • 0 10 12 15 12 20 ...

        • >chromatograma 2

        • 0 12 13 5 10 10 ...


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

  • Para mascarar o vetor roda-se o cross_match :

    • cross_match seqs_fasta vector.seq -minmatch 12 -minscore 20 -screen > screen.out

  • No qual gerar os arquivos :

    • screen.out => grava as mensagens de saída do programa

    • seqs_fasta.screen => arquivo fasta igual ao seqs_fasta mas com a letra X substituindo os nucletídeos vindos do vetor


An lises de sequ ncias mcarazzo lge ibi unicamp br marcelo falsarella carazzolle

END


  • Login