Análises de sequências
Download
1 / 22

Análises de sequências [email protected] Marcelo Falsarella Carazzolle - PowerPoint PPT Presentation


  • 83 Views
  • Uploaded on

Análises de sequências [email protected] Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp. Resumo. - Revisão - Processamento das sequências DNA ESTs Instalação e uso do programa phred. Revisão.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Análises de sequências [email protected] Marcelo Falsarella Carazzolle' - aladdin-blackburn


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

Análises de sequências

[email protected]

Marcelo Falsarella Carazzolle

Laboratório de Genômica e Proteômica

Unicamp


Resumo

  • - Revisão

  • - Processamento das sequências

    • DNA

    • ESTs

  • Instalação e uso do programa phred


Revisão

O programa PHRED lê o chromatograma identificando e dando uma nota para cada base que forma a sequência :

0 0 5 6 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ...

Genome Research 8 (3) (1998), 175-185


Qualidade média

Qualidade ruim

Qualidade boa

background


- Sequenciamento produz seqüências da ordem de 500 pb

Onde q é a nota phred e P é a probabilidade encontrar uma base errada :

- Nota phred = 20 => 1 base errada a cada 100 (99%)

- Nota phred = 30 => 1 base errada a cada 1000 (99.9%)


Processamento das sequências

- Sequência fasta

- Arquivo de qualidade

>Unknown sequences #1

0 0 0 5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 56 56 50 50 30 40 40 45 ...

Sequências com nota phred = 0 são identificadas pela letra N :

>Unknown

NNNATCG...


reads

clonar em vetor

DNA genômico

sequenciamento

>Unknown sequence

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC

Sequência do vetor de clonagem


Como identificar as regiões do vetor ???

  • Necessita saber qual o vetor utilizado na clonagem dos fragmentos para pegar a sequência fasta desse vetor (site do fabricante/distribuidor)

  • http://www.invitrogen.com/content.cfm?pageid=94

  • Ou de forma mais geral e automática, criando um arquivo com todas as sequências fastas de todos os vetores utilizados, ou pelo menos os mais utilizados

  • http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html


  • A identificação da região do vetor é feita através da comparação da sequência com o banco de vetores e pode ser feita usando vários programas. Exemplo :

  • Usando o cross_match :

    • Este programa faz uma comparação entre as sequências e mascara a região do vetor na sequência. Isto é, substitui os nucleotídeos vindos do vetor pela letra X,

>Unknown sequence

XXXXXXXXXXXXXXXXXXXAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAXXXXXXXXXXXXXXXXXX

X => Sequência do vetor de clonagem


  • Usando o LUCY ( comparação da sequência com o banco de vetores e pode ser feita usando vários programas. Exemplo :Bioinformatics 17 (2001), n. 122001, 1093-1104) :

    • Este programa faz uma comparação entre as sequências e coloca no cabeçalho do fasta as coordenadas da região sem vetor na sequência

Fim da região sem o vetor

Início da região sem o vetor

>Unknown sequence 19 140

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC

Sequência do vetor de clonagem


- comparação da sequência com o banco de vetores e pode ser feita usando vários programas. Exemplo :Como as regiões de vetor e qualidade ruim estão sobrepostas o problema pode ser complicado

Identificar regiões de baixa qualidade

Identificar regiões de vetores

Cortar regiões de baixa qualidade e vetor


- Possíveis combinações de regiões com qualidade ruim e vetores

Bioinformatics 17 (2001), n. 122001, 1093-1104



- Depois de excluído as regiões de vetor e qualidade ruim, é necessário checar o tamanho dos fragmentos que sobraram

- No final do processo os pedaços com menos de 100 pb são removidos.


Possíveis cortes de qualidade é necessário checar o tamanho dos fragmentos que sobraram

  • Nota de corte phred :

    • Igual a 16 para corte processamento em larga escala

    • Igual a 30 quando tem a necessidade de trabalhar com sequências de alta qualidade (Exemplo : SNPs)

    • Igual a 0 quando se está interessado no máximo de informação possível sobre a sequência estudada. Possivelmente uma região de qualidade ruim pode continuar dando similaridade com a proteína de interesse


.TGAAGCTTTCAGCTTCTTTAGGAGGATCGTTTTTAGAATCCCCTGCAAC é necessário checar o tamanho dos fragmentos que sobraram

GTTACCACGGTGGATTTCACTGACTGCGACGTTCTTAACGTTGAATCCAA

CGttGCTACCAgggagagcctcagtaagtgcttcatgatgcatttcgaca

gaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccatacc

aggcttgatgataccagtttcaacgcctcggggccaggctggcgtgaaca

gggcctagcgggtccgcgggggaagggtcccggctcaatccaccaataga

gcggagctaaagtgacgggggcgcca

Phred 15

Query: 469 TTAGGAGGATCGTTTTTAGAATCCCCTGCAACGTTACCACGGTGGATTTCACTGACTGCG 528

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 1038 ttaggaggatcgtttttagaatcccctgcaacgttaccacggtggatttcactgactgcg 979

Query: 529 ACGTTCTTAACGTTGAATCCAACGTTGCTACCAgggagagcctcagtaagtgcttcatga 588

||||||||||||||||| || |||||||||||||||||| ||||||||||||||||||||

Sbjct: 978 acgttcttaacgttgaagcccacgttgctaccagggagaccctcagtaagtgcttcatga 919

Query: 589 tgcatttcgacagaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccata 648

|||||||||||||| |||||||||| |||| ||||||||||| |||||||||||||||||

Sbjct: 918 tgcatttcgacagacttgacttcagccgaccaaccttgcggaccaaaagtgacgaccata 859

Query: 649 ccaggcttgatgataccagtttcaacgc 676

||||||||||||||||||||||||||||

Sbjct: 858 ccaggcttgatgataccagtttcaacgc 831


Instalação e uso do phred é necessário checar o tamanho dos fragmentos que sobraram

  • Download (www.phrap.com)

    • “you must email David Gordon the information requested in the academic user agreement including which platform(s) you want and your ip address”

    • U$10.000,00 para uso não acadêmico

  • O programa phred faz parte do pacote : phred / phrap / cross_match / consed

  • Escrito em linguagem C

  • Roda em sistema operacional linux


  • Para usar basta criar 3 pastas : é necessário checar o tamanho dos fragmentos que sobraram

    • chromat_dir

    • edit_dir

    • phd_dir

  • Copiar os chromatogramas na pasta chromat_dir

  • Entrar na pasta edit_dir e digitar :

    • phred -id chromat_dir -pd phd_dir

  • Esta linha de comando informa ao phred que os chromatogramas estão no chromat_dir e os arquivos phds devem ser gravados no phd_dir


BEGIN_SEQUENCE HS01-S1-001-010-A01-HM.F

BEGIN_COMMENT

CHROMAT_FILE: HS01-S1-001-010-A01-HM.F

ABI_THUMBPRINT: 0

PHRED_VERSION: 0.000925.c

CALL_METHOD: phred

QUALITY_LEVELS: 99

TIME: Wed May 4 14:01:17 2005

TRACE_ARRAY_MIN_INDEX: 0

TRACE_ARRAY_MAX_INDEX: 9404

TRIM: 101 319 0.0500

CHEM: term

DYE: ET

END_COMMENT

BEGIN_DNA

c 9 6

g 9 7

a 11 16

a 4 27

c 4 38

a 4 40

g 4 50

a 4 63

t 5 69

...


  • Na sequência roda-se o phd2fasta : chromat_dir existe um arquivo no phd_dir no seguinte formato :

    • phd2fasta -id phd_dir -os seqs_fasta -oq seqs_fasta.qual

  • Gerando na pasta do edit_dir :

    • Arquivo com todas as sequências fasta de todos os chromatogramas lidos :

      • seqs_fasta :

        • >chromatograma 1

        • ATCGCGC...

        • >chromatograma 2

        • TGCGCCA...

    • Arquivo com todas as notas phred de cada base para todas os chromatogramas lidos :

      • seqs_fasta.qual :

        • >chromatograma 1

        • 0 10 12 15 12 20 ...

        • >chromatograma 2

        • 0 12 13 5 10 10 ...


  • Para mascarar o vetor roda-se o cross_match : chromat_dir existe um arquivo no phd_dir no seguinte formato :

    • cross_match seqs_fasta vector.seq -minmatch 12 -minscore 20 -screen > screen.out

  • No qual gerar os arquivos :

    • screen.out => grava as mensagens de saída do programa

    • seqs_fasta.screen => arquivo fasta igual ao seqs_fasta mas com a letra X substituindo os nucletídeos vindos do vetor


END chromat_dir existe um arquivo no phd_dir no seguinte formato :


ad