slide1
Download
Skip this Video
Download Presentation
Análises de sequências [email protected] Marcelo Falsarella Carazzolle

Loading in 2 Seconds...

play fullscreen
1 / 22

Análises de sequências [email protected] Marcelo Falsarella Carazzolle - PowerPoint PPT Presentation


  • 92 Views
  • Uploaded on

Análises de sequências [email protected] Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp. Resumo. - Revisão - Processamento das sequências DNA ESTs Instalação e uso do programa phred. Revisão.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Análises de sequências [email protected] Marcelo Falsarella Carazzolle' - aladdin-blackburn


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Análises de sequências

[email protected]

Marcelo Falsarella Carazzolle

Laboratório de Genômica e Proteômica

Unicamp

slide2

Resumo

  • - Revisão
  • - Processamento das sequências
    • DNA
    • ESTs
  • Instalação e uso do programa phred
slide3

Revisão

O programa PHRED lê o chromatograma identificando e dando uma nota para cada base que forma a sequência :

0 0 5 6 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ...

Genome Research 8 (3) (1998), 175-185

slide4

Qualidade média

Qualidade ruim

Qualidade boa

background

slide5

- Sequenciamento produz seqüências da ordem de 500 pb

Onde q é a nota phred e P é a probabilidade encontrar uma base errada :

- Nota phred = 20 => 1 base errada a cada 100 (99%)

- Nota phred = 30 => 1 base errada a cada 1000 (99.9%)

slide6

Processamento das sequências

- Sequência fasta

- Arquivo de qualidade

>Unknown sequences #1

0 0 0 5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 56 56 50 50 30 40 40 45 ...

Sequências com nota phred = 0 são identificadas pela letra N :

>Unknown

NNNATCG...

slide7

reads

clonar em vetor

DNA genômico

sequenciamento

>Unknown sequence

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC

Sequência do vetor de clonagem

slide8

Como identificar as regiões do vetor ???

  • Necessita saber qual o vetor utilizado na clonagem dos fragmentos para pegar a sequência fasta desse vetor (site do fabricante/distribuidor)
  • http://www.invitrogen.com/content.cfm?pageid=94
  • Ou de forma mais geral e automática, criando um arquivo com todas as sequências fastas de todos os vetores utilizados, ou pelo menos os mais utilizados
  • http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html
slide9

A identificação da região do vetor é feita através da comparação da sequência com o banco de vetores e pode ser feita usando vários programas. Exemplo :

  • Usando o cross_match :
    • Este programa faz uma comparação entre as sequências e mascara a região do vetor na sequência. Isto é, substitui os nucleotídeos vindos do vetor pela letra X,

>Unknown sequence

XXXXXXXXXXXXXXXXXXXAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAXXXXXXXXXXXXXXXXXX

X => Sequência do vetor de clonagem

slide10

Usando o LUCY (Bioinformatics 17 (2001), n. 122001, 1093-1104) :

    • Este programa faz uma comparação entre as sequências e coloca no cabeçalho do fasta as coordenadas da região sem vetor na sequência

Fim da região sem o vetor

Início da região sem o vetor

>Unknown sequence 19 140

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCCATCCGGGGAAGTACC

NNNATCGTTTTGGGCCAAAAATGGCATGTACCCC

Sequência do vetor de clonagem

slide11

- Como as regiões de vetor e qualidade ruim estão sobrepostas o problema pode ser complicado

Identificar regiões de baixa qualidade

Identificar regiões de vetores

Cortar regiões de baixa qualidade e vetor

slide12

- Possíveis combinações de regiões com qualidade ruim e vetores

Bioinformatics 17 (2001), n. 122001, 1093-1104

slide14

- Depois de excluído as regiões de vetor e qualidade ruim, é necessário checar o tamanho dos fragmentos que sobraram

- No final do processo os pedaços com menos de 100 pb são removidos.

slide15

Possíveis cortes de qualidade

  • Nota de corte phred :
    • Igual a 16 para corte processamento em larga escala
    • Igual a 30 quando tem a necessidade de trabalhar com sequências de alta qualidade (Exemplo : SNPs)
    • Igual a 0 quando se está interessado no máximo de informação possível sobre a sequência estudada. Possivelmente uma região de qualidade ruim pode continuar dando similaridade com a proteína de interesse
slide16

.TGAAGCTTTCAGCTTCTTTAGGAGGATCGTTTTTAGAATCCCCTGCAAC

GTTACCACGGTGGATTTCACTGACTGCGACGTTCTTAACGTTGAATCCAA

CGttGCTACCAgggagagcctcagtaagtgcttcatgatgcatttcgaca

gaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccatacc

aggcttgatgataccagtttcaacgcctcggggccaggctggcgtgaaca

gggcctagcgggtccgcgggggaagggtcccggctcaatccaccaataga

gcggagctaaagtgacgggggcgcca

Phred 15

Query: 469 TTAGGAGGATCGTTTTTAGAATCCCCTGCAACGTTACCACGGTGGATTTCACTGACTGCG 528

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 1038 ttaggaggatcgtttttagaatcccctgcaacgttaccacggtggatttcactgactgcg 979

Query: 529 ACGTTCTTAACGTTGAATCCAACGTTGCTACCAgggagagcctcagtaagtgcttcatga 588

||||||||||||||||| || |||||||||||||||||| ||||||||||||||||||||

Sbjct: 978 acgttcttaacgttgaagcccacgttgctaccagggagaccctcagtaagtgcttcatga 919

Query: 589 tgcatttcgacagaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccata 648

|||||||||||||| |||||||||| |||| ||||||||||| |||||||||||||||||

Sbjct: 918 tgcatttcgacagacttgacttcagccgaccaaccttgcggaccaaaagtgacgaccata 859

Query: 649 ccaggcttgatgataccagtttcaacgc 676

||||||||||||||||||||||||||||

Sbjct: 858 ccaggcttgatgataccagtttcaacgc 831

slide17

Instalação e uso do phred

  • Download (www.phrap.com)
    • “you must email David Gordon the information requested in the academic user agreement including which platform(s) you want and your ip address”
    • U$10.000,00 para uso não acadêmico
  • O programa phred faz parte do pacote : phred / phrap / cross_match / consed
  • Escrito em linguagem C
  • Roda em sistema operacional linux
slide18

Para usar basta criar 3 pastas :

    • chromat_dir
    • edit_dir
    • phd_dir
  • Copiar os chromatogramas na pasta chromat_dir
  • Entrar na pasta edit_dir e digitar :
    • phred -id chromat_dir -pd phd_dir
  • Esta linha de comando informa ao phred que os chromatogramas estão no chromat_dir e os arquivos phds devem ser gravados no phd_dir
slide19

Como resultado para cada chromatograma gravado no chromat_dir existe um arquivo no phd_dir no seguinte formato :

BEGIN_SEQUENCE HS01-S1-001-010-A01-HM.F

BEGIN_COMMENT

CHROMAT_FILE: HS01-S1-001-010-A01-HM.F

ABI_THUMBPRINT: 0

PHRED_VERSION: 0.000925.c

CALL_METHOD: phred

QUALITY_LEVELS: 99

TIME: Wed May 4 14:01:17 2005

TRACE_ARRAY_MIN_INDEX: 0

TRACE_ARRAY_MAX_INDEX: 9404

TRIM: 101 319 0.0500

CHEM: term

DYE: ET

END_COMMENT

BEGIN_DNA

c 9 6

g 9 7

a 11 16

a 4 27

c 4 38

a 4 40

g 4 50

a 4 63

t 5 69

...

slide20

Na sequência roda-se o phd2fasta :

    • phd2fasta -id phd_dir -os seqs_fasta -oq seqs_fasta.qual
  • Gerando na pasta do edit_dir :
    • Arquivo com todas as sequências fasta de todos os chromatogramas lidos :
      • seqs_fasta :
        • >chromatograma 1
        • ATCGCGC...
        • >chromatograma 2
        • TGCGCCA...
    • Arquivo com todas as notas phred de cada base para todas os chromatogramas lidos :
      • seqs_fasta.qual :
        • >chromatograma 1
        • 0 10 12 15 12 20 ...
        • >chromatograma 2
        • 0 12 13 5 10 10 ...
slide21

Para mascarar o vetor roda-se o cross_match :

    • cross_match seqs_fasta vector.seq -minmatch 12 -minscore 20 -screen > screen.out
  • No qual gerar os arquivos :
    • screen.out => grava as mensagens de saída do programa
    • seqs_fasta.screen => arquivo fasta igual ao seqs_fasta mas com a letra X substituindo os nucletídeos vindos do vetor
ad