An lise computacional de seq ncias nucleot dicas e prot icas
This presentation is the property of its rightful owner.
Sponsored Links
1 / 47

Análise Computacional de Seqüências Nucleotídicas e Protéicas PowerPoint PPT Presentation


  • 63 Views
  • Uploaded on
  • Presentation posted in: General

Análise Computacional de Seqüências Nucleotídicas e Protéicas. Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004. Agenda:. I – Introdução II – Bancos de dados de seqüências nucleotídicas III – Bancos de dados de seqüências protéicas IV – Bancos de dados de estruturas

Download Presentation

Análise Computacional de Seqüências Nucleotídicas e Protéicas

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


An lise computacional de seq ncias nucleot dicas e prot icas

Análise Computacional de Seqüências Nucleotídicas e Protéicas

Bancos de dados biológicos

Antonio Basílio de Miranda

23/11/2004


Agenda

Agenda:

  • I – Introdução

  • II – Bancos de dados de seqüências nucleotídicas

  • III – Bancos de dados de seqüências protéicas

  • IV – Bancos de dados de estruturas

  • V – Bancos de dados de metabolismo

  • VI – Bancos de dados de mutações e polimorfismo

  • VII – Bancos de dados de genomas

  • VIII – Bancos de dados de microarranjos de DNA

  • IX – Bancos de dados de proteomas

  • X – Bancos de dados bibliográficos

  • XI – Principais centros de pesquisa


I introdu o bancos de dados biol gicos

I - Introdução: Bancos de Dados Biológicos

  • Primários: GenBank, EMBL, DDBJ, GSDB.

  • Especializados: PIR, Swiss-Prot, REBASE, PROSITE, PDB, Pfam, BLOCKS, etc.


International nucleotide sequence database

International Nucleotide Sequence Database

  • União do GenBank, EMBL e DDBJ, que já trocam informações diariamente.


Busca e recupera o

Busca e Recuperação

  • Por similaridade:

    • BLAST

    • BioSCAN

    • GenQuest

  • Por palavras-chave, atributos, etc.

    • SRS (http://srs.ebi.ac.uk)

    • AcNuc


Problemas

Problemas:

  • Redundância

  • Contaminação

  • Erros nas anotações

  • Distintas formatações

  • Distintos conceitos


An lise computacional de seq ncias nucleot dicas e prot icas

Diferentes formatações dificultam a livre troca de dados entre os bancos


Ii bancos de dados de seq ncias nucleot dicas

II - Bancos de dados de seqüências nucleotídicas

  • São fontes de dados heterogêneas, i.e., fontes distintas (DNA genômico X cDNA), diferentes qualidades (seqüências finalizadas ou single-pass), diferentes anotações, etc.


Bancos de dados de seq ncias nucleot dicas

Bancos de dados de seqüências nucleotídicas

  • GenBank/EMBL/DDBJ (http://www.ncbi.nlm.nih.gov) (http://www.ebi.ac.uk/embl/index.html) (http://www.ddbj.nig.ac.jp/)

  • Ribosomal Database Project (http://rdp8.cme.msu.edu/)

  • Comparative RNA Web Site (http://www.rna.icmb.utexas.edu/)


Genbank

GenBank


O crescimento do genbank

O crescimento do GenBank

Aproximadamente 28,507,990,166 bases em 22,318,883 de seqüências

(Janeiro 2003)


Subdivis es do genbank

Subdivisões do GenBank

  • Primatas

  • Roedores

  • Outros mamíferos

  • Outros vertebrados

  • Invertebrados

  • Plantas

  • Bactérias

  • Vírus

  • Fagos

  • Sintéticas

  • Não-anotadas

  • Patentes

  • EST

  • STS

  • GSS

  • HTG

  • HTC


Embl nucleotide sequence database

EMBL Nucleotide Sequence Database


Subdivis es do embl

Subdivisões do EMBL

ID CTU83196 standard; genomic DNA; PRO; 1763 BP.

XX

AC U83196;

XX

DE Chlamydia trachomatis pyruvate kinase (pk) gene, complete cds.

XX

SQ Sequence 1763 BP; 504 A; 380 C; 360 G; 519 T; 0 other;

cactcaacga atcctttctc attttaaatt ctccacaccc attcctatcg aacgcttttt 60

taaagcgtag cattgcggtt gctaaatatt ttgtatagtt gaaggcttct ttcatttcgg 120

atattctaga agatattcta ctcactaata ccggtatccc gatttatgat cgctagaacg 180

aaaattattt gtacgatagg ccctgcaacc aatacccctg agatgctgga aaagcttctc 240

gatgcaggga tgaatgtagc tcgccttaat tttagccacg ggacccatga aagccatggc 300

cggaccatcg ctattcttaa agaactacga gagaagcgcc aagttccttt agctattatg 360

ctagatacaa aaggtcccga aattcgttta ggccaagtag aatctcctat aaaagtacag 420

cctggggatc gtcttactct cgttagcaaa gaaattttag gatccaaaga aagcgcgtta 480

ctctttatcc aagttgtgta ttccccttat gttagagaac gagctcctgt tctcattgat 540

gatgggtata tccaagcagt ggtggtcaat gctcaagagc atatggtgga aatagagttt 600

caaaattcag gagaaataaa atccaacaaa tctcttagca tcaaagatat cgatgttgct 660

cttcctttca tgacagagaa ggatattgca gacttaaaat ttggggtaga acaagaactc 720

gatcttatcg ctgcttcgtt cgtcagatgt aatgaagata ttgacagcat gcgtaaagtt 780

ttggaaagct ttggtcgtcc taatatgccc atcattgcca aaatagaaaa tcatttagga 840

gtacaaaatt tccaagagat cgctagagct gctgatggta tcatgattgc acgcggggat 900

cttggtattg aattgtctat tgttgaagtt cctggactac aaaaatttat ggcccgagca 960

tcgagggaaa cgggtcggtt ttgtatcact gcaacgcaaa tgctcgagtc aatgattcgc 1020

aacccccttc ctacacgagc cgaagtctct gacgttgcca acgccattta cgatggaacc 1080

tctgcagtca tgttgtctgg agaaactgcc tcaggagccc atcctgtaca tgcagtaaaa 1140

acaatgcgtt ccattatcca agagactgag aagactttcg attaccacgc ttttttccag 1200

ctgaacgaca aaaacagcgc tctcaaagtt tctccttatc ttgaagccaa ttgggttttc 1260

tggatccaaa ttgcagaaaa agcatctgcc aaagccatta ttgtgtatac ccagacggga 1320

gggtctccga tgtttttatc caaatatcga ccttatctcc ctattattgc tgttacccct 1380

aaccgcaatg tgtactatcg tttagctgta gaatggggag tatatcctat gctaaccctg 1440

gaatcgaacc gtacagtctg gcgtcaccaa gcttgtgtat atggagtaga aaaaggaatt 1500

ctttctaact atgataaaat tcttgtcttc agccgcggag ctgggatgca agataccaac 1560

aatctcacct tgacaactgt gcatgatgcg ctatccccct ctcttgacga gatagttcca 1620

taatcattga aaccatatag caggtatgtc ttctatcgtt agactttctg gtattactgt 1680

aaggaattta aaaacattac agtagagttt tgtctcgaga gatcgttttg ttcaccgggg 1740

tttctggatc gaagtcttct ctt 1763

//

  • Invertebrates

  • Other Mammals

  • Mus musculus

  • Organelles

  • Bacteriophage

  • Plants

  • Prokaryotes

  • Rodents

  • Unclassified Viruses

  • Other Vertebrates

  • patents

  • htg

  • htc

  • gss

  • wgs

  • est


Iii bancos de dados de seq ncias prot icas

III - Bancos de dados de seqüências protéicas

  • Primários

  • Secundários

  • Especializados

  • Estruturas


Bancos de dados de seq ncias prot icas

Bancos de dados de seqüências protéicas

  • Primários:

    • Swiss-Prot (http://pir.georgetown.edu/)

    • TrEMBL (http://www.ebi.ac.uk/trembl/)

    • PIR (http://pir.georgetown.edu/)


Swiss prot

Swiss-Prot

  • Mantido em conjunto pelo EBI e SIB

  • Mais de 6000 espécies representadas

  • Cada seqüência nova é examinada para assegurar uma boa qualidade nas anotações


Trembl

TrEMBL

  • “Translation of EMBL Nucleotide Sequence Database”

  • Os registros são derivados da tradução conceitual das seqüências codificantes presentes no EMBL, com exceção daquelas já presentes no Swiss-Prot.

  • SP-TrEMBL, REM-TrEMBL.


Pir protein information resource

PIR – Protein Information Resource

  • Colaboração entre a National Biomedical Research Foundation (NBRF), Munich Information Center for Protein Sequences (MIPS), e o Japan International Protein Information Database (JIPID).

  • Possui quatro subdivisões (PIR1, PIR2, PIR3 e PIR4), de acordo como nível de anotação da seqüência.


Bancos de dados de seq ncias prot icas1

Bancos de dados de seqüências protéicas

  • Especializados:

    • GO – Gene Ontology – disponibiliza um vocabulário dinâmico controlado de termos biológicos.

    • MEROPS – classificação baseada em estrutura das peptidases.

    • GPCRDb – G-protein coupled receptors

    • YPD – Yeast Protein Database

    • ENZYME – Enzyme Nomenclature Database

    • 2D gel electrophoresis

    • Mass spectrometry


Go gene ontology

GO – Gene Ontology

$Gene_Ontology ; GO:0003673

<cellular_component ; GO:0005575

%cell ; GO:0005623

<axon ; GO:0030424

<axolemma ; GO:0030673 % membrane ; GO:0016020

%giant axon ; GO:0042757

<bud ; GO:0005933

<bud neck ; GO:0005935 % site of polarized growth (sensu Saccharomyces) ; GO:0000134

<contractile ring (sensu Saccharomyces) ; GO:0000142 ; synonym:cytokinetic ring (sensu Saccharomyces) ; synonym:neck ring % contractile ring (sensu Fungi) ; GO:0030480

http://www.ebi.ac.uk/GOA/index.html


Merops

MEROPS

  • BD sobre peptidases (AKAS proteases, proteinases ou enzimas proteolíticas).

  • Classificação hierárquica, baseada na estrutura da proteína.


Gpcrdb

GPCRDb

  • BD de seqüências e outros dados relacionados aos G-protein coupled receptors, família de proteínas envolvida em sistemas de sinalização.


An lise computacional de seq ncias nucleot dicas e prot icas

YPD

  • BD das proteínas de Saccharomyces cereviseae.

  • Mais de 6000 proteínas.

  • Uma extensa revisão da literatura levou a uma anotação detalhada das proteínas presentes no BD.


Enzyme

ENZYME

  • Extensão anotada da publicação da “Enzyme´s Comission”.

  • Existem diversos outros BD relacionados como o BRENDA (propriedades enzimáticas) e o LIGAND (ligantes).


Bancos de dados de seq ncias prot icas2

Bancos de dados de seqüências protéicas

  • Secundários:

    • PROSITE – sítios funcionais

    • PRINTS – famílias

    • Pfam – domínios divergentes

    • BLOCKS – regiões conservadas


Prosite

PROSITE

  • Extensa documentação sobre famílias protéicas, definidas por domínios ou motivos protéicos.

  • Proporciona identificação rápida e confiável (com ferramentas computacionais adequadas) de uma nova seqüência protéica.


Prints

PRINTS

  • Identificação por “fingerprinting”.

  • Utiliza regiões conservadas e/ou motivos, determinados a partir de alinhamentos múltiplos, que definem e caracterizam aquele grupo de seqüências (família).

  • Possibilita a identificação de “parentes” distantes.


An lise computacional de seq ncias nucleot dicas e prot icas

Pfam

  • Utiliza HMM´s (Hidden Markov Models) como metodologia para a criação de famílias protéicas e assinaturas de domínios.

  • As informações sobre uma determinada proteína são cuidadosamente checadas contra a literatura disponível a respeito da mesma, na busca de evidências bioquímicas que corroborem dados obtidos a partir de predições computacionais .


Blocks

BLOCKS

  • Constituído pelas regiões mais conservadas, determinadas a partir de alinhamentos múltiplos das proteínas documentadas no InterPro.


Sequence retrieval system srs

Sequence Retrieval System – SRS


Perguntas

Perguntas:

  • Quais são as fontes de dados e onde posso encontrá-las?

  • Quais as diferenças entre elas?

  • Posso usar apenas uma delas em minhas análises?

    • InterPro: uma integração do PROSITE, PRINTS, Pfam e PRODOM.


Iv bancos de dados de estruturas

IV - Bancos de dados de Estruturas

  • Protein Data Bank (PDB).

    • http://www.rcsb.org/pdb/

  • Nucleic Acid Database (NDB)

    • http://ndbserver.rutgers.edu/


An lise computacional de seq ncias nucleot dicas e prot icas

PDB

  • Protein Data Bank

  • Armazena estruturas tri-dimensionais de diversas proteínas, e dados relacionados.

  • A visualização das estruturas pode ser feita de diversas formas.


An lise computacional de seq ncias nucleot dicas e prot icas

NDB

  • Nucleic Acid Database

  • Armazena informações sobre a estrutura tri-dimensional de ácidos nucléicos.


V bancos de dados de metabolismo

V - Bancos de dados de metabolismo

  • KEGG: Kyoto Encyclopedia of Genes and Genomes - http://www.genome.ad.jp/kegg/

  • EcoCyc – Encyclopedia of Escherichia coli K12 genes and metabolism – http://ecocyc.org


Vi bancos de dados de muta es e polimorfismos

VI - Bancos de dados de mutações e polimorfismos

  • Human SNP Database - http://www.broad.mit.edu/snp/human/index.html

  • Human Genome Variation Society - http://www.hgvs.org/

  • Oniline Mendelian Inheritance in Man (OMIM) - http://www.ncbi.nlm.nih.gov/omim/


Vii bancos de dados de genomas

VII - Bancos de dados de genomas

  • GOLD – Genomes On-Line Database (http://ergo.integratedgenomics.com/GOLD)

  • Aproximadamente 940 projetos genoma em andamento ao redor do mundo!


Bancos de dados de genomas

Bancos de dados de genomas

  • Ensembl – proporciona acesso a vários genomas (www.ebi.ac.uk/ensembl/index.html)

  • WormBase (www.wormbase.org)

  • FlyBase (flybase.bio.indiana.edu)

  • Saccharomyces Genome Database (www.yeastgenome.org)


Viii bancos de dados de microarranjos de dna dna microarrays

VIII - Bancos de dados de microarranjos de DNA (DNA microarrays)

  • ArrayExpress

  • AMAD


Microarray

Microarray


Arrayexpress

ArrayExpress

  • Repositório público para dados obtidos a partir de experimentos com microarranjos de DNA

  • http://www.ebi.ac.uk/arrayexpress/index.html


An lise computacional de seq ncias nucleot dicas e prot icas

AMAD

  • Another Microarray Database

  • Flatfile

  • Necessita de PERL

  • Gratuito

  • http://www.microarrays.org/software.html


Ix bancos de dados de proteomas

IX - Bancos de dados de proteomas

  • SWISS-2DPAGE - http://us.expasy.org/ch2d/

  • Danish Centre for Human Genome research - http://proteomics.cancer.dk/

  • Parasite Proteome - http://www.ebi.ac.uk/parasites/proteomes.html


Proteoma

Proteoma


X bancos de dados bibliogr ficos

X - Bancos de dados bibliográficos

  • MEDLINE – acesso via SRS

  • PUBMED – acesso via Entrez


Xi principais centros de pesquisa

XI - Principais Centros de Pesquisa

  • NCBI (http://www.ncbi.nlm.nih.gov)

  • TIGR (http://www.tigr.org)

  • EMBL (http://www.embl.de/)

  • EBI (http://www.ebi.ac.uk)

  • Sanger Institute (http://www.sanger.ac.uk)


  • Login