an lise computacional de seq ncias nucleot dicas e prot icas n.
Download
Skip this Video
Download Presentation
Análise Computacional de Seqüências Nucleotídicas e Protéicas

Loading in 2 Seconds...

play fullscreen
1 / 47

Análise Computacional de Seqüências Nucleotídicas e Protéicas - PowerPoint PPT Presentation


  • 91 Views
  • Uploaded on

Análise Computacional de Seqüências Nucleotídicas e Protéicas. Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004. Agenda:. I – Introdução II – Bancos de dados de seqüências nucleotídicas III – Bancos de dados de seqüências protéicas IV – Bancos de dados de estruturas

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Análise Computacional de Seqüências Nucleotídicas e Protéicas' - serena


Download Now An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
an lise computacional de seq ncias nucleot dicas e prot icas

Análise Computacional de Seqüências Nucleotídicas e Protéicas

Bancos de dados biológicos

Antonio Basílio de Miranda

23/11/2004

agenda
Agenda:
  • I – Introdução
  • II – Bancos de dados de seqüências nucleotídicas
  • III – Bancos de dados de seqüências protéicas
  • IV – Bancos de dados de estruturas
  • V – Bancos de dados de metabolismo
  • VI – Bancos de dados de mutações e polimorfismo
  • VII – Bancos de dados de genomas
  • VIII – Bancos de dados de microarranjos de DNA
  • IX – Bancos de dados de proteomas
  • X – Bancos de dados bibliográficos
  • XI – Principais centros de pesquisa
i introdu o bancos de dados biol gicos
I - Introdução: Bancos de Dados Biológicos
  • Primários: GenBank, EMBL, DDBJ, GSDB.
  • Especializados: PIR, Swiss-Prot, REBASE, PROSITE, PDB, Pfam, BLOCKS, etc.
international nucleotide sequence database
International Nucleotide Sequence Database
  • União do GenBank, EMBL e DDBJ, que já trocam informações diariamente.
busca e recupera o
Busca e Recuperação
  • Por similaridade:
    • BLAST
    • BioSCAN
    • GenQuest
  • Por palavras-chave, atributos, etc.
    • SRS (http://srs.ebi.ac.uk)
    • AcNuc
problemas
Problemas:
  • Redundância
  • Contaminação
  • Erros nas anotações
  • Distintas formatações
  • Distintos conceitos
ii bancos de dados de seq ncias nucleot dicas
II - Bancos de dados de seqüências nucleotídicas
  • São fontes de dados heterogêneas, i.e., fontes distintas (DNA genômico X cDNA), diferentes qualidades (seqüências finalizadas ou single-pass), diferentes anotações, etc.
bancos de dados de seq ncias nucleot dicas
Bancos de dados de seqüências nucleotídicas
  • GenBank/EMBL/DDBJ (http://www.ncbi.nlm.nih.gov) (http://www.ebi.ac.uk/embl/index.html) (http://www.ddbj.nig.ac.jp/)
  • Ribosomal Database Project (http://rdp8.cme.msu.edu/)
  • Comparative RNA Web Site (http://www.rna.icmb.utexas.edu/)
o crescimento do genbank
O crescimento do GenBank

Aproximadamente 28,507,990,166 bases em 22,318,883 de seqüências

(Janeiro 2003)

subdivis es do genbank
Subdivisões do GenBank
  • Primatas
  • Roedores
  • Outros mamíferos
  • Outros vertebrados
  • Invertebrados
  • Plantas
  • Bactérias
  • Vírus
  • Fagos
  • Sintéticas
  • Não-anotadas
  • Patentes
  • EST
  • STS
  • GSS
  • HTG
  • HTC
subdivis es do embl
Subdivisões do EMBL

ID CTU83196 standard; genomic DNA; PRO; 1763 BP.

XX

AC U83196;

XX

DE Chlamydia trachomatis pyruvate kinase (pk) gene, complete cds.

XX

SQ Sequence 1763 BP; 504 A; 380 C; 360 G; 519 T; 0 other;

cactcaacga atcctttctc attttaaatt ctccacaccc attcctatcg aacgcttttt 60

taaagcgtag cattgcggtt gctaaatatt ttgtatagtt gaaggcttct ttcatttcgg 120

atattctaga agatattcta ctcactaata ccggtatccc gatttatgat cgctagaacg 180

aaaattattt gtacgatagg ccctgcaacc aatacccctg agatgctgga aaagcttctc 240

gatgcaggga tgaatgtagc tcgccttaat tttagccacg ggacccatga aagccatggc 300

cggaccatcg ctattcttaa agaactacga gagaagcgcc aagttccttt agctattatg 360

ctagatacaa aaggtcccga aattcgttta ggccaagtag aatctcctat aaaagtacag 420

cctggggatc gtcttactct cgttagcaaa gaaattttag gatccaaaga aagcgcgtta 480

ctctttatcc aagttgtgta ttccccttat gttagagaac gagctcctgt tctcattgat 540

gatgggtata tccaagcagt ggtggtcaat gctcaagagc atatggtgga aatagagttt 600

caaaattcag gagaaataaa atccaacaaa tctcttagca tcaaagatat cgatgttgct 660

cttcctttca tgacagagaa ggatattgca gacttaaaat ttggggtaga acaagaactc 720

gatcttatcg ctgcttcgtt cgtcagatgt aatgaagata ttgacagcat gcgtaaagtt 780

ttggaaagct ttggtcgtcc taatatgccc atcattgcca aaatagaaaa tcatttagga 840

gtacaaaatt tccaagagat cgctagagct gctgatggta tcatgattgc acgcggggat 900

cttggtattg aattgtctat tgttgaagtt cctggactac aaaaatttat ggcccgagca 960

tcgagggaaa cgggtcggtt ttgtatcact gcaacgcaaa tgctcgagtc aatgattcgc 1020

aacccccttc ctacacgagc cgaagtctct gacgttgcca acgccattta cgatggaacc 1080

tctgcagtca tgttgtctgg agaaactgcc tcaggagccc atcctgtaca tgcagtaaaa 1140

acaatgcgtt ccattatcca agagactgag aagactttcg attaccacgc ttttttccag 1200

ctgaacgaca aaaacagcgc tctcaaagtt tctccttatc ttgaagccaa ttgggttttc 1260

tggatccaaa ttgcagaaaa agcatctgcc aaagccatta ttgtgtatac ccagacggga 1320

gggtctccga tgtttttatc caaatatcga ccttatctcc ctattattgc tgttacccct 1380

aaccgcaatg tgtactatcg tttagctgta gaatggggag tatatcctat gctaaccctg 1440

gaatcgaacc gtacagtctg gcgtcaccaa gcttgtgtat atggagtaga aaaaggaatt 1500

ctttctaact atgataaaat tcttgtcttc agccgcggag ctgggatgca agataccaac 1560

aatctcacct tgacaactgt gcatgatgcg ctatccccct ctcttgacga gatagttcca 1620

taatcattga aaccatatag caggtatgtc ttctatcgtt agactttctg gtattactgt 1680

aaggaattta aaaacattac agtagagttt tgtctcgaga gatcgttttg ttcaccgggg 1740

tttctggatc gaagtcttct ctt 1763

//

  • Invertebrates
  • Other Mammals
  • Mus musculus
  • Organelles
  • Bacteriophage
  • Plants
  • Prokaryotes
  • Rodents
  • Unclassified Viruses
  • Other Vertebrates
  • patents
  • htg
  • htc
  • gss
  • wgs
  • est
iii bancos de dados de seq ncias prot icas
III - Bancos de dados de seqüências protéicas
  • Primários
  • Secundários
  • Especializados
  • Estruturas
bancos de dados de seq ncias prot icas
Bancos de dados de seqüências protéicas
  • Primários:
    • Swiss-Prot (http://pir.georgetown.edu/)
    • TrEMBL (http://www.ebi.ac.uk/trembl/)
    • PIR (http://pir.georgetown.edu/)
swiss prot
Swiss-Prot
  • Mantido em conjunto pelo EBI e SIB
  • Mais de 6000 espécies representadas
  • Cada seqüência nova é examinada para assegurar uma boa qualidade nas anotações
trembl
TrEMBL
  • “Translation of EMBL Nucleotide Sequence Database”
  • Os registros são derivados da tradução conceitual das seqüências codificantes presentes no EMBL, com exceção daquelas já presentes no Swiss-Prot.
  • SP-TrEMBL, REM-TrEMBL.
pir protein information resource
PIR – Protein Information Resource
  • Colaboração entre a National Biomedical Research Foundation (NBRF), Munich Information Center for Protein Sequences (MIPS), e o Japan International Protein Information Database (JIPID).
  • Possui quatro subdivisões (PIR1, PIR2, PIR3 e PIR4), de acordo como nível de anotação da seqüência.
bancos de dados de seq ncias prot icas1
Bancos de dados de seqüências protéicas
  • Especializados:
    • GO – Gene Ontology – disponibiliza um vocabulário dinâmico controlado de termos biológicos.
    • MEROPS – classificação baseada em estrutura das peptidases.
    • GPCRDb – G-protein coupled receptors
    • YPD – Yeast Protein Database
    • ENZYME – Enzyme Nomenclature Database
    • 2D gel electrophoresis
    • Mass spectrometry
go gene ontology
GO – Gene Ontology

$Gene_Ontology ; GO:0003673

<cellular_component ; GO:0005575

%cell ; GO:0005623

<axon ; GO:0030424

<axolemma ; GO:0030673 % membrane ; GO:0016020

%giant axon ; GO:0042757

<bud ; GO:0005933

<bud neck ; GO:0005935 % site of polarized growth (sensu Saccharomyces) ; GO:0000134

<contractile ring (sensu Saccharomyces) ; GO:0000142 ; synonym:cytokinetic ring (sensu Saccharomyces) ; synonym:neck ring % contractile ring (sensu Fungi) ; GO:0030480

http://www.ebi.ac.uk/GOA/index.html

merops
MEROPS
  • BD sobre peptidases (AKAS proteases, proteinases ou enzimas proteolíticas).
  • Classificação hierárquica, baseada na estrutura da proteína.
gpcrdb
GPCRDb
  • BD de seqüências e outros dados relacionados aos G-protein coupled receptors, família de proteínas envolvida em sistemas de sinalização.
slide24
YPD
  • BD das proteínas de Saccharomyces cereviseae.
  • Mais de 6000 proteínas.
  • Uma extensa revisão da literatura levou a uma anotação detalhada das proteínas presentes no BD.
enzyme
ENZYME
  • Extensão anotada da publicação da “Enzyme´s Comission”.
  • Existem diversos outros BD relacionados como o BRENDA (propriedades enzimáticas) e o LIGAND (ligantes).
bancos de dados de seq ncias prot icas2
Bancos de dados de seqüências protéicas
  • Secundários:
    • PROSITE – sítios funcionais
    • PRINTS – famílias
    • Pfam – domínios divergentes
    • BLOCKS – regiões conservadas
prosite
PROSITE
  • Extensa documentação sobre famílias protéicas, definidas por domínios ou motivos protéicos.
  • Proporciona identificação rápida e confiável (com ferramentas computacionais adequadas) de uma nova seqüência protéica.
prints
PRINTS
  • Identificação por “fingerprinting”.
  • Utiliza regiões conservadas e/ou motivos, determinados a partir de alinhamentos múltiplos, que definem e caracterizam aquele grupo de seqüências (família).
  • Possibilita a identificação de “parentes” distantes.
slide29
Pfam
  • Utiliza HMM´s (Hidden Markov Models) como metodologia para a criação de famílias protéicas e assinaturas de domínios.
  • As informações sobre uma determinada proteína são cuidadosamente checadas contra a literatura disponível a respeito da mesma, na busca de evidências bioquímicas que corroborem dados obtidos a partir de predições computacionais .
blocks
BLOCKS
  • Constituído pelas regiões mais conservadas, determinadas a partir de alinhamentos múltiplos das proteínas documentadas no InterPro.
perguntas
Perguntas:
  • Quais são as fontes de dados e onde posso encontrá-las?
  • Quais as diferenças entre elas?
  • Posso usar apenas uma delas em minhas análises?
    • InterPro: uma integração do PROSITE, PRINTS, Pfam e PRODOM.
iv bancos de dados de estruturas
IV - Bancos de dados de Estruturas
  • Protein Data Bank (PDB).
    • http://www.rcsb.org/pdb/
  • Nucleic Acid Database (NDB)
    • http://ndbserver.rutgers.edu/
slide34
PDB
  • Protein Data Bank
  • Armazena estruturas tri-dimensionais de diversas proteínas, e dados relacionados.
  • A visualização das estruturas pode ser feita de diversas formas.
slide35
NDB
  • Nucleic Acid Database
  • Armazena informações sobre a estrutura tri-dimensional de ácidos nucléicos.
v bancos de dados de metabolismo
V - Bancos de dados de metabolismo
  • KEGG: Kyoto Encyclopedia of Genes and Genomes - http://www.genome.ad.jp/kegg/
  • EcoCyc – Encyclopedia of Escherichia coli K12 genes and metabolism – http://ecocyc.org
vi bancos de dados de muta es e polimorfismos
VI - Bancos de dados de mutações e polimorfismos
  • Human SNP Database - http://www.broad.mit.edu/snp/human/index.html
  • Human Genome Variation Society - http://www.hgvs.org/
  • Oniline Mendelian Inheritance in Man (OMIM) - http://www.ncbi.nlm.nih.gov/omim/
vii bancos de dados de genomas
VII - Bancos de dados de genomas
  • GOLD – Genomes On-Line Database (http://ergo.integratedgenomics.com/GOLD)
  • Aproximadamente 940 projetos genoma em andamento ao redor do mundo!
bancos de dados de genomas
Bancos de dados de genomas
  • Ensembl – proporciona acesso a vários genomas (www.ebi.ac.uk/ensembl/index.html)
  • WormBase (www.wormbase.org)
  • FlyBase (flybase.bio.indiana.edu)
  • Saccharomyces Genome Database (www.yeastgenome.org)
arrayexpress
ArrayExpress
  • Repositório público para dados obtidos a partir de experimentos com microarranjos de DNA
  • http://www.ebi.ac.uk/arrayexpress/index.html
slide43
AMAD
  • Another Microarray Database
  • Flatfile
  • Necessita de PERL
  • Gratuito
  • http://www.microarrays.org/software.html
ix bancos de dados de proteomas
IX - Bancos de dados de proteomas
  • SWISS-2DPAGE - http://us.expasy.org/ch2d/
  • Danish Centre for Human Genome research - http://proteomics.cancer.dk/
  • Parasite Proteome - http://www.ebi.ac.uk/parasites/proteomes.html
x bancos de dados bibliogr ficos
X - Bancos de dados bibliográficos
  • MEDLINE – acesso via SRS
  • PUBMED – acesso via Entrez
xi principais centros de pesquisa
XI - Principais Centros de Pesquisa
  • NCBI (http://www.ncbi.nlm.nih.gov)
  • TIGR (http://www.tigr.org)
  • EMBL (http://www.embl.de/)
  • EBI (http://www.ebi.ac.uk)
  • Sanger Institute (http://www.sanger.ac.uk)