1 / 44

Formato de Arquivos e Bancos de Dados Biológicos

Formato de Arquivos e Bancos de Dados Biológicos. Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br. DBs - NCBI. NCBI (National Center for Biotechnology Information) 1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular Bancos de Dados públicos;

nibaw
Download Presentation

Formato de Arquivos e Bancos de Dados Biológicos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br

  2. DBs - NCBI NCBI (National Center for Biotechnology Information) 1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular • Bancos de Dados públicos; • Pesquisas na área da biologia computacional; • Desenvolvimento de ferramentas para análise de dados genômicos; • Informações biomédicas. http://www.ncbi.nlm.nih.gov/

  3. NCBI

  4. Entrez Sistema de busca robusto que realiza a procura simultânea em múltiplos bancos.

  5. Entrez Mapa do relacionamento entre os diferentes bancos de dados. Mapa

  6. Entrez Busca

  7. Formato GenPept GB: gene bank - accession number identifica a seqüência e sua versão GI : gene Info Identifier identificador único para cada seqüência

  8. Formato GenPept O número do taxon é importante para pesquisas nos dbs.

  9. Formato GenPept

  10. Formato GenPept

  11. Formato Fasta > identificação

  12. Formato ASN Notação usada para descrever dados que serão trocados em um sistema computacional distribuído. Inclui nucleotídeos e proteínas.

  13. Acesso aos Dados SOAP (Simple Object Access Protocol) Protocolo para troca de informações. EInfo – retorna última atualização e links disponíveis para cada db. ESearch – busca e retorna IDs (uso no EFetch, Elink e Esummary). EPost – retorna arquivo com de IDs (buscas subseqüentes). ESummary– retorna o resumo de documentos buscando por IDs.

  14. Acesso aos Dados SOAP EFetch – retorna registros de uma lista de IDs no formato solicitado. ELink – verifica links para artigos externos ou do db buscando por IDs. Retorna os IDs dos artigos. EGQuery – Fornece contagem do banco de dados Entrez para uma única busca usando a busca global (Global Query). ESpell – Retorna sugestões de ortografia.

  15. Acesso aos Dados ftp://ftp.ncbi.nih.gov/ FTP (File Transfer Protocol) GenBank – anotações de seqüências de DNA. Gene – Informações sobre genes (organismos completamente seqüenciados). RefSeq – conjunto não-redundante de seqüências de DNA, proteínas e transcritos. Cn3D – Programa de visualização de estruturas 3D. BLAST – alinhamento local em bases de dados.

  16. DBs - EMBL • EMBL-EBI (European Molecular Biology Laboratory European Bioinformatics Institute) • Cambridge (Inglaterra); • Pioneiro no desenvolvimento de pesquisas em bioinformática; • Desenvolve banco de dados biológicos e programas http://www.ebi.ac.uk/

  17. EMBL-EBI BD de seqüências de nucleotídeos do EMBL - Catálogo mais completo de informações sobre proteínas. - Repositório central de seqüências e funções de proteínas (informações UniProtKB/Swiss-Prot, UniProtKB/TrEMBL e PIR).

  18. EMBL-EBI Repositório público para dados de transcriptoma e relacionados. -> armazena dados MIAME (Minimum Information About a Microarray Experiment). -> armazena padrões de expressão indexados por gene e as suas respectivas biomedidas. Ensembl Genome Browser Projeto em conjunto com o Instituto Sanger Matém anotação automática de genomas de eucariotos. Ensembl anota genes conhecidos e novos com a anotação de sua função fornecida por InterPro, OMIM, SAGE e famílias gênicas. O acesso aos dados e ao software são livres e sem restrição.

  19. EMBL-EBI BD de proteínas que abrange famílias, domínios, repetições e regiões com características de proteínas conhecidas que podem ser aplicadas a novas seqüências de proteínas. Macromolecular Structure Database Group Projeto europeu para a coleta, gerenciamento e destribuição de dados sobre estruturas macromoleculares derivadas em parte do PDB (World Wide Protein Data Bank).

  20. Bancos de Dados

  21. Busca

  22. Busca

  23. Busca

  24. Formato Embl ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições BP RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco

  25. Formato Embl FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final Continuação do arquivo

  26. Formato Swiss-Prot ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final

  27. Formato Swiss-Prot ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final

  28. Formato PIR > Sinal de maior Duas letras descrevendo o tipo Protein (complete) P1 Protein (fragment) F1 DNA (linear) DL DNA (circular) DC RNA (linear) RL RNA (circular) RC tRNA N3 other functional RNA N1 ; ponto e vírgula Código de identificação Uma linha contendo a descrição Seqüência contendo 1 ou + linhas * Sinal de término

  29. Acesso aos Dados http://www.ebi.ac.uk/Tools/webservices/ SOAP WSDbfetch – Retorna entradas de vários dbs biológicos atualizados WSEB-Eye – Acesso ao mecanismo de busca EB-Eye WSMSD – Acesso aos dados e ferramentas do BD de estruturas macromoleculares WSChEBI – Retorna entradas do BD ChEBI (Chemical Entities of Biological Interest) WSIntegr8 – Acesso a um subconjunto de dados disponíveis no portal Integr8 (integrated information about deciphered genomes and their corresponding proteomes) Outros serviços…

  30. Acesso aos Dados http://www.ebi.ac.uk/FTP/ FTP ArrayExpress – Dados de microarray Embl – BD de nucleotídeos do EMBL InterPro – Famílias, domínios de proteínas UniProt – BD universal de proteínas UniRef – BD referência de grupos de proteínas

  31. Comparação • NCBI • BDs Nucleotídeos • Busca - Seleciona itens de interesse - Padrão entre os BDs - Maior consistência • Acesso aos dados - SOAP, FTP Específico para acesso de dados Forte: Pesquisas de publicações • EBI • BDs Proteínas • Busca - Faz sub-buscas - Padrões diferentes • Maior quantidade de informações • Acesso aos dados - SOAP, FTP Usado para dados e ferramentas Forte: Obtenção de seqüências novas

  32. Site com os formatos EBI http://www.ebi.ac.uk/help/formats_frame.html

  33. Exemplo busca de dados Busca rápida de dados em formato texto no NCBI usando o clipboard

  34. Exemplo busca de dados Busca rápida de dados em formato texto no NCBI usando FASTA

  35. Genbank Fasta Embl

  36. Bancos - KEEG • KEEG (Kyoto Encyclopedia of Genes and Genomes) Kanehisa Laboratories in the Bioinformatics Center of Kyoto University and Human Genome Center of University of Tokyo • DB fonte de dados de bioinformática; http://www.genome.jp/kegg/

  37. KEEG

  38. KEEG Search NAT2

  39. KEEG

  40. DBs - GO • Projeto: • Gene Ontology (GO - 1998) colaboração de produtos gênicos de diferentes dbs e iniciou com a colaboração de 3 organismos modelos: • FlyBase (Drosophila), • Saccharomyces Genome Database (SGD) • Mouse Genome Database (MGD) Componente celulare, Processo biológico, Função molecular • http://www.geneontology.org/

  41. GO Componente celular O componente da célula com a restrição de ser parte de uma estrutura maior. Processo biológico Série de eventos realizados. Função molecular Descreve atividade, função molecular. • http://www.geneontology.org/

  42. GO Componentes celulares O componente de uma célula com a restrição de ser parte de uma estrutura maior. Processos biológicos Série de eventos realizados por uma ou mais configurações de processos biológicos. Funções moleculares Descreve atividades à nível molecular. • http://www.geneontology.org/

  43. GO The GO Consortium É um conjunto de dbs de organismos modelo de proteína e a comunidade biológica está ativamente envolvida no desenvolvimento e aplicação dos dados de GO.

  44. Conclusão

More Related