1 / 58

Formato de Arquivos e Banco de Dados Biológicos II

Formato de Arquivos e Banco de Dados Biológicos II. Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br. Sumário. Principais Repositórios NCBI Entrez Tipos de Arquivos Aquisição de dados EBI EB-eye Tipos de arquivos Aquisição de dados Comparação Atividades. Principais Bancos.

cadence
Download Presentation

Formato de Arquivos e Banco de Dados Biológicos II

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br

  2. Sumário • Principais Repositórios • NCBI • Entrez • Tipos de Arquivos • Aquisição de dados • EBI • EB-eye • Tipos de arquivos • Aquisição de dados • Comparação • Atividades

  3. Principais Bancos • NCBI (National Center for Biotechnology Information) 1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular • Bancos de Dados públicos; • Pesquisas na área da biologia computacional; • Desenvolvimento de ferramentas para análise de dados genômicos; • Informações biomédicas. http://www.ncbi.nlm.nih.gov/

  4. NCBI Eu já sei o que eu busco? Ou quero descobrir o que existe a respeito do que busco?

  5. Entrez Sistema de busca robusto que realiza a procura simultânea em múltiplos bancos.

  6. Entrez Colocar a imagem parcial Mapa do relacionamento entre os diferentes bancos de dados. Mapa

  7. Entrez Busca

  8. Entrez Busca

  9. Formato GenPept

  10. Formato GenPept http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

  11. Formato GenPept GB: gene bank - accession number identifica a seqüência e sua versão

  12. Formato GenPept GI : genInfo Identifier identificador único para cada seqüência

  13. Formato GenPept O número do taxon é importante para pesquisas nos BDs.

  14. Formato GenPept

  15. Formato GenPept

  16. Formato GenPept

  17. Formato GenPept

  18. Formato GenPept

  19. Formato GenPept

  20. Formato Fasta > identificação

  21. Formato ASN É um sistema de notação usado para descrever dados que serão trocados em um sistema computacional distribuído. Inclui nucleotídeos e proteínas.

  22. Formato ASN

  23. Formato ASN

  24. Acesso aos Dados • SOAP (Service Oriented Architecture Protocol) • EInfo – Fornece a contagem, a última atualização e os links disponíveis para cada banco de dados para um determinado campo de indexação. • ESearch – Busca e retorna IDs primárias (para uso no EFetch, Elink e Esummary), palavras traduzidas e opcionalmente retém resultados para uso futuro. • EPost – Cria um arquivo contendo uma lista de IDs primários para uso nas estratégias de busca sub-sequentes. • ESummary– Retorna o resumo de documentos a partir de uma lista de ID primários fornecida pelo usuário.

  25. Acesso aos Dados Descrição das funções do E-Utilities: http://www.ncbi.nlm.nih.gov/entrez/query/static/esoap_toolkit.html • SOAP • EFetch – Retorna registros de uma lista de IDs primários fornecidos pelo usuário no formato requisitado. • ELink – Verifica a existência de links para artigos externos ou do banco de dados a partir de uma lista de um ou mais IDs primários. Retorna os IDs primários dos artigos e as pontuações de relevância. • EGQuery – Fornece uma contagem do banco de dados Entrez para uma única busca usando a busca global (Global Query). • ESpell – Retorna sugestões de ortografia.

  26. Acesso aos Dados ftp://ftp.ncbi.nih.gov/ • FTP • GenBank – Coleção de anotações de todas as seqüências de DNA públicas disponíveis. • Gene – Informações sobre genes de organismos completamente seqüenciados. • RefSeq – Conjunto não-redundante de seqüências de DNA, proteínas e transcritos (dogma central). • Demais bancos ... • Cn3D – Programa de visualização de estruturas 3D. • BLAST – Ferramenta de procura de alinhamentos locais em bases de dados. • Demais programas ...

  27. Principais Bancos • EMBL-EBI (European Molecular Biology Laboratory • European Bioinformatics Institute) • Cambridge, Inglaterra • Pioneiro no desenvolvimento de pesquisas em bioinformática • Desenvolve banco de dados biológicos e programas • http://www.ebi.ac.uk/

  28. EMBL-EBI BD de seqüências de nucleotídeos do EMBL

  29. EMBL-EBI - Catálogo mais completo de informações sobre proteínas. - Repositório central de seqüências e funções de proteínas criado pela junção das informações contidas no UniProtKB/Swiss-Prot, UniProtKB/TrEMBL e PIR.

  30. EMBL-EBI Repositório público para dados de transcriptoma e relacionados, o qual visa armazenar dados MIAME (Minimum Information About a Microarray Experiment). Ele armazena padrões de expressão indexados por gene e as suas respectivas biomedidas. Microarray?

  31. EMBL-EBI Ensembl Genome Browser Projeto em conjunto com o Instituto Sanger Matem anotação automática de genomas de eucariotos. Ensembl anota genes conhecidos e novos com a anotação de sua função fornecida por InterPro, OMIM, SAGE e famílias gênicas. O acesso aos dados e ao software são livres e sem restrição.

  32. EMBL-EBI BD de proteínas que abrange famílias, domínios, repetições e regiões com características de proteínas conhecidas que podem ser aplicadas a novas seqüências de proteínas.

  33. EMBL-EBI Macromolecular Structure Database Group Projeto europeu para a coleta, gerenciamento e destribuição de dados sobre estruturas macromoleculares derivadas em parte do PDB (World Wide Protein Data Bank).

  34. Bancos de Dados

  35. Bancos de Dados

  36. Busca

  37. Busca

  38. Busca

  39. Busca Human complete

  40. Busca

  41. Busca

  42. Formato Embl ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final

  43. Formato Embl ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final Continuação do arquivo

  44. Formato Swiss-Prot ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final

  45. Formato Swiss-Prot ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final

  46. Formato PIR > Sinal de maior Duas letras descrevendo o tipo Protein (complete) P1 Protein (fragment) F1 DNA (linear) DL DNA (circular) DC RNA (linear) RL RNA (circular) RC tRNA N3 other functional RNA N1 ; ponto e vírgula Código de identificação Uma linha contendo a descrição Seqüência contendo 1 ou + linhas * Sinal de terminação

  47. Acesso aos Dados http://www.ebi.ac.uk/Tools/webservices/ • SOAP • WSDbfetch – Retorna entradas de vários BDs biológicos atualizados • WSEB-Eye – Acesso ao mecanismo de busca EB-Eye • WSMSD – Acesso aos dados e ferramentas do BD de estruturas macromoleculares • WSChEBI – Retorna entradas do BD ChEBI (Chemical Entities of Biological Interest) • WSIntegr8 – Acesso a um subconjunto de dados disponíveis no portal Integr8 (integrated information about deciphered genomes and their corresponding proteomes) • Mais outros serviços…

  48. Acesso aos Dados http://www.ebi.ac.uk/FTP/ • FTP • ArrayExpress – Dados de microarray • Embl – BD de nucleotídeos do EMBL • InterPro – Famílias, domínios de proteínas • UniProt – BD universal de proteínas • UniRef – BD referência de grupos de proteínas • Demais bancos… • Programas

  49. NCBI BDs Nucleotídeos Busca - Seleciona itens de interesse - Padrão entre os BDs - Maior consistência Acesso aos dados - SOAP: Específico para acesso de dados Forte: Pesquisas de publicações EBI BDs Proteínas Busca - Faz sub-buscas - Padrões diferentes Maior quantidade de informações Acesso aos dados - SOAP Usado para dados e ferramentas Forte: Obtenção de seqüências novas Comparação

  50. Site com os formatos http://www.ebi.ac.uk/help/formats_frame.html

More Related