1 / 57

Bancos de dados

Bancos de dados. Prof. Dr. Francisco Prosdocimi. Relational database. Conceitos importantes. Banco de dados Tabela Campos Relações Chave-primária. A linguagem SQL. Outra linguagem?. Criando uma tabela e definindo campos. A magia do comando SELECT. A cláusula WHERE.

jenaya
Download Presentation

Bancos de dados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bancos de dados Prof. Dr. Francisco Prosdocimi

  2. Relational database Conceitos importantes Banco de dados Tabela Campos Relações Chave-primária

  3. A linguagem SQL Outra linguagem?

  4. Criando uma tabela e definindo campos

  5. A magia do comando SELECT

  6. A cláusula WHERE

  7. mysql> select * from bovEST_BLAST where (similarity > 70 and e_value < 1e-20) order by similarity DESC limit 40; +---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+ | q_id | s_id | similarity | ali_length | mismatches | gap_openings | q_init | q_end | s_init | s_end | e_value | score | +---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+ | RE087RA01.esd | Chr18 | 100 | 308 | 0 | 0 | 384 | 691 | 43689822 | 43689515 | 3e-172 | 611 | | RE087RA01.esd | Chr18 | 100 | 75 | 0 | 0 | 241 | 315 | 43691823 | 43691749 | 3e-33 | 149 | | RE087RA01.esd | Chr18 | 100 | 69 | 0 | 0 | 85 | 153 | 43694415 | 43694347 | 1e-29 | 137 | | RE087RB10.esd | Chr5 | 100 | 179 | 0 | 0 | 105 | 283 | 56439425 | 56439247 | 3e-95 | 355 | | RE087RB10.esd | Chr5 | 100 | 133 | 0 | 0 | 283 | 415 | 56438471 | 56438339 | 7e-68 | 264 | | RE087RC01.esd | Chr3 | 100 | 179 | 0 | 0 | 106 | 284 | 42018973 | 42018795 | 9e-96 | 355 | | RE087RC02.esd | Chr10 | 100 | 125 | 0 | 0 | 313 | 437 | 99740206 | 99740330 | 2e-63 | 248 | | RE087RC02.esd | Chr10 | 100 | 104 | 0 | 0 | 212 | 315 | 99739617 | 99739720 | 8e-51 | 206 | | RE087RC02.esd | Chr10 | 100 | 92 | 0 | 0 | 117 | 208 | 99738535 | 99738626 | 1e-43 | 182 | | RE087RC03.esd | Chr10 | 100 | 110 | 0 | 0 | 325 | 434 | 99740206 | 99740315 | 2e-54 | 218 | | RE087RC03.esd | Chr10 | 100 | 104 | 0 | 0 | 224 | 327 | 99739617 | 99739720 | 7e-51 | 206 | | RE087RC03.esd | Chr10 | 100 | 92 | 0 | 0 | 129 | 220 | 99738535 | 99738626 | 1e-43 | 182 | | RE087RC05.esd | Chr5 | 100 | 158 | 0 | 0 | 172 | 329 | 24199827 | 24199984 | 9e-83 | 313 | | RE087RC05.esd | Chr5 | 100 | 136 | 0 | 0 | 436 | 571 | 24201779 | 24201914 | 1e-69 | 270 | | RE087RC05.esd | Chr5 | 100 | 67 | 0 | 0 | 107 | 173 | 24199155 | 24199221 | 2e-28 | 133 | | RE087RC06.esd | Chr5 | 100 | 170 | 0 | 0 | 323 | 492 | 108223843 | 108223674 | 6e-90 | 337 | | RE087RC06.esd | Chr5 | 100 | 137 | 0 | 0 | 491 | 627 | 108223120 | 108222984 | 3e-70 | 272 | | RE087RC08.esd | Chr19 | 100 | 356 | 0 | 0 | 130 | 485 | 36886303 | 36886658 | 0 | 664 | | RE087RC10.esd | Chr14 | 100 | 103 | 0 | 0 | 146 | 248 | 1077123 | 1077021 | 6e-50 | 204 | | RE087RC10.esd | Chr11 | 100 | 103 | 0 | 0 | 146 | 248 | 93831389 | 93831287 | 6e-50 | 204 | | RE087RC11.esd | Chr7 | 100 | 91 | 0 | 0 | 103 | 193 | 33783452 | 33783362 | 6e-43 | 180 | | RE087RD01.esd | Chr14 | 100 | 103 | 0 | 0 | 155 | 257 | 1077123 | 1077021 | 6e-50 | 204 | | RE087RD01.esd | Chr11 | 100 | 103 | 0 | 0 | 155 | 257 | 93831389 | 93831287 | 6e-50 | 204 | | RE087RD04.esd | Chr8 | 100 | 198 | 0 | 0 | 252 | 449 | 100369996 | 100369799 | 1e-106 | 392 | | RE087RD05.esd | Chr7 | 100 | 91 | 0 | 0 | 368 | 458 | 39281415 | 39281505 | 8e-43 | 180 | | RE087RD07.esd | Chr14 | 100 | 219 | 0 | 0 | 151 | 369 | 23348458 | 23348676 | 3e-119 | 434 | | RE087RD07.esd | Chr14 | 100 | 101 | 0 | 0 | 541 | 641 | 23349620 | 23349720 | 9e-49 | 200 | | RE087RD07.esd | Chr14 | 100 | 75 | 0 | 0 | 368 | 442 | 23349004 | 23349078 | 3e-33 | 149 | | RE087RE01.esd | Chr13 | 100 | 332 | 0 | 0 | 112 | 443 | 51325163 | 51324832 | 3e-172 | 611 | | RE087RE02.esd | Chr19 | 100 | 125 | 0 | 0 | 204 | 328 | 56707552 | 56707428 | 4e-63 | 248 | | RE087RE02.esd | Chr19 | 100 | 62 | 0 | 0 | 142 | 203 | 56710310 | 56710249 | 2e-25 | 123 | | RE087RE05.esd | Chr2 | 100 | 241 | 0 | 0 | 275 | 515 | 131052933 | 131052693 | 3e-132 | 478 | | RE087RE05.esd | Chr2 | 100 | 79 | 0 | 0 | 145 | 223 | 131053063 | 131052985 | 1e-35 | 157 | | RE087RE09.esd | Chr19 | 100 | 106 | 0 | 0 | 100 | 205 | 13495533 | 13495428 | 1e-51 | 210 | | RE087RF01.esd | Chr3 | 100 | 195 | 0 | 0 | 86 | 280 | 14725822 | 14726016 | 7e-105 | 387 | | RE087RF01.esd | Chr3 | 100 | 180 | 0 | 0 | 279 | 458 | 14729898 | 14730077 | 6e-96 | 357 | | RE087RF01.esd | Chr3 | 100 | 119 | 0 | 0 | 457 | 575 | 14730286 | 14730404 | 2e-59 | 236 | | RE087RF01.esd | Chr3 | 100 | 74 | 0 | 0 | 575 | 648 | 14730866 | 14730939 | 1e-32 | 147 | | RE087RF02.esd | Chr5 | 100 | 133 | 0 | 0 | 282 | 414 | 56438471 | 56438339 | 7e-68 | 264 | | RE087RF02.esd | Chr5 | 100 | 107 | 0 | 0 | 413 | 519 | 56437590 | 56437484 | 2e-52 | 212 | +---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+ 40 rows in set (14.36 sec)

  8. Bancos de dados Biológicos Prof. Dr. Francisco Prosdocimi

  9. Bancos de dados • Servem para organizar a informação biológica e disponibilizá-la de maneira simples aos pesquisadores • Bancos mais comunsSequência, estrutura, protein-protein interaction, domínios, assinaturas, famílias gênicas, evolutivos, paper-específicos

  10. Conceitos básicos • O conceito de curadoria de sequências • Bancos de dados primários • Genbank, PDB, EMBL • Bancos de dados secundários • Swissprot, RefSeq, COG, KEGG

  11. National Center for Biotechnology Information O NCBI fornece acesso a genomas completos de mais de 5.700 organismos. Genomas significam tanto sequências completas de organismos quanto os que estão em processo de sequenciamento. http://www.ncbi.nlm.nih.gov

  12. Os bancos de dados do NCBI • PubMed • GenBank • GenPept • Genome • dbGSS • dbEST • dbSNP

  13. GenBank • Genbank, ddBJ, EMBL • Identificadores • gI, accession number • Formatos • FASTA, GenBank • http://www.ncbi.nlm.nih.gov/nuccore/187830767?report=genbank&log$=seqview >gi|187830767|ref|NM_000546.4| Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAG(...)

  14. Taxonomy • Permite verificar o número de sequências de nucleotídeos, proteínas e genomas de espécies • Contém a classificação taxonômica completa das espécies • Incluindo categorias não-lineanas

  15. BLAST databases • Peptide Sequence Databases • Nr: All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF • Refseq: RefSeq protein sequences from NCBI's Reference Sequence Project. • Swissprot: Last major release of the SWISS-PROT protein sequence database (no updates). • Pat: Proteins from the Patent division of GenPept. • Pdb: Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank. • Month: All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released in the last 30 days. • env_nr: Protein sequences from environmental samples. • Nucleotide Sequence Databases • Nr: All GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excluding HTGS0,1,2, EST, GSS, STS, PAT, WGS). No longer "non-redundant". • refseq_rna, refseq_genomic • Est: Database of GenBank + EMBL + DDBJ sequences from EST Divisions • est_human, est_mouse, est_others • gss: Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences. • Pat: Nucleotides from the Patent division of GenBank. • Month: All new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last 30 days. • Dbsts: Database of GenBank+EMBL+DDBJ sequences from STS Divisions . • Chromosome: A database with complete genomes and chromosomes from the NCBI Reference Sequence project.. • Wgs: A database for whole genome shotgun sequence entries. • env_nt: Nucleotide sequences from environmental samples, including those from Sargasso Sea and Mine Drainage projects.

  16. Trace Archive • Contém os dados brutos de sequenciamento para diversas espécies • O pesquisador pode fazer o download e realizar o base-calling da maneira como preferir • Arquivos pesados (dados brutos) • Obsoleto... • short read archive

  17. RefSeq • Banco de dados de sequências de referência para genomas • Apresenta uma única cópia para cada gene no genoma • É o verdadeiro NR • Dividido em genoma, cDNA e proteína (NC, NM e NP) • Contém sequências de splicing alternativo

  18. Níveis de curadoria RefSeq • Predita: automática • cDNA com ORF sem função descrita • Provisória: manual • proteína com função conhecida ou inferida • o melhor representante do GenBank, mais anotado • Revisada: manual • compilação sobre o gene e seus transcritos • sequência, propriedades, nomenclatura, referências, retirada de vetor, adição de UTRs, domínios conservados, descrição da função do gene, links

  19. dbEST • Contém sequências de ESTs (e ORestes) de diversos organismos

  20. dbGSS • Contém sequências genômicas single-passed para diversos organismos

  21. UniGene • Contém clusters de ESTs formados a partir de similaridades usando o algoritmo megaBLAST • Reúne variantes de splicing no mesmo identificador • Cataloga variantes de splicing por tecido

  22. UniGene • Organização das sequências do GenBank em um conjunto de aglomerados • Cada aglomerado do UniGene contém as sequências que representam um gene único • E também informações relacionadas, como em que tecidos o gene é expresso, etc. • E também onde está mapeado

  23. MegaBLAST gera o UniGene Todas ESTs contra todas Detecção de homologia > 96% de identidade > 70% do potencial Aglomerar

  24. GEO database • Contém dados de experimentos de microarray

  25. COG • Cluster of Orthologous Groups • 66 genomas bacterianos • Best Hits cruzados entre 3 organismos • Genes bacterianos agrupados por função biológica • KOG, eucariotos

  26. CDD, conserved domains • Banco de dados de domínios • NCBI-curated domains • Baseado nas bases de dados: • Pfam, SMART, COG, PRK, TIGRFAM • Permite mostrar a arquitetura de domínios de uma sequência quando o usuário faz um BLAST • Utiliza o RPS-blast

  27. Go to => NCBI

  28. Outros serviços NCBI • Serviços educacionais • http://www.ncbi.nlm.nih.gov/Education/ • NCBI Handbook • http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.View..ShowTOC&rid=handbook.TOC&depth=2 • ORF finder • Muito mais... • Coffe break http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=coffeebrk

  29. SwissPROT • Banco de dados de sequências de proteínas mais curado e mais utilizado no mundo • Europeus não usam NCBI

  30. TrEMBL • Complemento não anotado ao SwissPROT • Não houve curadoria manual • Anotação automática

  31. Famílias protéicas • A maioria das proteínas pode ser agrupada em famílias com base na similaridade entre suas sequências • Similaridade intra-espécies • Evidência de ancestralidade comum • Proteínas da mesma família costumam ter funções moleculares e biológicas semelhantes → inferência biológica • Inferência de função • Similaridade de sequência • Análise filogenética

  32. Pfam : Dickkopf N-terminal domain Colipase Colipase C-terminal domain Famílias e alinhamento dkk1 dkk2 dkk3 Prokinecitin/ Intestinal toxin Lipase protein cofactor

  33. Assinaturas ou domínios protéicos • Obtidos através da análise de regiões que se mantém constantes em grupos de sequências similares alinhadas • Distingue membros de famílias dos não-membros • Auxilia a atribuição de funcionalidades moleculares e biológicas

  34. Identificação de famílias por expressões regulares

  35. Montando uma expressão regular

  36. Expressão regular

  37. Expressão regular para a família

  38. Uso de expressões regulares • Identificação de padrões de famílias • Identificação de promotores, sítios para a ligação do ribossomo (consenso de kosak) • Problemas • Pequenas diferenças em um membro da família pode retirá-lo do grupo • Lembrete: a vida não apresenta regras rígidas • Programas com base estatística ou baseados em inteligência artificial

  39. Prosite

  40. Prosite INFO

  41. Prosite INFO

  42. pFAM • Cadeias de Markov: não se acessa o estado, porém um observação probabilística do estado

  43. Bancos de dados de domínios

  44. InterPRO

  45. KEGG • Kyoto Encyclopedia of Genes and Genomes • Permite anotar a presença de enzimas e completar vias bioquímicas • Visão integrada do metabolismo

  46. KEGG pathways • Enzimas/proteínas encontradas são marcadas em verde

  47. Gene Ontology • Primeira ontologia criada em biologia molecular, 2000 • Consórcio para a padronização da anotação gênica • Vocabulário padrão para a descrição de genes em três categorias • Processo biológico • Função molecular • Localização celular Human, mouse, worm, fly, etc...

  48. Processo biológico

  49. Função molecular

  50. Localização Celular

More Related