Bancos de dados
Download
1 / 57

Bancos de dados - PowerPoint PPT Presentation


  • 130 Views
  • Updated On :

Bancos de dados. Prof. Dr. Francisco Prosdocimi. Relational database. Conceitos importantes. Banco de dados Tabela Campos Relações Chave-primária. A linguagem SQL. Outra linguagem?. Criando uma tabela e definindo campos. A magia do comando SELECT. A cláusula WHERE.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Bancos de dados' - jenaya


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Bancos de dados l.jpg

Bancos de dados

Prof. Dr. Francisco Prosdocimi


Relational database l.jpg
Relational database

Conceitos importantes

Banco de dados

Tabela

Campos

Relações

Chave-primária


A linguagem sql l.jpg
A linguagem SQL

Outra linguagem?


Criando uma tabela e definindo campos l.jpg
Criando uma tabela e definindo campos


A magia do comando select l.jpg
A magia do comando SELECT



Slide7 l.jpg

mysql> select * from bovEST_BLAST where (similarity > 70 and e_value < 1e-20) order by similarity DESC limit 40;

+---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+

| q_id | s_id | similarity | ali_length | mismatches | gap_openings | q_init | q_end | s_init | s_end | e_value | score |

+---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+

| RE087RA01.esd | Chr18 | 100 | 308 | 0 | 0 | 384 | 691 | 43689822 | 43689515 | 3e-172 | 611 |

| RE087RA01.esd | Chr18 | 100 | 75 | 0 | 0 | 241 | 315 | 43691823 | 43691749 | 3e-33 | 149 |

| RE087RA01.esd | Chr18 | 100 | 69 | 0 | 0 | 85 | 153 | 43694415 | 43694347 | 1e-29 | 137 |

| RE087RB10.esd | Chr5 | 100 | 179 | 0 | 0 | 105 | 283 | 56439425 | 56439247 | 3e-95 | 355 |

| RE087RB10.esd | Chr5 | 100 | 133 | 0 | 0 | 283 | 415 | 56438471 | 56438339 | 7e-68 | 264 |

| RE087RC01.esd | Chr3 | 100 | 179 | 0 | 0 | 106 | 284 | 42018973 | 42018795 | 9e-96 | 355 |

| RE087RC02.esd | Chr10 | 100 | 125 | 0 | 0 | 313 | 437 | 99740206 | 99740330 | 2e-63 | 248 |

| RE087RC02.esd | Chr10 | 100 | 104 | 0 | 0 | 212 | 315 | 99739617 | 99739720 | 8e-51 | 206 |

| RE087RC02.esd | Chr10 | 100 | 92 | 0 | 0 | 117 | 208 | 99738535 | 99738626 | 1e-43 | 182 |

| RE087RC03.esd | Chr10 | 100 | 110 | 0 | 0 | 325 | 434 | 99740206 | 99740315 | 2e-54 | 218 |

| RE087RC03.esd | Chr10 | 100 | 104 | 0 | 0 | 224 | 327 | 99739617 | 99739720 | 7e-51 | 206 |

| RE087RC03.esd | Chr10 | 100 | 92 | 0 | 0 | 129 | 220 | 99738535 | 99738626 | 1e-43 | 182 |

| RE087RC05.esd | Chr5 | 100 | 158 | 0 | 0 | 172 | 329 | 24199827 | 24199984 | 9e-83 | 313 |

| RE087RC05.esd | Chr5 | 100 | 136 | 0 | 0 | 436 | 571 | 24201779 | 24201914 | 1e-69 | 270 |

| RE087RC05.esd | Chr5 | 100 | 67 | 0 | 0 | 107 | 173 | 24199155 | 24199221 | 2e-28 | 133 |

| RE087RC06.esd | Chr5 | 100 | 170 | 0 | 0 | 323 | 492 | 108223843 | 108223674 | 6e-90 | 337 |

| RE087RC06.esd | Chr5 | 100 | 137 | 0 | 0 | 491 | 627 | 108223120 | 108222984 | 3e-70 | 272 |

| RE087RC08.esd | Chr19 | 100 | 356 | 0 | 0 | 130 | 485 | 36886303 | 36886658 | 0 | 664 |

| RE087RC10.esd | Chr14 | 100 | 103 | 0 | 0 | 146 | 248 | 1077123 | 1077021 | 6e-50 | 204 |

| RE087RC10.esd | Chr11 | 100 | 103 | 0 | 0 | 146 | 248 | 93831389 | 93831287 | 6e-50 | 204 |

| RE087RC11.esd | Chr7 | 100 | 91 | 0 | 0 | 103 | 193 | 33783452 | 33783362 | 6e-43 | 180 |

| RE087RD01.esd | Chr14 | 100 | 103 | 0 | 0 | 155 | 257 | 1077123 | 1077021 | 6e-50 | 204 |

| RE087RD01.esd | Chr11 | 100 | 103 | 0 | 0 | 155 | 257 | 93831389 | 93831287 | 6e-50 | 204 |

| RE087RD04.esd | Chr8 | 100 | 198 | 0 | 0 | 252 | 449 | 100369996 | 100369799 | 1e-106 | 392 |

| RE087RD05.esd | Chr7 | 100 | 91 | 0 | 0 | 368 | 458 | 39281415 | 39281505 | 8e-43 | 180 |

| RE087RD07.esd | Chr14 | 100 | 219 | 0 | 0 | 151 | 369 | 23348458 | 23348676 | 3e-119 | 434 |

| RE087RD07.esd | Chr14 | 100 | 101 | 0 | 0 | 541 | 641 | 23349620 | 23349720 | 9e-49 | 200 |

| RE087RD07.esd | Chr14 | 100 | 75 | 0 | 0 | 368 | 442 | 23349004 | 23349078 | 3e-33 | 149 |

| RE087RE01.esd | Chr13 | 100 | 332 | 0 | 0 | 112 | 443 | 51325163 | 51324832 | 3e-172 | 611 |

| RE087RE02.esd | Chr19 | 100 | 125 | 0 | 0 | 204 | 328 | 56707552 | 56707428 | 4e-63 | 248 |

| RE087RE02.esd | Chr19 | 100 | 62 | 0 | 0 | 142 | 203 | 56710310 | 56710249 | 2e-25 | 123 |

| RE087RE05.esd | Chr2 | 100 | 241 | 0 | 0 | 275 | 515 | 131052933 | 131052693 | 3e-132 | 478 |

| RE087RE05.esd | Chr2 | 100 | 79 | 0 | 0 | 145 | 223 | 131053063 | 131052985 | 1e-35 | 157 |

| RE087RE09.esd | Chr19 | 100 | 106 | 0 | 0 | 100 | 205 | 13495533 | 13495428 | 1e-51 | 210 |

| RE087RF01.esd | Chr3 | 100 | 195 | 0 | 0 | 86 | 280 | 14725822 | 14726016 | 7e-105 | 387 |

| RE087RF01.esd | Chr3 | 100 | 180 | 0 | 0 | 279 | 458 | 14729898 | 14730077 | 6e-96 | 357 |

| RE087RF01.esd | Chr3 | 100 | 119 | 0 | 0 | 457 | 575 | 14730286 | 14730404 | 2e-59 | 236 |

| RE087RF01.esd | Chr3 | 100 | 74 | 0 | 0 | 575 | 648 | 14730866 | 14730939 | 1e-32 | 147 |

| RE087RF02.esd | Chr5 | 100 | 133 | 0 | 0 | 282 | 414 | 56438471 | 56438339 | 7e-68 | 264 |

| RE087RF02.esd | Chr5 | 100 | 107 | 0 | 0 | 413 | 519 | 56437590 | 56437484 | 2e-52 | 212 |

+---------------+-------+------------+------------+------------+--------------+--------+-------+-----------+-----------+---------+-------+

40 rows in set (14.36 sec)


Bancos de dados biol gicos l.jpg

Bancos de dados Biológicos

Prof. Dr. Francisco Prosdocimi


Bancos de dados9 l.jpg
Bancos de dados

  • Servem para organizar a informação biológica e disponibilizá-la de maneira simples aos pesquisadores

  • Bancos mais comunsSequência, estrutura, protein-protein interaction, domínios, assinaturas, famílias gênicas, evolutivos, paper-específicos


Conceitos b sicos l.jpg
Conceitos básicos

  • O conceito de curadoria de sequências

  • Bancos de dados primários

    • Genbank, PDB, EMBL

  • Bancos de dados secundários

    • Swissprot, RefSeq, COG, KEGG


National center for biotechnology information l.jpg
National Center for Biotechnology Information

O NCBI fornece acesso a genomas completos de mais de 5.700 organismos. Genomas significam tanto sequências completas de organismos quanto os que estão em processo de sequenciamento.

http://www.ncbi.nlm.nih.gov


Os bancos de dados do ncbi l.jpg
Os bancos de dados do NCBI

  • PubMed

  • GenBank

  • GenPept

  • Genome

  • dbGSS

  • dbEST

  • dbSNP


Genbank l.jpg
GenBank

  • Genbank, ddBJ, EMBL

  • Identificadores

    • gI, accession number

  • Formatos

    • FASTA, GenBank

    • http://www.ncbi.nlm.nih.gov/nuccore/187830767?report=genbank&log$=seqview

>gi|187830767|ref|NM_000546.4| Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA

GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAG(...)


Taxonomy l.jpg
Taxonomy

  • Permite verificar o número de sequências de nucleotídeos, proteínas e genomas de espécies

  • Contém a classificação taxonômica completa das espécies

    • Incluindo categorias não-lineanas


Blast databases l.jpg
BLAST databases

  • Peptide Sequence Databases

    • Nr: All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF

    • Refseq: RefSeq protein sequences from NCBI's Reference Sequence Project.

    • Swissprot: Last major release of the SWISS-PROT protein sequence database (no updates).

    • Pat: Proteins from the Patent division of GenPept.

    • Pdb: Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank.

    • Month: All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released in the last 30 days.

    • env_nr: Protein sequences from environmental samples.

  • Nucleotide Sequence Databases

    • Nr: All GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excluding HTGS0,1,2, EST, GSS, STS, PAT, WGS). No longer "non-redundant".

    • refseq_rna, refseq_genomic

    • Est: Database of GenBank + EMBL + DDBJ sequences from EST Divisions

      • est_human, est_mouse, est_others

    • gss: Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences.

    • Pat: Nucleotides from the Patent division of GenBank.

    • Month: All new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last 30 days.

    • Dbsts: Database of GenBank+EMBL+DDBJ sequences from STS Divisions .

    • Chromosome: A database with complete genomes and chromosomes from the NCBI Reference Sequence project..

    • Wgs: A database for whole genome shotgun sequence entries.

    • env_nt: Nucleotide sequences from environmental samples, including those from Sargasso Sea and Mine Drainage projects.


Trace archive l.jpg
Trace Archive

  • Contém os dados brutos de sequenciamento para diversas espécies

  • O pesquisador pode fazer o download e realizar o base-calling da maneira como preferir

  • Arquivos pesados (dados brutos)

  • Obsoleto...

    • short read archive


Refseq l.jpg
RefSeq

  • Banco de dados de sequências de referência para genomas

  • Apresenta uma única cópia para cada gene no genoma

    • É o verdadeiro NR

  • Dividido em genoma, cDNA e proteína (NC, NM e NP)

  • Contém sequências de splicing alternativo


N veis de curadoria refseq l.jpg
Níveis de curadoria RefSeq

  • Predita: automática

    • cDNA com ORF sem função descrita

  • Provisória: manual

    • proteína com função conhecida ou inferida

    • o melhor representante do GenBank, mais anotado

  • Revisada: manual

    • compilação sobre o gene e seus transcritos

    • sequência, propriedades, nomenclatura, referências, retirada de vetor, adição de UTRs, domínios conservados, descrição da função do gene, links


Dbest l.jpg
dbEST

  • Contém sequências de ESTs (e ORestes) de diversos organismos


Dbgss l.jpg
dbGSS

  • Contém sequências genômicas single-passed para diversos organismos


Unigene l.jpg
UniGene

  • Contém clusters de ESTs formados a partir de similaridades usando o algoritmo megaBLAST

  • Reúne variantes de splicing no mesmo identificador

  • Cataloga variantes de splicing por tecido


Slide22 l.jpg

UniGene

  • Organização das sequências do GenBank em um conjunto de aglomerados

  • Cada aglomerado do UniGene contém as sequências que representam um gene único

  • E também informações relacionadas, como em que tecidos o gene é expresso, etc.

  • E também onde está mapeado


Slide23 l.jpg

MegaBLAST gera o UniGene

Todas ESTs contra todas

Detecção de homologia

> 96% de identidade

> 70% do potencial

Aglomerar


Geo database l.jpg
GEO database

  • Contém dados de experimentos de microarray


Slide25 l.jpg
COG

  • Cluster of Orthologous Groups

    • 66 genomas bacterianos

  • Best Hits cruzados entre 3 organismos

  • Genes bacterianos agrupados por função biológica

  • KOG, eucariotos


Cdd conserved domains l.jpg
CDD, conserved domains

  • Banco de dados de domínios

  • NCBI-curated domains

  • Baseado nas bases de dados:

    • Pfam, SMART, COG, PRK, TIGRFAM

  • Permite mostrar a arquitetura de domínios de uma sequência quando o usuário faz um BLAST

  • Utiliza o RPS-blast



Outros servi os ncbi l.jpg
Outros serviços NCBI

  • Serviços educacionais

    • http://www.ncbi.nlm.nih.gov/Education/

  • NCBI Handbook

    • http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.View..ShowTOC&rid=handbook.TOC&depth=2

  • ORF finder

  • Muito mais...

    • Coffe break http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=coffeebrk


Swissprot l.jpg
SwissPROT

  • Banco de dados de sequências de proteínas mais curado e mais utilizado no mundo

  • Europeus não usam NCBI


Trembl l.jpg
TrEMBL

  • Complemento não anotado ao SwissPROT

  • Não houve curadoria manual

  • Anotação automática


Fam lias prot icas l.jpg
Famílias protéicas

  • A maioria das proteínas pode ser agrupada em famílias com base na similaridade entre suas sequências

    • Similaridade intra-espécies

    • Evidência de ancestralidade comum

  • Proteínas da mesma família costumam ter funções moleculares e biológicas semelhantes → inferência biológica

  • Inferência de função

    • Similaridade de sequência

    • Análise filogenética


Fam lias e alinhamento l.jpg

Pfam :

Dickkopf N-terminal domain

Colipase

Colipase C-terminal domain

Famílias e alinhamento

dkk1

dkk2

dkk3

Prokinecitin/

Intestinal toxin

Lipase protein cofactor


Assinaturas ou dom nios prot icos l.jpg
Assinaturas ou domínios protéicos

  • Obtidos através da análise de regiões que se mantém constantes em grupos de sequências similares alinhadas

  • Distingue membros de famílias dos não-membros

  • Auxilia a atribuição de funcionalidades moleculares e biológicas






Uso de express es regulares l.jpg
Uso de expressões regulares

  • Identificação de padrões de famílias

  • Identificação de promotores, sítios para a ligação do ribossomo (consenso de kosak)

  • Problemas

    • Pequenas diferenças em um membro da família pode retirá-lo do grupo

    • Lembrete: a vida não apresenta regras rígidas

    • Programas com base estatística ou baseados em inteligência artificial





Slide42 l.jpg
pFAM

  • Cadeias de Markov: não se acessa o estado, porém um observação probabilística do estado




Slide45 l.jpg
KEGG

  • Kyoto Encyclopedia of Genes and Genomes

  • Permite anotar a presença de enzimas e completar vias bioquímicas

  • Visão integrada do metabolismo


Kegg pathways l.jpg
KEGG pathways

  • Enzimas/proteínas encontradas são marcadas em verde


Gene ontology l.jpg
Gene Ontology

  • Primeira ontologia criada em biologia molecular, 2000

  • Consórcio para a padronização da anotação gênica

  • Vocabulário padrão para a descrição de genes em três categorias

    • Processo biológico

    • Função molecular

    • Localização celular

Human, mouse, worm, fly, etc...





Al m do gene ontology l.jpg
Além do Gene Ontology

  • OBO foundry: The open biomedical ontologies

  • Anatomy ontologies


Balibase l.jpg
BaliBASE

  • Banco de dados de alinhamentos múltiplos

  • Curado manualmente

  • Visão integrada do metabolismo


Prote mica l.jpg
Proteômica

  • Swiss-2D-page

  • Banco de dados de géis bidimensionais


Codon usage db l.jpg
Codon Usage DB

  • Preferência em códons sinônimos

  • Utilização preferencial de certos códons por aminoácidos

  • Diferença por organismo/organela


Lembrete l.jpg
Lembrete

  • Muitos bancos de dados estão disponíveis para FTP

    • Faça o download e instale na sua máquina

    • Bancos de dados locais e pesquisa-específicos ajudam no desenvolvimento e análise de dados

  • Instale no MySQL mais próximo

    • Monte suas tabelas e faça seus selects!

    • PERL + SQL (a biblioteca DBI)


Conclus es l.jpg
Conclusões

  • Há bancos de dados em bioinformática para praticamente qualquer tipo de abordagem em biologia molecular

  • Stein, 2009

  • O papel central da bioinformática na pesquisa genômica moderna

  • NAR, duas edições por ano

  • É preciso conhecer os serviços, mais cedo ou mais tarde, você pode precisar