1 / 112

Lushan Wang 2008.10.29

Bioinformatics database and retrieval strategy. Lushan Wang 2008.10.29. Content. 重要生物信息数据库 生物信息数据及其格式 数据库检索工具 Entrez. 1 、重要生物信息中心 Bioinformatics Centres. NCBI National Center for Biotechnology Information (US) www.ncbi.nlm.nih.gov EBI European Bioinformatics Institute (EU)

Download Presentation

Lushan Wang 2008.10.29

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bioinformatics database and retrieval strategy Lushan Wang 2008.10.29

  2. Content 重要生物信息数据库 生物信息数据及其格式 数据库检索工具Entrez

  3. 1、重要生物信息中心Bioinformatics Centres NCBI National Center for Biotechnology Information (US) www.ncbi.nlm.nih.gov EBI European Bioinformatics Institute (EU) www.ebi.ac.uk DDBJ DNA Data Bank of Japan (JP) www.ddbj.nig.ac.jp ExPASy Expert of Protein Analysis System (Switzerland ) www.expasy.ch PDB Protein Data Bank (US) www.rcsb.org/pdb/ CBIPKU 北京大学生物信息中心 (CN) www.cbi.pku.edu.cn/chinese/ BioSino 中国生物信息中心 (CN ) www.biosino.org

  4. Tools for Bioinformatics Research Entrez SRS

  5. 数据库的集成与检索界面的统一 Data Integration XML XML Site B Site A

  6. SRS (Sequence Retrieval System ) SRS是欧洲分子生物学网EMBnet的主要检索工具 SRS, Sequence Retrieval System, is a powerful database management system developed specifically for biological databases. The goal of SRS is to provide an efficient access to databases with biological contents no matter in what format are they available and allowing for complex search criteria.

  7. 数据库记录的格式与检索路口

  8. 核酸/蛋白质数据库记录的组成 • 由于历史原因,各种生物数据库采用了不同的信息格式,许多生物计算机软件也要求特定的核酸和蛋白质序列输入格式。 • 一个数据库记录(entry)一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释(annotation)。注释中包含的信息与相应的序列数据同样重要和有应用价值,值得注意。 • 序列部分和注释部分两者都有固定格式,以便计算机读取。各个数据库的具体格式又有所不同,大致分成GenBank和EMBL两种风格。

  9. Header Feature Table Sequence GenBank Records The Flatfile Format

  10. GenBank格式 GenBank格式:每个条目都是一份纯文本文件。每行左端为空格或为识别字,识别字均为完整英文字,不用缩写。 格式可以分成3个部分: 1)头部包含关于整个序列的信息(描述字符),从 LOCUS行到ORIGIN行; 2)注释这一序列的特性(Feature Table),为注释核心部分; 3)序列本身(Sequence)。注:所有的核苷酸数据库记录(EMBL/GenBank/DDBJ)都在最后一行以//结尾。

  11. GenBank格式

  12. EMBL格式 EMBL格式:欧洲分子生物学EMBL数据库的每个条目是一份纯文本文件,每一行最前面是由两个大写字母组成的识别标志,常见的识别标志列举在后面的表中。识别标志“特性表”FT包含一批关键字,它们的定义已经与GenBank和DDBJ统一。下欧洲国家的许多数据库如SWISS-PROT、ENZYME、TRANSFAC等,都采用与EMBL一致的格式。

  13. EMBL格式

  14. p18 数据库记录注释代码和内容说明

  15. p18 数据库记录注释代码和内容说明(cont.)

  16. 序列和数据库标识 修改日期 序列类型 mRNA (= cDNA) rRNA snRNA DNA 序列长度 Locus名字 GB Division LOCUS AF062069 3808 bp mRNA INV 02-MAR-2000 位置, 提取号, 版本 Definition accession version DEFINITION Limulus polyphemus myosin III mRNA, complete cds. ACCESSION AF062069 提取号 VERSION AF062069.2 GI:7144484 简单描述 (标题) 最古老的甲壳动物——鲎(hòu) 肌球蛋白III Accession.version gi number

  17. 关键字,生物体来源 Keywords and source 可更新的序列版本号 序列来源的物种名 KEYWORDS . SOURCE Atlantic horseshoe crab. ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. 后生动物 序列来源的物种学名和分类学位置

  18. 相关文献编号,或递交序列的注册信息 引用(参考文献)Reference REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. (1998) In press REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700. 相关文献作者,或递交序列的作者 相关文献题目 引文出处相关文献刊物杂志名,或递交序列的作者单位 评注 以前版本号

  19. 特性表(Features) FEATURES Location/Qualifiers source 1..3808 /organism="Limulus polyphemus" /db_xref="taxon:6850" /tissue_type="lateral eye" CDS 258..3302 /note="N-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA" /codon_start=1 /product="myosin III" /protein_id="AAC16332.2" /db_xref="GI:7144485" /translation="MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDK NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL " Biosource 编码序列 阅读框 GenPept Protein Identifiers

  20. Sequence GenBank碱基数目 指示序列数据的起始 BASE COUNT 1201 a 689 c 782 g 1136 t ORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt <sequence omitted> 3721 accaatgtta taatatgaaa tgaaataaag cagtcatggt agcagtggct gtttgaaata 3781 aagatacagt aactagggaa aaaaaaaa // 记录结束标记

  21. PDB数据库文件格式 该文件的公布日期 分子类别 --水解酶类 (氧连接糖基化) 该化合物名称人类唾液淀粉酶 该结构的pdb代码 该化合物的来源 结构测定者名字 REMARK是此pdb文件的参考书目、最大分辨率、注解等

  22. REMARK 的部分讲解 • 图中1处指出蛋白质原子数为3946,2处指出核酸原子数为0,3处指出异型原子数为2,4处指出溶剂原子数为169 指出蛋白质原子数 核酸原子数 异型原子数 溶剂原子数

  23. SEQRES部分 • EQRES部分表示了该分子包含496个氨基酸残基,并将每个残基符号依次列出:

  24. HELIX部分 • 下面HELIX部分显示的是分子中α螺旋的组成和信息,如图:

  25. β折叠 • 然后下面就是β折叠的组成和信息了,如下图:

  26. p21 分子的原子信息 • 下面就是该分子的原子信息,我们先给出Format列的格式列表,然后进行一下详细的说明,如下图:

  27. 分子的原子信息详解 表示所指为原子 原子的X坐标轴 该原子序列号 IUPAC标准格式的原子名称 残基序列号 片段指示符 温度因子 Y坐标轴 残基名称 Z坐标轴 位置

  28. TER、HETATM、CONECT、END • TER记录,它记录主链分子中的链末端,在TER后面的HETATM就是记录异型原子的信息。 • 在HETATM记录的后面还有一些CONECT记录。CONECT详细的描述了已给出坐标的原子间的连通性。而这种连通性是以该记录的原子序列号的形式表现的。CONECT记录是用来描述那些非标准残基(包括水)和那些在标准连通性表中没有被详细列出的键。 • 最后,在整个文件的结尾还有一个END记录表示文件结束。

  29. 语义映射 和处理过程 结果 查询 快速准确的检索策略 语义匹配 semantic mapping Relations Attributes

  30. Knowledge Discovery in Databases Selection Transformation Cleaning Integration Evaluation Visualization Data Mining Data Warehouse Prepared data Patterns Knowledge Knowledge Base Data

  31. The National Center for Biotechnology Information (NCBI) • Created as a part of the National Library of Medicine in 1988 • Tools: Entrez(1992) ,BLAST(1990), • GenBank (1992) • Free MEDLINE (PubMed, 1997) • Other databases: dbEST, dbGSS, dbSTS, MMDB, OMIM, UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink, RefSeq

  32. Bethesda, MD The National Institutes of Health

  33. The National Center for Biotechnology Information • Accepts submissions of primary data • Develops tools to analyze these data • Creates derivative databases based on the primary data • Provides free search, link, and retrieval of these data, primarily through the Entrez system

  34. NCBI WWW Users per Day

  35. Christmas & New Year Number of Users and Hits Per Day 1997 1998 1999 2000 2001 2002 2003

  36. p53 Homepage - accessing the data all[filter]

  37. all[filter] 1/11/2005 29/10/2008

  38. Molecular Databases • Primary Databases • Original submissions by experimentalists • Database staff organize but don’t add additional information • Example:GenBank • Derivative Databases • Human curated • compilation and correction of data • Example:SWISS-PROT, NCBI RefSeq mRNA • Computationally Derived • Example:UniGene • Combinations • Example:NCBI Genome Assembly

  39. C GA ATT GA ATT C C C ATT C ACT GA TA Curators Primary vs. Derivative Databases UniGene Sequencing Centers UniSTS EST GenBank Updated by NCBI STS Updated ONLY by submitters RefSeq: annotation pipeline GSS HTG INV VRT PHG VRL PRI ROD PLN MAM BCT RefSeq RefSeq: Entrez Gene and Genomes pipelines Labs

  40. The GenBank Record

  41. LOCUS NM_019570 4279 bp mRNA linear INV 28-OCT-2004 DEFINITION Mus musculus REV1-like(S. cerevisiae)(Rev1l),mRNA ACCESSION NM_019570 VERSION NM_019570.3 GI:50811869 KEYWORDS . = Title A Typical GenBank Record Entrez

More Related