1 / 127

分子生物学数据库

分子生物学数据库. 第三章. 第一节 引言. 生物分子数据 高速增长. 分子生物学 及相关领域研究人员 迅速获得最新实验数据. 建立生物分子数据库.  生物分子数据库应满足 5 个方面的主要需求. 时间性 注释 支撑数据 数据质量 集成性. 生物分子数据库几个明显的特征:. ( 1 )数据库的更新速度不断加快,数据量呈指数增长趋势 ( 2 )数据库使用频率增长更快 ( 3 )数据库的复杂程度不断增加 ( 4 )数据库网络化 ( 5 )面向应用 ( 6 )先进的软硬件配置. 生物分子数据库. 一级数据库

rusty
Download Presentation

分子生物学数据库

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 分子生物学数据库 第三章

  2. 第一节 引言 生物分子数据 高速增长 分子生物学 及相关领域研究人员 迅速获得最新实验数据 建立生物分子数据库

  3.  生物分子数据库应满足5个方面的主要需求 • 时间性 • 注释 • 支撑数据 • 数据质量 • 集成性

  4. 生物分子数据库几个明显的特征: (1)数据库的更新速度不断加快,数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置

  5. 生物分子数据库 • 一级数据库 • 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 • 二级数据库 • 对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的 。

  6. 第二节 核酸序列数据库 • 国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http://www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank http://www.ncbi.nlm.nih.gov/Web/Genbank/index.html (3)日本遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/

  7. 三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。 • 这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。 • 以下着重介绍EBML

  8. EMBL的数据来源 • 用户提交 • 从生物医学杂志收录已发表的序列资料

  9. EMBL核酸数据库中的每一个序列数据被赋予一个EMBL核酸数据库中的每一个序列数据被赋予一个 登录号,它是一个永久性的唯一标识 EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分 文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(annotation) “ID”为序列的标识符行,包括登录号、类型,分子的长度 “AC”为登录号行; “XX”为分隔符号行;“DT”为创建和更新日期行 “DE”为序列描述行; “KW”为关键字行; “OG”行描述细胞组织; “OS”行描述生物体种属; “OC”行描述生物体分类信息; “RN”描述参考文献的编号; “RP”描述参考文献的页码; “RA”描述参考文献的作者; “RT”描述参考文献的题目; “RL”描述参考文献的出处; “RC”描述参考文献的注解; “RX”、“DR”行描述交叉引用信息; “FH” 为特征开始符号; “FT”为特征表行 (1)Feature Key,它是描述域生物功能的关键字; (2)Location,指明特征在序列中的特定位置; (3)Qualifiers,描述关于一个特征的辅助信息; 文件体由序列本身所组成,由“SQ”标志的行开始。 序列结束的标记是“//”。

  10. 登录号 日期 序列描述 关键词 物种 编号 分类信息 页码 作者 题目 出处

  11. 特征开始符号 特征表行 文件体

  12. 提交数据 • 编辑电子表格 • 利用Authorin程序 • 利用基于WWW网络环境的序列提交系统

  13. 使用EMBL (1)CD-ROM形式 (2)ftp服务器 (3)Gopher服务器 (4)WWW服务器 这是目前最常用的一种形式

  14. EMBL提供一些与序列相关的检索操作(基于3W服务器)EMBL提供一些与序列相关的检索操作(基于3W服务器) (1)序列查询 最简单的查询就是通过序列的登录号(如X58929) 或序列名称(如SCARGC)直接查询。 •  如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户 •  如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包含参考文献摘要等信息的MEDLINE链接 •  如果该序列有到其它数据库的交叉索引,也返回相应的链接 例如: 登录号为J00231的核酸序列具有这样一个交叉索引行: DR SWISS-PROT:P01860;GC3_HUMAN

  15. (2)核酸同源性搜索 • 3W服务器支持用户使用FastA或BLAST程序进行核酸同源搜索。 • FastA和BLAST根据给定的目标序列在数据库中搜索其同源序列。 • 其他:SRS序列查询服务

  16. GenBank • GenBank是国际上最著名的核酸数据库。GenBank数据库140.0版(2004年2月)含有3000多万条序列,总长度接近400亿对碱基。其序列数据组织方式采用ASCII文本文件,主要存放核酸序列数据,同时还有一些辅助文件,存放于序列相关的辅助信息,如作者名、基因名、关键字、参考文献、其他数据库链接等。

  17. 2、基因组数据库(GDB) --人类基因组计划所得到的图谱数据 目前GDB包含对下述三种对象的描述: • 人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、 EST、综合区域、contigs、重复等; • 人类基因组图谱 包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来; • 人类基因组中的变化 包括基因突变和基因多态性,加上等位基因频率数据。

  18. 与染色体相关的信息

  19. 其它模式生物基因组数据库 • 如:鼠基因组数据库 MGD http://www.informatics.jax.org/ • 酵母基因组数据库 SGD http://genome-www.stanford.edu/Saccharomyces/

  20. 3、人类基因组数据库Ensembl Ensembl (http://www.ensembl.org/) • Ensembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。 现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。 • 例如:基因 • 通过实验发现的 • 或者是通过GenScan程序预测的 • 其他的特征: 单核苷酸多态性(SNP)、重复序列等

  21. Ensembl 数据库结构图

  22. Ensembl提供多种查询方式 • 通过关键字查询 • 用BLAST进行相似序列的搜索 • 另一种更直观的方式是显示各染色体 用户可以在染色体水平上选择感兴趣的位点,逐层放大浏览整个基因组

  23. 人的第9号染色体及大鼠对应的染色体片段

  24. 4、表达序列标记数据库dbEST EST(Expressed Sequence Tags)方法已被证明是识别转录序列的最有效方法 ,EST序列大约覆盖了人类基因的90%。 DbEST (http://www.ncbi.nlm.nih.gov/dbEST/) 是GenBank的一个部分,该数据库包括不同生物的EST序列 数据及其它相关信息,主要是从大量不同组织和器官得到的短 mRNA片段。 有关EST的数据 WEB页面或email dbEST数据库 FTP

  25. 5、序列标记位点数据库dbSTS STS(Sequence Tagged Sites)是序列标记位点 dbSTS(http://www.ncbi.nlm.nih.gov/dbSTS/) 是NCBI的一个数据源,包含基因组短标记序列(STS) 的组成和定位信息。 可以通过BLAST搜索STS序列。

  26. 6、面向基因聚类数据库UniGene 每个UniGene群包含: • 代表一个唯一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱 • 除了基因的序列之外,还包括大量的EST序列。 • 目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的EST数据。 UniGene( http://www.ncbi.nlm.nih.gov/UniGene/) 数据库将GenBank中的序列进行自动分类,形成 面向基因群的非冗余集合。

  27. 第三节 蛋白质序列数据库 1、PIR(Protein Information Resource) • 目的: 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。 • 它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。 • 所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。

  28. 除了蛋白质序列数据之外,PIR还包含以下信息:除了蛋白质序列数据之外,PIR还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。

  29. PIR提供三种类型的检索服务: 一是基于文本的交互式查询, 用户通过关键字进行数据查询。 二是标准的序列相似性搜索, 包括BLAST、FastA等。 三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。

  30. 三个子数据库

  31. 2、SWISS-PROT SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的 SWISS-PROT中的数据来源于不同源地: (1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录; (4)研究人员直接提交的蛋白质序列数据

  32. SWISS-PROT有三个明显的特点 • 注释 • 最小冗余 • 与其它数据库的连接

  33. (1)注释 • 在SWISS-PROT中,数据分为核心数据和注释两大类。 • 核心数据包括: 序列数据、参考文献、分类信息(蛋白质生物来源的描述) • 注释包括: • 蛋白质的功能描述; • 翻译后修饰; • 域和功能位点,如钙结合区域、ATP结合位点等; • 蛋白质的二级结构; • 蛋白质的四级结构,如同构二聚体、异构三聚体等; • 与其它蛋白质的相似性; • 由于缺乏该蛋白质而引起的疾病; • 序列的矛盾、变化等。

  34. (2)最小冗余 • 尽量将相关的数据归并,降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。 (3)与其它数据库的连接 对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。

  35. 提交序列数据 • (a)编辑电子表格 • (b) 利用Authorin程序 • (c)WWW服务器 • 使用SWISS-PROT • (a)CD-ROM形式 • (b)ftp服务器 • (c)Gopher服务器 • (d)WWW服务器(SRS) • 与序列相关的操作 • (a)序列查询 • (b)搜索同源蛋白质序列

  36. 3、TrEMBL • TrEMBL (http://www.ebi.ac.uk/trembl/index.html)是与SWISS-PROT相关的一个数据库。 • 包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。 • TrEMBL有两个部分: • SP-TrEMBL(SWISS-PROT TrEMBL)   包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的登录号。 • REM-TrEMBL(REMaining TrEMBL)    包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。

  37. 4、蛋白质数据仓库UniProt 包括: Swiss-Prot TrEMBL PIR 用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP 下载数据。

  38. UniProt包含3个部分: • UniProt Knowledgebase(UniProt)蛋白质序列、功能、分类、交叉引用等信息存取中心 • UniProt Non-redundant Reference(UniRef)数据库将密切相关的蛋白质序列组合到一条记录中以便提高搜索速度; • UniProt Archive(UniParc)资源库,记录所有蛋白质序列的历史。

  39. 第四节 生物大分子结构数据库 1、PDB(Protein Data Bank)http://www.rcsb.org/pdb/ • PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构 • 蛋白质 • 核酸 • 糖类 • 其它复合物

  40. 一种是显式序列信息(explicit sequence) 在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。 • 一种是隐式序列信息(implicit sequence) PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。

  41. HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR, NMR, 30 STRUCTURES COMPND MOL_ID: 1; COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR; 。。。。。。 COMPND 8 BIOLOGICAL_UNIT: MONOMER SOURCE MOL_ID: 1; 。。。。。。 SOURCE 7 EXPRESSION_SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN, 。。。。。。 REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。。。。。。 REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1 - 111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183 - 304 NOT IN ATOMS LIST REMARK 999 THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR. DBREF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182 SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED SEQRES 1 71 ASP TYR LYS ASP ASP ASP ASP LYS LEU LYS PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CYS SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS ASN ILE CYS GLU SEQRES 6 71 ASP GLY PRO ASN GLY PHE HELIX 1 1 ASP 12 PHE 15 5 4 HELIX 2 2 ASN 34 THR 36 5 3 HELIX 3 3 LEU 57 ILE 63 1 7 SHEET 1 A 2 ARG 29 ASN 33 0 SHEET 2 A 2 GLN 38 PHE 42 -1 N PHE 42 O ARG 29 CRYST1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 1 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 1.000000 0.000000 0.000000 0.00000 SCALE2 0.000000 1.000000 0.000000 0.00000 SCALE3 0.000000 0.000000 1.000000 0.00000 PDB文件 示意

More Related