slide1 l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Introduction to Genetic Information Processing Part 1 PowerPoint Presentation
Download Presentation
Introduction to Genetic Information Processing Part 1

Loading in 2 Seconds...

play fullscreen
1 / 116

Introduction to Genetic Information Processing Part 1 - PowerPoint PPT Presentation


  • 194 Views
  • Uploaded on

《 理论与系统生物学夏令营讲座 》. Introduction to Genetic Information Processing Part 1. 朱怀球 北京大学理论生物学中心 北京大学工学院生物医学工程系. 主要研究特点 基于生物医学实验研究获得的生物信息数据,面向生物信息学重要问题,运用数理科学、计算科学等方法和技术,进行分析、建模和预测。. 主要研究方向 - 微生物(含病原菌)基因组分析和基因组比较分析 - 人肠道共生菌群落基因组及环境基因组的生物信息方法及技术 - 基因表达调控信号及剪接机制 - 蛋白质分子动力学模拟和分析. Zhu’s Lab

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

Introduction to Genetic Information Processing Part 1


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

《理论与系统生物学夏令营讲座》

Introduction to Genetic Information Processing

Part 1

朱怀球

北京大学理论生物学中心

北京大学工学院生物医学工程系

slide2

主要研究特点

基于生物医学实验研究获得的生物信息数据,面向生物信息学重要问题,运用数理科学、计算科学等方法和技术,进行分析、建模和预测。

slide3

主要研究方向

- 微生物(含病原菌)基因组分析和基因组比较分析

- 人肠道共生菌群落基因组及环境基因组的生物信息方法及技术

- 基因表达调控信号及剪接机制

- 蛋白质分子动力学模拟和分析

slide4

Zhu’s Lab

在读博士生(5名)

在读硕士生(4名)

在读本科生(本科生科研计划或毕业论文)(4名)

slide7

主要内容

  • 重点:遗传信息相关的基因组结构分析
  • 目标:在基因组序列水平研究生物系统的结构、
  • 功能和进化
  • 方法:统计分析、数学建模
  • 基因组序列结构、基因组学简介
  • 基因组注释及功能预测方法研究
  • 分子进化及基因组进化研究
slide8

§1

基因、基因组和基因组学(From Gene, Genome to Genomics)

slide9

基因(Gene)

  • 基因是遗传信息的一种独立单位(Mendelian factor)。
  • 基因是编码一条多肽链或功能RNA(如rRNA、tRNA)所必需的全部核苷酸序列,是DNA分子链上特定区域。
  • 从分子生物学的角度而言,一般认为基因是负载特定生物遗传信息的DNA分子片段,基因在一定条件下能够表达这种遗传信息,产生特定的生命功能。

G J Mendel

(1822-1884)

slide10

基因的种类

Today when we speak of a gene for some malady, a regulatory gene, a structural gene, or a gene frequency, it is entirely possible that we are deploying different gene concepts even though we are using the same term.

——M. R. Dietrich,2000

结构基因(structural gene)

调控基因(regulatory gene)

  • 二者都可以转录成mRNA,并可被翻译成多肽链。
  • 调控基因的作用是调控其它基因的活性,转录成的mRNA翻译成阻遏蛋白质或激活蛋白质。

(From Genes VIII)

slide11

rRNA基因和tRNA基因

  • 只转录产生相应的RNA而不翻译成多肽链。
slide12

启动子(promotor)和操纵基因(operator)

  • 启动子是转录时RNA聚合酶与DNA结合的部位;
  • 操纵基因是调控基因产物(如阻遏蛋白质或激活蛋白质)与DNA结合的部位;
  • 严格地讲,二者只是不转录的DNA片段,不能称为基因。
slide13

基因组(Genome)

  • 基因组(genome)是指一个细胞或病毒包含的全部遗传信息的总和。

GEne+chromosOME (H. Winker, 1920)

-The genome of an organism is its whole hereditary information and is encoded in the DNA (or, for some viruses, RNA). This includes both the genes and the non-coding sequences of the DNA.

-More precisely, the genome of an organism is a complete DNA sequence of one set of chromosomes.

  • 绝大部分基因组,包括所有的细胞生命形式的基因组,是由DNA组成;一些病毒具有RNA基因组;
  • 基因组的大小用碱基对(base pair,bp)或核苷酸(nucleotide,nt)的数量来表示:103为kb,106为Mb。
slide14

真核生物:指一个物种的单倍体染色体所含有的全部DNA分子;真核生物:指一个物种的单倍体染色体所含有的全部DNA分子;

  • 原核生物:一般只有一个环状DNA分子,其上所有的基因为一个基因组;
  • 真核生物通常含有2~3个基因组

-核基因组(Nuclear genome)

-线粒体基因组(Mitochondrial genome)

-质体基因组(Plastid genome)

  • 真核细胞中的细胞器(如叶绿体、线粒体等)中的DNA也为环状,构成叶绿体基因组、线粒体基因组
  • If not specified, “genome” usually refers to the nuclear genome.
slide15

基因组大小与物种的关系

  • 基因组的大小大致上与物种进化的复杂性相关;
  • 大多数真核生物的基因组都比原核生物的基因组大,比原核生物的基因组复杂;
  • 随着动物或植物进化程度的上升,每个单倍体的DNA含量一般趋于增加,但是存在例外▬▬► C值佯谬
  • 思考:为什么会出现“C值佯谬”?
slide18

基因数目与物种的关系

  • 基因数目的多少大致上与物种进化的复杂性相关;
  • 在高等动植物中,巨大的基因组并不意味着有巨量的基因数目。
  • 人类究竟有多少个基因?
  • 理论上:根据基因组的大小,可具有106个基因
  • “生物体的复杂性并不是简单地与基因数量相关联的。”(G. Rubin)
  • 5万,6万 ,7万 ,8万 ,14万!……?
  • 4万,3万,……?
  • 打赌!
  • 基因数目猜奖(Gene Sweepstake)
slide19

生物学家们为人类基因的数目打赌

生物学家们对基因组里到底有多少基因的猜测一直有极大的不同。2000年,在纽约冷泉港召开的一个会议上,他们设立了一美元一个(次)的基因数目赌注。胜者将于2003年揭晓,他除了可获得全部赌金外,还可得到一本由J. Watson亲笔签名的皮革封面《双螺旋》一书。

如果基因组是生命的天书,那么基因就是写成这本书的词汇。生物学家们一直假设,微生物的故事较短,而人类的故事则是一部巨作,人类拥有8万到10万个基因。但是UC Berkly果蝇基因组计划的主任G. Rubin指出,果蝇的基因比我们所认为的最简单的线虫少了5,000个。他警告说:“生物体的复杂性并不是简单地与基因数量相关联的。”

德国分子生物技术研究所的A. Rosenthal说,我们得出的结论是整个基因组有不多于4万个基因。法国的分子遗传学家H. R. Crollius通过比较现有的人类基因序列与淡水河豚基因序列,提出了更低的人类基因数估计:在27,700与34,300之间。华盛顿大学的基因学家P. Green提出人类基因数大约为35,000。 美国国家人类基因组研究所主任F. Collins表示他同意Green的估计,将他1美元的赌金下在48,011个基因上。但Rockville的基因组研究所(TIGR)的J. Quackenbush根据TIGR的人类基因指数的估计,将他的1美元赌在118,259个基因上。加州Incyte Genomics公司的S. LaBrie赌的基因数是153,478个,该公司在1999年9月曾宣布人类基因至少有14万个。

但是支持人类基因数目是一个较小数的科学家们也不灰心,他们争论说生物体的复杂性来自于基因如何被管理或表达的,而不是基因数目本身。Rosenthal解释说:“我们不需要那么多的基因成为高等动物,”他赌的是38,000个。你赌多少呢?

slide20

基因轮盘赌(Gene Sweepstake)

  • http://www.ensembl.org/Genesweep/
  • The Gene Sweepstake will run between 2000 and 2003. The rules are:
  • It costs $1 to make a bet in 2000, $5 in 2001 and $20 in 2002.
  • Bets are for one number. Closest number wins, and in case of ties, the pot is split.
  • A gene is a set of connected transcripts. A transcript is a set of exons via transcription followed (optionally) by pre-mRNA splicing. Two transcripts are connected if they share at least part of one exon in the genomic coordinates. At least one transcript must be expressed outside of the nucleus and one transcript must encode a protein .
  • Assessment of the method used to determine the gene will occur by voting at Cold Spring Harbor Genome Meeting 2002. Researchers will be invited to submit their methods to the community at this time.
  • Assessment of the gene number will occur on the 2003 CSHL Genome meeting.
  • People betting should write their name, email and number in the Gene Sweepstake book, held at Cold Spring Harbor.
  • One bet per person, per year. Year defined as a calendar year.
  • No pencil bets (ie, you can't change your number).

Last Genesweep Votes Vote distribution

Bets

165

Mean

61,710

Lowest

27,462

Highest

153,478

slide21

Who swept the Gene Sweepstake?

Human gene number wager won

Geneticists draw sweepstake despite uncertainty over final tally3 June 2003

The winner was announced at last week's Homo Sapiens genetics meeting at Cold Spring Harbor Laboratory, New York. The gene champ, Lee Rowen, who directs a sequencing project at the Institute for Systems Biology in Seattle, Washington - beat 460 other hopefuls to take home part of the cash pot.

Rowen's wager at 25,947 is closest to the current reckoning in a genetic database called Ensembl, of 24,847. Like all good gamblers, her number was "a stab"; one runner-up picked 27,462 because the 27 April, 1962 was his birthday.

Recognizing genes - regions of DNA that code for proteins - has proved tougher than expected. One reason is that predictor programs, which trawl through DNA for landmark sequences characteristic of a gene, are notoriously unreliable.

slide22

人类基因数目之谜

  • 目前已经发现和定位~26,000个功能基因,其中尚有30%多的基因尚不知道功能。
  • 原先曾经预测人类约有14万个基因,Celera公司2003年将人类基因总数定在26,383到39,114个之间,只是线虫或果蝇基因数量的两倍,人有而鼠没有的基因只有300个。根据Ensembl数据库得到的计算结果,2004年的最新估计数目是23,299。
  • 基因组的大小和基因的数量在生命进化上可能不具有特别重大的意义;
  • 人类的基因较其它生物体更“有效” ;
  • 人类的复杂性更主要的体现在蛋白质的复杂网络中,即蛋白质就是构成生命的基本构件。Celera公司首席科学家Venter认为:“大部分的生物学行为发生在蛋白质水平,而不是基因水平。”
slide23

原核基因组、真核基因组

  • 原核生物(Prokaryote):原核生物细胞结构的一些特点:①核质与细胞质之间无核膜,因而无成形的细胞核;②遗传物质是一条不与组蛋白结合的环状DNA丝,不构成染色体;③以简单二分裂方式繁殖;……
  • 真核生物(Eukaryote):真核生物细胞结构的一些特点:①具有由染色体、核仁、核液、双层核膜等构成的细胞核;②转录在细胞核中进行,蛋白质的合成在细胞质中进行;③有内质网、高尔基体、溶酶体、液泡等细胞器;④在细胞周期中有专门的DNA复制期(S期);……
slide24

人类基因组的组成

  • 核基因组(nuclear genome): 由大约30亿bp组成,分为24条线性DNA分子(55~250Mb),分别包含在24条不同的染色体中(22条常染色体和2条性染色体X、Y)
  • 线粒体基因组(mitochondrion genome):长为16,569bp的环状DNA分子,位于产生能量的细胞器——线粒体中
slide25

真核生物基因组结构特点

  • 真核生物基因组DNA与蛋白质结合形成染色体,储存于细胞核内,除配子细胞外,体细胞内的基因的基因组是双份的(即双倍体,diploid),即有两份同源的基因组。
  • 真核细胞基因转录产物为单顺反子(Monocistron),即一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链,每个基因转录有各自的调节元件。
  • 存在重复序列,重复次数可达百万次以上。
  • 基因组中不编码的区域多于编码区域。
  • 大部分基因含有内含子,因此,基因是不连续的。
  • 基因组远远大于原核生物的基因组,具有许多复制起点,而每个复制子的长度较小。
slide27

真核基因的内含子/外显子(intron/exon)结构

  • 真核生物的基因一般为断裂基因(interrupted gene),由内含子和外显子组成,编码区被内含子分隔成若干段;
  • 内含子-外显子结构的意义:提供编码区进行重组的机会,产生新基因,有利于真核生物的进化。

例:人类第21号染色体的Contig 3部分(长3,450,497bp)

基因“TRPC7”的总长为62,668bp,其中编码部分总长为3,345bp,由25个外显子组成,长度范围48~354bp。

Intergenic region

Gene

Exon

Intron

slide30

与转录有关的调控信号

启动子(promoter)

增强子(enhancer)

负性调节元件

LCR(Locus control regions)(基因座调控区)

转录因子

与转录终止有关的序列:

mRNA的剪接

slide31

基因家族、假基因

  • 多数真核生物基因表现为多拷贝(某些基因多次重复),称为基因家族(gene family);
  • 真核生物的基因多拷贝为大量产生RNA、蛋白质所需要;或者可以在不同组织、不同发育阶段被表达;
  • 基因家族产生的推测:进化过程中的基因加倍;
  • 由于突变导致失去功能的基因拷贝叫假基因(pseudogene)。

假基因:与功能性基因密切相关的DNA系列,但由于缺失、插入和无义突变失去阅读框架而不能编码蛋白质产物。有些人类假基因可以转录但不能翻译成蛋白质。

假基因的两种类型:

(1)由于一种基因的加倍而不能表达,但保留原来亲本基因的外显子及内含子;

(2)仅含有亲本基因的外显子,源于mRNA并通过逆转录而重新整合进基因组的。

slide32

重复DNA序列

高度重复DNA序列是多数真核生物基因组的主要成分

超过90%为重复序列,不编码mRNA前体或其它RNA(个体间的重复序列有巨大差异--> DNA指纹)

重复序列分为3类:高度重复序列、中等重复序列、低重复序列。

目前的一些认识:

(1)GC含量低,AT含量高。(AT的氢键弱);

(2)3’端和5’端有直接重复序列的存在。有利于形成环状结构。

(3)自私DNA(selfish DNA):在哺乳动物包括人体基因组中,存在着大量的非编码序列(高度重复序列、内含子、基因间区域等),其中只有很小一部份具有重要的调节功能,绝大部部分都没有什么特殊功用。在这些DNA序列中虽然积累了大量缺失,重复或其他突变,但对生物并没有什么影响,它们的功能似乎只是自身复制,所以人们称这类DNA为自私DNA或寄生DNA(parasite DNA)。自私DNA也许有重要的功能,但目前我们还不了解。

Richard Dawkins, 1976

slide33

人类基因组的外显子和内含子数目及长度的统计结果比较人类基因组的外显子和内含子数目及长度的统计结果比较

(Deutsch & Long,1999)

(外显子的长度单位是氨基酸,内含子的长度单位是核苷酸)

slide34

人类基因组外显子长度的概率分布要比内含子的概率分布要紧凑得多。人类基因组外显子长度的概率分布要比内含子的概率分布要紧凑得多。

人类基因组外显子和内含子长度的统计分布图

(Deutsch & Long,1999)

(外显子长度的单位为氨基酸,内含子长度的单位为核苷酸;图中横坐标表示长度,纵坐标表示频率。)

slide35

原核生物基因组的研究意义

1、揭示生命活动的基本规律——导致现代分子遗传学的许多重大发现

染色体、DNA双螺旋、遗传密码、DNA复制、中心法则…

slide37

3、进行分子遗传学的良好材料

4、在农业、工业和生物制药工程上的应用十分广泛

作为微生物基因工程的反应器,直接运用于干扰素、人胰岛素、生长激素、乙型肝炎疫苗等现代基因工程产品的生产。

slide38

原核生物基因组结构的特点

1、原核生物基因组一般比真核生物基因组小得多

E. coli的基因组(4.6Mb)约为酵母基因组(12.1Mb)的2/5

2、绝大部分原核生物基因组由一个单一的环状DNA分子组成

3、原核生物的基因通常比真核生物的少

E. coli:4000多个基因,人:~30000个

4、原核生物的基因绝大多数是连续基因,不含间隔的内含子;基因组结构紧密,重复序列远少于真核生物的基因组。

  • 例子:E. coli K-12
  • 双链环状DNA分子,全基因组长为4,600kb;
  • 目前已经定位的基因有4,289个;
  • 非编码区占的比例约为11.4%。
slide39

长开放阅读框(ORF,open reading frame)

若终止密码子出现在非编码核酸序列中,大约每21个密码子出现一次(3/64)

绝大部分原核生物蛋白质的长度大于60个氨基酸;

——(E. coli:蛋白质编码区域平均长度为316.8个密码子,不到1.8%的基因的长度小于60个密码子)

长ORF表明该区域可能对应于一个原核生物基因的编码序列

——从统计学角度来看,如果所有的密码子在随机的核酸序列中以相同的频率出现,则不含终止密码子且长度为N个密码子的序列出现的概率为(61/64)N。长度为N的ORF的95%显著性置信度等价于5%“随机”命中的可能性,即(61/64)N=0.05,这里N等于60,表示典型长度的ORF中密码子的数目。

slide40

高基因密度

原核生物基因组的许多信息都是为了维持细胞的基本功能,如构造和复制DNA,产生新蛋白质,以及获得和存储能量。

完全测序的细菌和古细菌的基因组数据表明,其中85%到88%的核酸序列与基因的编码直接相关。

例如,在E.coli中总共有4,289个基因,平均编码长度约为950bp,而基因之间的平均间隔长度只有~120bp。

slide41

连续的基因结构

与真核基因结构相比较,原核基因的结构相对简单。原核基因为连续基因,其编码区是一个完整的DNA 片段。但原核基因的转录起始、翻译起始的调控机制比较复杂。

完整的基因结构从基因的5’-端启动子区域开始,到3’-端终止区结束。

基因的转录开始位置由转录起始位点确定,转录过程直至遇到转录终止位点结束,转录的内容包括5’UTR、开放阅读框以及3’UTR。

基因翻译的准确起止位置由起始密码子和终止密码子决定,翻译的对象即为介于这两者之间的开放阅读框。

slide43

1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基

因组DNA序列的意义

1986.3 Dulbecco在《Science》撰文 “肿瘤研究的转折点:

人类基因组的测序”

美国能源部(DOE)提出“人类基因组计划”草案

1987 美国能源部和国家卫生研究院(NIH)联合为“人类

基因组计划”下拨启动经费约550万美元

1989 美国成立“国家人类基因组研究中心”,Watson担任

第一任主任

1990.10 经美国国会批准,人类基因组计划正式启动

基因组计划历史回顾

James Watson

Walter Gilbert

slide44

1995 第一个自由生物体流感嗜血菌(H. inf)的全基因组测序完成

1996 完成人类基因组计划的遗传作图

启动模式生物基因组计划

Saccharomyces cerevisiae

酿酒酵母

Caenorhabditis elegans

秀丽线虫

H.Inf 全基因组

slide45

1997 大肠杆菌(E. coli)全基因组测序完成

1998 完成人类基因组计划的物理作图

开始人类基因组的大规模测序

Celera公司加入,与公共领域竞争

启动水稻基因组计划

1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度

水稻基因组计划

大肠杆菌及其全基因组

slide46

2000 Celera公司宣布完成果蝇基因组测序

国际公共领域宣布完成第一个植物基因组——拟南芥全基

因组的测序工作

2000.6.26 公共领域和Celera公司同时宣布完成人类基因组工作草图

2001.2.15 《Nature》刊文发表国际公共领域结果

2001.2.16 《Science》刊文发表Celera公司及其合作者结果

Drosophila melanogaster

果蝇

Arabidopsis thaliana

拟南芥

slide47

2001年2月15日《Nature》封面

2001年2月16日《Science》封面

slide48

2001年8月26日 人类基因组“中国卷”的绘制工作宣告完成。

2002年 水稻、小鼠、疟原虫等基因组测序完成

2003年4月14日 中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的所有目标全部实现。

2003年10月,2004年10月人类基因组完成图公布。

slide49

基因组学(Genomics)

1982年,第一个核酸序列数据库GenBank(Los Alamos)

——1982年,606条序列,长度680,338bp

——2004年,约43,322,756条序列,长度约7.11010bp

2005:

International sequence databases exceed 100 gigabases !

slide50

基因组学(Genomics)

已完成测序的5,700多个基因组

(http://www.ebi.ac.uk/genomes/,2009年2月)

slide51

基因组学(Genomics)

  • 早期的基因组学范畴为基因组的图谱绘制、测序和分析
  • -“Genomics is the study of an organism’s entire genome. The field includes intensive efforts to determine the entire DNA sequence of organisms and fine-scale genetic mapping efforts.”(From Wikipedia)
  • 当前的基因组学范畴涵盖诸多领域,通常指利用全基因组序列信息和高通量基因组技术,针对基因组水平上认识生物系统的结构、功能和进化的分子基础。
  • -“That most of these terms, old and new, have been contrived as slogans to attract attention, … and they are embedded in the advancing edge of science and technology.”(Lederberg & McCray, 2001)
  • -“Hence we also see flanking extensions like functional genomics and structural genomics, to widen the horizon of genomic studies to what resembles the overall medley of genetics of yesteryear, albeit with all the power of high technology.”( Lederberg & McCray, 2001 )
genomics vs genetics
Peter Goodfellow (1997, Nature Genetics 16:209-210):“...I would define genetics as the study of inheritance and genomics as the study of genomes. The latter informs the former and includes the sequencing of genomes…”Genomics vs. Genetics

Genetics: study of inherited phenotypes

slide53

前基因组时代的“钓鱼”和后基因组时代的“捞鱼”前基因组时代的“钓鱼”和后基因组时代的“捞鱼”

slide54

基因组学领域的分类

基因组图谱绘制、测序

基因和基因组组织

基因组调节

网络结构

蛋白质结构特征

结构基因组学

(Structural genomics)

功能基因组学

(Functional genomics)

根据生物系统特征分类

转录组学(Transcriptomics)

蛋白质组学(Proteomics)

代谢组学(Metabolomics)

slide55

结构基因组学(Structural genomics)

基因、蛋白质和其它生物大分子的全基因组(genome-wide)结构研究,包括基因组图谱绘制、基因组测序、基因组组织、以及蛋白质结构描述。

关键问题1:基因组数据分析的算法和工具。全基因组测序和基因组注释仍然是结构基因组学的关键,基因组序列提供了基因组组织和结构的重要信息;

关键问题2:基因组结构的破坏和控制。通过关闭基因功能或改变表达模式来检测;

关键问题3:蛋白质结构测定和预测。实验方法(蛋白质表达和结晶、X射线晶体分析、NMR等)与计算方法(统计分析、建模、蛋白质结构预测)相结合。

slide56

功能基因组学(Functional genomics)

  • 基于全基因组(genome-wide)在系统水平上对生物系统功能各方面的研究,包括基因功能、调节网络。
  • 功能基因组学的特征是将大规模的实验方法与统计分析、数学建模和实验结果分析结合起来。
  • 全面认识和理解基因功能特征必须在RNA、蛋白质和代谢物水平上进行功能分析。

转录组学(Transcriptomics)

蛋白质组学(Proteomics)

代谢组学(Metabolomics)

  • 功能基因组学
  • (Functional genomics)
slide57

转录组学(Transcriptomics)

  • 转录组(transcriptome):细胞中所能转录得到的全部mRNA的集合
  • 转录组学:通过高通量方法研究转录物组的表达动力学(发生和变化规律)
  • 基因在mRNA水平上的变化与蛋白相关,研究mRNA表达模式对阐明未知基因的功能、调节途径和蛋白质网络等具有重要的意义
  • 转录组不是细胞的功能执行实体,转录组分析只能间接探讨基因的功能
slide58

蛋白质组学(Proteomics)

  • 蛋白质组(proteome):一个基因组编码的全套蛋白质集合,即包括一种细胞乃至一种生物所表达的全部蛋白质。
  • 蛋白质组学:通过直接测定和鉴别蛋白质的高通量方法,大规模地研究蛋白质组的表达动力学和蛋白质相互作用。
  • 蛋白质表达动力学和蛋白质相互作用的研究是基因功能研究的重要途径。
  • 主要包括三个领域:

-蛋白质鉴定和分析

-基于蛋白质组水平(proteome-wide)的比较研究

-蛋白质-蛋白质相互作用

slide59

代谢组学(Metabolomics)

  • 代谢组(metabolome):指某一生物或细胞在一特定生理时期内所有的低分子量代谢产物(如metabolic intermediates, hormones and other signaling molecules, and secondary metabolites)。
  • 代谢组学:大规模研究代谢组的动力学和相互作用。( “基因组学和蛋白质组学告诉你什么可能会发生,而代谢组学则告诉你什么确实发生了。”)
  • 代谢组分析提供了有关基因功能的重要信息。与转录组、蛋白质组相比,代谢物的数量远少于基因或蛋白的数量,因此代谢组分析相对简单。(S. cerevisiae: ~6000蛋白编码基因、600低分子量中间产物)
  • 主要有两种方法:

-识别由未知功能基因编码的酶催化的生化反应(由表及里)

-利用已知功能基因的代谢物分析来阐明未知基因的可能作用(由此及彼)

slide60

基因组学的其它分类

生化基因组学

遗传基因组学

进化基因组学

生理基因组学

计算基因组学

生态基因组学

基础基因组学

应用基因组学

种群基因组学

群落基因组学

生态系统基因组学

根据学科交叉关系分类

工业基因组学

农业基因组学

环境基因组学

医学基因组学

化学基因组学

毒理基因组学

药物基因组学

癌基因组学

病理基因组学

slide61

基因组学的其它分类

人类基因组学

动物基因组学

植物基因组学

微生物基因组学

根据所研究物种分类

病毒基因组学

细菌基因组学

古细菌基因组学

真菌基因组学

比较基因组学

(Comparative genomics)

slide62

生物信息数据库简介

community

organs

whole cell

bio-complexity

pathways

complexes

proteins

biological data

genes

slide63

一级数据库

  • 直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。
  • 一级核酸数据库:GenBank数据库、EMBL数据库、DDBJ数据库
  • 一级蛋白质序列数据库:SWISS-PROT库、PIR库
  • 一级蛋白质结构数据库:PDB数据库
  • 二级数据库
  • 在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。
  • 人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质序列功能位点数据库Prosite等。
slide65

一个数据库记录(entry)一般由两部分组成:

  • 1. 原始序列或结构数据(sequence or structral data)
  • 2. 描述这些数据生物学信息的注释(annotation)
  • 注释中包含的信息与相应数据同样重要和有应用价值
  • 序列数据的完整性和注释工作量:
  • 1. 序列数据广,序列注释不够完整
  • 2. 库数据面窄,序列注释全面
  • 数据库的动态更新:
  • 1. 不断增加
  • 2. 不断修正
slide66

一级数据库

A) 核酸(DNA)序列数据库

  • 世界三大核酸序列数据库
  • (公共序列数据库,Public Sequence Database)
  • GenBank(美国)
  • EMBL(欧洲)
  • DDBJ(日本)
slide67

GenBank(美国国家生物技术信息中心,NCBI)

  • 1980s
  • NIH(National Institute of Health)
  • Los Alamos National Lab
  • NCBI(National Center for Biotechnology Information)
  • NLM(National Library of Medicine)

GenBank网址 http://www.ncbi.nih.gov/Genbank/

slide68

EMBL(欧洲分子生物学实验室,EMBL)

  • 1982
  • European Molecular Biology Laboratory
  • EBI(European Bioinformatics Institute)

EMBL网址 http://www.ebi.ac.uk/embl

slide69

DDBJ(日本国家遗传学研究所,NIG)

  • 1986
  • Databank of Japan
  • NIG(National Institute of Genetics)

DDBJ网址 http://www.ddbj.nig.ac.jp

slide70

B) 基因组数据库

  • 来源于人类基因组计划及各种模式生物基因组计划
  • 1977年,最早获得的生物基因组全序列是噬菌体(53kb)
  • 1995年,第一个自由生物体流感嗜血菌(H. inf)被完全测序
slide71

部分生物基因组计划网址

老鼠(Mouse) http://www.informatics.jax.org/mgd.html

小鼠(Rat) http://ratmap.gen.gu.se

狗(Dog) http://mendel.berkeley.edu/dog.html

牛(Cow) http://locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl

猪(Pig) http://www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html

羊(Sheep) http://dirk.invermay.cri.nz

鸡(Chicken) http://www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html

斑马鱼(Zebra fish) http://zfish.uoregon.edu

线虫(C. elegans) http://www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html

果蝇(Drosophila) http://morgan.harvard.edu

蚊子(Mosquito) http://klab.agsci.colostate.edu

拟南芥(Arabidopsis) http://genome-www.stanford.edu/Arabidopsis

棉花(Cotton) http://algodon.tamu.edu

玉米(Maize) http://www.agron.missouri.edu

水稻(Rice) http://www.staff.or.jp

大豆(Soya) http://mendel.agron.iastate.edu:8000/main.html

树(Trees) http://s27w007.pswfs.gov

slide72

GDB(美国、加拿大)

  • 1990年,John Hopkins大学建立,后由加拿大儿童医院生物信息中心管理,2003年起,GDB-related software and public data were transferred to RTI International .

数据内容:

基因组结构数据、基因组图谱、基因多态性数据

与其它分子生物信息网络资源(EMBL、GenBank…)的链接

GDB网址 http://www.gdb.org/

slide73

AceDB

线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。

提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。

数据内容:

限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献…

AceDB网址 http://www.acedb.org

slide74

C) 蛋白质序列数据库

  • SWISS-PROT
  • 1. 日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(1986年);
  • 2. 在EMBL和GenBank数据库上均建立了镜像站点;
  • 3. 数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释;
  • 4. 数据记录包括两部分:
  • 序列
  • 注释(结构域、功能位点、跨膜区域、二硫键位置、翻
  • 译后的修饰、突变体等)
  • 5. 数据存在滞后性  TrEMBL数据库的建立
slide77

PIR(protein information resource)

  • 1. 由美国NCBI翻译自GenBank的DNA序列(1984年);
  • 2. 在EMBL和GenBank数据库上均建立了镜像站点;
  • 3. 数据依据注释的质量分为4类。

PIR数据库的分类情况(Release 51.03)

slide79

D) 蛋白质结构数据库

  • PDB(protein data bank)
  • 1. 目前最主要的蛋白质分子结构数据库;
  • 2. 1970年代建立,美国Brookhaven国家实验室维护管理;
  • 3. 1988年,由美国RCSB(research collaboratory for structural biology)管理;
  • 4. 以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等;
  • 5. PDBsum数据库:PDB注释信息综合数据库,具有检索、分析、可视化的功能。(已移至EBI)
slide81

PDBsum网址:http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/PDBsum网址:http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/

slide82

E) 蛋白质结构分类数据库

  • SCOP(Structural Classification of Protein)
  • 英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于web的蛋白质结构数据库分类、检索和分析系统;
  • SCOP的网址:http://scop.mrc-lmb.cam.ac.uk/scop/
  • CATH(class, architecture, topology, homology)
  • 英国伦敦大学开发维护;
  • CATH的网址:http://www.biochem.ucl.ac.uk/bsm/cath
slide85

二级数据库简介

  • 二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;
  • 一级数据库与二级数据库之间并无明确的界限。
  • (例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色)
slide86

A) 基因组信息二级数据库

  • E. coli基因组数据库Colibri
  • 德国Pastear研究所建立。
  • 除具有浏览、检索、搜寻功能外,还对环状基因组实现可视化。
  • 网址:http://genolist.mirror.edu.cn/Colibri/
  • TransFac (真核生物基因转录调控因子数据库)
  • 德国生物工程研究所开发维护,始建于1988年。
  • 包括顺式调控位点、基因、转录因子、细胞来源、分类和调控位点核苷酸分布6个子库。
  • TransFac的网址:http://transfac.mirror.edu.cn
slide89

B) 蛋白质序列二级数据库

  • Prosite (蛋白质序列功能位点数据库)
  • 始建于1990年代初,由瑞典生物信息学研究所SIB负责维护。
  • 基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。
  • 数据库包括两个数据库文件:数据文件Prosite;说明文件PrositeDoc。
slide91

C) 蛋白质结构二级数据库

  • DSSP (Definition of Secondary Structure of Proteins)
  • 蛋白质二级结构构象参数数据库
  • DSSP的网址:http://www.cmbi.kun.nl/gv/dssp/
  • FSSP (Families of Structural Similar Proteins)
  • 蛋白质家族数据库
  • FSSP的网址:http://www2.embl-ebi.ac.uk/dall/fssp/
  • HSSP(Homology Derived Secondary Structure of Proteins)
  • 同源蛋白质数据库
  • HSSP的网址: http://www.cmbi.kun.nl/gv/hssp/
slide95

如何获得序列数据

获得DNA和蛋白质序列的几种途径:

  • LocusLink 基因和蛋白质信息的概括性资源【NCBI】
  • RefSeq 最稳定、最被承认的基因和蛋白质的序列【NCBI】
  • UniGene 给出基因序列、以及图谱信息、同源基因、表达信息【NCBI】
  • Entrez 用于提取序列信息,很好的查询、提取和显示系统【NCBI】
  • Ensemble 与Entrez同样功能的系统【EBI】
  • ExPASy 用于获取蛋白质及其相关数据【 SIB】(Swiss Institute of Bioinformatics )
  • Every road leads to Rome!

例子:以使用Entrez 对E. coli K-12基因组进行查询为例