Introduction to Genetic Information Processing Part 1

《理论与系统生物学夏令营讲座》 Introduction to Genetic Information Processing Part 1 朱怀球北京大学理论生物学中心北京大学工学院生物医学工程系

主要研究特点 基于生物医学实验研究获得的生物信息数据，面向生物信息学重要问题，运用数理科学、计算科学等方法和技术，进行分析、建模和预测。

主要研究方向 －微生物（含病原菌）基因组分析和基因组比较分析－人肠道共生菌群落基因组及环境基因组的生物信息方法及技术－基因表达调控信号及剪接机制－蛋白质分子动力学模拟和分析

Zhu’s Lab 在读博士生（5名）在读硕士生（4名）在读本科生（本科生科研计划或毕业论文）（4名）

Central Dogma of Biology

Genetic information processing

主要内容 • 重点：遗传信息相关的基因组结构分析 • 目标：在基因组序列水平研究生物系统的结构、 • 功能和进化 • 方法：统计分析、数学建模 • 基因组序列结构、基因组学简介 • 基因组注释及功能预测方法研究 • 分子进化及基因组进化研究

§1 基因、基因组和基因组学(From Gene, Genome to Genomics)

基因（Gene） • 基因是遗传信息的一种独立单位（Mendelian factor）。 • 基因是编码一条多肽链或功能RNA(如rRNA、tRNA)所必需的全部核苷酸序列，是DNA分子链上特定区域。 • 从分子生物学的角度而言，一般认为基因是负载特定生物遗传信息的DNA分子片段，基因在一定条件下能够表达这种遗传信息，产生特定的生命功能。 G J Mendel (1822－1884)

基因的种类 Today when we speak of a gene for some malady, a regulatory gene, a structural gene, or a gene frequency, it is entirely possible that we are deploying different gene concepts even though we are using the same term. ——M. R. Dietrich，2000 结构基因(structural gene) 调控基因(regulatory gene) • 二者都可以转录成mRNA，并可被翻译成多肽链。 • 调控基因的作用是调控其它基因的活性，转录成的mRNA翻译成阻遏蛋白质或激活蛋白质。 (From Genes VIII)

rRNA基因和tRNA基因 • 只转录产生相应的RNA而不翻译成多肽链。

启动子(promotor)和操纵基因(operator) • 启动子是转录时RNA聚合酶与DNA结合的部位； • 操纵基因是调控基因产物(如阻遏蛋白质或激活蛋白质)与DNA结合的部位； • 严格地讲，二者只是不转录的DNA片段，不能称为基因。

基因组(Genome) • 基因组（genome）是指一个细胞或病毒包含的全部遗传信息的总和。 GEne+chromosOME (H. Winker, 1920) －The genome of an organism is its whole hereditary information and is encoded in the DNA (or, for some viruses, RNA). This includes both the genes and the non-coding sequences of the DNA. －More precisely, the genome of an organism is a complete DNA sequence of one set of chromosomes. • 绝大部分基因组，包括所有的细胞生命形式的基因组，是由DNA组成；一些病毒具有RNA基因组; • 基因组的大小用碱基对(base pair，bp)或核苷酸（nucleotide，nt）的数量来表示：103为kb，106为Mb。

真核生物：指一个物种的单倍体染色体所含有的全部DNA分子；真核生物：指一个物种的单倍体染色体所含有的全部DNA分子； • 原核生物：一般只有一个环状DNA分子，其上所有的基因为一个基因组； • 真核生物通常含有2～3个基因组－核基因组（Nuclear genome）－线粒体基因组（Mitochondrial genome）－质体基因组（Plastid genome） • 真核细胞中的细胞器(如叶绿体、线粒体等)中的DNA也为环状，构成叶绿体基因组、线粒体基因组 • If not specified, “genome” usually refers to the nuclear genome.

基因组大小与物种的关系 • 基因组的大小大致上与物种进化的复杂性相关； • 大多数真核生物的基因组都比原核生物的基因组大，比原核生物的基因组复杂； • 随着动物或植物进化程度的上升，每个单倍体的DNA含量一般趋于增加，但是存在例外▬▬► C值佯谬 • 思考：为什么会出现“C值佯谬”？

不同生物基因组大小的比较

Genome size and biological complexity

基因数目与物种的关系 • 基因数目的多少大致上与物种进化的复杂性相关； • 在高等动植物中，巨大的基因组并不意味着有巨量的基因数目。 • 人类究竟有多少个基因？ • 理论上：根据基因组的大小，可具有106个基因 • “生物体的复杂性并不是简单地与基因数量相关联的。”(G. Rubin) • 5万，6万 ，7万 ，8万 ，14万！……？ • 4万，3万，……？ • 打赌！ • 基因数目猜奖(Gene Sweepstake)

生物学家们为人类基因的数目打赌 生物学家们对基因组里到底有多少基因的猜测一直有极大的不同。2000年，在纽约冷泉港召开的一个会议上，他们设立了一美元一个（次）的基因数目赌注。胜者将于2003年揭晓，他除了可获得全部赌金外，还可得到一本由J. Watson亲笔签名的皮革封面《双螺旋》一书。如果基因组是生命的天书，那么基因就是写成这本书的词汇。生物学家们一直假设，微生物的故事较短，而人类的故事则是一部巨作，人类拥有8万到10万个基因。但是UC Berkly果蝇基因组计划的主任G. Rubin指出，果蝇的基因比我们所认为的最简单的线虫少了5,000个。他警告说：“生物体的复杂性并不是简单地与基因数量相关联的。” 德国分子生物技术研究所的A. Rosenthal说，我们得出的结论是整个基因组有不多于4万个基因。法国的分子遗传学家H. R. Crollius通过比较现有的人类基因序列与淡水河豚基因序列，提出了更低的人类基因数估计：在27,700与34,300之间。华盛顿大学的基因学家P. Green提出人类基因数大约为35,000。美国国家人类基因组研究所主任F. Collins表示他同意Green的估计，将他1美元的赌金下在48,011个基因上。但Rockville的基因组研究所(TIGR)的J. Quackenbush根据TIGR的人类基因指数的估计，将他的1美元赌在118,259个基因上。加州Incyte Genomics公司的S. LaBrie赌的基因数是153,478个，该公司在1999年9月曾宣布人类基因至少有14万个。但是支持人类基因数目是一个较小数的科学家们也不灰心，他们争论说生物体的复杂性来自于基因如何被管理或表达的，而不是基因数目本身。Rosenthal解释说：“我们不需要那么多的基因成为高等动物，”他赌的是38,000个。你赌多少呢？

基因轮盘赌(Gene Sweepstake) • http://www.ensembl.org/Genesweep/ • The Gene Sweepstake will run between 2000 and 2003. The rules are: • It costs $1 to make a bet in 2000, $5 in 2001 and $20 in 2002. • Bets are for one number. Closest number wins, and in case of ties, the pot is split. • A gene is a set of connected transcripts. A transcript is a set of exons via transcription followed (optionally) by pre-mRNA splicing. Two transcripts are connected if they share at least part of one exon in the genomic coordinates. At least one transcript must be expressed outside of the nucleus and one transcript must encode a protein . • Assessment of the method used to determine the gene will occur by voting at Cold Spring Harbor Genome Meeting 2002. Researchers will be invited to submit their methods to the community at this time. • Assessment of the gene number will occur on the 2003 CSHL Genome meeting. • People betting should write their name, email and number in the Gene Sweepstake book, held at Cold Spring Harbor. • One bet per person, per year. Year defined as a calendar year. • No pencil bets (ie, you can't change your number). Last Genesweep Votes Vote distribution Bets 165 Mean 61,710 Lowest 27,462 Highest 153,478

Who swept the Gene Sweepstake? Human gene number wager won Geneticists draw sweepstake despite uncertainty over final tally3 June 2003 The winner was announced at last week's Homo Sapiens genetics meeting at Cold Spring Harbor Laboratory, New York. The gene champ, Lee Rowen, who directs a sequencing project at the Institute for Systems Biology in Seattle, Washington - beat 460 other hopefuls to take home part of the cash pot. Rowen's wager at 25,947 is closest to the current reckoning in a genetic database called Ensembl, of 24,847. Like all good gamblers, her number was "a stab"; one runner-up picked 27,462 because the 27 April, 1962 was his birthday. Recognizing genes - regions of DNA that code for proteins - has proved tougher than expected. One reason is that predictor programs, which trawl through DNA for landmark sequences characteristic of a gene, are notoriously unreliable.

人类基因数目之谜 • 目前已经发现和定位～26,000个功能基因，其中尚有30%多的基因尚不知道功能。 • 原先曾经预测人类约有14万个基因，Celera公司2003年将人类基因总数定在26,383到39,114个之间，只是线虫或果蝇基因数量的两倍，人有而鼠没有的基因只有300个。根据Ensembl数据库得到的计算结果，2004年的最新估计数目是23,299。 • 基因组的大小和基因的数量在生命进化上可能不具有特别重大的意义； • 人类的基因较其它生物体更“有效” ； • 人类的复杂性更主要的体现在蛋白质的复杂网络中，即蛋白质就是构成生命的基本构件。Celera公司首席科学家Venter认为：“大部分的生物学行为发生在蛋白质水平，而不是基因水平。”

原核基因组、真核基因组 • 原核生物（Prokaryote）：原核生物细胞结构的一些特点：①核质与细胞质之间无核膜，因而无成形的细胞核；②遗传物质是一条不与组蛋白结合的环状DNA丝，不构成染色体；③以简单二分裂方式繁殖；…… • 真核生物（Eukaryote）：真核生物细胞结构的一些特点：①具有由染色体、核仁、核液、双层核膜等构成的细胞核；②转录在细胞核中进行，蛋白质的合成在细胞质中进行；③有内质网、高尔基体、溶酶体、液泡等细胞器；④在细胞周期中有专门的DNA复制期（S期）；……

人类基因组的组成 • 核基因组(nuclear genome)：由大约30亿bp组成，分为24条线性DNA分子(55~250Mb)，分别包含在24条不同的染色体中(22条常染色体和2条性染色体X、Y) • 线粒体基因组(mitochondrion genome)：长为16,569bp的环状DNA分子，位于产生能量的细胞器——线粒体中

真核生物基因组结构特点 • 真核生物基因组DNA与蛋白质结合形成染色体，储存于细胞核内，除配子细胞外，体细胞内的基因的基因组是双份的（即双倍体，diploid），即有两份同源的基因组。 • 真核细胞基因转录产物为单顺反子（Monocistron），即一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链，每个基因转录有各自的调节元件。 • 存在重复序列，重复次数可达百万次以上。 • 基因组中不编码的区域多于编码区域。 • 大部分基因含有内含子，因此，基因是不连续的。 • 基因组远远大于原核生物的基因组，具有许多复制起点，而每个复制子的长度较小。

真核基因的内含子/外显子(intron/exon)结构 • 真核生物的基因一般为断裂基因(interrupted gene)，由内含子和外显子组成，编码区被内含子分隔成若干段； • 内含子－外显子结构的意义：提供编码区进行重组的机会，产生新基因，有利于真核生物的进化。例：人类第21号染色体的Contig 3部分(长3,450,497bp) 基因“TRPC7”的总长为62,668bp，其中编码部分总长为3,345bp，由25个外显子组成，长度范围48~354bp。 Intergenic region Gene Exon Intron

真核基因结构和转录过程

与转录有关的调控信号 启动子（promoter）增强子（enhancer）负性调节元件 LCR（Locus control regions）（基因座调控区）转录因子与转录终止有关的序列： mRNA的剪接

基因家族、假基因 • 多数真核生物基因表现为多拷贝(某些基因多次重复)，称为基因家族（gene family）； • 真核生物的基因多拷贝为大量产生RNA、蛋白质所需要；或者可以在不同组织、不同发育阶段被表达； • 基因家族产生的推测：进化过程中的基因加倍； • 由于突变导致失去功能的基因拷贝叫假基因（pseudogene）。假基因：与功能性基因密切相关的DNA系列，但由于缺失、插入和无义突变失去阅读框架而不能编码蛋白质产物。有些人类假基因可以转录但不能翻译成蛋白质。假基因的两种类型：（1）由于一种基因的加倍而不能表达，但保留原来亲本基因的外显子及内含子；（2）仅含有亲本基因的外显子，源于mRNA并通过逆转录而重新整合进基因组的。

重复DNA序列 高度重复DNA序列是多数真核生物基因组的主要成分超过90％为重复序列，不编码mRNA前体或其它RNA（个体间的重复序列有巨大差异－－> DNA指纹）重复序列分为3类：高度重复序列、中等重复序列、低重复序列。目前的一些认识：（1）GC含量低，AT含量高。（AT的氢键弱）；（2）3’端和5’端有直接重复序列的存在。有利于形成环状结构。（3）自私DNA（selfish DNA）：在哺乳动物包括人体基因组中，存在着大量的非编码序列（高度重复序列、内含子、基因间区域等），其中只有很小一部份具有重要的调节功能，绝大部部分都没有什么特殊功用。在这些DNA序列中虽然积累了大量缺失，重复或其他突变，但对生物并没有什么影响，它们的功能似乎只是自身复制，所以人们称这类DNA为自私DNA或寄生DNA（parasite DNA）。自私DNA也许有重要的功能，但目前我们还不了解。 Richard Dawkins, 1976

人类基因组的外显子和内含子数目及长度的统计结果比较人类基因组的外显子和内含子数目及长度的统计结果比较（Deutsch & Long，1999）（外显子的长度单位是氨基酸，内含子的长度单位是核苷酸）

人类基因组外显子长度的概率分布要比内含子的概率分布要紧凑得多。人类基因组外显子长度的概率分布要比内含子的概率分布要紧凑得多。人类基因组外显子和内含子长度的统计分布图（Deutsch & Long，1999）（外显子长度的单位为氨基酸，内含子长度的单位为核苷酸；图中横坐标表示长度，纵坐标表示频率。）

原核生物基因组的研究意义 1、揭示生命活动的基本规律——导致现代分子遗传学的许多重大发现染色体、DNA双螺旋、遗传密码、DNA复制、中心法则…

2、揭示生命起源与进化的奥秘

3、进行分子遗传学的良好材料 4、在农业、工业和生物制药工程上的应用十分广泛作为微生物基因工程的反应器，直接运用于干扰素、人胰岛素、生长激素、乙型肝炎疫苗等现代基因工程产品的生产。

原核生物基因组结构的特点 1、原核生物基因组一般比真核生物基因组小得多 E. coli的基因组(4.6Mb)约为酵母基因组(12.1Mb)的2/5 2、绝大部分原核生物基因组由一个单一的环状DNA分子组成 3、原核生物的基因通常比真核生物的少 E. coli：4000多个基因，人：~30000个 4、原核生物的基因绝大多数是连续基因，不含间隔的内含子；基因组结构紧密，重复序列远少于真核生物的基因组。 • 例子：E. coli K-12 • 双链环状DNA分子，全基因组长为4,600kb； • 目前已经定位的基因有4,289个； • 非编码区占的比例约为11.4%。

长开放阅读框（ORF，open reading frame） 若终止密码子出现在非编码核酸序列中，大约每21个密码子出现一次（3/64）绝大部分原核生物蛋白质的长度大于60个氨基酸； ——（E. coli：蛋白质编码区域平均长度为316.8个密码子，不到1.8%的基因的长度小于60个密码子）长ORF表明该区域可能对应于一个原核生物基因的编码序列 ——从统计学角度来看，如果所有的密码子在随机的核酸序列中以相同的频率出现，则不含终止密码子且长度为N个密码子的序列出现的概率为(61/64)N。长度为N的ORF的95%显著性置信度等价于5%“随机”命中的可能性，即(61/64)N=0.05，这里N等于60，表示典型长度的ORF中密码子的数目。

高基因密度 原核生物基因组的许多信息都是为了维持细胞的基本功能，如构造和复制DNA，产生新蛋白质，以及获得和存储能量。完全测序的细菌和古细菌的基因组数据表明，其中85％到88％的核酸序列与基因的编码直接相关。例如，在E.coli中总共有4,289个基因，平均编码长度约为950bp，而基因之间的平均间隔长度只有~120bp。

连续的基因结构 与真核基因结构相比较，原核基因的结构相对简单。原核基因为连续基因，其编码区是一个完整的DNA 片段。但原核基因的转录起始、翻译起始的调控机制比较复杂。完整的基因结构从基因的5’-端启动子区域开始，到3’-端终止区结束。基因的转录开始位置由转录起始位点确定，转录过程直至遇到转录终止位点结束，转录的内容包括5’UTR、开放阅读框以及3’UTR。基因翻译的准确起止位置由起始密码子和终止密码子决定，翻译的对象即为介于这两者之间的开放阅读框。

原核基因组的操纵子与基因群结构

1984.12 犹他州阿尔塔组织会议，初步研讨测定人类整个基因组DNA序列的意义 1986.3 Dulbecco在《Science》撰文 “肿瘤研究的转折点: 人类基因组的测序” 美国能源部(DOE)提出“人类基因组计划”草案 1987 美国能源部和国家卫生研究院（NIH）联合为“人类基因组计划”下拨启动经费约550万美元 1989 美国成立“国家人类基因组研究中心”，Watson担任第一任主任 1990.10 经美国国会批准，人类基因组计划正式启动基因组计划历史回顾 James Watson Walter Gilbert

1995 第一个自由生物体流感嗜血菌(H. inf)的全基因组测序完成 1996 完成人类基因组计划的遗传作图启动模式生物基因组计划 Saccharomyces cerevisiae 酿酒酵母 Caenorhabditis elegans 秀丽线虫 H.Inf 全基因组

1997 大肠杆菌(E. coli)全基因组测序完成 1998 完成人类基因组计划的物理作图开始人类基因组的大规模测序 Celera公司加入，与公共领域竞争启动水稻基因组计划 1999.7 第5届国际公共领域人类基因组测序会议，加快测序速度水稻基因组计划大肠杆菌及其全基因组

2000 Celera公司宣布完成果蝇基因组测序国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作 2000.6.26 公共领域和Celera公司同时宣布完成人类基因组工作草图 2001.2.15 《Nature》刊文发表国际公共领域结果 2001.2.16 《Science》刊文发表Celera公司及其合作者结果 Drosophila melanogaster 果蝇 Arabidopsis thaliana 拟南芥

2001年2月15日《Nature》封面 2001年2月16日《Science》封面

2001年8月26日 人类基因组“中国卷”的绘制工作宣告完成。 2002年水稻、小鼠、疟原虫等基因组测序完成 2003年4月14日中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功，人类基因组计划的所有目标全部实现。 2003年10月，2004年10月人类基因组完成图公布。

基因组学（Genomics） 1982年，第一个核酸序列数据库GenBank（Los Alamos） ——1982年，606条序列，长度680,338bp ——2004年，约43,322,756条序列，长度约7.11010bp 2005： International sequence databases exceed 100 gigabases ！

基因组学（Genomics） 已完成测序的5,700多个基因组（http://www.ebi.ac.uk/genomes/，2009年2月）

Introduction to Genetic Information Processing Part 1

Introduction to Genetic Information Processing Part 1

Presentation Transcript

Introduction to Quantum Information Processing

Introduction to Processing Digital Sounds part 4

Introduction to Information Retrieval (Part 2)

Information Processing: Part I

Information Processing: Part I

Introduction to Optimization (Part 1)

Introduction to Business information processing

Part 3 Genetic Information Transfer

Image Processing Part 1

Part 3 Genetic Information Transfer

1 Introduction to Transaction Processing (1)

Introduction to OpenGL (part 1)

Part 1: Introduction to OOAD

Part 1: Introduction to XProc

PART 1: INTRODUCTION TO BLOG

Introduction to Trigonometry Part 1

Introduction to Accelerators Part 1

Introduction to Processing Digital Sounds part 2

Introduction to CBMC: Part 1

1 Introduction to Transaction Processing (1)

Sea Ice

Sea Ice