630 likes | 794 Views
以信息系统的观点了解基因组. 清华大学生物信息研究所 李衍达 2002 年 4 月 于 电子科技大学. 一、后基因组时代对我们提出的要求. HGP 的完成,宣告后基因组时代的到来。 随着 HGP 计划的进行与完成,核酸与蛋白质的数据成指数增长。大量的生物数据等待人们去分析,生物信息学成为研究的焦点。 对数据的分析,解释远远落后于实验的速度。 急需应用数学、信息科学、化学、 计算机科学来分析理解数据,更深 入地理解生命现象。.
E N D
以信息系统的观点了解基因组 清华大学生物信息研究所 李衍达 2002年4月 于 电子科技大学
HGP的完成,宣告后基因组时代的到来。 • 随着HGP计划的进行与完成,核酸与蛋白质的数据成指数增长。大量的生物数据等待人们去分析,生物信息学成为研究的焦点。 • 对数据的分析,解释远远落后于实验的速度。 急需应用数学、信息科学、化学、 计算机科学来分析理解数据,更深 入地理解生命现象。
随着HGP的完成,出现了大量的课题。但是,后基因组时代的核心任务是了解基因组与蛋白质组的功能,或者说是解读遗传密码。这是揭示生命奥秘的关键的一步。随着HGP的完成,出现了大量的课题。但是,后基因组时代的核心任务是了解基因组与蛋白质组的功能,或者说是解读遗传密码。这是揭示生命奥秘的关键的一步。 • 人们认识到以往一个基因、一个蛋白质的研究并不能解释基因的功能。必须在众多基因与蛋白质的相互作用中了解其功能。 • 即更注重从系统的角度,认识基因之间,蛋白质之间,不同转录、表达现象之间的联系,以及从这种联系构成的系统整体特征去了解其功能。
细胞是揭示生命奥秘的基础,细胞研究的三个基本问题是:细胞是揭示生命奥秘的基础,细胞研究的三个基本问题是: (1)细胞的基因组如何在时间、空间上有序的表达; (2)细胞基因组表达的产物——结构蛋白质,核酸,脂与多糖等是如何逐级装配成各种细胞器与组织的,自组装的调控程序与机理是什么? (3)活性分子,信号分子是如何调节生命过程的。包括染色体、DNA与蛋白质如何相互作用,细胞信号传递过程与路径的分析等。
基因组,蛋白质组功能的研究与上述三个基本问题是密切相关的,进行上述问题的研究需要对DNA整体序列的理解。基因组,蛋白质组功能的研究与上述三个基本问题是密切相关的,进行上述问题的研究需要对DNA整体序列的理解。
生物信息学的根本目标 揭示基因组信息结构的复杂性及遗传语言的根本规律 • 特点: 基因组 信息结构 复杂性
后基因组时代对生物信息学研究的要求产生了新的变化,这就是:后基因组时代对生物信息学研究的要求产生了新的变化,这就是: • 从单因素的影响到多因素影响的研究; • 从数据的分类、统计到对编码、语法的解读; • 从偶然、个别的实验结果得到新的知识到对生物内部活动规律的理解; • 从单个生物分子到多种生物分子相互作用的分析。 • 以上,无不要求对生物有内在规律性的理解,而且都离不开将生物信号与信息作为内涵来理解。
现有一些研究方法的不足: (1)把基因组序列作为一个整体系统来分析不够; (2)把物质结构与信息结构联系分析不够; (3)把活性与信息结构联系分析不够; (4)把信息结构作为动力系统的分析不够; (5)作为一种遗传语言的分析不够。 • 据此,提出将信息与信息结构作为内涵对基因组序列作为整体系统分析的设想,以信息系统的观点了解基因组
生物是在遗传信息与外界信息作用下的一个复杂、有序的动态系统。生物是在遗传信息与外界信息作用下的一个复杂、有序的动态系统。 • 基因组包含生命所需的信息,包括其产物和调控的信息。 • 所以,本质上,基因组是一个信息系统。 • 基因组的调控与信息系统的调控具有相同的规律。
生物在各种层次上,是复杂系统。 • 只有从复杂系统特性角度上,才能理解生物系统的整体性能。 • 只有从复杂系统的观点,才能准确理解基因组的结构特点以及基因组、蛋白质组和物种的进化规律。 • 复杂系统:大量的单元相互作用而在宏观上突现出某种整体特性。 例如:自相似特性 自组织特性
复杂系统理论:不仅要看到组成系统的基本单元的数量,更要看到单元之间的相互作用,会产生新的性能。复杂系统理论:不仅要看到组成系统的基本单元的数量,更要看到单元之间的相互作用,会产生新的性能。 • 为什么人类只有3万多基因 这是相互作用产生的非线性效应。 • 复杂的信息系统正是我们理解基因组及其功能的关键。
对E.Coli全基因组腺嘌呤100bp浓度分布的分析,说明具有复杂系统的自相似性——具长程相关性。对E.Coli全基因组腺嘌呤100bp浓度分布的分析,说明具有复杂系统的自相似性——具长程相关性。 图3.1 E. coli腺嘌呤100bp浓度分布曲线及一个同等长度H=0.7的fGN过程。
图3.2 用各种方法估计E. coli腺嘌呤浓度分布Hurst系数的拟合直线图
用自相似特性可对外显子、内含子进行分类。 • 但是,DNA序列信息结构的自相似性的生物含义及其起源,尚有争议。 • 长程相关性与DNA分子的高级结构有关(Grosberg, et al)? • 自相似性为DNA的复制和功能提供一种尺度无关的纠错能力(Voss, 1992)? • 自相似性是由于DNA进化采用扩增—突变模型的结果(Li, 1989, 1991)?
生物活性与复杂系统性质有密切关系。 没有复杂系统的实现概念难以理解活性。因为按线性关系,从无活性不能得出活性。只有非线性关系,即复杂系统性质有组成部分没有的性质:部分之和小于整体的概念,才能出现活性。
1、基因调控与网络调控模型 图4.1 一个基因调控网络的模型
但也有局部典型环节 2、糖原代谢控制与信息系统的分支控制 图4.2 以糖原代谢的控制为代表的分支控制
3、组蛋白的表达与负反馈控制 图4.3 以组蛋白表达控制为代表的负反馈控制 4、胰岛素受体自身磷酸化与正反馈控制 图4.4 以胰岛素受体自身磷酸化作用为代表的简单正反馈控制
5、细胞周期素控制与复杂正、负反馈控制 图4.5 以细胞周期素控制为代表的复杂正反馈控制
6、细胞分裂周期控制与条件控制 图4.6 以细胞 分裂周期控制 为代表的 条件 控制
7、Ras蛋白活性控制与延时控制 图4.7 以Ras蛋白活性控制为代表 的延时控制
8、更多情况下,网络状复杂控制 图4.8
结论: (1)基因组调控符合一般的控制模型。 (2)控制模型的控制特性由代表其相互作用 及其本身特性的信号系统决定。 • 例如: 细胞应答特性,由细胞内的信号系统决定。
细胞对稀土离子的应答: 图4.10 细胞对稀土的应答 Fig.4.10 Cellular response to lanthanides
最关键是稀土启动两个细胞信号系统 (i)启动肌醇细胞信号系统 图4.11 稀土促进磷酰肌醇-4,5-二磷酸(PI)水解并且启动肌醇细胞信号系统 Fig.4.11 Lanthanides induce hydrolysis phosphatidylinositol-4,5-biphosphate(PI) and trigger the inositol cell signalling system
(ii)启动环核苷酸信号系统 • 在两个信号系统的交互作用下,既能推动细胞增殖,又能推动细胞凋亡。 • 细胞内的信号系统决定细胞的应答特性 • 细胞的信号系统决定细胞的调控特性 图4.12 铈(III)离子启动大鼠肝细胞第二信使系统 根据杨燕生等(1999)、刘湘陶(1999)、程驿等(1999) Fig.4.12 Ce(III) triggers second messenger system of rat hepatocytes Based on Yang et al.(1999), Liu et al.(1999), Cheng et al.(1999)
9、钙波的信号系统模型描述钙波特性 • Ca2+的振荡特性 图4.13
单细胞钙波的控制模型 • 快系统:内质网、质膜钙泵 • 慢系统:线粒体、质膜Na+—Ca2+交换器 图4.14 单细胞 钙波的信号系 统模型
主频率分量 • 从信号系统模型所得的钙波波形 主 频 率 分 量 激励强度 图4.15 激励强度与震荡主频率分量的拟合直线图。
图4.16 模型仿真得到的钙波震荡波形,不同激励强度下震荡幅度基本不变,而频率随激励强度的增长而增长
基因组的信息系统(或信号系统)决定基因组的调控性能基因组的信息系统(或信号系统)决定基因组的调控性能
复杂信息系统有其特点,使其调控特性不同于一般的信息系统。复杂信息系统有其特点,使其调控特性不同于一般的信息系统。 • 例如,复杂系统的自组织特性,自相似,和产生混沌现象,是简单系统没有的。 • 生物系统的产生,是自组织特性的结果。 • 生物的宏观表现,如呼吸、生殖周期、心电、脑电波形等呈现混沌现象。 • 自组织对基因、蛋白质、物种的进化产生影响 • 交配、选择、复制,使物种向某一方向发展,有正反馈过程,形成自组织特性。
Bak与Sneppen的进化模型(BS模型)考虑物种间的相互作用,能够自组织的演化到一种临界状态。在这种状态下,可以间断式的出现雪崩进化现象。Bak与Sneppen的进化模型(BS模型)考虑物种间的相互作用,能够自组织的演化到一种临界状态。在这种状态下,可以间断式的出现雪崩进化现象。 • 我们在BS模型上,构架一种生态系统的协进化模型(MCEM)。 MCEM:生态系统的协进化模型。
P12 P23 P34 1 2 3 P43 P21 P32 P11 P22 P33 (i)单一物种的马氏链模型 (1) (2) (3) (4) 图5.1 单一物种的进化历程
1 1 2 捕食(寄生) 互惠共存 竞争 生态系统中的某一物种 (ii)多物种的协进化模型 图5.2 多物种的 关系网络 图5.3 生态系统 的进化
协进化引起突变种群分布,物种进化程度与物种多样性的加速。协进化引起突变种群分布,物种进化程度与物种多样性的加速。 物种编号 物种编号 进化代数/50 进化代数/50 (a) (c) 物种编号 物种编号 进化代数/50 进化代数/50 (b) (d) 图5.4 进化中突变种群的分布(a, b: 考虑物种关系, c, d: 不考虑物种关系)
2 2 1 1 C D 进化代数/50 进化代数/50 系统的各物种的平均进化程度C 系统的物种多样性程度D 图5.5 生态系统进化的总体效应 (1: 不考虑物种关系, 2: 考虑物种关系)
生态系统进化幕 太古宙早期 38-35亿年前 太古宙至早元古代 35-20亿年前 中元古代 20-10亿年前 晚元古代 10-6亿年前 显生宙 6亿年前至今 按比例为 3 : 15 : 10 : 4 : 6 在模型演化过程,可观察到类似现象。 在每时期转换中,可观察到进化出现高峰。
C C D 进化代数/1000 进化代数/1000 (a) 生态系统各阶段的平均进化程度 (b) 生态系统进化各阶段的物种多样性 dC dD 进化代数/1000 进化代数/1000 (c) 生态系统各阶段的平均进化程度的导数 (d) 生态系统进化各阶段的物种多样性的导数 图5.6 地球生态系统进化幕的模拟
利用交配,突变,选择,复制形成自组织特性,观察物种的进化。利用交配,突变,选择,复制形成自组织特性,观察物种的进化。 (i)模拟进化的基本算法框架 图5.7 模拟进化的 基本算法框架 N Y 初始种群 交配及随机变异产生子代 计算适应度 结束? 选择