1 / 59

第五章 分子进化分析

第五章 分子进化分析. MOLECULAR EVOLUTION ANALYSIS. 第一节 引言. 分子进化开始于 20 世纪 60 年代,近 20 年来由于分子遗传学资料的迅速积累,成为计算生物学和和生物信息学等新兴学科的重要组成部分。 尤其人类基因组测序后,推动了分子进化的进一步发展,序列保守性,基因表达和网络的进化等研究内容不断的出现在最新的研究中,充实了生物信息学的研究范围。. 第二节 系统发生分析与重建. 一、核苷酸置换模型及氨基酸置换模型. (一) DNA 序列进化分析

Download Presentation

第五章 分子进化分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第五章 分子进化分析 MOLECULAR EVOLUTION ANALYSIS

  2. 第一节 引言 • 分子进化开始于20世纪60年代,近20年来由于分子遗传学资料的迅速积累,成为计算生物学和和生物信息学等新兴学科的重要组成部分。 • 尤其人类基因组测序后,推动了分子进化的进一步发展,序列保守性,基因表达和网络的进化等研究内容不断的出现在最新的研究中,充实了生物信息学的研究范围。

  3. 第二节 系统发生分析与重建 一、核苷酸置换模型及氨基酸置换模型 (一)DNA序列进化分析 DNA序列的进化演变比蛋白质序列 的演变更复杂,因为有多种多样的DNA区域,如蛋白质编码区、非编码区、外显子、内含子、侧翼区、重复DNA序列和插入序列等。因此,弄清所研究的DNA类型和功能是十分重要的。即便我们单独考虑蛋白质编码区,密码子第一、二和三位的核苷酸替代式样也不尽相同。何况,某些区比其他区更易受到自然选择的影响,使得DNA的不同区域呈现不同的进化模式。

  4. 两个序列间的核苷酸差异 对于一种同源的核酸分子来说,它在亲缘关系越近的生物之间差异就越小,相反差异 就越大,即两同源分子分歧的时间与它们之间的序列差异成正比。 同一条祖先序列传衍的两条后裔序列,它们的核苷酸差异随时间而增加。一个简便的描述序列分歧大小的测度是两条后裔序列中不同核苷酸位点的比例。 以下,我们称此估计为核苷酸间的p距离

  5. 尽管总核苷酸替代能用公式计算,但我们常常也需要知道两个序列间(即序列和)不同核苷酸对的频率。在每一序列中,有4种不同核苷酸(A,T,C,G),故两条序列相应位点配对时可有16种不同类型的核苷酸对尽管总核苷酸替代能用公式计算,但我们常常也需要知道两个序列间(即序列和)不同核苷酸对的频率。在每一序列中,有4种不同核苷酸(A,T,C,G),故两条序列相应位点配对时可有16种不同类型的核苷酸对

  6. 如果4种核苷酸间的替代是随机发生的,当P很小时,Q约为P的2倍。实际上,通常转换比颠换出现更频繁。因此,P将大于Q/2。当序列间的分歧度低时,转换对颠换的比值(R),常称为转换/颠换比,能用下式估计:如果4种核苷酸间的替代是随机发生的,当P很小时,Q约为P的2倍。实际上,通常转换比颠换出现更频繁。因此,P将大于Q/2。当序列间的分歧度低时,转换对颠换的比值(R),常称为转换/颠换比,能用下式估计: 核苷酸替代数的估计常常建立在以下假设基础上,即每个序列的核苷酸频率处于平衡态,且此频率不随时间而变化。当每个序列的核苷酸频率处于平衡时,我们期望表5-1中的、 以及 。因此,可用零假设去检验核苷酸频率是否处于平衡态。

  7. 2. 核苷酸替代数的估计 欲估计核苷酸替代数,必须应用核苷酸替代的数学模型。为此,许多学者提出了不同的替代模型,其中一些模型以替代率矩阵的形式列在表5-2中。

  8. [例5.1] 人与猕猴的细胞色素b基因间的核苷酸替代数 • 动物线粒体DNA中的细胞色素b基因是高度保守的,因此常被用于研究亲缘关系较远的动物的进化关系。表5-3示出了人与猕猴的细胞色素b基因的10种不同类型核苷酸对的数目,并分别以密码子第1、2和3位点列出。

  9. (二)氨基酸序列进化分析 • 氨基酸差异和不同氨基酸的比例 蛋白质或肽链的进化演变研究开始于两个或多个氨基酸序列的比较。图5-1显示了人、马、牛、袋鼠、蝾螈和鲤鱼的血红蛋白α链的氨基酸序列。图中,不同的氨基酸分别用不同的单字母代表。

  10. 在图5-1所给出的例子中,删除所有间隔后可比较的总氨基酸位点数为140。因此,仕此例中。值出现在表5-5对角线上部,可以很容易地计算出,列于对角线下部。在图5-1所给出的例子中,删除所有间隔后可比较的总氨基酸位点数为140。因此,仕此例中。值出现在表5-5对角线上部,可以很容易地计算出,列于对角线下部。

  11. 当所比较的物种亲缘关系很远时(如人和鲤鱼),值较大,而当亲缘关系较近的物种比较时(如人和马),值较小。这说明随着两个物种的分歧时间增大,氨基酸的替代数也将增大,但并不严格与分歧时间()成比例(图5-2)。当所比较的物种亲缘关系很远时(如人和鲤鱼),值较大,而当亲缘关系较近的物种比较时(如人和马),值较小。这说明随着两个物种的分歧时间增大,氨基酸的替代数也将增大,但并不严格与分歧时间()成比例(图5-2)。

  12. 2. 泊松校正(PC)和 距离 p与t的变化呈现非线性关系的原因之一是当多个氨基酸替代出现在同一位点时,nd偏离实际氨基酸的替代数将会逐渐增加。更精确估计替代数的方法之一是运用泊松分布的概念。令r为一个特定位点每年的氨基酸替换率,并且为简便起见假设所有位点的r都相同,在时间t年后,每个位点氨基酸替代的平均数是rt。在一个给定位点氨基酸替代数k(k=0, 1, 2, 3, …)的发生频率遵循泊松分布,即,

  13. 若已知每个位点的氨基酸替代率()按分布的话,每个位点氨基酸替代的观察值将按负二项式分布。因此,Uzzell和Corbin研究建议,不同位点的替代率都按分布估计,即若已知每个位点的氨基酸替代率()按分布的话,每个位点氨基酸替代的观察值将按负二项式分布。因此,Uzzell和Corbin研究建议,不同位点的替代率都按分布估计,即 f(r)的分布形状由a决定,a常称为形状参数或参数,而b则称为尺度因子。分布是非常柔性的,有多种多样形状,由形状参数a决定(图5-3)。

  14. 当r遵循分布时,就有可能估计出平均每个位点的氨基酸替代数。为此,让我们考虑在时间t时两个序列间某一位点上的氨基酸相同的概率,按公式(5.4)计算。然后,对所有位点的q求均值,为当r遵循分布时,就有可能估计出平均每个位点的氨基酸替代数。为此,让我们考虑在时间t时两个序列间某一位点上的氨基酸相同的概率,按公式(5.4)计算。然后,对所有位点的q求均值,为

  15. [例5.2] 血红蛋白链的进化距离和氨基酸替代率的估计 表5-5示出了6种脊椎动物血红蛋白链成对比较的有差异氨基酸的数目的比例( )。我们用这些值来估计PC距离(d)和 距离( )。

  16. 2. 自展法的方差和协方差 可以有若干种方法来估计两个序列间氨基酸替代数。实际上,每个模型都是对真实情况的近似,仅仅提供了氨基酸的近似替代数。因此,前述的估计距离方差的分析公式也是近似的。 解决这一问题的一个简便途径是应用自展法(bootstrap)计算多种距离测度的方差和协方差。

  17. 自展法的一个优点是,即使没有现成的数学公式可用时,也能算出方差和协方差,而且能比近似的数学公式提供更好的方差和协方差的估计。自展法的一个优点是,即使没有现成的数学公式可用时,也能算出方差和协方差,而且能比近似的数学公式提供更好的方差和协方差的估计。

  18. [例5.3] 由解析法和自展法获得的PC距离的标准误 自展法重复了1000次

  19. 二、分子时钟假说 (一)概述 分子钟(molecular clock)假说认为DNA或蛋白质序列的进化速率随时间或进化谱系保持恒定。 化石数据是被用来校定分子钟的,即将序列间的距离转换成绝对地质时间和置换率

  20. (二)相对速率检验 最简单的分子钟假设检验是采用第三个物种C(外类群)来检验两个物种A和B是否以相同的速率进化。这一检验称为相对速率检验(relative-rate test),其实几乎所有的分子钟检验比较的都是相对速率而不是绝对速率。 确定灵长类分歧时间

  21. (三)内部分枝检验 1. 正态偏离(Z)检验 2. 分析方法 3. 自展内部分支检验 4. 似然比检验

  22. 三、系统发生树的基本概念及搜索方法 在研究从病毒到人类的各种生物的进化历史中,DNA或蛋白质序列的系统发育分析已经成为一个重要的工具。 由于不同的基因或DNA片段的进化速率存在较大的差异,我们可以通过这些基因或DNA片段来估计几乎所有水平上的有机体间的进化关系(例如,界、门、科、属、种以及种内群体)。

  23. (一)系统发育树的种类 • 有根树和无根树 基因或生物体的系统发育关系常常用有根或无根的树形结构来表示,即有根树和无根树。 2. 基因树和物种树 当一个系统发育树由来自各个物种的一个同源基因构建时,得到的的树将不完全等同于物种树。根据基因构建的树的分支结构也可能不同于物种树,我们称这种树为基因树。

  24. 3. 期望树与现实树 一个用无限长的序列或每一分支的替代数的期望值构建的树称为期望树,建立在实际替代数基础上的树称为现实树,由所观察到的序列数据构建的树称为重建树。 4. 拓扑距离 两个不同的树之间的拓扑距离通常可以用序列分割的方法来测量。

  25. (二)基于距离法构建系统发生树 通常使用的方法分为3大类:(1)距离法,(2)简约法,(3)似然法; • 距离方法 距离方法涉及两个步骤:计算物种对之间的遗传距离以及从距离矩阵重建一课体统发育树。 最小二乘法 最小二乘法(LS)将成对距离矩阵作为给定数据,通过匹配那些尽可能近的距离来估计一棵树上的枝长

  26. 设物种i和j之间的距离为dij,树上物种i到j间通路的枝长和为dij。LS方法对所有独立的i和j对求距离差的平方(dij—dij)的最小值,使得这棵树与距离之间的拟合尽可能地近。

  27. (三)基于字母特征构建进化树 • 最大简约法 达到变化最小数目的重建称为最简约重建 (most parsimonious reconstruction)

  28. (四)用于系统发育重建的距离测度 1.当每个位点的核苷酸替代数目得Jukes-Cantor估计值小于0.05,应当使用p距离或Jukes-Cantor距离而不管是否存在转换/颠换 。 2.当0.05<d<1,且检验的核苷酸较多时,用Juker-Cantor距离,除非转换/颠换 比较高(R>5)。 3.建议尽量避免使用d>1的数据。 4.当距离很大而n很小时,用来估计每个核苷酸位点替代数据的很多距离方法不能使用 。 5.当一个系统树是通过一个基因的编码区构建时,同义与非同义替换之间的差别很重要,可以用dS来构树。 6.如果两种距离测度对于同一数据获得相同的距离值(或极为相近)时,应该使用简单的一种测度 。

  29. 第三节 核苷酸和蛋白质的适应性进化 一、中性理论和中性检验 按照中性理论,我们今天观察到的遗传变异——无论是种内多态性还是中间分歧,均不取决于自然选择所驱动的有利突变的固定,而是取决于那些事实上没有适合效应(即中性的)突变的随机固定。

  30. 二、基因的适应性进化 (一)基因适应性进化的检验方法 • Tajima的D检验 Tajima的D检验的统计显著性可能与几种不同的解释相容,而且难于区分它们。正如前面所讨论的,一个负D值表明存在净化选择或群体中分离的轻微有害突变。然而,负D值也可能是由群体扩张造成的。

  31. 2. Fu和Li的D检验与Fay和Wu的H检验 Fu和Li区分了内部突变和外部突变,即分别在系谱树内枝或外枝上发生的突变。 Fay和Wu提出了一种类似的主意并构建了θ的估计值

  32. 3. McDonald-Kreitman检验和选择强度估计 McDonald和Kreitman检验所依思想采用了所谓的泊松随机场(Poisson random field)理论,已被扩展到估计度量自然选择强度的参数中。

  33. 4. Hudson-Kreitman-Aquade检验 Hudson-Kreitman-Aquade检验(即HKA检验),对种内多态性和种间分歧是同一过程的两个阶段这一中性预测进行了检验。

  34. (二)适应性进化的基因 大多数正选择基因可分为以下3类。 第一类包括针对病毒、细菌、真菌和寄生虫攻击的防御机制或免疫作用中的宿主基因,以及与破坏宿主防御机制有关的病毒或病原基因。 第二类主要包括与生殖有关的蛋白质或信息素。 第三类正选择基因与上述两类有所重叠,包括基因重复后获得新功能的基因。

  35. 第四节 分子进化与比较基因组学 一、基因组进化概述 基因组学(Genomics)是一门只有10多年历史的新兴学科,发展极为迅速,并产生了许多分支学科。 利用基因组学研究的方法和成果来研究生物进化,也就是进化基因组学(Evolutionary Genomics)所要研究的问题,并且越来越受到进化生物学研究者的关注。

  36. (一)基因组测序计划 (二)进化基因组学 对不同生物基因组结构的异同及其特点进行比较,除了在功能基因组学的研究上很有意义外,还有可能在一定程度上了解基因组的进化,特别基因组的结构特征与生物复杂性的关系。 为了了解基因组及其发展变化的本质,当然还要研究与生命起源有关的最原始的基因和基因组的起源,以及其后的进化模式与过程。这样,我们就有可能在分子水平上认识生物进化的分段是途径。

  37. 二、病毒基因组分析 (一)病毒基因组分析 病毒受自身突变和自然选择的影响,但病毒基因组的进化速度远远超过其他细胞的基因组。 (二)运用生物信息学方法研究SARS 由一个典型的冠状病毒结构,按照一定的顺序排列5个或者6个基因。

  38. SARS流行发生重构

  39. 三、原核生物基因组比较 (一)基于与人类疾病相关的细菌分类 (二)原核基因组分析 1.核苷酸组成 2.寻找基因 3.水平基因转移

  40. (三)原核生物基因组比较数据库 图5-8 Taxplot界面示意图

  41. 图5-9 MUMmer输出结果

  42. 四、真核生物基因组进化分析 (一)真核生物与原核生物差异 (二)真核生物基因组个例 虐疾致病体-虐原虫 (三)人类基因组分析

  43. 第五节 生物信息学与分子进化 一、蛋白质互作网络进化

  44. (一)网络中的蛋白质个体进化 蛋白质互作网络对蛋白质个体进化性质的影响,即蛋白质互作是否会减慢蛋白质进化速率,是在蛋白质个体层面上研究网络进化的主要问题。 蛋白连接度同其进化速率之间可能存在较弱的负相关关系

  45. (二)网络中的蛋白互作对进化 互作的两个蛋白质在进化上是否趋向具有相似的性质?在分子水平上是否趋向共进化?这是网络中蛋白互作对进化研究要回答的问题。 互作的蛋白质倾向于具有更相似的进化速率,且网络中的蛋白互作对在表达水平等层次上也可能存在微弱的共进化现象。

  46. (三)网络中的模体进化 对于网络模体进化的研究主要集中在探讨模体是否对其成员蛋白进化具有约束作用。 模体成员蛋白要比非模体成员蛋白在进化上更具有保守性

  47. (四)网络中的模块进化 蛋白质互作网络具有层次模块化特性。功能模块的最显著的特点是其往往表现出内部更可能在功能和拓扑上互相联系,在蛋白互作网络中主要以蛋白质复合物的形式存在。 网络的模块化对蛋白质进化可能有约束作用,成员蛋白之间在进化速率,表达水平等方面表现出共进化特性 。

  48. (五)网络的整体进化 • 研究蛋白质互作网络整体进化的最主要问题是蛋白质互作网络的起源。 • 无尺度和小世界网络的进化模型。目前应用最为广泛的是优先连接模型和复制-分歧模型。 • 优先连接模型描述网络的生长是通过不断向网络中添加新的节点来实现的,而新添加的节点倾向于优先与原有网络中度高的节点连接。 • 在复制-分歧模型中,网络中的初始蛋白质被随机选择并复制,且伴随该蛋白质参与的所有互作。

  49. 二、转录因子和miRNA的进化 (一) 发育过程中的转录因子和miRNA 不考虑转录因子自身的发育作用就不能谈基因调控的进化,因为这些作用能够对调控关系的进化起作用。

More Related