第五讲分子进化与系统发育分析

第五讲分子进化与系统发育分析

5.2 分子系统发生分析的优点分子系统发生学的历史 5.1 系统发生树 5.3 距离矩阵法 5.4 最大似然法 5.5 相关软件 5.6

5.1 分子系统发生学的历史 系统发生学是研究物种之间的进化关系的，是进化生物学的一个重要研究领域，系统发生分析在达尔文时代就已经开始。从那时起，科学家们就开始寻找物种的源头，分析物种之间的进化关系，给各个物种分门别类。 Charles Darwin (1809-1882)

研究者一直致力于研究DNA序列以及基因组信息，目前DNA数据比任何分子信息都要丰富 20世纪70年代后至今研究者开始能够获得基因组信息，特别是DNA序列 20世纪70年代蛋白质测序成为可能 20世纪60年代分子数据开始被广泛应用于系统发生研究 20世纪50年代正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先 1902和1904

生物进化理论 • 达尔文进化论： • 进化：变异的遗传 • 自然选择：解释为何演变发生的机制种群中个体变异的遗传学基础：孟德尔遗传 • 孟德尔豌豆实验：杂交的表现特征是基因表达的结果，而不是基因杂交遗传 • 中性进化论：并非所有种群中保留下来的突变都由自然选择所形成；大多数突变是中性或接近中性，不妨碍种群的生存与繁衍。

研究生物进化历史的途径 • 1. 最确凿证据是：生物化石！—— 零散、不完整 • 2.比较形态学、比较解剖学和生理学等：确定大致的进化框架 —— 细节存很多的争议

分子进化 • 1964年，Linus Pauling提出分子进化理论； • 从物种的一些分子特性出发，从而了解物种之间的生物系统发生的关系。 • 发生在分子层面的进化过程：DNA, RNA和蛋白质分子 • 基本假设：核苷酸和氨基酸序列中含有生物进化历史的全部信息。

分子进化的模式 • DNA突变的模式：替代，插入，缺失，倒位； • 核苷酸替代：转换 (Transition) & 颠换 (Transversion) • 基因复制：多基因家族的产生以及伪基因的产生 • A. 单个基因复制 – 重组或者逆转录 • B. 染色体片断复制 • C. 基因组复制

DNA突变的模式 替代插入缺失倒位

核苷酸替代：转换 & 颠换 • 转换：嘌呤被嘌呤替代，或者嘧啶被嘧啶替代 • 颠换：嘌呤被嘧啶替代，或者嘧啶被嘌呤替代

基因复制：单个基因复制 重组逆转录

基因复制：基因组复制 酿酒酵母克鲁雄酵母研究结果：克鲁雄酵母中的同源基因数量与酿酒酵母相比为1：2

分子进化研究的目的 • 物种分类及关系：从物种的一些分子特性出发，构建系统发育树，进而了解物种之间的生物系统发生的关系 —— tree of life • 大分子功能与结构的分析：同一家族的大分子，具有相似的三级结构及生化功能，通过序列同源性分析，构建系统发育树，进行相关分析；功能预测 • 进化速率分析：例如，HIV的高突变性；哪些位点易发生突变？

Tree of Life: 16S rRNA

Out of Africa 人类迁移的路线 53个人的线粒体基因组(16,587bp)

同源性与相似性 相似性 (Similarity) 序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占比例；定量描述；同源性 (Homology) 两个基因或蛋白质序列具有共同祖先的结论；定性判断；相似不一定同源,同源不一定相似。氨基酸序列相似性超过30%,很可能同源。

序列同源性模型中的进化假设 所有的生物都起源于同一个祖先；序列不是随机产生，而是在进化上，不断发生着演变；基本假设：序列保守性结构保守性注意：反之未必序列保守性结构保守性

比较分析 表型分析 ①具有一定的局限性 ②许多生物体没有可用来进行比较的易于研究的表型 ③什么样的表型特征能用来比较也不特别明了分子系统发生分析基于DNA和蛋白质序列的分析，能够克服表型分析的缺点问题，能够对生物体进行正确的分组，对于所得数据比较可靠。 5.2 分子系统发生分析的优点

5.3 系统发生树 • 概念系统发生树：三个或者更多基因或生物体之间进化关系的典型图示；大部分系统发生研究都是围绕系统发生树的概念进行的，它不仅表示了数据之间的关系，还体现了他们的分歧时间和他们共同祖先的特征。

重建系统发生树的术语 5.3.1 有根树和无根树 5.3.2 基因树和物种树 5.3.3 特征和距离数据 5.3.4 5.3 系统发生树

5.3.1 重建系统发生树的术语 • 系统发生树有时也称为系统树图，它是由一系列的节点和分支组成的，其中每个节点代表一个分类单元。分支末端的节点（外部节点）对应一个基因或生物体；内部节点代表一个推断的共同祖先，它在过去的某个时候分歧出两个独立的分支。

Ⅱ Ⅲ Ⅳ Ⅴ Ⅰ A B C D 5.3.1 重建系统发生树的术语 5个物种 (Ⅰ,Ⅱ, Ⅲ, Ⅳ, Ⅴ) 之间的进化关系的系统发生树外部节点内部节点根节点系统发生树结构的基本信息在计算机程序中常用一组嵌套的圆括号表示，称为 Newick 格式，用该格式来表示上图中的树，可写成 ( ( (Ⅰ,Ⅱ), (Ⅲ, Ⅳ ) ) , Ⅴ)

Ⅱ Ⅲ Ⅳ Ⅴ Ⅰ Ⅰ Ⅱ Ⅴ Ⅲ 时间 Ⅳ 根 ⑴ 有根树 ⑵ 无根树 5.3.2 有根树和无根树有根树种，单一的节点指派为共同的祖先，从祖先节点只有唯一的路径进化到达其他任何节点。无根树只表明了节点之间的关系，而没有关于进化发生方向的信息；

Ⅰ Ⅱ Ⅰ Ⅱ Ⅲ Ⅰ Ⅲ Ⅱ Ⅲ Ⅱ Ⅰ Ⅲ 无根树有根树 5.3.2 有根树和无根树 • 只考虑3个物种的时候，有3棵有根树，一棵无根树，如下图所示：

5.3.2 有根树和无根树 描述少量物种之间可能的进化关系的有根树和无根树的数目 • n 个物种可能的有根系统发生树 (NR)和无根系统发生树(NU)数目可用下面的公式计算得到： • NR = (2n-3)! ∕2n-2 (n-2)! • NU =(2n-5)!∕2n-3(n-3)! 只有一棵树代表了（基因或物种）的实际系统发生关系！

5.3.3 基因树和物种树 区别：基因树为基于单个同源基因差异构建的系统发生树；物种树一般从多个基因数据中分析得出。只考虑一个基因的时候个体可能表现出与其他物种的成员关系更近。基因分化事件常常在物种形成前或后发生。

5.3.4 特征和距离数据 • 用于构建系统发生树的分子数据分成两类: (1)距离 (distances) 数据，常用距离矩阵描述，表示两个数据集之间所有两两差异； (2)特征 (characters) 数据，表示分子所具有的特征。 • DNA 和蛋白质序列数据描述离散的特征； • 一旦建立了确定所有可能状态之间相似性的标准，特征数据就很容易转化成距离数据；

系统发育树重建分析步骤 多序列比对（自动比对，手工校正）选择建树方法以及替代模型建立进化树进化树评估

系统发育树重建的基本方法 • 1. 最大简约法 (maximum parsimony, MP) • 适用序列有很高相似性时 • 2. 距离法 (distance) • 适用序列有较高相似性时 • 3. 最大似然法 (maximum likelihood, ML) • 可用于任何相关序列集合 • 计算速度： • 距离法 >最大简约法 >最大似然法

1. 最大简约法 (MP) • 根据信息位点提供的各序列间的替换情况，在所有可能的树中筛选含最小替换数的树的方法。 • 理论基础为奥卡姆剃刀 (Ockham)原则：计算所需替换数最小的那个拓扑结构，作为最优树。 • 在分析的序列位点上没有回复突变或平行突变，且被检验的序列位点数很大的时候，最大简约法能够推导获得一个很好的进化树。 • 优点：不需要在处理核苷酸或者氨基酸替代的时候引入假设 (替代模型) 缺点：分析序列上存在较多的回复突变或平行突变，而被检验的序列位点数又比较少的时候，可能会给出一个不合理的或者错误的进化树推导结果。

信息位点 • 信息位点：能将所有可能的树区别出来的位点。 • 信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点。

上例 • Position 5, 7, 9为信息位点; • 基于position 5的三个MP树: • Tree 1长度为1，Tree 2 & 3长度为2 • Tree 1最为简约：总长=4 Tree 2长5；Tree 3长6 • 计算结果：MP tree的最优结果为tree 1

2. 距离法 • 又称距离矩阵法，首先通过各个物种之间的比较，根据一定的假设（进化距离模型）推导得出分类群之间的进化距离，构建一个进化距离矩阵。再依据进化距离，分别依次将序列合并聚类，构建进化树。

简单的距离矩阵

通过距离矩阵建树的方法 • 由进化距离构建进化树的方法有很多，常见有： • (1) Fitch-Margoliash Method (FM法): 对短支长非常有效 • (2) Neighbor-Joining Method (NJ法/邻接法):求最短支长，最通用的距离方法 • (3) Neighbors Relaton Method(邻居关系法) • (4) Unweighted Pair Group Method with Arithmetic Mean (UPGMA，非加权组平均法)

(1) Fitch-Margoliash方法 (FM法) • 示例 => D和E最接近！ d D ABC m E e

(1) FM法示例 分成三组：D, E, 以及ABC

DE距离=d+e=10 (1) D到ABC间的平均距离=d+m = 32.7 (2) E到ABC间的平均距离=e+m = 34.7 (3) (2)-(3)+(1) d=4,e=6 d D ABC m E e

=> C最接近DE！ 分成三组：C, DE, 以及AB

c+g+(e+d)/2=19 (1) c+f+(a+b)/2=40 (2) (e+d)/2+(a+b)/2+f+g=41 (2) (1)+(2)-(3) =>c=9 => g=5

由：(a+b)/2+f+g+(d+e)/2=41 得：f=20 由：a+f+c=39 得：a=10，则b=12

N-J/邻接法 • 与FM方法非常类似 • 保证总的支长最短 • 总支长：a+b+c+d+e=314/4=78.5

找到距离最近的两个点 • 1.任意两个节点选为相邻序列的总支长计算公式: • 2.计算SAB, SBC, SCD, SDE…等数值 • 3.该例中， SAB最小

计算A, B的分支长度 把A、B看成一个新的复合序列，构建一个新的距离表，重复以上过程

UPGMA法 d=e=10/2=5

c=19/2=9.5 g=c-d=9.5-5=4.5

a=b=22/2=11

f1+a=f2+c=40.5/2=20.25 f1=9.25 , f2=11.75

最大似然法 (ML) • 最大似然法(maximum likelihood, ML): 最早应用于对基因频率数据的分析上 • 选取一个特定的替代模型来分析给定的一组序列数据，使得获得的每一个拓扑结构的似然率都为最大值，然后再挑出其中似然率最大的拓扑结构作为最优树； • 在最大似然法的分析中，所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长，并对似然率求最大值来估计枝长； • 缺点：费时，每个步骤都要考虑内部节点的所有可能性 • 改进：启发式算法，分枝交换搜索等

第五讲 分子进化与系统发育分析