生物大分子的计算机模拟与三维结构预测

生物大分子的计算机模拟与三维结构预测 王琦吴韬分子设计与分子热力学研究所浙江大学化学系杭州 2003.9.13

提纲 • 开展本项研究的意义 • 当前相关研究综述 • 几种常用的预测方法 • 我们的研究兴趣与思路 • 虚拟实验室

1研究概述 • 蛋白质是生命的重要分子，几乎在所有的生物学过程中都扮演着重要的角色。 • 因此，关于其结构与功能方面的研究一直是人们关注的焦点。 • 蛋白质生物功能的关键在于其空间构象，一个伸展开来或随机排布的肽链是没有生物活性的。 • 虽然 X 射线晶体学和 NMR 技术是蛋白质结构测定的有效手段，但却远远跟不上飞速发展的 DNA 测序，它使得蛋白质氨基酸序列的信息以爆炸的方式增长，由此迫切需要直接由蛋白质的氨基酸序列出发进行高级结构的预测。 • 目前，对一定氨基酸序列的多肽链折叠形成特定空间结构蛋白质的机制了解甚少。 • 虽然已经发展了多种经验和理论的计算方法预测蛋白质结构，并取得了某些成功，但总体来说仍是一个尚未解决的难题。

... Scientifically, the folding of aprotein in all-atom detail is aholy grail of modern computational biology... - Vijay Pande, Stanford University

蛋白质的 4 级结构 一级结构（Primary） - 氨基酸序列二级结构（Secondary） -  螺旋（alpha helix） -  片层（beta sheet） - 盘绕（旋转）三级结构（Tertiary） - 3D 构象四级结构（Quaternary） - 多肽链组合

了解 3D 结构的重要意义 • 帮助我们了解蛋白质序列和结构之间的关系 • 帮助我们了解蛋白质结构和功能之间的关系 • 帮助我们发现新药物和改进药物的设计

影响 3D 结构的几个要素 • 氨基酸的物理化学性质 • 氨基酸的相对位置 • 二面角的限制性 • 氨基酸的亲水、疏水性 • 局部二级结构倾向 • 内部稳定化因子 • 氢键, 二硫键, 盐桥

蛋白质结构的实验测定 • X-ray 晶体衍射 • 需要生长蛋白质晶体（这对一部分蛋白质几乎是不可能的，总之，不容易） • 衍射图样能进行反傅立叶变换来表征电子密度（这有“相”的问题） • 核磁共振谱（NMR） • 能提供距离约束，但很难发现对应的结构 • 只适用于相对较小的蛋白质

蛋白质结构的理论预测 • 晶体衍射（X-ray）和核磁共振（NMR）实验所获得的结构数据远远满足不了需要 • 在人体蛋白中，只有 3571个可在 PDB 数据库中找到 • 30-50% 的读码框（Open Reading Frames）无法找到已知同源相似物 • 理论预测可以用于结构相似性研究，进而有助于蛋白质功能分析

溶液中的蛋白质是一个受到各种力作用的原子系统：化学键力、氢键力、库仑力、范德华力等。溶液中的蛋白质是一个受到各种力作用的原子系统：化学键力、氢键力、库仑力、范德华力等。 • 在适当的条件下，这些作用力将促使几乎任意初始构形的蛋白质折叠成为稳定的、良好定义的 3D 结构（native state）（在毫秒到秒的时间量级）。 • 这是蛋白质 3D 结构 ab initio（de novo）预测的基础。

另一方面，经过百万年的演变，蛋白质形成了一族类，具有相似的序列、相似的结构、以及相关的功能。另一方面，经过百万年的演变，蛋白质形成了一族类，具有相似的序列、相似的结构、以及相关的功能。 • 这是蛋白质结构预测的另一类方法－同源性比较方法的基础。

蛋白质结构的理论预测

结构预测的基本要求

2 相关研究综述（分子动力学，MD） • 蛋白质结构预测 • 蛋白质的折叠－解折叠 • 蛋白质－配体识别 • 酶 • 核酸（DNA, RNA） • 水化（溶剂化） • 生物膜 • 双分子脂质层 • 离子通道

蛋白质的结构预测 • 溶液中，蛋白质是一个受到各种力作用的原子系统：化学键力、氢键力、库仑力、范德华力等。 • 在这个综合力场中，运用分子动力学（MD）模拟，得到蛋白质分子的各种可能构象（轨迹）。 • 通过对各种可能构象进行全局自由能最小搜索，预测蛋白质的 3D 结构。 • 特点： • 建立在物理原理（定律）的基础上。 • 仅从蛋白质的氨基酸序列出发。 • 不依赖模型化序列与任何已知结构在折叠水平上的相似性。

1－40 A 多肽，水溶液，沿着优化的过渡路径的结构变化，从折叠的线圈（coil）结构到 -螺旋结构

1－40 A 多肽，水溶液，沿着优化的过渡路径的结构变化，从折叠的线圈状态到折叠的 -片层目标构型

蛋白质的折叠－解折叠 • 关于蛋白质热变性的解折叠过程的 MD 模拟研究表明： • 解折叠的总体路径与温度无关。温度升高，只不过过程加速。 • 折叠的过程与解折叠过程有直接的关系。 • 这两点与以往的认识截然不同。 • 理由：模拟观测到的再折叠（refolding）过程正好与在高温解折叠模拟中所观察到的相反。

一些蛋白质的本性结构（N）和过渡态结构（TS）的 MD 模拟结果

溶菌酶解折叠过程的 MD 模拟，经过了一系列的中间态（I），这些不同于螺旋的填充（packing）。D 表示变性体。

通过 MD 模拟 Barnase 的解折叠过程反过来研究其可能的折叠路径。D 表示变性体。

蛋白质－配体识别 • 蛋白质－配体识别与生物分子的自由能模拟得益于一些重要方法的改进（和计算机能力的提高）。 • 分子识别的研究能够帮助人们理解超出相互作用本身所涉及的更多信息，是对实验研究的重要补充。 • Poisson-Boltzmann 静电模型提供了一个较快又较简单的自由能模拟方法，这种情况下静电相互作用是主要的。 • 研究了天冬氨酸tRNA 合成酶对氨基酸的识别，这些特征对于保持遗传密码的完整性是非常重要的。

Asp 和 Asn 对天冬氨酸 tRNA 合成酶（AspRS）成键的热力学循环 • 成键自由能变化的计算有两种方法 • ΔΔG =ΔG1 － ΔG2（Alchemical） • ΔΔG =ΔG4 － ΔG3（Chemical）

蛋白质－配体间相互作用 • 以力场能为基础来确定配体与蛋白质之间的相互作用和热力学构象所进行的简单自由能计算在配体结构设计方面是非常有用的工具。 • 线性相互作用能方法计算配体键自由能的 MD 模拟。 • 优势：在配合物中仅仅考虑配体之间的相互作用就可确定键合能。 • 应用 • 在 lead optimization方面有前景 • 蛋白质之间的相互作用 • 离子通道

酶 • MD 模拟正在引导我们对酶的生物活性有一个更深入的了解。 • 模拟可以告诉我们反应物（配体）是如何从酶的表面运动到内藏的活性部位的，以及这种运动的逼真图像。 • 提出了酶活性调节的可能模式。 • 基本通道瓶颈的张合运动影响反应物与活性中心的键合。 • 动力学选择性：酶在正常状态下瓶颈的张合可能不会明显影响与反应物的键合，但较大的反应物分子可能会在有一个足够大的张开前即由于扩散而逃走。 • 动力学选择性可能代表生物分子识别中的一种更普遍的现象。

乙酰胆碱酯酶（AChE），配体到达活性部位的几率由基本通道（喉）颈宽度的波动所控制。也可能在很短暂的时间内活性部位和蛋白质表面会出现一个第二通道（后门）。乙酰胆碱酯酶（AChE），配体到达活性部位的几率由基本通道（喉）颈宽度的波动所控制。也可能在很短暂的时间内活性部位和蛋白质表面会出现一个第二通道（后门）。

AChE 通道（喉）“开”与“关”的构象比较（模拟结果）。Ser 203 位于活性中心。

核酸（DNA, RNA） • 核酸的 MD 模拟，数皮秒的时间标度。 • 可以获取核酸序列以及各种溶剂条件对结构和分子的运动的影响信息。大到象 tRNA 这样的分子。 • 在非常详细的层面上跟踪构型变化的过程。 • 核酸形成的大的生物分子配合物研究。 • 时间尺度提升至数百皮秒。 • 全溶剂化的核酸系统的分子模拟已逐步面向实际体系。 • 算法的改进已使得高度变化的核酸体系的精确 MD 模拟成为可能。 • 更复杂的反应，如 RNA 催化及折叠等，仍依赖于更强大的计算机。

ApA 二聚体的自由能、基础角、可到达表面积对反应坐标作图 • ApA 的堆叠构型

水化（溶剂化） • 描述生物大分子周围的溶剂（水）分子分布。 • V. Makarov 等人从实验、理论和模拟等方面综述了这一领域近 5 年的研究进展。 • 结论 • 大多数情况下，生物大分子在溶剂中不仅仅是一般的溶解，在与周围水分子的作用方式上，局域水化模式下水分子的分布更加切合实际，而不同于游离的水分子。 • 在溶液中，局域化的水分子往往是与大分子缔合在一起的。 • 描述了接近 DNA 和蛋白质分子表面的界面溶剂分子的结构（分布）。

抹香鲸肌红蛋白的水化 • 水化位置（蓝，实验），水化数密度最大值（黄，MD 模拟）

肌红蛋白周围溶剂数的 3D 密度分布，由 MD 轨迹切片计算得到。 • 溶剂密度由肌红蛋白的平均结构覆盖。 • 等密度线：0.005（蓝），0.01（绿），0.02（黄），0.035（红） • （a）由模拟结果得到（b）由模型预测

由 MD 模拟得到的 DNA 周围的溶剂化密度。 • 最大值（实线）和最小值（虚线） • 黄点为 X 射线分析结果。二者符合良好。

生物膜与双分子脂质层 • 最近 10 年，计算机模拟已经深入到能够认识生物膜性质的水平，包括 DNA 与脂质体的相互作用、形成微孔的跨膜肽对脂质体环境的影响、以及挥发性麻醉分子的分配等。 • 这些模拟中，所有的原子都是受限在小于10 nm 的空间内，这个模型搭起了全原子细节与介观区域之间的桥梁。 • 以磷脂体中的麻醉剂分子为例进行了研究。 • DNA 与脂质体混合物作为重要的生物物质，是因为它们是基因的携带者。

MD 模拟 5.5 ns 后 DMPC（中性脂质体）/ DMTAP（阳离子脂质体）与 DNA 的联合体构型。（a）垂直于 DNA 轴（b）平行于 DNA 轴。 • DNA 和脂质体的“头” P、N 用球表示， “尾（疏水链）”用棍表示。 • 各原子的颜色：N, 蓝色；O, 红色；P, 黄色; C（DNA）, 灰色；C （脂质体）, 绿色；H, 暗灰色。

形成微孔的跨膜肽对脂质体环境的影响。 • 5_M2-DMPC 的构型。 MD 模拟 2 ns 后。 • 脂质体分子用球和棍表示。头端的 N 和 P 原子用蓝色和黄色的球表示。 • 各原子的颜色：M2 螺旋的 N, 蓝色；O, 红色；C, 灰色；S, 黄色。

两种麻醉剂分子进入双磷脂层的分配情况。 MD 模拟 2 ns 后的构型。 • 水分子和 SDPC 用球棍模型表示，脂质体中的 N 和 P 原子表示为蓝色和绿色的球。F, 黄色；Cl, 亮绿色；Br, 暗绿色；H, 灰色。

离子通道 • 离子通道允许无机金属离子选择性地穿过膜脂质层。 • 通过基于原子模型和外部溶剂与膜脂质体之间的微观相互作用的 MD 模拟，使我们得以窥探到这类复杂体系的内部过程，允许人们在微观水平上观察离子的渗入（透过）。 • 在过去的近十年中，随着计算方法的改进，短杆菌肽 A 离子通道的模拟研究从较简单的仅含有蛋白质和少数水分子的模型过渡到复杂的含有大的生物分子和脂质体的体系。现在，用真实的原子模型来模拟一些重要的生物通道几乎是比较常规的工作，如： Escherichia coli porin 的OmpF porin, 机械敏感通道 MscL, Streptomyces lividans的 KcsA K+通道。

MD 模拟中的被 2 个 Na＋离子占据的短杆菌肽 A 通道

短杆菌肽 A 通道在 50 皮秒时间间隔内沿 MD 轨迹的 5 个构形的叠合图

3 几种常用的预测方法 • Ab initio预测 • 不依赖已知结构的同源相似物信息，直接预测一个序列对应的蛋白质三级结构（3D 构象） • 线段模型（Threading） • 通过研究同已知线段序列的吻合度得到结构信息 • 同源性（Homology）建模 • 根据序列同源性分析、调整已知结构进行结构预测

比较成功的工具和技术 • Ab initio预测 • Rosetta, RAMP • Threading • 3D-PSSM, PhD, 123D • Homology 建模 • Modeller, SWISS-MODEL

几种 ab initio预测方法分析 • 分子动力学模拟 • 基于格子的方法 • 基于局域模型的方法理论难点： • 缺少精确的势能函数 • 构形空间太大，缺少有效的能量最小化计算策略

分子动力学模拟 • 优点 • “真正的” ab initio预测 • 实时的动力学信息 • 良好的理论基础 • 缺点 • 耗时，计算成本高 • 对大分子溶液中势函数的研究不足

基于格子模型的方法 • 格子模型（Lattice models） • 用格子作为蛋白质的建造单位 • Ising 模型 • 离散态偏离格子模型（Discrete State Off-Lattice Models） • 允许氨基酸拥有有限的运动自由度

基于格子模型的方法 • 优点 • 物理图像简单 • 降低了计算复杂度 • 缺点 • 无法描述复杂的空间结构 • 分辨率低于格子大小，限制了研究的精确度

基于局域模型的方法 • 局域预测方法（Narrowing the search with Local Structure Prediction） • 片段可以独立地进行折叠 • 折叠的细节依赖于上下文序列 • 成功应用 • David Baker 等的 Rosetta

基于局域模型的方法 • 如运用神经网络模型、决策树模型等机器学习算法来提高计算效率 • 优点 • 计算速度快 • 精度高 • 结合了Homology 方法的优点 • 缺点 • 非实时信息 • 物理图像不明显

通过机器学习提高效率 • 基于神经网络的方法 • Silvio Tosatto 等 • 基于决策树模型的方法 • Shawn M. Douglas 等 • 基于 SVM 的方法 • Xu 等（PROSPECT）

CASP 竞赛 Critical Assessment of Structure Prediction • 94 年起每两年进行一次 • 分为三类 • 对已知蛋白质结构进行预测, ab initio, homology, folding, etc. • 部分自动与全自动方法 • 发表大量相关信息、评价和展望 • 预测结果逐年得到改进

生物大分子的计算机模拟与 三维结构预测