序列比较的生物学基础

序列比较的生物学基础 • 构成生命的基本单位是蛋白质； • 20种氨基酸组成的多肽折叠而成； • 什么决定蛋白质的氨基酸序列？ • DNA由4种脱氧核苷酸组成:ATGC • RNA由4种核肝酸组成:AUGC • 重要特征：互相配对 • 4种核苷酸组成64个三联密码子 • 形成6个开放读码框 • 序列测定

序列比较的生物学基础 • 构成生命的基本单位是蛋白质。而作为在细胞中催化各种化学反应的分子机器的酶，也是蛋白质。另外，细胞的许多结构也是蛋白质组成的。连非蛋白质的构成部分也是由属于蛋白质的酶所催化生产的。一个人体含有大约100,000种不同的蛋白质，正是这100,000种蛋白质的特性及其相互作用使我们无所不能。

序列比较的生物学基础 • 蛋白质由20种氨基酸组成的多肽折叠而成。蛋白质由20种不同的氨基酸组成不同长度的聚合体，也称为肽或多肽。由这种线性拓朴结构的聚合体折叠起来产生形状各异的不同蛋白质，不同的形状以及20种氨基酸的化学特性决定了蛋白质的功能。现代生物学中的一个很主要的概念是，蛋白质的功能特性主要决定于线性多肽链中20种氨基酸的序列。由于大多数蛋白质都是自身折叠而成，所以理论上知道了一个蛋白质的序列后即可推导出其功能。

序列比较的生物学基础 • 什么决定蛋白质的氨基酸序列？分子生物学的中心内容就是描述我们从父母获得的遗传信息是如何储存于DNA中，它们是如何被用于复制相同的DNA副本，如何从DNA转录到RNA再翻译到蛋白质的。

序列比较的生物学基础 • DNA由4种脱氧核苷酸组成:ATGC。DNA是由4种脱氧核苷酸形成的线性多聚体，这4种核苷酸是：腺嘌呤脱氧核苷单磷酸 (deoxyAdenosine monophosphate, A)、胸腺嘧啶脱氧核苷单磷酸 (deoxyThymidine monophosphate, T)、鸟嘌呤脱氧核苷单磷酸 (deoxyGuanosine monophosphate, G)、胞嘧啶脱氧核苷单磷酸 (deoxyCytidine monophosphate, C)。

序列比较的生物学基础 • RNA则是由A、U、G、C，4种核苷酸形成的相似线性多聚体，这4种核苷酸是：腺嘌呤核苷单磷酸(Adenosine monophosphate, A)、尿嘧啶核苷单磷酸(Uridine monophosphate, U)、鸟嘌呤核苷单磷酸(Guanosine monophosphate, G) 胞嘧啶核苷单磷酸(Cytidine monophosphate, C)。

序列比较的生物学基础 • DNA和RNA的重要特征：互相配对 DNA和RNA的一个重要特征是线性多聚体可以互相配对，其配对是序列特异的，由此而形成的双链聚合体因其特殊的形状而被称为“双螺旋”(double helix)。双链中G与C配对，A与T或U配对，其中一链可以作为合成另一链的模板，这就是DNA复制以至所有遗传学的基础。由DNA转录为RNA也使用类似的模板合成方式，而由RNA序列转化为蛋白质序列则较为复杂，这是通过三联密码子翻译成氨基酸的过程完成的，这一过程有转移RNA和核糖体(tRNA和ribosomes)的参与。

序列比较的生物学基础 • 遗传密码——三联子 mRNA上每3个核苷酸翻译成蛋白质多肽链上的一个氨基酸，这3个核苷酸就称为一个密码，也叫三联子密码。翻译时从起始密码子AUG开始，沿mRNA5’→3’的方向连续阅读直到终止密码子，生成一条具有特定序列的多肽链。 mRNA中只有4种核苷酸，而蛋白质中有20种氨基酸，若以一种核苷酸代表一种氨基酸，只能代表4种(41=4)。若以两种核苷酸作为一个密码（二联子），能代表42=16种氨基酸。而假定以3个核苷酸代表一个氨基酸，则可以有43=64种密码，满足了编码20种氨基酸的需要。

序列比较的生物学基础 • 4种核苷酸组成64个三联密码子。 4种核苷酸可以组成64个不同的三联密码子(triplet codes)，用于编码20种氨基酸绰绰有余。其中三个为终止密码子，代表多肽序列的末端，一种氨基酸可以由1~6个三联密码子编码。由多个密码子编码的氨基酸，不同密码子的使用频率并不相等，这种使用频率的不同分布称为“密码子偏好”(coden usage)。不同种的生物密码子偏好不同。

序列比较的生物学基础 • 4种核苷酸组成61个编码氨基酸的密码子和3个终止密码子，它们不能与tRNA的反密码子配对，但能被终止因子或释放因子识别，终止肽链的合成。由一种以上密码子编码同一个氨基酸的现象称为简并（degeneracy），对应于同一氨基酸的密码子称为同义密码子（synonymous codon）。

序列比较的生物学基础 • 形成6个开放读码框由于氨基酸是由三联密码子编码的，因此DNA序列就包含三个不同的开放读码框，取决于从第一、第二或第三位核苷酸开始(第四位和第一位同框)。而双链DNA的两条链都可以转录RNA，后者翻译蛋白质。因此，一个DNA序列及其互补链可以有6个不同的读码框(reading frames)。

序列比较的生物学基础 • 基因一般概念基因作为唯一能够自主复制、永久存在的单位，其生理学功能以蛋白质形式得到表达。DNA序列是遗传信息的贮存者，它通过自主复制得到永存，并通过转录生成mRNA，翻译生成蛋白质的过程控制所有生命现象。编码链（coding strand）又称sense strand，是指与mRNA序列相同的那条链。非编码链（anticoding strand），又称antisense strand，是指那条根据碱基互补原则指导mRNA生物合成的DNA链。

序列比较的生物学基础 • 基因表达的一般概念基因表达包括转录（transcription）和翻译（translation）两个阶段。转录是指拷贝出一条与DNA链序列完全相同（除了T→U之外）的RNA单链的过程，是基因表达的核心步骤。翻译是指以新生的mRNA为模板，把核苷酸三联子遗传密码翻译成氨基酸序列、合成蛋白质多肽链的过程，是基因表达的最终目的。只有mRNA所携带的遗传信息才被用来指导蛋白质生物合成，所以人们一般用U、C、A、G这4种核苷酸而不是T、C、A、G的组合来表示遗传性状。

序列比较的生物学基础 • 序列测定。可以用化学方法测定蛋白质的氨基酸序列以及DNA和RNA的核苷酸序列。可是，就目前来说，测定DNA的核苷酸序列比测定RNA序列和蛋白质序列容易的多。由于蛋白质序列可以由编码它的DNA序列推导出来，许多已知的蛋白质序列其实就是从DNA序列推导出来的。将mRNA转为DNA(cDNA)是一个简单的实验技术，因此RNA分子的序列通常是以cDNA序列测定的。序列分析其实就是从已知蛋白质、RNA、DNA序列作出生物学推论的过程。

序列分析的困难 • 技术欠缺 • DNA非编码区比编码区多 • 编码区不连续:内含子、外显子 • mRNA非编码区、tRNA、SnRNA • 从DNA序列推导蛋白质序列 • 从蛋白质序列推导结构和功能 • 二级结构:alpha helix、beta sheet • 超级二级结构、三级结构、四级结构 • 为什么结构命名如此复杂？ • 结构决定功能、实验方法欠缺 • 蛋白质三级结构推导的基础 • 目前不能从结构推导功能

序列分析的困难 • 技术欠缺。尽管从理论上来说，知道一个蛋白质的序列后，完全可以推导出它的特性，可是目前的生物学技术还远远不能做到这一点。当前的序列分析手段实际能做的与希望做到的还相去甚远。下面就谈谈序列分析困难在哪里。另外，上面也已提到，由于蛋白质序列测定的困难，目前大多数的蛋白质序列其实都是由编码它的DNA推导出来的。遗憾的是，从DNA转录RNA再翻译蛋白质的细胞学途径所具有的特点使这种推导难度大增。

序列分析的困难 • DNA非编码区比编码区多。许多蛋白质是由一个片段的DNA编码的，所以当分析DNA序列时，生物学家只需要知道蛋白质编码区从哪里开始，到哪里结束。然而在人类基因组中情况就不是那么简单了，因为人类基因组中包含着远远多于编码区的非编码区序列，随机获取的一个片段很可能并不编码任何蛋白质。

序列分析的困难 • 编码区不连续:内含子、外显子。编码蛋白质的DNA并不是连续的，而是在其中分布有许多叫做“内含子”的分隔区。大多数情况下，这个问题可以通过测定mRNA(cDNA)的序列来解决，因为cDNA中所含的非编码的额外部分很少，而原来被分隔开的外显子(exons)在mRNA(cDNA) 中已经被连接成为一个连续的片段。当然，在某些特殊情况下，难以分析RNA而只能分析DNA本身。

序列分析的困难 • mRNA非编码区、tRNA、SnRNA。虽然RNA分子中编码蛋白质的区域相对非编码区的比例远大于DNA分子，然而RNA分子中也还存在非编码区，如编码区的上游和下游，有时甚至比编码区还大。许多RNA分子并不编码任何蛋白质。例如，核糖体RNA(Ribosomal RNA, rRNA)，转移RNA(transfer RNA, tRNA)以及一些核仁小分子RNA(small nuclear ribonucleoproteins, SnRNA)等就属于非编码的RNA。

序列分析的困难 • 从DNA序列推导蛋白质序列。就目前来说，从DNA序列推导编码的蛋白质序列还没有一个总体的、通用的、完全的解决办法。不过，通过各种计算方法以及一些实验生物学，人们已经比较成功的做到这一点。目前，这个问题仍然是计算生物学最重要的问题之一。

序列分析的困难 • 从蛋白质序列推导结构和功能。当我们得到一个蛋白质序列之后，从序列推导它的结构和功能遇到的困难更大。上面提过，蛋白质的结构是通过多肽链本身的折叠，有时还有多个多肽链的组合。这种折叠通过组成肽链的氨基酸内部的化学键的转动和氨基酸之间肽键的转动而达成。遗憾的是，折叠的可能方式实际上是无限多的。为了帮助解决这一棘手问题，生物学家们将蛋白质的结构特征分成了等级。一级结构指的是蛋白质中氨基酸的序列(primary structure)，这是我们已经知道的。

序列分析的困难 • 二级结构：alpha helix、beta sheet。几十年前，人们发现多肽链可以形成有规则的结构，也就是在不同的多肽中都会形成一些相同形状的结构。其中之一是螺旋，被称为a-螺旋(alpha helix)；另一种形状是多肽链来回折叠所产生的片状面，这个结构被称为b-折叠(beta sheet)。它们形成蛋白质的二级结构。也有一些多肽根本不形成这种规则结构，事实上，大多数较长的多肽链在不同区域折叠成不同的二级结构。

序列分析的困难 • 超级二级结构、三级结构、四级结构。上面描述的肽链环绕形成a-螺旋和前后折叠形成b-片层都属于简单和规则的结构，还有一些比较复杂的结构，其中之一的是在许多转录因子中发现的螺悬-环-螺旋模体(helix-loop-helix motif)。这些被称为超二级结构。当我们看一个真实的多肽链时，其最终的形状是由二级结构的特征、也许有超二级结构的特征、加上一些随机的形态构造所一起形成的，这一整体结构被称为三级结构。最后，许多生物蛋白质由多个多肽链构成的，多条多肽链组合的方式被称为蛋白质的四级结构。

序列分析的困难 • 为什么结构命名如此复杂？为什么要对蛋白质的结构作如此复杂的命名呢？因为对蛋白质结构的理解实在是太重要又太困难了。其重要性体现在以下两点： 1. 结构决定功能 2. 实验方法欠缺

序列分析的困难 • 结构决定功能、实验方法欠缺。首先，蛋白质的功能绝对取决于它的结构。其实，让蛋白质失活的常规方法之一就是破坏它的结构，如通过加热或机械力(如抽打鸡蛋白)。只有完全正确折叠的蛋白质才有活性；其次，通过实验的方法测定蛋白质的结构极端困难。至今，已测定序列的蛋白质有约30000，而已知三级结构的蛋白只有约500个。显然，如果能够从一级结构推导出三级结构，甚至功能，将引起医学、药理学、化学以及生态学的伟大变革。

序列分析的困难 • 蛋白质三级结构推导的基础。目前对蛋白质三级结构进行推导的研究主要基于以下两点：同源性和最小自由能。前者通过与相关已知结构的蛋白质序列作比较来预测其三级结构。这种方式工作量大但却很成功。不过前提是必须有相似的已知结构蛋白质，很多情况下根本不可能找到。后者尝试测定最小自由能的结构，这是通过Monte-Carlo方法或Neural Net软件来实现。

序列分析的困难 • 目前不能从结构推导功能。最后，即使已经测定了蛋白质的三级结构，目前还没有任何技术可以从它们的结构推导出其功能特性。

序列分析可以做些什么？ • 从DNA序列推导蛋白质一级序列 • 从数据库中查找相似序列 • 序列排比，推导进化树、结构、功能 • 从哪里可找到序列分析软件？

序列分析可以做些什么？ • 按照上面所说，既然序列分析那么不另人乐观，为何还要花大力气去研究呢？ • 首先，企图寻找成功的序列分析方法本身是研究的目的之一，因为其研究成果的潜在回报可能是巨大的； • 其次，尽管目前很多问题还不能通过序列分析来解决，但仍然可以通过序列分析获得一些有意义的结果。

序列分析可以做些什么？ • 从DNA序列推导蛋白质一级序列。计算机程序在用于从DNA序列推导出蛋白质序列时，可以提供一些很有帮助的信息。例如，要找出DNA序列中那些是蛋白质编码区，如果能预先知道可能编码的是什么蛋白质，对找出编码区就很有帮助，因为所有6个读码框都有可能编码蛋白质。当然，计算机程序不可能绝对肯定的指出蛋白序列从哪里开始到哪里结束，至少能帮助我们推测蛋白编码区可能在哪里。其实，有许多因素可以用来帮助推导DNA序列中的蛋白编码区，如偏好密码子、代表DNA中调控信号的特征序列等等。一系列的计算机程序整合了这些有关特征，通过一些算法等对蛋白编码区作出预测。

序列分析可以做些什么？ • 从数据库中查找相似序列。在我们刚刚测定了一个感兴趣的DNA序列后，提出的第一个问题很可能就是“是否有人见过与此相似的序列？”。今天的国际互联网上已经有人很成功的将所有已经测定的序列收集起来供人查找。在DNA序列的收集方面主要靠三个小组的通力合作，他们一个在日本，一个在欧洲，还有一个在美国，形成三个大的数据库，分别是DDBJ、EMBL和GeneBank。这些数据库不断的相互交流数据，使各数据库的数据保持一致。因此查找任何其中一个，就等于查找所有三个。

序列分析可以做些什么？ • 从数据库中查找相似序列。问题是这些数据库都非常庞大，也就是说必须将新获得的基因序列与数据库中大量的序列作有效的比较。为了能快速的完成这一工作，人们已经编出了许多计算机程序，我们将在以后讨论其中的两个：BLAST和FASTA。为使查找或比较能快速进行，这些计算机程序所用的技术往往使序列比较中的精确度有所下降。很可能一些相似度不太高但相关的序列会被忽略掉。而另一方面，这些序列经常会把一些相似度不显著的序列判断为相似的序列。因此，我们只能把它们用于从数据库中找出一小批序列，作为进一步分析之用，而不是作为最终的结果。蛋白质序列的数据库，包括SwissProt和PIR，也可以用于查找和序列比较。

序列分析可以做些什么？ • 序列排比，推导进化树、结构、功能。尽管不可能完全从蛋白质序列本身推测其功能或结构，但在一定程度上还是可以做到的，尤其当未知结构与功能的蛋白质能与已知结构功能的蛋白质序列做比较时，更是如此；其次，目前的分析就算不能得出蛋白质结构与功能的最终结果，也可以为将来的进一步分析提供参考；第三，通过比较不同种生物等位蛋白的序列(这些等位蛋白被称为“同源的”)，可以勾画出这些物种的进化树。

序列分析可以做些什么？ • 序列排比，推导进化树、结构、功能。当我们拿到一个新的序列之后首先要做的事情之一是将它与其它序列作比较。可是，序列比较并不象想的那么容易。因为往往不是比较它们之间是否相同，而是比较看它们是否相似。另外，比较时除了有一些替代(如G被A替代)，还有插入和缺失的出现。而且，根据所比较的序列不同，比较的目的不同，比较的方法也会不同。所以，现在有很多不同的计算机程序用于序列比较。

序列分析可以做些什么？ • 从哪里可找到序列分析软件？在哪里可以找到这些程序呢？我们又需要具备什么条件和如何做才能运行它们呢？其实，并不存在一个提供所有序列分析软件的地方，也不存在一个运行这些软件的单一方法。你可以买一个商业的序列分析软件包，例如DNA*或MacVector，在你的个人电脑(PC)或Mcintosh上运行。或者你的研究所的计算机中心已经将各种商业和免费软件安装好了。你甚至可以根据杂志上发表的算法(algorithm)或你自己发明的算法编写你的程序(当然这比较少，如果你是搞生物学而非计算生物学的，我们也不建议你这样做)，或者干脆，现在网络上有许多地方提供软件运行，你只需连上去运行即可。我们下面就介绍这后一种方法。

序列比较的生物学基础

序列比较的生物学基础

Presentation Transcript