第一节相关分析 · 比对（ Correlation analysis·alignmemnt ）

第十七章 基因和蛋白质信息处理中的信号处理技术(Signal Processing Techniques for Gene and Protein Information Processing)

第一节相关分析·比对（Correlation analysis·alignmemnt）基因（的单字符表示法）是由四个字符A（脱氧腺嘌呤核苷酸）、T（脱氧胸腺嘧啶核苷酸）、G（脱氧鸟嘌呤核苷酸）和C（脱氧胞嘧啶核苷酸）的序列（常称为碱基）组成，其遗传信息就包含在序列的组成和排列顺序中。在关键之处，序列的组成相同但排列不同有完全不同的意义，如ATG 与TGA，前者表示起始码，按人类通用遗传密码表（见表17-1），翻译成蛋氨酸（M）。后者表示终止码，指令系统停止翻译。组成蛋白质的氨基酸有20种，其单字符码见表17-1。蛋白质的结构和功能不但与序列的组成有关，而且与排列顺序有关。这些性质与信号序列的性质十分相似。生物信息学中的序列比对（alignment：比对、联配、对准）技术与信号处理中的相关分析技术十分相似。当前序列分析和功能预测主要是基于统计理论和字符串比较技术，因此不能用现代信号处理理论进行进一步分析和特征提取。

表17-1 通用（人的细胞核）遗传密码表

第二节 蛋白质结构和功能预测中的信号处理技术(Signal processing in predicting structures and functions of protein) 蛋白质结构和功能预测包括用比对技术由已知结构和功能的蛋白质预测未知蛋白质（主要是根据对DNA测序的结果由计算机翻译出的氨基酸序列）的结构和功能。现有的技术是基于字符串比较的技术。还可尝试用信号处理中的相关分析技术，这样就必须首先对组成蛋白质的氨基酸序列进行数字化。

一、蛋白质序列的比对 蛋白质序列的比对实际上是组成蛋白质的氨基酸序列的比对。比对的目的是：（1）研究不同物种间的同类蛋白质的同源性关系，比对结果的评分高（类似于相关系数大）者，则关系近；（2）根据已知蛋白质的结构和功能预测（推断）未知蛋白质的结构和功能，比对结果的评分高（类似于相关系数大）者具有相似的结构（二、三、四级结构）。下面将以人、大、小鼠的β3肾上腺素能受体（一种与脂代谢有关的跨膜蛋白质）的氨基酸序列的比较为例，说明小鼠与人的（遗传）进化关系更近，其β3肾上腺素能受体具有更相似的结构和功能。推论就是，用小鼠作医学实验（含药物实验）比用大鼠更好。

关于组成蛋白质的氨基酸的序列的比对，互联网上有公用的程序，如NCBI(national center of biology information)的BLAST 2.0(basic local alignment search tools 2.0), 网址为：HTTP://WWW.NCBI.NLM.NIH.GOV/BLAST/。该程序有多个功能，其中BLASTP专用于蛋白质序列比对。该程序可以在网上运行，也可以下载到本地计算机上运行。 BLAST程序使用的技术是字符串比较的技术，比较氨基酸序列的单字符代码。氨基酸序列的比对程序研究了多年，现在仍然在不断改进之中。在使用该程序时，一般都要选用一个表，如表17-2。它是基于对氨基酸的性质的研究，对于两氨基酸序列中的不同氨基酸相对准时，给以不同的评分。这个表是基于研究蛋白质比对的多年经验的积累。

表17-2 氨基酸比对评分表（BLOSUM62氨基酸替换矩阵）注：表中氨基酸按其侧链基团的化学性质分组。（C）：硫基；（STPAG）：小亲水性；（NDEQ）：酸性，酸性酰胺；亲水性；（HRK）：碱性；（MILV）：小疏水性；（FYW）：芳香类。

二、相似性或同源性比较 在序列分析中，常常研究序列的同源性或相似性。虽然这两个概念有某些不同的意义，但是所用的技术是类似的，都是用字串比较的相关分析技术。下面以人、大、小鼠的β3肾上腺素能受体（蛋白质）的相关分析为例说明之。人、大、小鼠的β3肾上腺素能受体（β3－AR）的氨基酸序列如图17-1。

图17-1 人、小鼠和大鼠beta3的氨基酸序列比较（已对准）注：最右边的数字为有差异的氨基酸数图17-1中，*号的意义为：以人为基准，则表示鼠的β3－AR为基因缺失变异；若以鼠为基准，则人的β3－AR为基因插入变异。从进化关系来看，应为后者。由图17-1可知，人与鼠的β3－AR的氨基酸序列相比，氨基酸差异：92aa；百分差异：92/408 = 22.5%。,顺序和组成相似性为：77.5% 关于SNP（single nucleotide polymorphisms：单核苷酸多态性）问题。人的β3－AR 的W/R-64对应于鼠的R-61。一般将人的β3－AR的氨基酸序列的W(色氨酸)-64认为是野生型，因而从进化来看，人的β3－AR的R(精氨酸)-64等位基因应为野生型。因此在比较不同种属的基因方面，似乎应进一步考虑多态性问题。但是，关于鼠的Beta-3的SNP很少有资料。

概括起来，有以下几点比较结果： 1．人与小鼠比较，ADRB3氨基酸序列校准长度为411aa，氨基酸差异：85aa，百分差异%为：20.7%（85/411），顺序和组成相似性（同源性）为：79.3%。 2．人与大鼠比较，ADRB3氨基酸序列校准长度为408aa，氨基酸差异：86aa, 百分差异为：21.8%，顺序和组成相似性为：78.2%。 3．小鼠与大鼠比较，ADRB3氨基酸序列校准长度404aa，差异：34aa，百分差异为：7.4%，顺序和组成相似性为：92.6%,。 4．人、小鼠和大鼠的ADRB3氨基酸序列的主要的差异为第四胞内段的差异，人与小鼠比较、人与大鼠比较、小鼠与大鼠比较，百分差异分别为：86.4%、84.2%、71.4%。

第三节 DNA结构和功能预测中的信号处理技术（Signal processing techniques in DNA structure and function prediction）

一、DNA序列功能预测和基因查找 用已知功能的DNA序列，如一个基因序列，保守域（conservative domain），启动子(promotor)序列，motif序列等与基因组（genome）的序列进行比对（相关分析），若发现有较高的相关性，则提示有类似的功能。关于DNA序列的比对，互联网上有公用的程序，如NCBI的BLAST 2.0), 网址为：HTTP:// WWW. NCBI.NLM. NIH. GOV /BLAST/。该程序有多个功能，其中BLASTN专用于DNA序列比对。二、DNA序列的比对用于引物特异性分析引物(primer)是一段有几十个碱基（如15~70bp）的寡核苷酸序列。在基因分析，如基因单核苷酸多态性（SNP：single nucleotide polymorphims）中，常用引物截取和扩增一段特定DNA序列。根据碱基配对准则，可以对任何一段碱基序列设计指定长度的引物。但是引物的特性常常是实验成败的关键因素。其中特异性是关键的因素。所谓特异性就是说，该引物是否只与我们感兴趣的DNA片段配对。如果配对的片段不止一个，则就没有特异性，便不能用。除了特异性外尚有发夹结构（Hairpin：一条引物自身有连续三个以上的碱基可以配对）、二聚体（Dimer：引物之间有连续三个以上的碱基可以配对）、交叉二聚体（Cross-dimer：在非起始部位，引物与模板DNA间，有连续三个以上的碱基可以配对）、错配（False priming：起始部位不在希望的位置）。所有这些引物特性的评估，都可用基于字串比较的比对技术来完成，如用Blast程序来完成。

三、细胞膜的各种嵌镶蛋白跨膜区预测 细胞膜的各种嵌镶蛋白（跨膜蛋白，包括受体和离子通道）分成膜外域、膜内域和跨膜域。膜外域的始端是氨基，膜内域的末端是羧基。膜外域与膜内域都要与细胞外液和细胞内液接触，所以主要有亲水氨基酸组成。细胞膜是双脂层，因此跨膜域主要由亲脂氨基酸组成，这就是跨膜区的预测的基础。细胞膜的各种嵌镶蛋白的跨膜域预测成为细胞膜的各种嵌镶蛋白的功能预测的主要工作。β3肾上腺素能受体的空间结构如图17-2。组成蛋白质的20中氨基酸的各种理化性质示于表17-3。图中清楚示出跨膜螺旋I~VII。跨膜区的长度有15~27aa。用滑动试探法，连续计算15aa的氨基酸序列的值之和，如果其疏水值大于0，则很可能是跨膜域。应该指出，基于字串比较的方法，不利于各跨膜域的特性的比较。

表17-3 20种氨基酸的理化性质

根据表17-3可以从不同的角度对氨基酸序列进行数字化，获得数字化序列。然后就可以用信号处理的理论和技术进行处理。如由各跨膜区的数字特征，计算跨膜区的相关性，进一步解释跨膜区的功能。作跨膜区的特征图，了解跨膜区的复杂性，并进一步研究这些数字特征与功能的关系。根据表17-3可以从不同的角度对氨基酸序列进行数字化，获得数字化序列。然后就可以用信号处理的理论和技术进行处理。如由各跨膜区的数字特征，计算跨膜区的相关性，进一步解释跨膜区的功能。作跨膜区的特征图，了解跨膜区的复杂性，并进一步研究这些数字特征与功能的关系。图17-2 β3肾上腺素能受体空间结构示意图（计算机预测结果）

这里以β3肾上腺素能受体第一跨膜区的基于疏水值的数字化为例（表17-4）说明基因序列数字化技术的应用。这里以β3肾上腺素能受体第一跨膜区的基于疏水值的数字化为例（表17-4）说明基因序列数字化技术的应用。表17-4 β3肾上腺素能受体第一跨膜区的基于疏水值的数字化 (续表)

(续表) (续表) (续表)

表17-4中，前16项(1~16)为第一胞外段的部分序列，黑色、斜体、有双下划线的中间27项（17~43，据现有知识，跨膜区长15-27bp）为第一跨膜区，后7项(44~50)为第一胞内段的部分序列。每三行为一组，依顺序分别为：氨基酸单字符码，对应的氨基酸的疏水值，疏水（赋值1）/亲水（赋值－1）的二值化数字特征。每段的平均疏水值分别为：-6.7/16=－0.42；63.65/27=2.36；-6.3/7=－0.9。前15位的疏水特性更均匀。按序列的疏水值作图如图17-3。表17-4中，前16项(1~16)为第一胞外段的部分序列，黑色、斜体、有双下划线的中间27项（17~43，据现有知识，跨膜区长15-27bp）为第一跨膜区，后7项(44~50)为第一胞内段的部分序列。每三行为一组，依顺序分别为：氨基酸单字符码，对应的氨基酸的疏水值，疏水（赋值1）/亲水（赋值－1）的二值化数字特征。每段的平均疏水值分别为：-6.7/16=－0.42；63.65/27=2.36；-6.3/7=－0.9。前15位的疏水特性更均匀。按序列的疏水值作图如图17-3。图17-3 β3肾上腺素能受体第一跨膜区的疏水图

图17-3中，上部为疏水区，下部为亲水区。对跨膜段，作了疏水值的折线图(波动图)，均值(2.36)用直线示出。对第一膜内外段的部分序列，只作了散点图。由图和表可以看出，跨膜区也含亲水氨基酸(特别大的亲水值者为N: 天冬酰胺，疏水值为：-3.5)。由此可以推断，受体跨膜螺旋不是想象的像弹簧一样，内外直径在整个跨膜区不变，而是有扭曲和形变，使其各处的内直径有的地方宽，有的地方窄，形成了代表该跨膜螺旋的特定的空间结构和功能特征。突出的亲水氨基酸，天冬酰胺（N）的疏水值为－3.5。结构上应深深凸入跨膜螺旋中心，这种结构的生物学意义，还有待研究。跨膜螺旋是十分保守的域(motif)，很少有变异，包括SNP存在。对该数据可进一步作数字谱分析等进一步的分析。可用该数字特征进行数据库搜索，预测新的类似性质的跨膜区。根据现有知识对跨膜区的数字特征进行分析后，可得一定规律性认识。由该跨膜区对应的DNA序列，可做类似的分析（数字化，相关、谱），可获得在DNA域预测跨膜区的方法，进步获得新基因预测的数字化方法。有些氨基酸虽然不同，但确有相同或相近的疏水值（如D、E、N、Q的疏水值皆为-3.5，A、M的疏水值为1.8和1.9）。根据疏水值可对各跨膜区进行数字化，然后对各跨膜区进行相关分析，结果可得如表17-5所示的相关系数矩阵。

表17-5 Beta3-AR 7个跨膜段疏水性的互相关系数矩阵由跨膜区的相关性可以看出，各跨膜段的相关性是比较差的，因而可以推断各跨膜段可能具有不同的功能，执行不同的细胞内外的通讯（信号转导）任务。对该数据还可求取互相关函数，进一步作数字谱分析等。可用该数字特征进行数据库搜索，预测新的类似性质的跨膜区。根据现有知识对跨膜区的数字特征进行分析后，可得一定规律性认识。由该跨膜区对应的DNA序列，可做类似的分析（数字化，相关、谱），可获得在DNA域预测跨膜区的方法，进步获得新基因预测的数字化方法。

第四节 DNA 模体和内切酶酶切位点的查找（Location for DNA motifs and enzyme recognition sites） MOTIF就是一段具有特定性质的保守序列或结构，分别称为序列MOTIF和结构MOTIF。例如上述跨膜蛋白的跨膜区，限制性内切酶的酶切位点都可称为MOTIF。一段DNA序列的酶切位点的查找比较简单，就是在一段长序列中，查找具有特定序列排列模式（pattern）的字串。用序列MOTIF搜索数据库，可用以发现新基因；用结构MOTIF搜索数据库，可用预测新基因的功能。例如对于上述人的ADRB3（或β3-AR）的W/R64的SNP的分析中，可设计适当的引物，用PCR技术，扩增从259bp到468bp的210bp间的含W/R64位点（对于对应的DNA序列为T/C387）的DNA片段（见图17-4）。

限制性内切酶Mva(ECO II)切出长为128 bp、61 bp、15bp、6bp的四段，该酶识别的特征序列为CC(A/T)GG(图17-4中为大写有背景的字母标示)，经用计算机搜索该特定字串（电子内切酶：e－Endonuclease），发现在该区域，有三个CCTGG特征码片段，一个CCAGG特征码片段。四个切割位点分别为：289bp、386bp、447bp、462bp处，序列长度分别为：31bp, 97bp, 61bp, 15bp, 6bp。如果387bp处的T变为C，则失去第二个酶切位点，故二、三两段合并为158bp长的一段，因而只产生长为：31bp, 158bp, 61bp, 15b, 6bp的四段。因此如果电泳(electrophoresis)识别出97bp的片段，则为T387T。如果电泳识别出158bp的片段，则为T387C(变异型)杂合子。既有97bp又有158bp，则为C387C(变异型)纯合子。

图17-4 研究β3-AR的W/R64 SNP所用的DNA片段（长为210bp）

第五节基因型和表现型(Genotype and phenotype) 基因型就是基因的组成和排列特征。所谓表现型，就是看得见的特征（visual characteristics），包括亚细胞、细胞、组织、器官和整体水平，也包括正常和病理（疾病）表现型。如何将整体生理信号表现型与基因型结合起来研究，特别是用能无创获得的、重复性好的整体生理信号所含的信息（表现型）去预测基因型，以及预测与基因型相关的药物对疾病的治疗效应及毒副作用，就成了当今的非常重要研究领域，因而，象分子生理学这样的学科也就应运而生了。填补基因型和表现型之间的间隙的研究，可能要占用整个21世纪。整体生理信号有其特点：1.它是机体系统的基因表达的产物—各种蛋白质相互作用的结果；2. 能无创地获得；3. 重复性好；4. 能连续地获得；5. 费用低。

图17-5 β3肾上腺素能受体氨基酸序列、跨膜结构和W64R多态性位置

一、β3肾上腺素能受体基因多态性与心动周期信号（HPS）电生理表现型一、β3肾上腺素能受体基因多态性与心动周期信号（HPS）电生理表现型 1．β3肾上腺能素受体基因及其TRP64Arg（W64R：色氨酸64精氨酸）多态性位点人的β3肾上腺素能受体基因定位于染色体的8p12-p11.2, 与β1、β2肾上腺素能受体一样，为7次跨膜受体，细胞外为氨基末端，细胞内为羧基末端，见图17-2与图17-5。其基因DNA长为10306bp，至少有3个外显子和两个内含子。mRNA序列长为2644 bp，从198 bp (ATG)起到1424bp的长为1227bp的密码区编码β3受体蛋白质的长为408aa的氨基酸序列，见图17-1、图17-5和图17-6。图17-2示出了细胞膜的双脂层的“三明治”（sandwich：夹心饼干状）结构。图17-2和图17-5中的β3肾上腺素能受体的第一细胞外段上的“Y”样结构为Asn8和Asn26上的糖基化位置。第二细胞外段的Cys110和第三细胞外段Cys189上的两个“S”样结构表示二硫键，第四细胞内段（羧基末端）的Cys361上的浪形粗线为棕榈酸化位点。图17-6中β3肾上腺素能受体mRNA的核苷酸多态性位点387用大写黑体T标出（Tgg→Cgg），并说明于上方。对应的β3肾上腺素能受体64位的氨基酸多态性Trp64Arg说明于下部。在图17-5中多态性位置用箭头指示，可见其处于第一细胞内环的膜边缘。

图17-6 β3肾上腺素能受体mRNA部分核苷酸序列和编码区序列（粗体）

2．β3肾上腺能受体基因多态性与心动周期信号（HPS）电生理表现型2．β3肾上腺能受体基因多态性与心动周期信号（HPS）电生理表现型心动周期信号HPS，国内外多不准确地叫做HRV(heart variability: 心率变异性)。实际上，几乎没有人分析心率或心率变异性，都分析的是心电信号的R-R间期形成的数字时间序列，我们称为心动周期信号，以下皆简称为HPS（heart period signal）。Shihara等报导了β3肾上腺能受体基因Trp64Arg多态性与HPS表现型的关系, 开创了研究基因型（多态性）与电生理深层次信息的表现型的关系的先河，具有重要的开创性意义。Shihara等对HPS作了功率谱分析，认为Arg64Arg多态性表现为从仰卧位到站立位的不同体位下的反应性改变。现将其结果（经过参照TASK FORCE的推荐及我们的经验进行了修改）摘录如表17-6。

表17-6 β3肾上腺能受体基因Trp64Arg多态性与HPS谱表现型关系的分析结果 ↓表降低，↑表升高。双箭头表示变化铝相对大的参数。

从表17-6可以看出，β3肾上腺能受体Trp64Arg多态性表现为从仰卧位到站立位的不同体位下的反应性增高(Trp/Arg相对于Trp64Trp)：SNS(表中的L/T): 2.127（91.2/43.3） vs. 1.796（83.5/46.5）; PNS(表中的H/T): 6.443(56.7/8.8) vs. 3.242(53.5/16.5）。从功率变化来看：β3肾上腺素能受体基因Trp64Arg多态性组：站位低频功率（657.7 ± 109.8）> 卧位低频功率（486.9 ± 67.5）；β3肾上腺能受体基因Trp64Trp多态性组：站位低频功率（ 555.0 ± 84.0）< 卧位低频功率（1407.6 ± 311.9）。因此，根据从仰卧位到站立位的HPS功率谱的变化趋势，可以预测β3肾上腺能受体基因Trp64Arg的SNP多态性：低频功率↑：Trp64Arg；低频功率↓：Trp64Trp。

二、离子通道基因型与心电信号表现型 离子通道（ionic channel）基因多态性或突变，如Na+通道基因突变(SCN5A)，K+ 通道基因突变(KVLQT1, HERG, KCNE1, KCNE2)等5类总共有>200突变，常有晕厥、猝死、癫痫、室速或室颤等临床表现型。其中单纯型（不伴其他临床表现型）又叫R-WS(romano-ward syndrome), 属于常染色体显性遗传。伴耳聋者称为J-LNS( Jervell-Lange-Nielsen syndrome)。不管如何分类，都将引起叫做LQTS（长QT间期综合症：long Q-T interval syndrome）的严重疾病。又有将产生LQTS的离子通道突变分为增功能型（gain-of-function）突变和失功能型（loss-of-function）突变。

对于LQTS的现代研究的重要启示是：一些看来临床表现型似乎不相关的疾病，如神经系统疾病（癫痫等）、运动系统疾病（骨骼肌病）、先天性耳聋以及心血管疾病都有相同的病因：离子通道基因突变，都可归结为通道病。而这些疾病又都有共同的电生理表现型：心电信号的长QT间期(long Q-T interval )。 K+通道（KVLQT1, HERG）为6次跨膜通道，氨基（NH3+）与羧基（COO-）皆在胞内，KVLQT1基因位于染色体11p15.5，其mRNA长3127 bp, 109~2139bp 的密码区编码Na+ 通道蛋白氨基酸序列长为667aa。Na+通道（SCN5A）有4个跨膜域，每个跨膜域有6个跨膜通道，且位于膜窖中。SCN5A基因位于染色体3p21~24，其mRNA长8491bp, 从151bp起到6201bp的的密码区编码Na+通道蛋白的长为2016 aa的氨基酸序列。 Zhang等用心电信号的ST-T波的一些特征信息（如T波宽度、形状特征、T波高度等）分别预测3种LQTS的基因型的工作，开创了用电生理信号(如ECS：心电信号)表现型识别LQTS基因型的先河。他们报告的对LQT1和LQT2基因携带者的正确识别率为88%，对LQT3基因携带者的正确识别率为65%。另外，Morita等报告了LQTS病人的HPS谱分析结果：HF带功率高于对照组，LF/HF值低于对照组。这项研究还可深入，主要是要改进分析技术。

第一节相关分析 · 比对（ Correlation analysis·alignmemnt ）