第 5 章基因组信息分析

5.1 关于遗传语言 5.2 原核基因组特点 5.3 真核基因组特点 5.4 基因组序列分析 5.5 基因识别方法 5.6 非编码区与分析和调控元件建模第5章基因组信息分析

第一部分： 搜索遗传语言；原核、真核基因组特点

1、基因组DNA的奥秘 • 遗传信息存贮在4种字符组成的核酸序列中 • “天书”——用遗传语言书写的人类遗传蓝本 • 包含的信息量巨大 • 更重要的是目前人类对它了解甚少 • 天书中只有4个字符（碱基A、T、G、C） • 既没有段落，也没有标点符号 • 是一个长度为3×109的一维序列。

科学家对这本天书了解最多的部分就是遗传密码科学家对这本天书了解最多的部分就是遗传密码 • 或者说掌握了DNA对蛋白质编码的规律 • 关于密码子 • （1）密码子的使用是非随机的 • 如果密码子的第一、第二位碱基是A、U， • 那么第三位将尽可能使用G、C；反之亦然。 • 如果三位都用G、C，则配对容易，分解难； • 三位都用A、U，则相反。 • 一般地说，高表达的基因，要求翻译速度快， • 要求密码子和反密码子配对快、分手也快。

（2）密码子的使用有一定的统计规律 • 对同义密码子的使用存在着偏爱 • 不同种属偏爱的密码子不同 • 人类基因组： • 密码子第三位取A、U的情况占90% • 而第三位取G、C仅占10% • 密码子的使用偏性与基因功能、蛋白质结构相关

（3）密码子中的密码 • 三个碱基的位置与所编码的氨基酸性质存在着联系 • 例如： • 芳香族氨基酸——以U作为第一位碱基 • 中间位置碱基的性质与氨基酸是亲疏水性相关 • 疏水氨基酸的密码子，其第二位碱基是U • 亲水氨基酸的密码子，其第二位碱基是A • 第二位碱基是G、C的密码子所编码的氨基酸亲水性、疏水性居中。

基因组信息 • 人类基因组： • 编码区域只占1%-3% • 对于非编码序列，尚不清楚其含义或功能 • 非编码区域对于生命活动具有重要的意义 • 包括内含子、简单重复序列、移动元件、伪基因 • 重复序列: • 卫星（satellite）DNA • 小卫星（mini-satellite）DNA • 微卫星（micro-satellite） • 顺式调控元件: • 启动子、增强子、沉默子

2、探索遗传语言 • 用语言学的方法进行研究 • 自然语言 • 计算机程序设计语言 • 遗传语言 • 二进制序列0、1的长程关联性分析结果： • 编码区域 ——自然语言 • 非编码区域 —— 程序设计语言 • 蛋白质编码区域所包含的信息相当于待加工的“数据” • 数据经过加工处理以后产生对应的蛋白质； • 而非编码区域则相当于“程序”或“指令”，确定如何在时间和空间方面控制基因的表达和蛋白质的合成

用密码学方法进行研究 • 是否存在其它密码？ • ——调控信息密码？ • ——蛋白质结构的密码？ • 编码在DNA上的一维程序如何在四维时空中控制生命体的生长发育

3、关于生物复杂性 生物的复杂性不仅仅是基因的数目人类基因约为30000个线虫有20000个基因 230000/220000=210000≌103000

4、基因组计划带来的希望 • 实验数据的积累速度在迅速地增加 • 计算机科学和技术也在不断地发展

单个基因组分析 基因序列基因功能基因的表达调控基因产物基因多态性

比较基因组分析 物种关系物种进化物种起源

人、鼠基因组比较 老鼠约75%的基因与人类相同。人基因组鼠基因组鼠染色体上的颜色和数字代表在人染色体上对应的片段.

SARS 基因组 （Severe Acute Respiratory Syndrome)

全基因组核酸搜索结果

分段核酸搜索结果

全基因组蛋白质搜索结果

原核基因组特点 • 原核生物的遗传物质大都是环状DNA，它们基因组存在固有的特点，可以利用这些特点分辨物种，识别基因。

长开放阅读框 • 开放阅读框(open reading frame) ：结构基因内从起始密码子开始到终止密码子的一段核苷酸区域，其间不存在任何终止密码，可编码完整的多肽链，这一区域被称为开放阅读框。 • ORF表明该区域可能对应于一个原核生物基因的编码序列。

长开放阅读框 • 绝大部分原核生物蛋白质的长度大于60个氨基酸 • 在大肠杆菌E.coli中，蛋白质编码区域平均长度为316.8个密码子，不到1.8%的基因的长度小于60个密码子

原核基因分析的简单原则 • 若终止密码子出现在非编码核酸序列中，大约每21个密码子出现一次（3/64）. • 如果所有的密码子在随机的核酸序列中以相同的频率出现，则不含终止密码子且长度为N个密码子的序列出现的几率为（61/64）N . • 长度为N的ORF的95%显著性置信度等价于5%“随机”命中的可能性，即（61/64）N=0.05，这里N等于60，表示典型长度的ORF中密码子的数目。

高基因密度 • 原核基因组中的基因密度非常高 • 完全测序的细菌和古细菌的基因组数据表明，其中85％到88％的核酸序列与基因的编码直接相关。 • 在大肠杆菌（E.coli）中总共有4,288个基因，平均编码长度为950bp，而基因之间的平均间隔长度只有118bp。

简单的基因结构 原核基因为连续基因，其编码区是一个完整的DNA 片段。

GC含量 • 碱基G、C相对于A、T的丰度很早就被看作是区分细菌基因组的特征之一 . • 不同的原核生物中，GC含量（GC content）从25%到75%，变化非常大。 • 大部分细菌是通过从其它生物体大规模获得基因（长度为几万甚至几十万个核苷酸）而进化的(水平转移). • 简而言之，许多细菌基因组表现为具有不同GC含量的区域的组合物，这些区域反映了细菌的进化历史。

真核基因组特点 • 基因组规模大 • 非编码序列大 • 基因结构复杂 • 基因转录调控方式复杂 • 可变剪接 • CpG岛 • 等值区 • 密码子使用偏性

基因组规模 • 真核细胞的细胞核中一般有多条线性染色体，而且通常包含每条染色体的双拷贝。 • 人的基因组总长度超过30亿对碱基，而大肠杆菌的基因组只有500多万个碱基。

非编码序列巨大 • 真核生物具有复杂的基因组结构。 • 编码区域在人类基因组所占的比例不超过3%。 • 其余97%是非编码序列，而在非编码序列中，各种重复序列占了很大一部分。

基因结构复杂

基因转录调控方式复杂 • 真核基因的表达涉及多种RNA聚合酶。 • 与原核生物只使用一种由多个蛋白聚合而成的RNA聚合酶不同，真核生物至少使用由8到12个蛋白组成的三种不同类型的RNA聚合酶。 • RNA 聚合酶I和III负责转录生成RNA分子，这些分子本身执行重要的功能，在所有的真核细胞中需要始终保持相当恒定的水平。 • RNA聚合酶II专门负责转录编码蛋白质的基因。 • RNA聚合酶II识别的启动子序列的多样性反映了区别基因的复杂程度，即在特定类型的细胞中和在特定的时间，区别哪些基因该表达而哪些基因不该表达。

可变剪接 • 估计有20%或更多的人类基因因为可变剪接（alternative splicing）而产生两种或多种不同的mRNA序列 . • 有一个人类的基因已经被证明，相同的原始转录物可以产生64种不同的mRNA

CpG岛 • 真核生物基因组的GC含量的差别没有在原核生物间观察到的那么明显，但是CG两联核苷酸（常称作CpG，以表明连接两个核苷酸的磷酸二脂键）的出现频率仅为其随机出现的频率的20%，而没有发现其它核苷酸对有异常的出现频率。

CpG岛 • 许多人类基因5’-端的1~2kb片段中发现CpG岛（CpG island），此处CpG的密度达到随机预测的水平。 • 人类基因组全长序列的分析结果表明，大约有45,000这样的岛，并且有一半左右与已知的管家基因(housekeeping gene，指在所有组织和在发育的所有阶段都高水平表达的基因）是有关联的，其余的CpG岛有许多似乎是和组织特异性基因的启动子相关联的。CpG岛很少出现在不含基因的区域和那些发生多次突变的基因中。

等值区 • 定义：具有一致碱基组成的长区域 • 特征： • 等值区基因组序列的长度超过1,000,000对碱基 • 虽然不同的等值区其GC含量差别显著，但同一等值区的GC含量始终相对均衡 • 人类基因组大约可以划分为五个不同类型的等值区:a)L1和L2，平均GC含量分别为39%和42%(欠GC)) b) H1、H2和H3，GC含量平均值分别为46%、49%和54%(丰GC)

密码子使用偏性 • 每个氨基酸至少对应1种密码子，最多有6种对应的密码子 • 不同物种、不同生物体的基因密码子使用存在着很大的差异(酵母精氨酸偏好AGA，果蝇偏好CGC) • 从生物学基础来看，不同的密码子使用模式的形成可能与基因的GC含量有关。

基因组序列分析 DNA序列分析 ——基因序列 ——基因表达调控信息寻找基因牵涉到两个方面的工作： • 识别与基因相关的特殊序列信号 • 预测基因的编码区域 • 结合两个方面的结果确定基因的位置和结构基因表达调控信息隐藏在基因的上游区域，在组成上具有一定的特征，可以通过序列分析识别这些特征。

5.4.1 基因组序列分析步骤和分析结果评价 • 在DNA序列中，除了基因之外，还包含许多其它信息，这些信息大部分与核酸的结构特征相关联，通常决定了DNA与蛋白质或者DNA与RNA的相互作用。 • 存放这些信息的DNA片段称为功能位点 • 如启动子（Promoter）、基因终止序列（Terminator sequence）、剪切位点（Splice site）等。

一个基本的DNA序列分析方案 发现重复元素数据库搜索分析功能位点序列组成统计分析综合分析

功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。 • 两个集合：训练集（training set） • 用于建立完成识别任务的数学模型。测试集或控制集（control set） • 用于检验所建模型的正确性。 • 用训练集中实例对预测模型进行训练，使之通过学习后具有正确处理和辨别能力。然后，用模型对测试集中的实例进行“功能”与“非功能”的判断，根据判断结果计算模识别的准确性。

收集已知的功能序列和非功能序列实例 （这些序列之间是非相关的）训练集（training set）测试集或控制集（control set）建立完成识别任务的模型检验所建模型的正确性对预测模型进行训练，使之通过学习后具有正确处理和辨别能力。 • 进行“功能”与“非功能”的 • 判断，根据判断结果计算 • 模识别的准确性。识别“功能序列”和“非功能序列”的过程

Sn ——敏感性 • Sp——特异性 • Tp是正确识别的功能序列数， • Tn为正确识别的非功能序列数， • Fn是被错误识别为非功能序列的功能序列数， • Fp是被错误识别为功能序列的非功能序列数。

敏感性和特异性的权衡 • 对于一个实用程序，既要求有较高的敏感性，也要求有较高的特异性。 • 如果敏感性很高，但特异性比较低，则在实际应用中会产生高比率的假阳性； • 相反，如果特异性很高，而敏感性比较低，则会产生高比率的假阴性。 • 对于敏感性和特异性需要进行权衡，给出综合评价指标。

对于一个识别程序准确性可按下式进行综合评价：对于一个识别程序准确性可按下式进行综合评价： • 另一个综合评介指标为相关系数，其计算计算公式为：

选择训练集和测试集 • 在检测算法的可行性时，需要从已知的数据中按照不同的方式选择训练集和测试集 • 测试集的构成非常关键 • 在不同的测试集上进行测试可能会得到不同的准确性结果，甚至准确性相差很大。 • 建立标准的功能序列测试集合。 • 如基因转录剪切位点的测试集合、编码区域的测试集合等。

5.4.2 核苷酸关联分析 • 对于一个给定的基因组，最简单的计算就是统计DNA序列中各类核苷酸出现的频率。 • 对于随机分布的DNA序列，每种核苷酸的出现是均匀分布的 • 出现频率各为0.25。 • 而真实基因组的核苷酸分布则是非均匀的

酵母基因组核苷酸出现频率

在统计过程中，如果同时计算DNA的正反两条链，则根据碱基配对原则，A和T、C和G的出现频率相同。在统计过程中，如果同时计算DNA的正反两条链，则根据碱基配对原则，A和T、C和G的出现频率相同。 • 如果仅统计一条链，则虽然A和T、C和G的出现频率不同，但是非常接近。

M.jannaschii单链核苷酸出现频率

第 5 章 基因组信息分析