第十一章

第十一章 转录调控的信息学分析 BIOINFORMATIC ANALYSIS OF TRANSCRIPTIONAL REGULATION

第一节 引言

、基因转录调节的基本模式

二、基因转录调节机制的研究方法 • 实验方法： • 荧光素酶报告基因（luciferase report gene） • 凝胶迁移（electrophoreticmobility shift assays） • 染色质免疫沉淀（chromosome immunopreciation，ChIP） • DNase 足迹法（DNase footprinting） • 信息学分析

第二节 转录调控的高通量实验测定

一、ChIP技术 • 创立者：上世纪八十年代末，Alexander Varshavsky等人 • 基本实验过程： • 甲醛交联，稳定蛋白质-DNA复合物 • 裂解细胞，分离蛋白质-DNA复合物 • 加入特异性抗体，沉淀蛋白质- DNA复合物 • 去交联，纯化DNA • 应用PCR技术，特异性扩增目的DNA片段 • 特点： • 针对某一特定候选转录因子，是否特异性结合于所调节的靶基因某一预定区域内，如启动子区，进行检测。 • 对同一DNA底物, 可以运用多种不同的抗体, 分别进行免疫共沉淀,以确定多种结合蛋白在同一染色质片段上的结合。

Cross-link whole cells with formaldehyde Region sequenced Isolate genomic DNA sequencing ChIP- seq Sonicate DNA to produce sheared, soluble chromtin Add protein-specific antibody Amplify DNA and Label Immunoprecipitate and purify imminocomplexes ChIP- chip Hybridize to arrays Reverse cross-links and purify DNA Input DNA IgG c-Jun Sp1 c-Fos No DNA PCR Target gene Negative control ChIP- PCR

二、ChIP-chip技术 • 创立者： 2000年，Richard A. Young等人 • 特点： • ChIP和芯片技术的联合运用 • 全基因组范围内的定位分析 • 靶基因群的高通量分析 • 不足之处： • 成本较高 • 结果分析的标准化尚待完善 • 分辨率较低，大于200 bp • 基因芯片是 “封闭系统”, 只能检测已知序列

三、ChIP-seq技术 • 创立者： 2007年，Steven J.M. Jones等人率先提出的 • 特点： • 染色质免疫沉淀后的DNA，直接进行高通量测序。 • 是一个“开放系统”。它可以检测更小的结合区段、未知的结合位点、结合位点内的突变情况和蛋白亲合力较低的区段。 • 成本低，周期短，省去了标记和杂交等步骤，并且勿需多次重复实验，极大提高了工作效率。 • 分辨率可提高到30-50bp。

第三节 转录因子结合位点的信息学预测方法

一、转录因子结合位点的的表示方法 （一）共有序列（consensus sequence）（二）位置频率矩阵（position frequency matrix）（三）序列标识图（sequence logo）

一、转录因子结合位点的的表示方法 （一）共有序列（consensus sequence） • 将能与同一个转录因子结合的所有DNA 片段按照对应位置进行排列，在每个位置上选择最可能出现的碱基，就组成了该转录因子结合位点的共有序列。 • 共有序列中用A、C、G、T 之外的字母来表示结合位点中各个位置上可能出现的碱基组合，这些字母称为IUPAC 简并码。 • 共有序列的表示方法简明易懂，却不能够反映每个位置上不同碱基出现的概率。

一、转录因子结合位点的的表示方法

一、转录因子结合位点的的表示方法 （二）位置频率矩阵 • 位置频率矩阵可以反映出每个位置上不同碱基出现的概率。 • 该模型的一个前提假设是各个位置上碱基出现的概率相互独立。 • 矩阵每一列表示模体相应位置上四种碱基出现的概率。 • 对于长度为n的模体，碱基i(i={A, C, G, T})在模体第j个位置上出现的频率为qi,j，则整个模体用矩阵M表示如下：

一、转录因子结合位点的的表示方法 （三）序列标识图 • 序列标识图依次绘出模体中各个位置上出现的碱基，每个位置上所有碱基的高度和反映了该位置上碱基的一致性，每个碱基字母的大小与碱基在该位置上出现的频率成正比。 • 这种表示方法直观地给出模体各个位置上碱基出现的倾向性和整个模体的序列的一致性。

二、转录因子结合位点的识别 • 基本概念： • 通过收集可能被同一转录因子调控的基因启动子序列，在其中寻找具有统计显著性的短片段，作为转录因子可能的结合位点，称之为转录因子结合位点的识别 • 基本流程： • 收集可能被同一转录因子调控的多基因序列 • 通过多种计算方法从不同角度或不同层面去进行计算、评估和分析，尽可能地屏蔽掉冗余序列和噪音序列，寻找出具有统计显著性的短片段，作为转录因子可能的结合位点 • 查询相关转录因子数据库，以确定转录因子

基本流程

二、转录因子结合位点的识别 （一）获得靶向序列从基因差异表达谱芯片数据出发获得启动子序列。利用NCBI上相关核酸数据库选取转录起始位点附近1000~2000 bp的长度作为启动子区从差异表达蛋白质数据出发获得启动子序列。从SWISS-PROT和NCBI等数据库中获得编码基因的启动子区从ChIP-chip和ChIP-seq数据出发获得结合位点序列。

二、转录因子结合位点的识别 （二）转录因子结合位点识别的计算方法 1. 单个模体预测算法 • 基于共有序列的识别方法: MobyDick和YMF算法 • 基于位置频率矩阵的识别方法:MEME 和Gibbs Motif Sampler算法 2. 比较基因组学 • 遗传系谱印记法: PhyMe、PhyloGibbs和PhyloCon等方法 3. 顺式调控模块识别方法 CisModule、Gibbs Module Sampler和EMCModule 方法 4. 基于启动子区重要性差异的识别算法 MDScan和DME 算法 5. SISSRs算法

二、转录因子结合位点的识别 （三）处理识别结果去冗余及质量控制 Motifclass法通过回归分析寻找特定条件下起作用的模体 • REDUCE 算法：以模体出现的次数作为自变量来进行简单线性回归 • MatrixREDUCE算法：用位置频率矩阵的打分作为自变量进行回归 • MARSMotif-M算法：多变量适应回归模型

三、转录因子结合位点的定位 基本概念：根据若干已知的转录因子结合位点的模体，在所研究基因的启动子区域内搜索相应转录因子可能的结合位点，称之为转录因子结合位点的定位（一）转录因子结合位点定位的计算方法：位置权重矩阵 • 对任一长度为n的已知模体位置频率矩阵M，转录因子结合位点定位就是判断某一长度为n 的序列片段与M 的匹配程度。考虑到DNA序列本身有可能存在碱基组成上的偏向性，通常把位置频率矩阵转换为位置权重矩阵。 • 用位置权重矩阵的打分来衡量模体与任意给定序列的匹配程度。

（一）转录因子结合位点定位的计算方法：位置权重矩阵（一）转录因子结合位点定位的计算方法：位置权重矩阵 • 在位置权重矩阵中，我们引入碱基i(i={A,C,G,T})在背景序列中出现的频率（记为bi）来消除DNA序列本身碱基组成偏向性的影响。位置权重矩阵的每一项记为Si,j： • 则M 被转换为的位置权重矩阵S为： • 对于长度为n 的DNA序列片段，它作为模体M对应的转录因子结合位点的打分为：

（一）转录因子结合位点定位的计算方法：位置权重矩阵（一）转录因子结合位点定位的计算方法：位置权重矩阵 • tj 表示相应序列第j 个位置上出现的碱基。给定阈值T，如果序列片段由上式给出的打分S≥T，我们则认为它有可能是相应转录因子的结合位点。

（二）转录因子结合位点的预测 1. TRANSFAC（http://www.gene-regulation.com） • AliBaba • P-Match • Patch • MatrixCatch 2. TESS (http://www.cbil.upenn.edu/cgi-bin/tess/tess)

2.选择参数 1.粘贴序列 3.开始搜索 4.分析结果

1.粘贴序列 2.选择参数 3.提交序列 4. 分析结果

1.粘贴序列 2.选择参数 3.开始分析 4.分析结果

1.粘贴序列 2.选择参数 3.开始搜索 4.分析结果

第一步： 进入TESS主页，并输入感兴趣的序列；点击 “Submit”提交，或点击 “full search form”进入参数选择界面第二步：点击”Summary“下的超链接，查看结果第三步：点击”Result Navigation“下的超链接，输出结果第四步：分析结果；也可返回，优化参数，重新开始

第四节 转录调控相关数据库

一、TRANSFAC数据库（http://www.gene-regulation.com ）

二、JASPAR数据库（http://jaspar.cgb.ki.se ）

三、TRED数据库（http://rulai.cshl.edu/TRED ）

四、DBTSS数据库（http://dbtss.hgc.jp）

五、TRRD数据库 （http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/）

六、其他转录调控相关数据库 1）真核RNA 聚合酶II 型启动子的非冗余数据库：EPD （http://www.epd.isb-sib.ch） 2）枯草杆菌转录调控的数据库：DBTBS 。包括枯草杆菌的启动子、操纵子和终止子等（http://dbtbs.hgc.jp.） 3）大肠杆菌的DNA结合蛋白及其结合位点的数据库：DPInteract（http://arep.med.harvard.edu/dpinteract） 4）植物順式调控DNA元件的数据库：PLACE（http://www.dna.affrc.go.jp/PLACE） 5）灵长类线粒体DNA调控区序列的数据库：HvrBase （http://www.hvrbase.org/）

小结 • 高通量实验方法：ChIP-chip和ChIP-seq • 转录因子结合位点表示方法：共有序列、序列标识图、位置频率矩阵和位置权重矩阵 • 转录因子的识别： • 首先筛选出可能被同一转录因子调控的多基因序列； • 其次分别应用  单个模体测算法， 遗传系谱印记法，  顺式调控模块识别法，SISSRs算法等多种方法进行评估和分析，找出具有统计显著性的短片段； • 然后采用Motifclass方法或回归模型进一步去除冗余序列； • 最后通过搜索相关转录调控数据库确定可能与之结合的转录因子。 • 转录因子结合位点的定位：AliBaba、TESS 和MatrixCatch程序 • 转录调控相关数据库：TRANSFAC、JASPAR和TRED 等

第 十 一 章

第 十 一 章

Presentation Transcript

第十一章

第十一章