1.转录组 2 . 高通量测序 3. 转录组数据分析 4 .差异表达基因分析 5. 趋势性上调和下调基因分析 6. 基因集功能富集分析

1.转录组 2.高通量测序 3.转录组数据分析 4.差异表达基因分析 5.趋势性上调和下调基因分析 6.基因集功能富集分析

1.1transcriptome • 转录组（transcriptome）是指特定生物体在某种状态或某一生理条件下，细胞内所有基因转录产物的总和，包括信使RNA、核糖体RNA、转运RNA及非编码RNA；狭义上指所有mRNA的集合。 • 从RNA层次研究基因表达的情况，即为转录组学（transcriptomics），是研究细胞表型和功能的一个重要手段。

1.2转录组研究的重要性 转录组是连接基因组遗传信息与生物功能的蛋白质组的纽带，转录水平的调控是最重要也是目前研究最广泛的生物体调控方式。转录组的研究比基因组的研究能给出更高效的有用信息。与基因组不同，转录组更有时间空间性。除了异常的mRNA降解现象（如转录衰减）以外，转录组反映的是特定条件下活跃表达的基因

转录组的研究可以提供什么条件下什么基因表达什么信息，从而推断相应未知基因的功能，揭示特定调节基因的作用机制转录组的研究可以提供什么条件下什么基因表达什么信息，从而推断相应未知基因的功能，揭示特定调节基因的作用机制对转录本的定量可以了解特定基因的活性和表达量，用于疾病的诊断和治疗通过对转录组的研究，也让个性化医疗的目标，从共性转移到个性，成为可能

1.3转录组研究的技术 主要包括如下三种： 1）基于杂交技术的微阵列技术； 2）基于Sanger测序法的SAGE (serial analysis of gene expression) 和 MPSS(multiple parallel signature sequencing)； 3）基于新一代高通量测序技术的转录组测序。

几种转录组研究所用技术的比较

DNA芯片技术：只适用于检测已知序列，却无法捕获新的mRNA。杂交技术灵敏度有限，对于低丰度的mRNA，微阵列技术难以检测，也无法捕获到目的基因mRNA表达水平的微小变化。DNA芯片技术：只适用于检测已知序列，却无法捕获新的mRNA。杂交技术灵敏度有限，对于低丰度的mRNA，微阵列技术难以检测，也无法捕获到目的基因mRNA表达水平的微小变化。

SAGE(基因表达系列分析)： 可以全面了解特定组织或细胞类型中基因群体表达状态，它的显著特点是能够大量获取基因组范围基因表达的类别与丰度，该技术成功地应用于特异组织或细胞的转录组研究和mRNA群体间差异表达基因鉴定。缺点是需要大量的mRNA

MPSS(多重性平行定序)： 对于功能基因组研究非常有效，能在短时间内捕获细胞或组织内全部基因的表达特征；对于鉴定致病基因并揭示该基因在疾病中的作用机制等发挥了重要作用。可以侦测到极为罕见的基因表现

1.4转录组测序 （1）RNA聚合酶I和III负责种类稀少、功能重要的看家非编码RNA基因的转录，包括rRNA，tRNA，snoRNA，snRNA等。由这两类RNA聚合酶转录的非编码RNA属于看家RNA，在各种生理和病理状态下都被高水平转录，转录产物占细胞内RNA总量的95%以上，不是生命科学研究前沿领域的主要关注对象

(2)RNA 聚合酶II负责蛋白质编码基因和调控非编码RNA的转录，在真核生物的不同生理和病理状态下表达量被严格调控，一直吸引着各生命科学研究领域的重点关注，无比幸运的是，由RNA聚合酶II生成的转录的末端均含有3’端多聚腺苷尾【3’poly（A）tail】。转录组测序一般是对用多聚胸腺嘧啶（oligo-dT）进行亲和纯化的RNA聚合酶II转录生成的成熟mRNA和ncRNA进行高通量测序。这样的数据有效排除了看家非编码RNA的干扰，可以通过一次测序获得一种细胞内几乎所有重要基因的表达参数。

转录组高通量测序的优势？ 高通量、更精确的数字信号、无需已知序列、能够在单核苷酸水平对任意物种的整体转录活动进行检测，在分析转录本的结构和表达水平的同时，还能够发现未知转录本和稀有转录本，精确的识别可变剪接位点以及cSNP（编码序列单核苷酸多态性），提供最全面的转录组信息。

转录组前沿研究简介 单细胞转录组分析转录组测序确定RNA结构转录组测序在疾病中的应用

2.高通量测序 测序技术的发展高通量测序技术（High-throughput sequencing）又称“第二代”测序技术(“Next-generation” sequencing technology)，高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为深度测序(deep sequencing)

2.1高通量测序优势？ 价格比第一代大幅度降低可扩展的高通量需要样品量少新颖的测序化学技术单个或配对末端支持

2.2高通量测序技术的应用 重头测序(de novo sequencing) 重测序(resequencing) 全转录组测序(whole transcriptome resequencing) 小分子RNA测序(small RNA sequencing) 染色质免疫共沉淀测序(ChIP-seq)

2.3三种常见的测序平台

Illumina Genome Analyzer 专利核心技术“DNA 簇”和“可逆性末端终结”，达成自动化样本制备及基因组数百万个碱基大规模平行测序。具有高准确性，高通量，高灵敏度，和低运行成本等突出优势，可以同时完成传统基因组学研究（测序和注释）以及功能基因组学（基因表达及调控，基因功能，蛋白/核酸相互作用）研究。 Genome Analyzer IIx测序技术原理 1）文库制备：将基因组DNA打成几百个碱基（或更短）的小片段，并在两个末端加上接头（adapter）。 2）桥式PCR产生DNA簇

a、Solexa 测序专用的测序芯片（flow cell）表面连接有一层单链引物（Primer）,单链状态的DNA片断与芯片表面的引物通过碱基互补被一端固定在芯片上； b、通过扩增反应使得单链DNA成为双链DNA；

c、双链再次变性后成为单链，其一端固定在测序芯片上，另外一端（5’或3’）随机和附近的另外一个引物互补，被固定住，形成“桥“(bridge)；c、双链再次变性后成为单链，其一端固定在测序芯片上，另外一端（5’或3’）随机和附近的另外一个引物互补，被固定住，形成“桥“(bridge)； d、在测序芯片上同时有上千万DNA 单分子发生以上的反应； e、c 中形成的单链桥，以周围的引物为扩增引物，在测序芯片表面再次进行扩增，形成双链；

f、双链经变性成单链，再次形成桥，成为下一轮扩增的模板继续扩增反应；f、双链经变性成单链，再次形成桥，成为下一轮扩增的模板继续扩增反应； g、在反复进行 30 多轮扩增，每个单分子得到了 1000 倍扩增，成为单克隆“DNA簇群”； h、“DNA簇群”在Genome Analyzer IIx测序仪上进行序列分析；

3）测序反应 Illumina Genome AnalyzerIIx是一种基于单分子簇的边合成边测序技术，基于专有的可逆终止化学反应原理。测序时加入带有4种荧光标记的dNTP，每个碱基末端被保护基团封闭，每个循环只允许单个碱基合成，经过扫描，读取该次反应后的荧光信号结果，该保护基团被除去，下一个反应可继续进行，如此反复，得出碱基的精确序列。

illumina测序平台的特点 • 1）可控制的高通量：一次实验可读取量大于 15 亿个碱基/芯片 • 2）上样需求低：上样量只在pmol级（ng级） • 3）简单、快速、自动化 • 4）低错误测序比例利用新颖的可逆荧光标记终止子，可以在DNA链延伸的过程中检测单个碱基掺入。由于四个可逆终止子dNTP在每个测序循环都存在，自然的竞争减少了掺入的错配。

454/ GS-FLX 系统的测序技术 1）技术原理：GS FLX System是一种基于焦磷酸测序原理而建立起来的高通量基因组测序系统。焦磷酸测序的原理如下：（1）1个特异性的测序引物和单链DNA模板结合，然后加入酶混合物(包括DNA Polymerase、ATP Sulfurylase、Luciferase和Apyrase)和底物混合物(包括APS和Luciferin)。（2）向反应体系中加入1种dNTP，如果它刚好能和DNA模板的下一个碱基配对，则会在DNA 聚合酶的作用下，添加到测序引物的3’末端，同时释放出一个分子的焦磷酸(PPi)。

（3）在ATP硫酸化酶的作用下，生成的PPi可以和APS结合形成ATP；在荧光素酶的催化下，生成的ATP又可以和荧光素结合形成氧化荧光素，同时产生可见光。通过CCD光学系统即可获得一个特异的检测峰，峰值的高低则和相匹配的碱基数成正比。（3）在ATP硫酸化酶的作用下，生成的PPi可以和APS结合形成ATP；在荧光素酶的催化下，生成的ATP又可以和荧光素结合形成氧化荧光素，同时产生可见光。通过CCD光学系统即可获得一个特异的检测峰，峰值的高低则和相匹配的碱基数成正比。（4）反应体系中剩余的dNTP和残留的少量ATP在Apyrase的作用下发生降解。（5）加入另一种dNTP，使第2－4步反应重复进行，根据获得的峰值图即可读取准确的DNA序列信息。

3. GS FLX系统的技术优势和限制 1）读长优势：单个序列的读长平均可达到450个碱基左右；2）操作简便高效，不需建库、克隆挑取、质粒提取等工作；3）分析结果快速、信息高通量，10小时的运行当中可获得100多万个读长，读取超过4-6亿个碱基信息；4）应用广泛且稳定，测序结果一致性较高；5）同聚物的限制，即相同碱基的连续掺入，如AAA或GGG，由于没有终止元件来阻止单个循环的连续掺入，同聚物的长度就需要从信号强度中推断出来。此处可能产生误差。因此，主要错误类型是插入-缺失，而不是替换。 • 2）工作流程：

ABI SOLID3 system SOLID平台技术原理： SOLID是基于寡核苷酸连接和检测进行测序的技术。它以4色荧光标记寡核苷酸的连续连接反应为基础，以双碱基编码技术为检测技术，对单拷贝的DNA片段进行大规模扩增和高通量测序。基本过程如下：（1）文库制备：根据实际情况制备文库：片段文库或末端配对文库（2）乳液PCR （3）磁珠富集技术制备单分子模板：含有DNA模板的磁珠共价结合在SOLiD玻片表面。（4）连接测序：上机测序，边连接边测序，获得SOLiD原始颜色序列。

SOLiD系统特点 1）高准确度:双碱基编码检测技术在测序过程中对每个碱基判读两遍，从而减少原始数据错误，提供内在的校对功能。 2）高通量：单次运行可产生50GB的序列数据。 3）可扩展性 4）灵活性 5）运行时间较长，测序片段相对较小：单次运行时间长达7天，最短3.5天。最长2*50bp。

测序技术的比较

Illumina Genome Analyzer

3.转录组数据分析

under-expressed over-expressed /2 /2 4.差异表达基因分析 • 统计学分析： • 1. Fold change, 一般2-fold increase or decrease (平行实验的样本较少) • 2. p-value (平行实验的样本较多)

4.1差异倍数法 Fold change= log2(A/B) A：sampleA表达值 B：sampleB表达值 Fold change = log2(A/B) 通常以1和-1为作为差异表达的阈值，判断基因是否差异表达

倍数法是比较常用的一种方法，因为比较简单和直接。倍数法是比较常用的一种方法，因为比较简单和直接。但是，这种方法也是有其重大缺陷的。比如，在某个实验中，基因表达水平的变化不大，如果选择判别阈值为2倍，则有可能找不到几个差异表达的基因，假阴性率比较高。但如果是主观缩小判断阈值，又有可能增大假阳性率。这一方法没有考虑到差异表达的统计显著性。

4.2卡方检验 条件：a.所有单元频数都不能等于零,b.要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正，当样本含量小于40时只能用确切概率法计算概率。 ᵡ2=[(ad-bc)2(a+b+c+d)]/[(a+b)(c+d)(a+c)(b+d)] df=1

根据ᵡ2求出p值，对于p<=0.05或0.01的，拒绝原假设，存在显著的统计学意义。根据ᵡ2求出p值，对于p<=0.05或0.01的，拒绝原假设，存在显著的统计学意义。统计学家已证明，当自由度比较大时，误差较小；自由度等于1时，特别n比较小，或理论频数<5时，误差较大，使得所得概率值偏小，因此需要校正。

4.2.Fisher 精确检验 英国统计学家Fisher提出的2*2表的确切概率计算法，它基于四格表的边际和固定。当ᵡ2检验的条件不满足时，这个检验非常有用。在样本比较小时（单元的频数小于4），需要用Fisher精确检验来做独立检验。 Fisher检验是建立在超几何分布的基础上的，对于单元频数小的表来说，特别适合。对于2*2列联表，原假设“两变量无关”。

计算步骤： 1.确定统计量，如ᵡ2，计算ᵡ2记为ᵡ02； 2.对于每个可能的四格表计算ᵡ2和P； 3.符合ᵡ2 >= ᵡ02的那些四格表的P值之和，即为确切概率P值

假设检验问题 • Ⅰ型错误（假阳性）即在假设检验作推断结论时，拒绝了实际上正确的检验假设，即将无差异表达的基因判断为差异表达。 • Ⅱ型错误（假阴性）即不拒绝实际上不正确的，即将有差异表达的基因判断为无差异表达。 • 在进行差异基因挑选时，整个差异基因筛选过程需要做成千上万次假设检验，导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率，需要进行纠正。常用的纠正策略有Bonferroni效正，控制FDR（False Discovery Rate）值等。

False Discovery Rate (FDR) 错误发现率是评估检验统计显著性的最有力工具。统计学家都想用更符合统计学的手段得到差异基因，具体说来就是想用假设检验后赋予每个基因统计显著性或者P值，使得每个基因的判别更有统计学上的意义。为了达到这个目的，统计学家们常常用控制错误发现率（False Discovery Rate）的方法来判断差异基因。

其他方法 t检验法运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性

方差分析 方差分析可用于基因在两种或多种条件间的表达量的比较它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在，如果存在则表明基因在不同条件下的表达有差异。

5.趋势性上调或下调基因分析 • 1)foldchange值foldchange(CB)foldchange(BA)，阈值为1和 -1 • 2)相关系数 cor(c(A,B,C),c(10,20,30)),阈值为0.8和-0.8

数据的聚类分析 聚类的目的：基于物体的相似性将物体分成不同的组

系统聚类法：用于对小样本的样品间聚类及对指标聚类 。 • 逐步聚类法或称快速聚类法：用于对大样本的样品间聚类。 • 有序样品聚类法：用于对有排列次序的样本的样品间聚类，要求必须是次序相邻的样品才能聚在一类。 • 模糊聚类法：建立在模糊数学基础上的对样品间聚类的方法，适用于小样本。 • 分割聚类法：适用于对指标聚类

定义：在聚类分析中反映样品或变量间关系亲疏程度的统计量称为聚类统计量，常用的聚类统计量分为距离和相似系数两种。定义：在聚类分析中反映样品或变量间关系亲疏程度的统计量称为聚类统计量，常用的聚类统计量分为距离和相似系数两种。 • 距离：用于对样品的聚类。常用欧氏距离, 在求距离前,需把指标进行标准化。 • 相似系数：常用于对变量的聚类。一般采用相关系数。

聚类分析对于预测基因新功能及调控网络的构建具有重要意义。聚类分析对于预测基因新功能及调控网络的构建具有重要意义。它用于探索未知的数据特征，属于无监督的聚类，也称无监督模式识别，这类训练样本没有标签，主要用于确定两个特征向量间的相似度及合适的测度，并选择一个算法方案，基于选定的相似性测度对向量进行聚类。

Diffuse large B-cell lymphoma (DLBCL) 1. 通过聚类发现各种亚型之间的关系 2. 根据基因表达模式，能够预测新的基因表达样本

6.基因集功能富集分析 • 进行基因集功能富集分析的原因： • 一组基因直接注释的结果是得到大量的功能结点。这些功能具有概念上的交叠现象，导致分析结果冗余，不利于进一步的精细分析，所以研究人员希望对得到的功能结点加以过滤和筛选，以便获得更有意义的功能信息。 • GO分析和Pathway分析

富集分析的算法： • 富集分析方法通常是分析一组基因在某个功能结点上是否过出现(over-presentation)。这个原理可以由单个基因的注释分析发展到大基因集合的成组分析。 • 由于分析的结论是基于一组相关的基因，而不是根据单个基因，所以富集分析方法增加了研究的可靠性，同时也能够识别出与生物现象最相关的生物过程。

1.转录组 2 . 高通量测序 3. 转录组数据分析 4 .差异表达基因分析 5. 趋势性上调和下调基因分析 6. 基因集功能富集分析

1.转录组 2 . 高通量测序 3. 转录组数据分析 4 .差异表达基因分析 5. 趋势性上调和下调基因分析 6. 基因集功能富集分析

Presentation Transcript