龙星课程 — 肿瘤生物信息学上机课程

龙星课程—肿瘤生物信息学上机课程 曹莎 Email:scaorobin@sina.com

各类数据产生的平台解释文件 • 各类数据产生的平台解释文件 • https://tcga-data.nci.nih.gov/tcga/tcgaPlatformDesign.jsp • https://wiki.nci.nih.gov/display/TCGA/TCGA+Home

课程安排 • 各类数据类型的介绍，简单的R入门; • 差异性表达的检验, 假阳性检验(FDR), 批次效应(batch effect)； • 基因表达数据和蛋白表达数据的相关性； • 基因突变数据以及表达通路的富集分析 • 基因表达数据的相关性以及双聚类分析 • 各类数据的整合基因表达数据和metabolic profiling的数据；基因表达数据和表观遗传数据的整合

差异性基因和表观基因表达的检验 • 假设检验 • FDR

假设检验 • 原假设H0; 备择假设H1 • 目的：看是否拒绝原假设 • p-value: 在原假设为真的时候，我们得出拒绝原假设这个结论的概率。我们希望这个概率越小越好，通常设为0.05.

t test 还是wilcoxon test • t test：观察数据分布，要比较的两组数据是否有正态分布；两组数据的方差是否一致； • wilcoxon test：无需任何假设，是非参数的统计检验 • 二者抉择：t test有更强的power，但是前提是数据的分布必须符合使用它的假设 • 更多关于假设，请看http://en.wikipedia.org/wiki/Student%27s_t-test#Assumptions

为什么要做FDR • 如果只做单个或者少量的假设检验，我们通常认为如果p-value足够小（比如<0.05），则拒绝原假设； • 拒绝原假设，则发现一个阳性结果。p-value在此意义下是错误发现阳性结果的概率。 • 若同时做大量的假设检验，比如10000个，则在随机情况下，即可获得10000*p=10000*0.05=500个阳性结果，不合常理。

FDR FDR=V/R，FDR的目的是将此概率控制到最小

常见FDR的方法 • Bonferroni阈值法：将阈值设置为α/n, α为单个假设检验下常用的p-value阈值，如0.05；n为所有假设检验的总个数 • sam: http://bioconductor.org/packages/release/bioc/vignettes/siggenes/inst/doc/siggenes.pdf

sam结果解释

龙星课程 — 肿瘤 生物 信息学上机课程