100 likes | 324 Views
龙星课程 — 肿瘤 生物 信息学上机课程. 曹莎 Email:scaorobin@sina.com. 各类数据产生的平台解释文件. 各类数据产生的平台解释文件 https :// tcga-data.nci.nih.gov/tcga/tcgaPlatformDesign.jsp https://wiki.nci.nih.gov/display/TCGA/TCGA+Home. 课程安排. 各类数据类型的介绍,简单的 R 入门 ; 差异性表达的检验 , 假阳性检验 (FDR), 批次效应 (batch effect) ; 基因表达数据和蛋白表达数据的相关性 ;
E N D
龙星课程—肿瘤生物信息学上机课程 曹莎 Email:scaorobin@sina.com
各类数据产生的平台解释文件 • 各类数据产生的平台解释文件 • https://tcga-data.nci.nih.gov/tcga/tcgaPlatformDesign.jsp • https://wiki.nci.nih.gov/display/TCGA/TCGA+Home
课程安排 • 各类数据类型的介绍,简单的R入门; • 差异性表达的检验, 假阳性检验(FDR), 批次效应(batch effect); • 基因表达数据和蛋白表达数据的相关性; • 基因突变数据以及表达通路的富集分析 • 基因表达数据的相关性以及双聚类分析 • 各类数据的整合 基因表达数据和metabolic profiling的数据;基因表达数据和表观遗传数据的整合
差异性基因和表观基因表达的检验 • 假设检验 • FDR
假设检验 • 原假设H0; 备择假设H1 • 目的:看是否拒绝原假设 • p-value: 在原假设为真的时候,我们得出拒绝原假设这个结论的概率。我们希望这个概率越小越好,通常设为0.05.
t test 还是wilcoxon test • t test:观察数据分布,要比较的两组数据是否有正态分布;两组数据的方差是否一致; • wilcoxon test:无需任何假设,是非参数的统计检验 • 二者抉择:t test有更强的power,但是前提是数据的分布必须符合使用它的假设 • 更多关于假设,请看http://en.wikipedia.org/wiki/Student%27s_t-test#Assumptions
为什么要做FDR • 如果只做单个或者少量的假设检验,我们通常认为如果p-value足够小(比如<0.05),则拒绝原假设; • 拒绝原假设,则发现一个阳性结果。p-value在此意义下是错误发现阳性结果的概率。 • 若同时做大量的假设检验,比如10000个,则在随机情况下,即可获得10000*p=10000*0.05=500个阳性结果,不合常理。
FDR FDR=V/R,FDR的目的是将此概率控制到最小
常见FDR的方法 • Bonferroni阈值法:将阈值设置为α/n, α为单个假设检验下常用的p-value阈值,如0.05;n为所有假设检验的总个数 • sam: http://bioconductor.org/packages/release/bioc/vignettes/siggenes/inst/doc/siggenes.pdf