1 / 10

龙星课程 — 肿瘤 生物 信息学上机课程

龙星课程 — 肿瘤 生物 信息学上机课程. 曹莎 Email:scaorobin@sina.com. 各类数据产生的平台解释文件. 各类数据产生的平台解释文件 https :// tcga-data.nci.nih.gov/tcga/tcgaPlatformDesign.jsp https://wiki.nci.nih.gov/display/TCGA/TCGA+Home. 课程安排. 各类数据类型的介绍,简单的 R 入门 ; 差异性表达的检验 , 假阳性检验 (FDR), 批次效应 (batch effect) ; 基因表达数据和蛋白表达数据的相关性 ;

jalene
Download Presentation

龙星课程 — 肿瘤 生物 信息学上机课程

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 龙星课程—肿瘤生物信息学上机课程 曹莎 Email:scaorobin@sina.com

  2. 各类数据产生的平台解释文件 • 各类数据产生的平台解释文件 • https://tcga-data.nci.nih.gov/tcga/tcgaPlatformDesign.jsp • https://wiki.nci.nih.gov/display/TCGA/TCGA+Home

  3. 课程安排 • 各类数据类型的介绍,简单的R入门; • 差异性表达的检验, 假阳性检验(FDR), 批次效应(batch effect); • 基因表达数据和蛋白表达数据的相关性; • 基因突变数据以及表达通路的富集分析 • 基因表达数据的相关性以及双聚类分析 • 各类数据的整合 基因表达数据和metabolic profiling的数据;基因表达数据和表观遗传数据的整合

  4. 差异性基因和表观基因表达的检验 • 假设检验 • FDR

  5. 假设检验 • 原假设H0; 备择假设H1 • 目的:看是否拒绝原假设 • p-value: 在原假设为真的时候,我们得出拒绝原假设这个结论的概率。我们希望这个概率越小越好,通常设为0.05.

  6. t test 还是wilcoxon test • t test:观察数据分布,要比较的两组数据是否有正态分布;两组数据的方差是否一致; • wilcoxon test:无需任何假设,是非参数的统计检验 • 二者抉择:t test有更强的power,但是前提是数据的分布必须符合使用它的假设 • 更多关于假设,请看http://en.wikipedia.org/wiki/Student%27s_t-test#Assumptions

  7. 为什么要做FDR • 如果只做单个或者少量的假设检验,我们通常认为如果p-value足够小(比如<0.05),则拒绝原假设; • 拒绝原假设,则发现一个阳性结果。p-value在此意义下是错误发现阳性结果的概率。 • 若同时做大量的假设检验,比如10000个,则在随机情况下,即可获得10000*p=10000*0.05=500个阳性结果,不合常理。

  8. FDR FDR=V/R,FDR的目的是将此概率控制到最小

  9. 常见FDR的方法 • Bonferroni阈值法:将阈值设置为α/n, α为单个假设检验下常用的p-value阈值,如0.05;n为所有假设检验的总个数 • sam: http://bioconductor.org/packages/release/bioc/vignettes/siggenes/inst/doc/siggenes.pdf

  10. sam结果解释

More Related