600 likes | 801 Views
计算机辅助医学 医学数据挖掘(下). 刘雷 上海生物信息技术研究中心 2013.3.21. 提纲. 基本概念. 1. 关键技术. 相关工具. 2. 4. 应用实例. 3. 复习. Artif Intell Med. 2004 Oct;32(2):71-83. 例子. 为什么将数据挖掘技术引入到生物医学数据领域?. 数据挖掘的相关概念. 为什么将数据挖掘技术引入到生物医学数据领域? 生物医学数据的特点 现有生物医学数据分析方法. 记录内容多 记录的形式多样 不完整性 时间性 冗余性. 维度高 数据量大.
E N D
计算机辅助医学医学数据挖掘(下) 刘雷 上海生物信息技术研究中心 2013.3.21
提纲 基本概念 1 关键技术 相关工具 2 4 应用实例 3
复习 Artif Intell Med. 2004 Oct;32(2):71-83
例子 为什么将数据挖掘技术引入到生物医学数据领域?
数据挖掘的相关概念 • 为什么将数据挖掘技术引入到生物医学数据领域? • 生物医学数据的特点 • 现有生物医学数据分析方法 • 记录内容多 • 记录的形式多样 • 不完整性 • 时间性 • 冗余性 • 维度高 • 数据量大 • 数据挖掘从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程
医学数据挖掘技术 数据挖掘任务的分类 • 数据挖掘任务的分类 • 分类(Classification) • 估值(Estimation) • 预测(Prediction) • 复杂数据类型挖掘(Text Web 图形 图像 视频 音频等) • 关联规则(Association rules) • 聚类(Clustering) • 医学数据挖掘关键技术 • 数据预处理 • 信息融合技术 医学数据挖掘关键技术 • 快速的、鲁棒的挖掘算法 • 提供知识的准确性和可靠性
例子 数据挖掘的流程? 使用什么样的方法? 如何评价?
方法 1 数据收集 特征变量选择 建模 2 3 • 统计方法 • 遗传算法 • SVM 分类任务
方法与结果 评价 4 • Leave-one-out 交叉验证 • Accuracy • Specific • Sensitive • True Positive • False Positive • Confusion Matrix 常用方法
方法与结果 评价 4 • ROC曲线
数据挖掘在医学上的应用实例 需求 医学数据挖掘 结果 目的 • 结直肠癌肝转移预测模型 • 癌症相关突变预测
1.概述 1.1 课题的背景 结直肠癌是常见的消化道恶性肿瘤 结直肠癌肝转移是影响患者预后的重要问题,也是结直肠癌患者死亡的主要原因之一 诊断 影像学 血清肿瘤标志物 化疗 手术切除 治疗
1.概述 1.2 课题的目的和意义 课题来源:863项目《建立基于医疗信息共享的临床决策支持系统 》 研究的目的是将数据挖掘技术应用于癌症临床研究,寻找适合分析癌症数据的数据挖掘方法和流程,探索数据挖掘在癌症临床数据分析中的应用价值
1.概述 1.3 研究的内容和方法 结直肠癌同时肝转移为例 数据准备 数据分析 服务的建立 • 数据存储 • 数据清理 • 特征选取 • 模型建立 • 模型测试 • 结果解释
2.数据准备 复旦大学附属肿瘤医院 大肠外科收治 的结直肠癌患者 • 2.1 数据描述 1)患有原发性结直肠癌,排除复发和转移性结直肠癌患者; 2)有详细的临床和病理诊断; 3)通过CT、MRI和手术探查判断患者是否发生同时肝转移。 • 训练数据集 • 2000年6月-2005年12月 • 1125例 • 《大肠癌病史资料统计表》 • Excel表 • 基本信息、临床诊断信息、 • 病理诊断信息、免疫组化信息、 • 影像学诊断信息、手术信息和 • 随访信息等, • 共234个数据项。 • 测试数据集 • 2006年 • 152例 • HTML文档 • 基本信息、入院诊断、 • 手术信息和出院医嘱等
2.数据准备 2.2 数据存储 原始数据 (excel格式) 大肠癌病史资料统计表 • 训练数据集 • 2000年6月-2005年12月 • 1125例 • 《大肠癌病史资料统计表》 • Excel表 • 基本信息、临床诊断信息、 • 病理诊断信息、免疫组化信息、 • 影像学诊断信息、手术信息和 • 随访信息等, • 共234个数据项。 xrff格式 映射 原始数据模板 XML中间文档 目标模型文件 XML格式文件 数据库 Clindata Express
2.数据准备 2.3 数据抽提 • 测试数据集 • 2006年 • 152例 • HTML文档 • 基本信息、入院诊断、 • 手术信息和出院医嘱等 分词 抽提 测试数据项
2.数据准备 2.4数据清理 去除空值较多的数据项 核查不准确数据 保留手术前记录的属性 训练数据集:48个数据项 训练数据集样本和测试数据集样本基本情况分布表
数据准备 数据分析 服务的建立 • 数据存储 • 数据清理 • 特征选取 • 模型建立 • 模型测试 • 结果解释
3.特征选取 特征选取可以降低数据维度、去除噪声变量、减少计算量、提高模型分类性能 信息增益 遗传算法 AdaBoost方法 CEA、CA50、CA19-9、最大径、直肠
数据准备 数据分析 服务的建立 • 数据存储 • 数据清理 • 特征选取 • 模型建立 • 模型测试 • 结果解释
4.模型建立 4.1 评价标准 交叉验证 敏感性、特异性和准确率 ROC曲线 4.2建模方法及工具 AdaBoost、Logistic回归、SimpleLogistic、SVM、ADTree、Decision Stump和RandomForest、J48 Weka 3.5,R 研究内容 • 不同变量对应的模型 • 缺失值处理 • 分类属性和数值属性
4.模型建立 4.3不同变量对应的模型 全部47个变量
4.模型建立 4.3不同变量对应的模型 特征变量组合 CEA、CA50、CA19-9、直肠、最大径 CEA、CA50、CA19-9、直肠、最大径
4.模型建立 4.3不同变量对应的模型 特征变量组合 CEA、CA50、CA19-9、直肠、最大径 CEA、CA50、CA19-9、直肠、最大径
4.模型建立 4.3不同变量对应的模型 特征变量组合 CEA、CA50、CA19-9、直肠、最大径 CEA、CA50、CA19-9、直肠、最大径
4.模型建立 4.3不同变量对应的模型 随机抽取变量 平均ROC曲线下面积为:0.508 随机抽取变量建模的模型性能评价表
4.模型建立 使用特征变量可以提升模型的分类性能 小结与讨论 Logistic各模型的分类性能 • AdaBoost方法性能较好 AdaBoost各模型的分类性能
4.模型建立 4.4缺失值的处理 去掉数据集含有缺失值的样本 使用全局变量 使用类内均值填补缺失值 使用0填补缺失值 将缺失值视为单独的一个值 不同缺失值处理方法得到的AdaBoost CEA-CA 50模型的ROC曲线
4.模型建立 4.5数值属性与分类属性 变量 AUC 分类(阳性/阴性) 数值 CEA、CA 50、CA 19-9、最大径、直肠 0.854 0.860 CEA、CA 50、最大径、直肠 0.833 0.863 CEA、CA 50 0.800 0.843 CEA、CA 19-9 0.804 0.851 阈值 CEA:0~10μg/L CA 19-9:0~37U/ml CA 50:0~20U/ml 阴性 阳性 0 ∞
数据准备 数据分析 服务的建立 • 数据存储 • 数据清理 • 特征选取 • 模型建立 • 模型测试 • 结果解释
5.模型的测试 AdaBoost CEA-CA50 模型 Logistic CEA-CA50 模型 各CEA-CA 50模型的分类性能表
5.模型的测试 整体预测性能 图 测试数据集上AdaBoost CEA-CA 50模型和Logistic CEA-CA 50模型的ROC曲线
5.模型的测试 取ROC曲线上距点(0,1)最近的点的阈值 • AdaBoost CEA-CA 50模型的阈值为0.082 • Logistic CEA-CA 50模型的阈值为0.069 取ROC曲线上距点(0,1)最近的点的阈值时模型的预测能力
5.模型的测试 病例1 病例2 • 5.3 特殊病例 肝脏侵犯 术前提示 • 肝右前叶低密度结节,转移可能 • AdaBoost CEA-CA50模型 阳性 • Logistic CEA-CA50模型 阳性 • 病灶直接侵犯肝脏 • AdaBoost CEA-CA50模型 阳性 • Logistic CEA-CA50模型 阳性
数据准备 数据分析 服务的建立 • 数据存储 • 数据清理 • 特征选取 • 模型建立 • 模型测试 • 结果解释
6. 结直肠癌同时肝转移预测服务系统 6.1 系统架构及开发工具 JSP+TOMCAT+MySQL 服务器 Internet/Intranet 数据库 预测模型1 预测模型2 预测模型3
6.2预测服务 6. 结直肠癌同时肝转移预测服务系统 预测页面 结果展示页面
7.讨论 AdaBoost ADTree Logistic • 变量较多时,Logistic回归的分类能力不强 • 性能较平均 • 变量筛选 • 展示性好 • 7.1 模型的比较
7.讨论 CEA CA19-9 CA50 最大径 直肠 • 免疫球蛋白超基因粘附分子家族 • 能促进肿瘤细胞相互粘附或与宿主器官粘合 • 转移组和非转移组表达量有统计学差异 • 糖基抗原 • 高表达和肿瘤的转移有关 • 转移组和非转移组表达量有统计学差异 • 细胞粘附分子E-selectin的受体 • 7.2 模型的生物医学意义 • 糖基抗原 • 转移组和非转移组表达量有统计学差异 特征变量 • 直肠上的血流通过肺循环回流入心脏
癌症相关突变的预测 Cancer Re January 15, 2007 67(2):465-473;
癌症相关突变的预测 • 研究背景 • 癌症相关突变的发现将对癌症的早期检测和抗癌药物的研制带来极大的推动作用 • 测序方法容易遗漏一些癌症相关的突变
癌症相关突变的预测 突变数据 癌症相关突变 其他突变 数据挖掘方法 • 研究目的 • 借助现有的突变数据和数据挖掘的方法建立癌症相关突变的预测模型
癌症相关突变的预测 • 模型的建立 • 使用Random Forest算法 • 选择三个特征变量SIFT, PfamlogR.E和 GOSS scores • 训练集包括200个cancer mutations 和 800 个non-cancer
癌症相关突变的预测 数据 common variants cancer-associated variants Mendelian disease–associated variants complex disease–associated variants
癌症相关突变的预测 SIFT LogR.E value RF Cancer associated or not GO log-odds • 测试集包括730个突变数据 • 581个正常突变中有10个被分成癌症相关突变(1.7%) • 149个癌症相关突变中13个被分成了其他突变(8.7%)
癌症相关突变的预测 http://www.cgl.ucsf.edu/Research/genentech/canpredict/index.html
开源的数据挖掘集成环境 • Weka is a collection of machine learning algorithms for data mining tasks. • WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis) • http://www.cs.waikato.ac.nz/ml/weka • 同时weka也是新西兰的一种鸟,而WEKA的主要开发者来自新西兰。