slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
计算机辅助医学 医学数据挖掘(下) PowerPoint Presentation
Download Presentation
计算机辅助医学 医学数据挖掘(下)

Loading in 2 Seconds...

play fullscreen
1 / 60

计算机辅助医学 医学数据挖掘(下) - PowerPoint PPT Presentation


  • 165 Views
  • Uploaded on

计算机辅助医学 医学数据挖掘(下). 刘雷 上海生物信息技术研究中心 2013.3.21. 提纲. 基本概念. 1. 关键技术. 相关工具. 2. 4. 应用实例. 3. 复习. Artif Intell Med. 2004 Oct;32(2):71-83. 例子. 为什么将数据挖掘技术引入到生物医学数据领域?. 数据挖掘的相关概念. 为什么将数据挖掘技术引入到生物医学数据领域? 生物医学数据的特点 现有生物医学数据分析方法. 记录内容多 记录的形式多样 不完整性 时间性 冗余性. 维度高 数据量大.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '计算机辅助医学 医学数据挖掘(下)' - brett-gould


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

计算机辅助医学医学数据挖掘(下)

刘雷

上海生物信息技术研究中心

2013.3.21

slide2

提纲

基本概念

1

关键技术

相关工具

2

4

应用实例

3

slide3
复习

Artif Intell Med. 2004 Oct;32(2):71-83

slide4
例子

为什么将数据挖掘技术引入到生物医学数据领域?

slide5
数据挖掘的相关概念
  • 为什么将数据挖掘技术引入到生物医学数据领域?
    • 生物医学数据的特点
    • 现有生物医学数据分析方法
  • 记录内容多
  • 记录的形式多样
  • 不完整性
  • 时间性
  • 冗余性
  • 维度高
  • 数据量大
  • 数据挖掘从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程
slide6
医学数据挖掘技术

数据挖掘任务的分类

  • 数据挖掘任务的分类
    • 分类(Classification)
    • 估值(Estimation)
    • 预测(Prediction)
    • 复杂数据类型挖掘(Text Web 图形 图像 视频 音频等)
  • 关联规则(Association rules)
  • 聚类(Clustering)
  • 医学数据挖掘关键技术
    • 数据预处理
    • 信息融合技术

医学数据挖掘关键技术

  • 快速的、鲁棒的挖掘算法
  • 提供知识的准确性和可靠性
slide7
例子

数据挖掘的流程?

使用什么样的方法?

如何评价?

slide8
方法

1

数据收集

特征变量选择

建模

2

3

  • 统计方法
  • 遗传算法
  • SVM

分类任务

slide9
方法与结果

评价

4

  • Leave-one-out

交叉验证

  • Accuracy
  • Specific
  • Sensitive
  • True Positive
  • False Positive
  • Confusion Matrix

常用方法

slide10
方法与结果

评价

4

  • ROC曲线
slide11
数据挖掘在医学上的应用实例

需求

医学数据挖掘

结果

目的

  • 结直肠癌肝转移预测模型
  • 癌症相关突变预测
slide12
1.概述

1.1 课题的背景

结直肠癌是常见的消化道恶性肿瘤

结直肠癌肝转移是影响患者预后的重要问题,也是结直肠癌患者死亡的主要原因之一

诊断

影像学

血清肿瘤标志物

化疗

手术切除

治疗

slide13
1.概述

1.2 课题的目的和意义

课题来源:863项目《建立基于医疗信息共享的临床决策支持系统 》

研究的目的是将数据挖掘技术应用于癌症临床研究,寻找适合分析癌症数据的数据挖掘方法和流程,探索数据挖掘在癌症临床数据分析中的应用价值

slide14
1.概述

1.3 研究的内容和方法

结直肠癌同时肝转移为例

数据准备

数据分析

服务的建立

  • 数据存储
  • 数据清理
  • 特征选取
  • 模型建立
  • 模型测试
  • 结果解释
slide15
2.数据准备

复旦大学附属肿瘤医院

大肠外科收治

的结直肠癌患者

  • 2.1 数据描述

1)患有原发性结直肠癌,排除复发和转移性结直肠癌患者;

2)有详细的临床和病理诊断;

3)通过CT、MRI和手术探查判断患者是否发生同时肝转移。

  • 训练数据集
  • 2000年6月-2005年12月
  • 1125例
  • 《大肠癌病史资料统计表》
  • Excel表
  • 基本信息、临床诊断信息、
  • 病理诊断信息、免疫组化信息、
  • 影像学诊断信息、手术信息和
  • 随访信息等,
  • 共234个数据项。
  • 测试数据集
  • 2006年
  • 152例
  • HTML文档
  • 基本信息、入院诊断、
  • 手术信息和出院医嘱等
slide16
2.数据准备

2.2 数据存储

原始数据

(excel格式)

大肠癌病史资料统计表

  • 训练数据集
  • 2000年6月-2005年12月
  • 1125例
  • 《大肠癌病史资料统计表》
  • Excel表
  • 基本信息、临床诊断信息、
  • 病理诊断信息、免疫组化信息、
  • 影像学诊断信息、手术信息和
  • 随访信息等,
  • 共234个数据项。

xrff格式

映射

原始数据模板

XML中间文档

目标模型文件

XML格式文件

数据库

Clindata Express

slide17
2.数据准备

2.3 数据抽提

  • 测试数据集
  • 2006年
  • 152例
  • HTML文档
  • 基本信息、入院诊断、
  • 手术信息和出院医嘱等

分词

抽提

测试数据项

slide18
2.数据准备

2.4数据清理

去除空值较多的数据项

核查不准确数据

保留手术前记录的属性

训练数据集:48个数据项

训练数据集样本和测试数据集样本基本情况分布表

slide19

数据准备

数据分析

服务的建立

  • 数据存储
  • 数据清理
  • 特征选取
  • 模型建立
  • 模型测试
  • 结果解释
slide20
3.特征选取

特征选取可以降低数据维度、去除噪声变量、减少计算量、提高模型分类性能

信息增益

遗传算法

AdaBoost方法

CEA、CA50、CA19-9、最大径、直肠

slide21

数据准备

数据分析

服务的建立

  • 数据存储
  • 数据清理
  • 特征选取
  • 模型建立
  • 模型测试
  • 结果解释
slide22
4.模型建立

4.1 评价标准

交叉验证

敏感性、特异性和准确率

ROC曲线

4.2建模方法及工具

AdaBoost、Logistic回归、SimpleLogistic、SVM、ADTree、Decision Stump和RandomForest、J48

Weka 3.5,R

研究内容

  • 不同变量对应的模型
  • 缺失值处理
  • 分类属性和数值属性
slide23
4.模型建立

4.3不同变量对应的模型

全部47个变量

slide24
4.模型建立

4.3不同变量对应的模型

特征变量组合

CEA、CA50、CA19-9、直肠、最大径

CEA、CA50、CA19-9、直肠、最大径

slide25
4.模型建立

4.3不同变量对应的模型

特征变量组合

CEA、CA50、CA19-9、直肠、最大径

CEA、CA50、CA19-9、直肠、最大径

slide26
4.模型建立

4.3不同变量对应的模型

特征变量组合

CEA、CA50、CA19-9、直肠、最大径

CEA、CA50、CA19-9、直肠、最大径

slide27
4.模型建立

4.3不同变量对应的模型

随机抽取变量

平均ROC曲线下面积为:0.508

随机抽取变量建模的模型性能评价表

slide28
4.模型建立

使用特征变量可以提升模型的分类性能

小结与讨论

Logistic各模型的分类性能

  • AdaBoost方法性能较好

AdaBoost各模型的分类性能

slide29
4.模型建立

4.4缺失值的处理

去掉数据集含有缺失值的样本

使用全局变量

使用类内均值填补缺失值

使用0填补缺失值

将缺失值视为单独的一个值

不同缺失值处理方法得到的AdaBoost CEA-CA 50模型的ROC曲线

slide30
4.模型建立

4.5数值属性与分类属性

变量

AUC

分类(阳性/阴性)

数值

CEA、CA 50、CA 19-9、最大径、直肠

0.854

0.860

CEA、CA 50、最大径、直肠

0.833

0.863

CEA、CA 50

0.800

0.843

CEA、CA 19-9

0.804

0.851

阈值

CEA:0~10μg/L

CA 19-9:0~37U/ml

CA 50:0~20U/ml

阴性

阳性

0

slide31

数据准备

数据分析

服务的建立

  • 数据存储
  • 数据清理
  • 特征选取
  • 模型建立
  • 模型测试
  • 结果解释
slide32
5.模型的测试

AdaBoost CEA-CA50 模型

Logistic CEA-CA50 模型

各CEA-CA 50模型的分类性能表

slide33
5.模型的测试

整体预测性能

图 测试数据集上AdaBoost CEA-CA 50模型和Logistic CEA-CA 50模型的ROC曲线

slide34
5.模型的测试

取ROC曲线上距点(0,1)最近的点的阈值

  • AdaBoost CEA-CA 50模型的阈值为0.082
  • Logistic CEA-CA 50模型的阈值为0.069

取ROC曲线上距点(0,1)最近的点的阈值时模型的预测能力

slide35
5.模型的测试

病例1

病例2

  • 5.3 特殊病例

肝脏侵犯

术前提示

  • 肝右前叶低密度结节,转移可能
  • AdaBoost CEA-CA50模型 阳性
  • Logistic CEA-CA50模型 阳性
  • 病灶直接侵犯肝脏
  • AdaBoost CEA-CA50模型 阳性
  • Logistic CEA-CA50模型 阳性
slide36

数据准备

数据分析

服务的建立

  • 数据存储
  • 数据清理
  • 特征选取
  • 模型建立
  • 模型测试
  • 结果解释
slide37
6. 结直肠癌同时肝转移预测服务系统

6.1 系统架构及开发工具

JSP+TOMCAT+MySQL

服务器

Internet/Intranet

数据库

预测模型1

预测模型2

预测模型3

slide39
7.讨论

AdaBoost

ADTree

Logistic

  • 变量较多时,Logistic回归的分类能力不强
  • 性能较平均
  • 变量筛选
  • 展示性好
  • 7.1 模型的比较
slide40
7.讨论

CEA

CA19-9

CA50

最大径

直肠

  • 免疫球蛋白超基因粘附分子家族
  • 能促进肿瘤细胞相互粘附或与宿主器官粘合
  • 转移组和非转移组表达量有统计学差异
  • 糖基抗原
  • 高表达和肿瘤的转移有关
  • 转移组和非转移组表达量有统计学差异
  • 细胞粘附分子E-selectin的受体
  • 7.2 模型的生物医学意义
  • 糖基抗原
  • 转移组和非转移组表达量有统计学差异

特征变量

  • 直肠上的血流通过肺循环回流入心脏
slide41
癌症相关突变的预测

Cancer Re January 15, 2007 67(2):465-473; 

slide42
癌症相关突变的预测
  • 研究背景
    • 癌症相关突变的发现将对癌症的早期检测和抗癌药物的研制带来极大的推动作用
    • 测序方法容易遗漏一些癌症相关的突变
slide43
癌症相关突变的预测

突变数据

癌症相关突变

其他突变

数据挖掘方法

  • 研究目的
    • 借助现有的突变数据和数据挖掘的方法建立癌症相关突变的预测模型
slide44
癌症相关突变的预测
  • 模型的建立
    • 使用Random Forest算法
    • 选择三个特征变量SIFT, PfamlogR.E和 GOSS scores
    • 训练集包括200个cancer mutations 和 800 个non-cancer
slide45
癌症相关突变的预测

数据

common variants

cancer-associated variants

Mendelian disease–associated variants

complex disease–associated variants

slide47
癌症相关突变的预测

SIFT

LogR.E value

RF

Cancer associated or not

GO log-odds

  • 测试集包括730个突变数据
    • 581个正常突变中有10个被分成癌症相关突变(1.7%)
    • 149个癌症相关突变中13个被分成了其他突变(8.7%)
slide48
癌症相关突变的预测

http://www.cgl.ucsf.edu/Research/genentech/canpredict/index.html

slide50
开源的数据挖掘集成环境
  • Weka is a collection of machine learning algorithms for data mining tasks.
    • WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis)
    • http://www.cs.waikato.ac.nz/ml/weka
    • 同时weka也是新西兰的一种鸟,而WEKA的主要开发者来自新西兰。
slide51
开源的数据挖掘集成环境

Weka contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization.

slide52
开源的数据挖掘集成环境
  • Weka图形用户界面---数据预处理

A

B

C

E

F

D

slide53
开源的数据挖掘集成环境
  • Weka图形用户界面---分类

A

B

D

C

E

slide54
开源的数据挖掘集成环境

The algorithms can either be applied directly to a dataset or called from your own Java code.

It is also well-suited for developing new machine learning schemes.

slide55
开源的数据挖掘集成环境

http://orange.biolab.si/

Open source data visualization and analysis for novice and experts.

Data mining through visual programming or Python scripting.

Components for machine learning.

Extensions for bioinformatics and text mining.

Packed with features for data analytics.

slide56
开源的数据挖掘集成环境

Visual programming

Visual programming

slide57
开源的数据挖掘集成环境

Interaction and data analytics

slide58
开源的数据挖掘集成环境

Scripting interface

Visualization

Large toolbox

slide59
参考资料
  • Lihua Li, Hong Tang, Zuobao Wu,et al. Data mining techniques for cancer detection using serum proteomic profiling. Artificial Intelligence in Medicine (2004) 32, 71—83.
  • Kaminker JS, Zhang Y, Waugh A, et al. Distinguishing cancer-associated missense mutations from common polymorphisms. Cancer Res. 2007 Jan 15;67(2):465-73.