Data Mining Presentation

Data mining a diabetic data warehouse Data Mining Presentation Artificial Intelligence in Medicine 26 (2002) 37-54

簡介資料的儲存醫-病關係的過程管理、診療、醫療、檢測、醫藥等非常大量且複雜糖尿病資料倉儲預測病患的病情發展找出高危險群選擇本篇具清楚的流程步驟

問題描述 糖尿病患占全美人口5.9%，且逐年增長可能源於肥胖缺乏運動經濟問題每年花費成本約10億美金佔醫療及保險預算的大部分比例

問題描述(cont’) 健康及醫療問題併發症多(盲眼、腎衰竭、截肢) 死亡率高 2-4倍的心臟病發病患生產嬰兒較易有殘缺 2-3倍的新生兒死亡率

問題描述(cont’) 現有成果減少盲眼率達九成減少至少五成的洗腎及截肢治療努力方向改善醫護的成果減少支出(省錢)

問題描述(cont’) 路易司安那州全國第二差的健康指標(3.53%) 最高的糖尿病患死亡率(38.7/0.1M) 紐奧爾良其所屬的一城市最胖的城市(38%的成人)

資料來源 Integrated healthcare system 三級醫院、診所、健康計畫、研究所、研究部門內容到2001八月有30383個病患 42個月期間，病人平均有23.8個月的資料但期間外的資料不納入

資料來源(cont’) 共10個資料表管理及診療、醫療、檢測、醫藥五大項僅取用管理、診療及檢測的部分資料資料取得了解資料的用途了解如何取得可能未能取得的資料 BMI、家族病史、病發時間、體重控制及運動習慣

資料轉換 必須要適當的轉換在單一的資料表稱為data mining data table 平面檔(flat file) 本研究使用SQL取出儲存使用於CART

資料轉換(cont’) 步驟檢視關聯資料庫中的資料表並選擇匯出的欄位決定取得關聯資料厙中的哪些資料的交集(取關聯) 定義data mining data table的安排(layout) 詳列要包含及排除病患的規範，會決定資料的數量，例如紀錄的最大、最小值、每一病患的紀錄數等等資料的粹取，包括了剔除可辯識病患的資料檢查data mining data table，確保它具有客觀的意義

資料轉換(cont’) 篩選原則每一病患歸為同一列多個欄位聚合成匯總的資訊(減少sparse) 病患至少兩次診療及兩次檢測

資料轉換(cont’) Comorbidity index 合併症指數 17種類，記次 HgbA1c 血糖控制指標取平均分界點9.5

Data Mining • Mining方法 • 使用Salford System的CART來建分類樹 • 每個節點只用一個變數來切割 • 使用Gini來看亂度 • 為了防止overfitting，把資料隨機切分為test(7950)以及learning(7953) • 從learning產出的tree去與test sample進行預測，由其正確率看是否有overfitting現象

Data Mining • 目標 • Predictor variable：age, sex, ER, OV, CMI, lipid ( 體脂肪 ), HTN (高血壓 ), CV ( 心血管疾病 ), eye ( 視網膜 ), ESRD ( 腎衰竭 ) • Target variable：HgbA1c(糖化血色素) average(9.5) • 找出糖尿病患者中，哪些比較會有較差的血糖控制(HgbA1c > 9.5) • 血糖控制是控制糖尿病的基本步驟

變數權重 • 由CART來看10個變數中，哪些是最重要的分類變數 • 第一個中間節點是用AGE來切割(65.6) • Class=1 代表是對於血糖控制較差的人(HgbA1C > 9.5) • Node1~12代表中間節點，Node-1~-13代表葉節點(TN) • 原本learning sample中，控制較差的人有13.2%(1052/7953) • 經過第一個節點切割後變成19.4%(775/3987)

Age<=55.231 19.4% Age<=65.581 13.2%

Terminal Node

Classfication error • 控制較差的病人在learning以及test皆有四分之一的估計誤差 • 增加變數可能可以減少其誤差 • 服用的藥物 • BMI值

Classfication error in learning

Classfication error in testing

CART analysis test sample classfication table

Adjustment to defaults • 若將分類的方式作調整可以得到更好的結果 • 0.451(age) + 0.893 (CMI) <= 32.5576 • 但是要如何評估0.451age+ 0.893CMI <-32.5576 • 用單一屬性比較好評估

Evaluation of the discovered knowledge • 年齡比CMI是更為重要的因子 • 年齡在65.6歲以下且血色素較高的機率是其他人的三倍 • 以所有樣本而言 • 年輕且血色素較高的機率：0.241 • 年長且血色素較高的機率：0.0758

Using the discovered knowledge • 較年輕的病患比較不會控制自身血糖 • 因此必須對於年輕的病患進行有組織的控制或者教育 • 未來進一步研究 • 必須去看其他非NEW ORLEANS地區的資料，觀察這個現象是否跨地區 • 尋找其他的變數 • 分類的方法必須去衡量其cp值 • 年齡分類對於健康組織比較好評估 • 用其他線性或者合併的方式不一定較好，因為較不好執行

conclusion • 必須解決的問題 • 時間連續性 • 事件連續性 • 資料壓縮 • 時間連續性 • 常常看醫生的也許是因為併發症發作 • 一個人會有很多次檢測記錄，該選擇第一筆？最後一筆？還是平均值？ • 如何把時間的資料轉換成單一欄位

conclusion • 事件連續性 • 當一個人剛看完醫生，他在短期時間內的控制較好 • 進急診室->看診 • 看診->進急診室 • 資料壓縮 • 當資料越多(如整個美國病人)，用資料壓縮的方式將所有資料都放入CART會比使用隨機抽樣方式佳 • 如何抽取資料的同時又能夠保持時間連續性以及事件的連續性

Critics • 內容有些地方有錯誤(table以及n) • Mining的發現 • 較年輕的控制力較差是否是因為控制力較差者的平均年齡比控制力高者低(控制力差者比較不會活到65歲以上)

Data Mining Presentation

Data Mining Presentation

Presentation Transcript

Data Mining

Data Mining

Data Mining: Data

Data Mining: Data

Data Mining: Proses Data Mining

Data Mining: Proses Data Mining

Data Mining: Data

Data Mining: P enelitian Data Mining

Data Mining

Presentation Title: DATA MINING

Data Mining-Knowledge Presentation—ID3 algorithm

Data Mining: Data

Data Mining: Data

Data-mining

Data Mining

Data Mining: Data

Data Mining: Data

Data Mining: Data

Data Mining and privacy Presentation

Math 3346 Data Mining Presentation

Data Mining: Data

Data Mining: Data