資料探勘在慢性病預測模式之建構

資料探勘在慢性病預測模式之建構 • 資 4 B 陳信丞 H24932283 藍彥志 H24932364 蕭至淳 H24932217 林宏俊 H24932209

緒論 • 慢性疾病取代傳染性疾病，國人對慢性病忽略，與部份相關危險因子存在生活環境中。糖尿病、高血壓、高血脂引發之疾病位於十大死因當中。

研究動機 • 探究疾病之預防因子，在醫療上希望藉由一個預測模式中輸入變數與輸出變數之相關性，輔助鑑別診斷以提高診斷正確率，形成預防衛教模型，比起現有疾病治療模式更為有效。

研究目的 • 一個預測模式對臨床醫師們平常工作在危險因子無法正常判斷預測時輔助預測危險因子。在醫學預防的角度來看，危險因子的蒐集可從有效調查代替生化檢驗或檢查。

研究方法與目標 • 以3D人體體型資料為主體、中間介子為生理診斷數據、干擾因子有個人危險因子的疾病史及生活型態以及家族基因遺傳疾病史。運用資料探勘的混合人工智慧技術與方法，以基因演算法及案例庫推理的結合(GA-CBR)作慢性病預測，與只用生理診斷與疾病症狀做診斷的慢性病預測，前後兩者正確行為何？結果希望經由此慢性病預測模式以達到疾病在罹患早期或前兆就能預防

案例庫推理 新案例 Retrieve 案例庫取回案例 Reuse 案例庫推理週期 Retain Revise 確認解建議解

案例庫推理過程 解釋新案例取回案例庫據案例評估新舊案例相似度排序找出案例中建議解建議解經採用程序評估確認新案例與經確認解存入案例庫

k個最近相鄰法 k 個最近相鄰法 (K-Nearest Neighbor)是距離為基礎，使用距離矩陣經排序後，用來取回(Retrieve)被預測出來的k 個鄰近案例值，使其更符合目標案例。評估可以多樣的權重因子，因此提供評估目標案例所有屬性來計算其相似度的總和之計算公式表示如下:

k個最近相鄰法（續） • k 個最近相鄰法 (K-Nearest Neighbor)是距離為基礎，使用距離矩陣經排序後，用來取回(Retrieve)被預測出來的 k 個鄰近案例值，使其更符合目標案例。

屬性權重

基因演算法 • 研究重點是使用基因演算法來解決過去傳統規劃的觀念下被認為不可能解決的問題或是困難使用的知識庫技術。因為基因演算法能成功運用在搜尋大量資料中找出重要資料。突變交配

基因演算法模擬程序 開始世代初始化模擬最佳化突變交配複製停止準則否新世代是結束

類神經網路 • 類神經網路是由許多神經元所組成，神經元的輸出成為其它處理單元的輸入，介於類神經元間傳遞訊號路徑稱為連結。每一個連結上有一個數值的加權值（Weight），學習直到符合渴望目標。而類神經網路有一學習法則稱為學習演算法，可將輸入及輸出間關係記錄起來。當有輸入輸出組合網路架構與學習法則便能實務應用。

類神經網路

研究方法

研究流程

基因演算法–案例庫推理 (GA-CBR) • 本研究使用案例庫推理，試著從過去的案例經由案例庫推理機制的步驟中找出經驗解答與現在新的問題屬性相似案例來解決新問題。但在大資料庫中尋找權重花費相當長時間。在權重上引入基因演算法來尋找最適合並充分表現屬性的權重。於是利用這兩種方法結合成為基因演算法-案例庫推理，在案例庫推理中權重的訂定是相當重要的部分。

基因演算法-案例庫推理(GA-CBR) （續）

Y 是連續性值

Y 是非連續性值

Y 是非連續性值（續）

基因規劃分類樹 (GPCT) • 由於基因規劃是一種用來搜尋最佳解的演算法，因此使用基因規劃的技術來尋找切割點與相關屬性來建立分類樹。透過其特性來建構多元分類樹，將分類規則以包含非線性的數學運算元來呈現。

基因規劃迴歸樹 (GPMRT) • 它是使用基因規劃和局部線性迴歸建構迴歸樹，藉由基因選擇屬性與多變量切割點，因此使用修剪樹與模擬，試著找到最佳迴歸樹，以提供較單維迴歸樹好的多維切割迴歸樹，多變量點切割迴歸樹演算法是先從單變量點切割迴歸樹演算法演繹出來。

實驗與結果--資料收集

實驗與結果--資料屬性

資料前置處理

討論 • 本研究將討論之特色包含研究資料變項處理、模型之應用與其它演算法比較、過程與結果之優勢、方法之延展性及效率作為討論主軸。資料變項處理方面，變項有共同變項的3D 人體體型資料，以及高血壓、高血脂、糖尿病的資料等共約90 個變項，變項初期的選擇是先從醫學文獻與醫師臨床應用來選取，再將所選取的變項經由統計的量測方式評量每個變項對目標變項的顯著性來決定是否保留成為研究變項，因為樣本較大在選擇變項的分析定為較嚴格以0.05 為標準，介於0.05~0.005 為顯著，小於0.005 為最顯著，小於0.005 最優先進入變項。最後加上研究設計的必要變項成為最後研究變項。

討論（續） • 醫院全方位服務醫療方面，將現有資料庫改建成一個全新資料倉儲，在倉儲上做資料探勘，並將探勘出來的預測模式建構成網站疾病預測系統。健檢受檢者也可以經由網站介面查詢慢性疾病預測結果，系統根據結果給予受測者醫療建議，判定是否需要做進一部診斷。而當病患到醫院接受服務時，臨床醫師要幫這三種慢性病診療時，醫師必須要針對本研究之三維體型結果應用在看診中，如醫師看診病患是糖尿病、高血壓與高血脂時一定要量病患的腰臀比、腰圍輪廓面積、腰圓周長、身體表面積、左手臂體積等。

討論（續） • 就醫學傳統的做法是運用統計的邏輯斯諦迴歸的方法來做預測，那為何要捨棄統計的方法而就人工智慧的技術與方法呢? 乃是因為邏輯斯諦迴歸是屬於線性迴歸的預測方法，就其預測出來的參數變項雖然對預測的目標變項是顯著的，但其解釋目標變項的解釋度無法完全解釋，因此就必須借用人工智慧的技術與方法來克服目標變項的解釋度能夠儘可能完本研究的過程與結果優勢如下，以GA-CBR 演算法使用在醫院中的資料庫分析，就其適用的優點而言。它是可以在線上學習，並且是可以繼承學習、且建構GA-CBR 是比統計與類神經網路的成本低且快速。全被解釋。

討論（續） • 案例庫推理主要的優點是容易獲得分析資料的知識，重要的屬性是容易被保留和學習的能力。GA-CBR 也是擷取相同的知識、穩定、相較規則庫系統是容易維護、結果容易解釋與校正、容易被使用者接受、知識的擷取。當然在對大型的案例庫方面執行需較長時間，雜訊控制也較為困難，所以在資料整理時就必須將雜訊去除。就研究結果在K-NN 部分，比較K=1, 3, 5, 7, 9,11 時，根據結果顯示不管是3D 人體體型等屬性或是Org 生理檢測數據等，這兩個資料集的執行結果都顯示當K=3時其學習誤差最小。而相對於類神經網路、GPCT、GPMRT而言GA-CBR 執行正確性也是很高的，唯有高血壓在Org 生理檢測數據資料集的預測誤差百分比較大。GA-CBR 在預側糖尿病的三維人體體型等屬性其誤差值有13.8559，其生理指數之誤差值為8.9086。在預側高血脂的三維人體體型等其誤差值有17.7762，其生理指數之誤差值為8.6342。在預側高血壓的三維人體體型等其正確率有83.4 %，但生理指數正確率只有66.3%。

討論（續） • 此次研究希望從預測模式，找人體體型中還有哪些部位對慢性疾病有相關性。針對三種慢性病研究結果討論如下；在糖尿病方面，就人體體型資料發現除了腰臀比代表肥胖外，也找到另一個變項腰圍輪廓面積，與糖尿病有顯著正相關，。家族史糖尿病的變項表現出顯著性意味基因遺傳的機率很高，而飯後血糖也很顯著正相關。在高血壓方面，就人體體型資料而言也發現除了腰臀比、體重代表肥胖外，找到另外三個變項腰圓周長、身體表面積、左手臂體積與高血壓有正相關表現顯著。在高血脂方面，就人體體型資料而言，腰臀比與身體質量指數表現顯著代表肥胖。而在腰圓周長也很顯著，其它如有抽菸、三酸甘油脂、疾病史慢性肝炎、極低密度脂蛋白過高等也都是引起高血脂重要危險因子。

討論（續） • 最終研究發現在三種慢性病的3D 預測中得知腰臀比是比身體質量指數顯著的。 • 綜合討論以上發現與之前不同處為何? 對於3D 人體體型資料、家族史、生活型態、生理數據等危險因子與傳統的生理數據鑑別診斷差別有何不同呢?。由研究結果顯示傳統的生理數據的預測能力與3D 人體體型等資料的預測能力在K=3 時是幾乎接近相等的，唯有在高血壓時兩組資料集的預測誤差百分比差異性較大。 • 但是3D 人體體型等資料的預測模式是較能讓臨床醫師解釋與說明慢性病的病情與病患的瞭解。

結論 • 使用GA-CBR 演算法在醫院中的資料庫分析最適用，因為有足夠的案例且容易在短時間內便可建置完成。。就目前醫院大部分都停留在把醫院的資料拿出來作人事、醫療成本費用等等分析。資料探勘運用在醫院的資料庫上做診療與疾病的相關性是較少見到。為提高醫院對病患的服務管理，應善加利用資料探勘於醫療與醫務領域。

資料探勘在慢性病預測模式之建構

資料探勘在慢性病預測模式之建構

Presentation Transcript