判別分析 Discriminant Analysis

量化研究與統計分析 判別分析Discriminant Analysis 謝寶煖台灣大學圖書資訊學系 2006年6月3日 pnhsieh@ntu.edu.tw

Discriminant Analysis • 判別分析 • 區別分析 • 鑑別分析

判別分析 • 是一種相依方法，其準則變數為事先訂定的類別或組別。 • 例如，銀行在貸款給顧客時，通常都會依顧客基本資料，如學歷、收入、借貸記錄等等..，將顧客區分為具信用之顧客與不具信用之顧客兩種，並且當有新的顧客進來時，也可比照同樣準則將新顧客的資料與這些巳存在的資料做一比較，看是否應借錢給這位新的顧客。

判別分析 vs. 集群分析 • 判別分析法（discriminant analysis），是在已知的分類之下，一旦遇到有新的樣本時，可以利用此法選定一判別標準，以判定如何該將新樣本放置於那個族群中。 • 集群分析法（cluster analysis），則是希望將一群具有相關性的資料加以有意義的分類。 • 假設有數個群體，對每一群體中的一些個體取幾個變量（說明變量）組，作成適當的判別標準時，即可辨別該群體的歸屬。在此處我們想要討論的情況，看起來與分群分析法類似，似乎都是要將觀察值分群分類，但是他們的使用前提及意義仍是不同的。 104易投網：市調專欄http://www.104poll.com.tw/Columan/Columan0910_2.asp

用簡單的例子來說，如果我們已知有兩群人：一群是韓國人，另一群的日本人。現在新來了一位某甲，我們想問：某甲是韓國人呢，還是日本人？回答這樣的問題，算是判別分析。用簡單的例子來說，如果我們已知有兩群人：一群是韓國人，另一群的日本人。現在新來了一位某甲，我們想問：某甲是韓國人呢，還是日本人？回答這樣的問題，算是判別分析。 • 再如我們有一大群人混在一起，這裡面包括了日本、韓國、泰國，馬來西亞、....，如果我們想將他們一一分辨出來，這就是集群分析法。

判別分析法之用途很多，如動植物分類，醫學疾病診斷，社區種類劃分，氣象區（或農業氣象區）之劃分，商品等級分類，職業依能力分類，以及人類考古學上之年代及人種分類等等均可利用。判別分析法之用途很多，如動植物分類，醫學疾病診斷，社區種類劃分，氣象區（或農業氣象區）之劃分，商品等級分類，職業依能力分類，以及人類考古學上之年代及人種分類等等均可利用。

線性判別函數（linear discriminant function, 簡稱LDF），是判別分析法中主要的工具。 • 最早由 R.A. Fisher（1936）提出。 • Fisher 提出線形判別函數，並應用於花卉分類上。他將花卉之各種特徵（character）（如花瓣長與寬、花萼長與寬等）利用線性組合（linear combination）方法，將這些基本上是多變量的數據（multivariate data），轉換成單變量（univariate data）。再以這個化成單變量的線性組合數值來判別事物間的差別。

判別分析大意圖

典型相關(canonical correlation) • 判別函數的典型相關是組間平方和與總平方和比值的平方根。平方後，它就是由組間差異解釋的總變異量的比例。

注意事項：分組變數可以有兩個 (或以上) 的數值。但是，分組變數的代碼必須為整數，而且必須指定其最小值和最大值。觀察值的數值如果超出這個範圍，就不會分析它。

範例一般而言，溫帶國家的人，每天消耗的卡路里會比熱帶的人多，而且溫帶地區中，住在都市的人口比例也會比較高。研究人員想將這些資訊，併成一個函數，以便判斷受訪者對這兩個國家的人民，能細分到什麼樣的程度。研究人員認為，人口數量和經濟資訊，應該也相當重要。因此，使用判別分析，能讓您估計線性判別函數的係數，判別函數的運算式，看起來跟多重線性迴歸方程式的右側內容很像。亦即是，它也使用 a、b、c 和 d 係數，函數如下： • D = a * 氣候 + b * 都市 + c * 人口 + d * 每人國民生產毛額

如果這些變數，有助於判別兩種不同的氣候區域，那麼溫帶國家和熱帶國家的 D 值就會不同。如果您使用逐步的變數選取法，可能會發現此函數中，不需要包含四個變數。 • 統計量。對於每個變數而言，則有：平均數、標準差、單變量 ANOVA。對於每種分析而言，則有：Box M、組內相關矩陣、組內共變異數矩陣、各組共變異數矩陣、總和的共變異數矩陣。對於每種典型判別函數而言，則有：特徵值、變異數百分比、典型相關、 • Wilks’ Lambda 值、卡方。對每個步驟而言：事前機率、Fisher 函數係數、未標準化函數係數、每個典型函數的 Wilks’ Lambda 值。

階層集群分析 • 統計分析＞分類＞階層式集群... • 如果要將觀察值分成集群的話，請至少選取一個數值變數。 • 如果要將變數分成集群的話，請至少選取三個數值變數。 • 或者，您可以選取識別變數做為觀察值的註解。

這個程序會根據您所選取的特性，試圖找出具有相對同質性的觀察值 (或變數) • 組別。它所使用的演算法，會從個別集群中的每一個觀察值 (或變數) 開始，然後再與集群組合，直到只剩下一個為止。您可以分析原始資料，或從各種不同的標準化轉換中選擇。「近似性」程序會產生距離或相似性量數。每個階段都會顯示統計量，以協助您選出最適用的數值。

範例以電視節目為例，您可以根據電視節目所吸引的觀眾群，將這些節目加以分組。您可以使用階層集群分析，把電視節目 (觀察值) 根據觀眾特性分成相似的集群。這種方式也可用於市場區隔。或者，您可以把城市分成相似的集群，以便選取類似的城市來測試各種不同的行銷策略。

統計量 • 在統計方面 • 群數凝聚過程 • 距離 (或相似性) 矩陣 • 單解（或解的範圍）的集群組員 • 在圖形方面 • 樹狀圖 • 冰柱圖

判別分析 • 用於判別樣本所屬類型的一種方法 • 在社會、經濟、管理等領域的研究中，經常要對某一研究現象的歸屬作出判斷，例如在經濟學中，根據國民平均年收入所得、企業生產總額、國民平均消費水準等多種指標，來判定一個國家的經濟發展程度所屬類型。 • 在醫學上，根據病人的各項檢查指標來判斷病情或病因等。 • 與集群分析相同，都是將相似的事物歸為一類，不同處在於集群分析預先不知道分類，而判別分析是在研究對象分類已知的情況下，根據樣本資料推導出一個或一組判別函數，同時指定一種判別規則，用以確定待判別樣本所屬的類型，使錯判率最小。

判別分析 • 按判別組數分為：兩組判別和多組判別 • 按數學模型不同分為：線性判別和非線性判別 • 按判別方法不同分為：逐步判別和序貫判別 • 按判別準則不同分為：距離判別、費雪（Fisher）判別、貝依斯（Bayes）判別

線性判別函數 • Linear Discriminant Function • 對k個母體， G1、G2、 G3 、、、 Gk，如果各個樣本相互獨立且符合多元常態分配，則可建立線性判別函數，其形式如下：Yi=a0+a1x1+a2x2+a3x3+……+anxn(I=1,2,…..k) • K：判別組數 • Y：判別分數或判別值（discriminant scores） • X1 x2……xn 是因變數或預測變數 • A1 a2……an 是判別係數（coefficient）

典型判別函數 • Canonical Discriminant Function • 典型函數是原始因變數的線性組合，透過建立少量的典型變數，可以方便地描述各類之間的關係，用以計算判別分數、畫散點圖和區域圖等 • SPSS針對K組研究對象，建立K－1個典型判別函數，顯示標準化的典型判別函數係數（standardized canonical discriminant function coefficient）和未標準化的典型判別函數係數

判別準則 • Fisher判別準則 • 根據線性Fisher函數值進行判別，通常用於兩組判別問題 • 要求各組變數的平均值有顯著差異 • Bayes判別準則 • 根據各母體的先驗機率（prior probabilities），使誤判的平均損失最小進行判別，通常用於多組判別 • 要求滿足三個假設條件：多元常態分配、各組變異數矩陣相等、各組變數平均值有顯著差異

建立判別函數的方法 • 全模型法（Enter independent together） • 將研究者指定的全部變數作為判別函數的因變數，而不管該變數是否對研究對象顯著或對判別函數的貢獻大小 • 是SPSS預設的方法，適合於對研究對象的各變數有全面認識的時候使用，否則全部變數全部選用，可能用產生較大的偏差 • 逐步選擇法（stepwise method） • 選擇最能各映各類間差異的變數子集，建立判別函數的方法。 • 模型是從沒有任何變數開始，每一步都對模型進行檢定，將模型外對模型的判別貢獻最大的變數加入到模型中。同時檢查在模型中是否存在由於新變數的加入，而對判別貢獻不太顯著的變數，若有則將其從模型中刪除，直到模型中的所有變數全部都符合引入模型的條件，而模型外的變數都不符合引入模型的條件為止。

SPSS提供5種逐步選擇變數的方法 • 使Wilks’s 統計量最小化法 • 使最近兩組間的Mahalanbis的距離最大化法 • 使任何兩組間的最小的F比值最大化法 • 使末被解釋的共變數和最小化法 • 使Roa V統計量最大化法 • 輸出結果，通常可以用F值的大小作為變數進入模型的標準，即一個變數是否能進入模型，取決於共變數分析的F檢定的顯著水準

判別分析基本步驟 • 分析(analyze)＞分類(classify)＞判別(discriminant) • 選擇分組變數與自變數 • 計算各組單變數敘述統計量，包括組內平均值、組內標準差、總平均值、總標準差、各組共變數矩陣、組間相關矩陣，並對組間平均值相等及共變數矩陣相等的假設進行檢定 • 推導判別係數，進行檢定 • 建立Fisher線性判別模型 • 進行判別分組，根據Bayes規則或Fisher規則進行判別分組 • 進行樣本判別分析，計算錯分率 • 輸出結果

分組變數 (grouping variable)：只能指定一個。必須是數值型變數，最少有2個水準值。

汽車展示中14款新車，依造型、性能、價位三要素，，可以區分為高效能、中效能、低效能三組，各有5、4、5輛車。汽車展示中14款新車，依造型、性能、價位三要素，，可以區分為高效能、中效能、低效能三組，各有5、4、5輛車。

變異數分析： 造型、性能、價位之平均數差異，均未達顯著水準（F值愈大，平均數的差異越大）

組共變數相等的假設檢定： Box’s M值＝14.942,轉換成F值為0.714，F檢定之P值為0.738，未達顯著水準，接受虛無假設，三組母群體之共變數相等，符合判別分析的假定

特徵值（Eigenvalue）愈大，表示此函數愈有判別力特徵值（Eigenvalue）愈大，表示此函數愈有判別力典型相關係數：區別分數與組別間的關聯程度

兩個典型區別函數值的顯著性檢定，兩個典型區別函數均未達顯著水準兩個典型區別函數值的顯著性檢定，兩個典型區別函數均未達顯著水準

**分類錯誤的觀察值以造型、性能、價位，三個變數作為判別分析，可以有效地判別各車的整體效能，而且判別率相當高。

分派錯誤率 • （error rate of misclassification） • 如果兩組資料有重疊（overlap）部分，則分派未知個體時會有錯誤發生，其分派錯誤的機會視兩組資料重疊部份之大小而定，其計算分派錯誤率的方法有兩種。第一種自原來的樣本資料直接來看：各組判別之中，判別的錯誤比例是多少？另一種則是利用機率函數來做計算。當然，在做第二種方法的時候，要假設X= 的分布為多元常態（multivariate normal）。

判別分析的例子 • 美國某商學院的註冊組（admission office），向來以GPA 及GMAT的分數作為他們審核申請研究所學生的一個指標。今以過去的一份資料來尋找判別的標準，此份資料將申請者分為 A：接受（admit），N：拒絕（not admit）及B：備取（borderline）三種結果。（在此例中，申請者母體資料的分類乃是由該校的註冊組主任，依照他的經驗判斷而來的。另一方面由過去經驗顯示，那些GPA及GMAT分數較高者在研究所的表現也較好，而在此兩變項的閱讀能力較低者，通常在學習上也較困難。） • 另假設有一個新的申請者，其GPA為3.21，GMAT為497 分，試以相同的事前機率下用此判別標準找出其入學許可之審核結果應當為哪一類。這是一個典型的判別分析問題：我們有三組數據（m=3的情形），而每一組的數據都是二維的（p=2的情形）。

判別分析 Discriminant Analysis