270 likes | 464 Views
第 五 章. 區別分析. 報告者:楊淇淯. 5.1.1 區別分析的使用條件. 在迴歸分析中效標變項 (criterion variable) 與預測變項 (predictor variable) 通常都是計量資料,當效標變項為非計量資料,且是多分變項,則使用區別分析。. 5.1.1 區別分析之功用. 功用:解釋與預測。計算 一組 區別變項的線性組合,以對 一個分組變項 重新加以分類,並檢查其再分組的正確性。 Ex. 高中畢業的六科成績 ( 一組區別變項 ) 來預測其大學聯考成績及結果 ( 分組變項:公立、私立、未考取 ) A=F(X1X2X3X4X5X6)
E N D
第 五 章 區別分析 報告者:楊淇淯
5.1.1 區別分析的使用條件 • 在迴歸分析中效標變項 (criterion variable) 與預測變項 (predictor variable) 通常都是計量資料,當效標變項為非計量資料,且是多分變項,則使用區別分析。
5.1.1 區別分析之功用 • 功用:解釋與預測。計算一組區別變項的線性組合,以對一個分組變項重新加以分類,並檢查其再分組的正確性。 • Ex.高中畢業的六科成績(一組區別變項)來預測其大學聯考成績及結果(分組變項:公立、私立、未考取) • A=F(X1X2X3X4X5X6) • A=考試結果(公立,私立,未考取三個水準) • 為避免函數之預測不致偏向某一組別,觀察體須大致相等,至少要各七個以上(周文賢,2002)。
5.1.1 何以稱為區別? • 5.1.1 緒言 從x1軸來看,會發現有些函數在垂直線上是重疊的 圖3-1 區別函數之散布圖
5.1.1 何以稱為區別? 從x2來看,會發現有些函數在水平線上是重疊的 圖3-1 區別函數之散布圖
周文賢(2002)。多變量統計分析—SAS/STAT使用方法。台北:智勝文化。周文賢(2002)。多變量統計分析—SAS/STAT使用方法。台北:智勝文化。
5.1.1 區別分析之取向 • 取向: • 描述取向 • ŷ=b0+b1x1+b2x2+b3x3+… • D(區別分數)= c+u1x1+u2x2+u3x3+… • s(結構係數):計算單一預測變項與區別變項的相關係數 迴歸係數 • yni=a1xn1i+a2xn2i+…+akxnki • (費雪法之區別函數) • yni區別分數,ak第k個解釋變數之區別函數,xnki第i組第n個觀察體在第k個分析性解釋變數上之數值 區別函數係數(u、u*)
預測取向 • 先求得區別函數,計算其對現有觀察體分類的正確性(內在效度) • 將一群觀察體的數值投入,並依據已有的區別函數進行分類(如分為考取公立、私立及未考取) • 等事件發生時,再驗證分類的正確性(外在效度) • Ex.大學聯考的落點分析
5.1.2 原始區別函數係數 • 在進行區別分析之前,要像多變量變異數分析 (MANOVA) 一樣,先用分組變項的各組別,求出組間的SSCP矩陣 (以B表示) 、聯合組內SSCP矩陣 (以W表示) 及全體SSCP (以T表示)
5.1.2 原始區別函數係數 • 目的為求得直線轉換的區別分數(D=Xu+c),組間的差異希望達到最大(D之間兩兩相關為0),所以 的值達到最大。
5.1.3~4標準化區別函數係數與結構係數 • 標準化區別函數係數 • 為了能夠代表各變項之相對重要性,所以要轉換為標準化區別函數係數 • (公式5-7) • 結構係數 • s=Rwu* (公式5-9) 沒有c此常數項
5.1.5 標準化區別函數係數與結構係數孰重 • 標準化區別函數係數考慮預測變項對區別函數的整體貢獻。 • 某個預測變項的標準化係數,是排除其它變項後,與區別函數的部分相關 • D= u1*x1+u2*x2+u3*x3+… u1*是X1排除掉x2、x3,與區別函數的部分相關
結構係數則是個別預測變項和區別函數的簡單相關。結構係數則是個別預測變項和區別函數的簡單相關。 • s=Rwu* • 當所有的預測變項之間的相關為0時,則s=u*,若差異過大或方向不同,表示有多元共線性的問題 • 解釋區別函數時,應以結構係數為主,因為比較穩定。
5.1.7 統計顯著性考驗 • 在考驗顯著性方面,可以使用Wilks (或稱U統計) 來進行,其公式為: (公式5-11) • 在不剔除任何特徵值,此公式可考驗整體和第一區別函數的顯著性;剔掉最大的特徵值之影響,可考驗第二及其以後的特徵值是否顯著;依此類推。
5.1.8 分類的方法 • 區別分析常用的分類方法有四種 : • 截斷值(cutoff-value) • 線性分類函數法(linearclassification function) • 距離函數法(distance function) • 最大可能性是(maximum likelihood)或機率法(probability)
第1組 第2組 5.1.8.1 截斷值 (cutoff-value) 法 • 此法是根據區別分數計算一個截斷值,如果某個觀察體的分數大於這個截斷值,就歸為一類;如果小於這個截斷值,則歸為另一類。 觀察體實際在第二組,卻被歸到第一組。意指被分類錯誤的觀察體。是要付出代價的。尤其在醫學上非常嚴重。 觀察體實際在第一組,卻被歸到第二組。意指被分類錯誤的觀察體。 截斷值
5.1.8.2 線性分類函數法 • 這類技術是將觀察體依線性組合後的函數分數,將其分類到分數最高的一組。這種方法最先由Fisher建議使用,因此一般稱為Fisher分類函數 (Fisher classification function)。 • 公式5-15,見p175
5.1.8.3 距離函數法 • 分別計算個別觀察體到每一組形心的距離函數 (通常使用Mahalanobis距離),然後將其分類到與某一個形心距離最小的組別。Mahalanobis距離的公式為:
5.1.8.4 最大可能性或機率法 • 這類技術是根據事前機率及Mahalanobis距離,計算個別觀察體歸屬於某一組的事後機率,將其分類到機率最高的一組。 • 事前機率:分類前觀察體落入各組的機率。例如研究者事先不知道大學的錄取率,則上榜與落榜的事前機率應皆為50%,但是極不準確。 • 一般建議將各組的事前機率設為相等。
5.1.9 分類的有效性(內在效度) • 區別分析是否有助於對觀察體的正確分類,其內在效度可由兩種方式來分析: • 統計的顯著性 • 實質的顯著性
5.1.9.1 統計顯著性 • Press’s Q = ~ N:總人數;k:組數; o:正確分類的觀察體 (公式5-18) • 因其自由度為1的χ2分配,其值只要大於3.84(α=.05),就表示分析結果不是隨便猜測 14.70 >3.84,達.05顯著,表示區別分析結果和隨便猜測的不同
5.1.9.2 實質顯著性 • 推算τ值,以代表其減少的錯誤 • ni:第i組的觀察體數 (公式5-21) 事前機率為1/組數→1/3 正確率為12/15*100%=80%
5.1.9.2 實質顯著性 • 有學者主張正確分類率應大於1.25倍的Cpro才有意義 80%>42.75%, 表示區別分析之結果非憑空臆測。
5.1.10 交叉驗證(外在效度) 換句話說,如果有7個觀察體,就要比較7次的實際組別及預測組別,並求出每次分類的正確率有多少 • 由於區別分析應用到不同的樣本時,可能會有縮水的現象,區別分析也可做交叉證驗 (cross validation) 的分析。 • 一般最常用的交叉分析稱為Jackknife法。 • 先排除第一個觀察體,用其它的n-1個觀察體進行區別分析,得到第一次的區別函數; • 用第一次的區別函數將第一個觀察體加以分類(即預測組別) • 排除第二個觀察體,重複步驟1、2,直到完成所有n個觀察體 • 比較每個觀察體的實際組別與預測組別,便可計算分類正確率
5.1.11 區別分析的7個基本假設 • 分組變項有兩個或兩個以上的水準 (組別)。 • 每個組至少有兩個觀察體。 • 預測變項數目應少於總觀察體數減2。 • 預測變項為等距或比率變項 (計量資料)。 • 任何預測變項都不是其它預測變項的線性組合(也就是避免線性相依)。 • 組內SSCP應大致相等,避免影響估計及結果 • 每一組都是從多變量常態分配的母體中抽選出來的。
5.1.13區別分析與迴歸分析相似之處 • 區別分析也與迴歸分析一樣,可以 • 強迫將所有預測變項均投入分析, • 採用逐步分析的方式,僅選擇較重要的變項。 • 此外,迴歸分析會面臨的多元共線性問題,區別分析也會碰到。 • 非計量的預測變項,在迴歸分析中可化為虛擬變項,在區別分析中亦可用同樣的方式處理。
參考資料 • 陳正昌、程炳林、陳新豐、劉子鍵(2009)。多變量分析方法—統計軟體應用。台北:五南。 • 周文賢(2002)。多變量統計分析—SAS/STAT使用方法。台北:智勝文化。 • 感謝青霏借我引用兩張圖