1 / 27

第 五 章

第 五 章. 區別分析. 報告者:楊淇淯. 5.1.1  區別分析的使用條件. 在迴歸分析中效標變項 (criterion variable) 與預測變項 (predictor variable) 通常都是計量資料,當效標變項為非計量資料,且是多分變項,則使用區別分析。. 5.1.1  區別分析之功用. 功用:解釋與預測。計算 一組 區別變項的線性組合,以對 一個分組變項 重新加以分類,並檢查其再分組的正確性。 Ex. 高中畢業的六科成績 ( 一組區別變項 ) 來預測其大學聯考成績及結果 ( 分組變項:公立、私立、未考取 ) A=F(X1X2X3X4X5X6)

anne-levine
Download Presentation

第 五 章

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第 五 章 區別分析 報告者:楊淇淯

  2. 5.1.1 區別分析的使用條件 • 在迴歸分析中效標變項 (criterion variable) 與預測變項 (predictor variable) 通常都是計量資料,當效標變項為非計量資料,且是多分變項,則使用區別分析。

  3. 5.1.1 區別分析之功用 • 功用:解釋與預測。計算一組區別變項的線性組合,以對一個分組變項重新加以分類,並檢查其再分組的正確性。 • Ex.高中畢業的六科成績(一組區別變項)來預測其大學聯考成績及結果(分組變項:公立、私立、未考取) • A=F(X1X2X3X4X5X6) • A=考試結果(公立,私立,未考取三個水準) • 為避免函數之預測不致偏向某一組別,觀察體須大致相等,至少要各七個以上(周文賢,2002)。

  4. 5.1.1 何以稱為區別? • 5.1.1 緒言 從x1軸來看,會發現有些函數在垂直線上是重疊的 圖3-1 區別函數之散布圖

  5. 5.1.1 何以稱為區別? 從x2來看,會發現有些函數在水平線上是重疊的 圖3-1 區別函數之散布圖

  6. 周文賢(2002)。多變量統計分析—SAS/STAT使用方法。台北:智勝文化。周文賢(2002)。多變量統計分析—SAS/STAT使用方法。台北:智勝文化。

  7. 5.1.1 區別分析之取向 • 取向: • 描述取向 • ŷ=b0+b1x1+b2x2+b3x3+… • D(區別分數)= c+u1x1+u2x2+u3x3+… • s(結構係數):計算單一預測變項與區別變項的相關係數 迴歸係數 • yni=a1xn1i+a2xn2i+…+akxnki • (費雪法之區別函數) • yni區別分數,ak第k個解釋變數之區別函數,xnki第i組第n個觀察體在第k個分析性解釋變數上之數值 區別函數係數(u、u*)

  8. 預測取向 • 先求得區別函數,計算其對現有觀察體分類的正確性(內在效度) • 將一群觀察體的數值投入,並依據已有的區別函數進行分類(如分為考取公立、私立及未考取) • 等事件發生時,再驗證分類的正確性(外在效度) • Ex.大學聯考的落點分析

  9. 5.1.2 原始區別函數係數 • 在進行區別分析之前,要像多變量變異數分析 (MANOVA) 一樣,先用分組變項的各組別,求出組間的SSCP矩陣 (以B表示) 、聯合組內SSCP矩陣 (以W表示) 及全體SSCP (以T表示)

  10. 5.1.2 原始區別函數係數 • 目的為求得直線轉換的區別分數(D=Xu+c),組間的差異希望達到最大(D之間兩兩相關為0),所以 的值達到最大。

  11. 5.1.3~4標準化區別函數係數與結構係數 • 標準化區別函數係數 • 為了能夠代表各變項之相對重要性,所以要轉換為標準化區別函數係數 • (公式5-7) • 結構係數 • s=Rwu* (公式5-9) 沒有c此常數項

  12. 5.1.5 標準化區別函數係數與結構係數孰重 • 標準化區別函數係數考慮預測變項對區別函數的整體貢獻。 • 某個預測變項的標準化係數,是排除其它變項後,與區別函數的部分相關 • D= u1*x1+u2*x2+u3*x3+… u1*是X1排除掉x2、x3,與區別函數的部分相關

  13. 結構係數則是個別預測變項和區別函數的簡單相關。結構係數則是個別預測變項和區別函數的簡單相關。 • s=Rwu* • 當所有的預測變項之間的相關為0時,則s=u*,若差異過大或方向不同,表示有多元共線性的問題 • 解釋區別函數時,應以結構係數為主,因為比較穩定。

  14. 5.1.7 統計顯著性考驗 • 在考驗顯著性方面,可以使用Wilks  (或稱U統計) 來進行,其公式為: (公式5-11) • 在不剔除任何特徵值,此公式可考驗整體和第一區別函數的顯著性;剔掉最大的特徵值之影響,可考驗第二及其以後的特徵值是否顯著;依此類推。

  15. 5.1.8 分類的方法 • 區別分析常用的分類方法有四種 : • 截斷值(cutoff-value) • 線性分類函數法(linearclassification function) • 距離函數法(distance function) • 最大可能性是(maximum likelihood)或機率法(probability)

  16. 第1組 第2組 5.1.8.1 截斷值 (cutoff-value) 法 • 此法是根據區別分數計算一個截斷值,如果某個觀察體的分數大於這個截斷值,就歸為一類;如果小於這個截斷值,則歸為另一類。 觀察體實際在第二組,卻被歸到第一組。意指被分類錯誤的觀察體。是要付出代價的。尤其在醫學上非常嚴重。 觀察體實際在第一組,卻被歸到第二組。意指被分類錯誤的觀察體。 截斷值

  17. 5.1.8.2 線性分類函數法  • 這類技術是將觀察體依線性組合後的函數分數,將其分類到分數最高的一組。這種方法最先由Fisher建議使用,因此一般稱為Fisher分類函數 (Fisher classification function)。 • 公式5-15,見p175

  18. 5.1.8.3 距離函數法 • 分別計算個別觀察體到每一組形心的距離函數 (通常使用Mahalanobis距離),然後將其分類到與某一個形心距離最小的組別。Mahalanobis距離的公式為:

  19. 5.1.8.4 最大可能性或機率法 • 這類技術是根據事前機率及Mahalanobis距離,計算個別觀察體歸屬於某一組的事後機率,將其分類到機率最高的一組。 • 事前機率:分類前觀察體落入各組的機率。例如研究者事先不知道大學的錄取率,則上榜與落榜的事前機率應皆為50%,但是極不準確。 • 一般建議將各組的事前機率設為相等。

  20. 5.1.9 分類的有效性(內在效度) • 區別分析是否有助於對觀察體的正確分類,其內在效度可由兩種方式來分析: • 統計的顯著性 • 實質的顯著性

  21. 5.1.9.1 統計顯著性 • Press’s Q = ~ N:總人數;k:組數; o:正確分類的觀察體 (公式5-18) • 因其自由度為1的χ2分配,其值只要大於3.84(α=.05),就表示分析結果不是隨便猜測 14.70 >3.84,達.05顯著,表示區別分析結果和隨便猜測的不同

  22. 5.1.9.2 實質顯著性 • 推算τ值,以代表其減少的錯誤 • ni:第i組的觀察體數 (公式5-21) 事前機率為1/組數→1/3 正確率為12/15*100%=80%

  23. 5.1.9.2 實質顯著性 • 有學者主張正確分類率應大於1.25倍的Cpro才有意義 80%>42.75%, 表示區別分析之結果非憑空臆測。

  24. 5.1.10 交叉驗證(外在效度) 換句話說,如果有7個觀察體,就要比較7次的實際組別及預測組別,並求出每次分類的正確率有多少 • 由於區別分析應用到不同的樣本時,可能會有縮水的現象,區別分析也可做交叉證驗 (cross validation) 的分析。 • 一般最常用的交叉分析稱為Jackknife法。 • 先排除第一個觀察體,用其它的n-1個觀察體進行區別分析,得到第一次的區別函數; • 用第一次的區別函數將第一個觀察體加以分類(即預測組別) • 排除第二個觀察體,重複步驟1、2,直到完成所有n個觀察體 • 比較每個觀察體的實際組別與預測組別,便可計算分類正確率

  25. 5.1.11 區別分析的7個基本假設 • 分組變項有兩個或兩個以上的水準 (組別)。 • 每個組至少有兩個觀察體。 • 預測變項數目應少於總觀察體數減2。 • 預測變項為等距或比率變項 (計量資料)。 • 任何預測變項都不是其它預測變項的線性組合(也就是避免線性相依)。 • 組內SSCP應大致相等,避免影響估計及結果 • 每一組都是從多變量常態分配的母體中抽選出來的。

  26. 5.1.13區別分析與迴歸分析相似之處 • 區別分析也與迴歸分析一樣,可以 • 強迫將所有預測變項均投入分析, • 採用逐步分析的方式,僅選擇較重要的變項。 • 此外,迴歸分析會面臨的多元共線性問題,區別分析也會碰到。 • 非計量的預測變項,在迴歸分析中可化為虛擬變項,在區別分析中亦可用同樣的方式處理。

  27. 參考資料 • 陳正昌、程炳林、陳新豐、劉子鍵(2009)。多變量分析方法—統計軟體應用。台北:五南。 • 周文賢(2002)。多變量統計分析—SAS/STAT使用方法。台北:智勝文化。 • 感謝青霏借我引用兩張圖

More Related