第  五  章
Download
1 / 27

第 五 章 - PowerPoint PPT Presentation


  • 113 Views
  • Uploaded on

第 五 章. 區別分析. 報告者:楊淇淯. 5.1.1  區別分析的使用條件. 在迴歸分析中效標變項 (criterion variable) 與預測變項 (predictor variable) 通常都是計量資料,當效標變項為非計量資料,且是多分變項,則使用區別分析。. 5.1.1  區別分析之功用. 功用:解釋與預測。計算 一組 區別變項的線性組合,以對 一個分組變項 重新加以分類,並檢查其再分組的正確性。 Ex. 高中畢業的六科成績 ( 一組區別變項 ) 來預測其大學聯考成績及結果 ( 分組變項:公立、私立、未考取 ) A=F(X1X2X3X4X5X6)

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 第 五 章' - anne-levine


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
第 五 章

區別分析

報告者:楊淇淯


5 1 1
5.1.1 區別分析的使用條件

  • 在迴歸分析中效標變項 (criterion variable) 與預測變項 (predictor variable) 通常都是計量資料,當效標變項為非計量資料,且是多分變項,則使用區別分析。


5 1 11
5.1.1 區別分析之功用

  • 功用:解釋與預測。計算一組區別變項的線性組合,以對一個分組變項重新加以分類,並檢查其再分組的正確性。

  • Ex.高中畢業的六科成績(一組區別變項)來預測其大學聯考成績及結果(分組變項:公立、私立、未考取)

  • A=F(X1X2X3X4X5X6)

    • A=考試結果(公立,私立,未考取三個水準)

    • 為避免函數之預測不致偏向某一組別,觀察體須大致相等,至少要各七個以上(周文賢,2002)。


5 1 12
5.1.1 何以稱為區別?

  • 5.1.1 緒言

從x1軸來看,會發現有些函數在垂直線上是重疊的

圖3-1 區別函數之散布圖


5 1 13
5.1.1 何以稱為區別?

從x2來看,會發現有些函數在水平線上是重疊的

圖3-1 區別函數之散布圖


周文賢(2002)。多變量統計分析—SAS/STAT使用方法。台北:智勝文化。


5 1 14
5.1.1 區別分析之取向

  • 取向:

  • 描述取向

    • ŷ=b0+b1x1+b2x2+b3x3+…

    • D(區別分數)= c+u1x1+u2x2+u3x3+…

    • s(結構係數):計算單一預測變項與區別變項的相關係數

迴歸係數

  • yni=a1xn1i+a2xn2i+…+akxnki

  • (費雪法之區別函數)

  • yni區別分數,ak第k個解釋變數之區別函數,xnki第i組第n個觀察體在第k個分析性解釋變數上之數值

區別函數係數(u、u*)


  • 預測取向

  • 先求得區別函數,計算其對現有觀察體分類的正確性(內在效度)

  • 將一群觀察體的數值投入,並依據已有的區別函數進行分類(如分為考取公立、私立及未考取)

  • 等事件發生時,再驗證分類的正確性(外在效度)

  • Ex.大學聯考的落點分析


5 1 2
5.1.2 原始區別函數係數

  • 在進行區別分析之前,要像多變量變異數分析 (MANOVA) 一樣,先用分組變項的各組別,求出組間的SSCP矩陣 (以B表示) 、聯合組內SSCP矩陣 (以W表示) 及全體SSCP (以T表示)


5 1 21
5.1.2 原始區別函數係數

  • 目的為求得直線轉換的區別分數(D=Xu+c),組間的差異希望達到最大(D之間兩兩相關為0),所以 的值達到最大。


5 1 3 4
5.1.3~4標準化區別函數係數與結構係數

  • 標準化區別函數係數

    • 為了能夠代表各變項之相對重要性,所以要轉換為標準化區別函數係數

    • (公式5-7)

  • 結構係數

    • s=Rwu* (公式5-9)

沒有c此常數項


5 1 5
5.1.5 標準化區別函數係數與結構係數孰重

  • 標準化區別函數係數考慮預測變項對區別函數的整體貢獻。

    • 某個預測變項的標準化係數,是排除其它變項後,與區別函數的部分相關

    • D= u1*x1+u2*x2+u3*x3+…

u1*是X1排除掉x2、x3,與區別函數的部分相關


  • 結構係數則是個別預測變項和區別函數的簡單相關。

    • s=Rwu*

  • 當所有的預測變項之間的相關為0時,則s=u*,若差異過大或方向不同,表示有多元共線性的問題

  • 解釋區別函數時,應以結構係數為主,因為比較穩定。


5 1 7
5.1.7 統計顯著性考驗

  • 在考驗顯著性方面,可以使用Wilks  (或稱U統計) 來進行,其公式為:

    (公式5-11)

  • 在不剔除任何特徵值,此公式可考驗整體和第一區別函數的顯著性;剔掉最大的特徵值之影響,可考驗第二及其以後的特徵值是否顯著;依此類推。


5 1 8
5.1.8 分類的方法

  • 區別分析常用的分類方法有四種 :

    • 截斷值(cutoff-value)

    • 線性分類函數法(linearclassification function)

    • 距離函數法(distance function)

    • 最大可能性是(maximum likelihood)或機率法(probability)


5 1 8 1 cutoff value

1組

第2組

5.1.8.1 截斷值 (cutoff-value) 法

  • 此法是根據區別分數計算一個截斷值,如果某個觀察體的分數大於這個截斷值,就歸為一類;如果小於這個截斷值,則歸為另一類。

觀察體實際在第二組,卻被歸到第一組。意指被分類錯誤的觀察體。是要付出代價的。尤其在醫學上非常嚴重。

觀察體實際在第一組,卻被歸到第二組。意指被分類錯誤的觀察體。

截斷值


5 1 8 2
5.1.8.2 線性分類函數法 

  • 這類技術是將觀察體依線性組合後的函數分數,將其分類到分數最高的一組。這種方法最先由Fisher建議使用,因此一般稱為Fisher分類函數 (Fisher classification function)。

  • 公式5-15,見p175


5 1 8 3
5.1.8.3 距離函數法

  • 分別計算個別觀察體到每一組形心的距離函數 (通常使用Mahalanobis距離),然後將其分類到與某一個形心距離最小的組別。Mahalanobis距離的公式為:


5 1 8 4
5.1.8.4 最大可能性或機率法

  • 這類技術是根據事前機率及Mahalanobis距離,計算個別觀察體歸屬於某一組的事後機率,將其分類到機率最高的一組。

  • 事前機率:分類前觀察體落入各組的機率。例如研究者事先不知道大學的錄取率,則上榜與落榜的事前機率應皆為50%,但是極不準確。

  • 一般建議將各組的事前機率設為相等。


5 1 9
5.1.9 分類的有效性(內在效度)

  • 區別分析是否有助於對觀察體的正確分類,其內在效度可由兩種方式來分析:

    • 統計的顯著性

    • 實質的顯著性


5 1 9 1
5.1.9.1 統計顯著性

  • Press’s Q = ~

    N:總人數;k:組數;

    o:正確分類的觀察體 (公式5-18)

  • 因其自由度為1的χ2分配,其值只要大於3.84(α=.05),就表示分析結果不是隨便猜測

14.70 >3.84,達.05顯著,表示區別分析結果和隨便猜測的不同


5 1 9 2
5.1.9.2 實質顯著性

  • 推算τ值,以代表其減少的錯誤

  • ni:第i組的觀察體數 (公式5-21)

事前機率為1/組數→1/3

正確率為12/15*100%=80%


5 1 9 21
5.1.9.2 實質顯著性

  • 有學者主張正確分類率應大於1.25倍的Cpro才有意義

80%>42.75%,

表示區別分析之結果非憑空臆測。


5 1 10
5.1.10 交叉驗證(外在效度)

換句話說,如果有7個觀察體,就要比較7次的實際組別及預測組別,並求出每次分類的正確率有多少

  • 由於區別分析應用到不同的樣本時,可能會有縮水的現象,區別分析也可做交叉證驗 (cross validation) 的分析。

  • 一般最常用的交叉分析稱為Jackknife法。

    • 先排除第一個觀察體,用其它的n-1個觀察體進行區別分析,得到第一次的區別函數;

    • 用第一次的區別函數將第一個觀察體加以分類(即預測組別)

    • 排除第二個觀察體,重複步驟1、2,直到完成所有n個觀察體

    • 比較每個觀察體的實際組別與預測組別,便可計算分類正確率


5 1 11 7
5.1.11 區別分析的7個基本假設

  • 分組變項有兩個或兩個以上的水準 (組別)。

  • 每個組至少有兩個觀察體。

  • 預測變項數目應少於總觀察體數減2。

  • 預測變項為等距或比率變項 (計量資料)。

  • 任何預測變項都不是其它預測變項的線性組合(也就是避免線性相依)。

  • 組內SSCP應大致相等,避免影響估計及結果

  • 每一組都是從多變量常態分配的母體中抽選出來的。


5 1 131
5.1.13區別分析與迴歸分析相似之處

  • 區別分析也與迴歸分析一樣,可以

    • 強迫將所有預測變項均投入分析,

    • 採用逐步分析的方式,僅選擇較重要的變項。

  • 此外,迴歸分析會面臨的多元共線性問題,區別分析也會碰到。

  • 非計量的預測變項,在迴歸分析中可化為虛擬變項,在區別分析中亦可用同樣的方式處理。


參考資料

  • 陳正昌、程炳林、陳新豐、劉子鍵(2009)。多變量分析方法—統計軟體應用。台北:五南。

  • 周文賢(2002)。多變量統計分析—SAS/STAT使用方法。台北:智勝文化。

  • 感謝青霏借我引用兩張圖


ad