迴歸分析

迴歸分析 • 8.1 迴歸分析之分類 • 8.2 迴歸基本原理 • 8.3 迴歸模型之檢驗 • 8.4 分析範例

8.1 迴歸分析之分類 1/2 • 迴歸分析依不同的重點分類，可分為以下幾類： • 依自變數個數區分 • 單變數迴歸（簡單迴歸）：討論單一自變數對依變數的影響。例如： • 複迴歸：討論二個以上的自變數對依變數的影響。例如： • 依線性性質區分 • 線性迴歸：自變數與依變數間具直線特性。例如：

8.1 迴歸分析之分類 2/2 • 非線性迴歸：自變數與依變數間具非線性特性，例如： • 依方程式個數區分 • 單一迴歸式：討論一個依變數受自變數的影響，例如： • 聯立迴歸式：討論二個以上依變數受自變數的影響，例如：

8.2 迴歸基本原理 1/5 • 單變數迴歸模型下圖為（1.1銀行客戶.sav）中，客戶的「所得」與「存款」所繪出的散布圖。

8.2 迴歸基本原理 2/5 • 我們可以假設存款＝β0＋ β1所得或 • 假設每一個yi彼此間獨立，不會相互影響，也就是沒有自我相關(autocorrelation)，且所有的變異數都相等，也是，則稱之為同質性(homoscedasticity)。

8.2 迴歸基本原理 3/5 • 　須滿足以下的基本假設： • i與j間互為獨立(independent)， corr(i,j)＝0 （如果corr(i, j)＞0，則有自我相關）。 • i來自一個平均值為0，變異數為σ2的常態分配。 • 假設bo、b1為o、1之估計值，則樣本之線性迴歸方程式可寫成 • 為依變數 y之樣本估計值(fitted value)。

8.2 迴歸基本原理 4/5 • 稱為殘差(residual)（見下圖）。 • 殘差ei 必須滿足以下的假設： • ei與ej間互為獨立，corr(ei, ej)＝0。 • ei來自一個平均值為0，變異數為的常態分配。

8.2 迴歸基本原理 5/5 • 複迴歸模型 • 其中o、1…k稱為偏迴歸係數(partial regression coefficient)，而b0、b1…bk則是他們的估計值。有以下幾項假設： • 所有自變數x間相互獨立,即沒有線性重合(multicollinearity)問題。 • 殘差項需滿足殘差共變數為0，，Cov(i, j)=0，亦無序列相關。 • 樣本數目需大於自變數個數，N > K + 2。

8.3 迴歸模型之檢驗 1/2 • 模型選擇 • 配適度檢測 • R2值：代表變數y的變異性中，由變數x所解釋的百分比。adjR2值(adjusted R2)與R2不同的是，如果新加入的自變數x並沒有提高原迴歸模型的解釋能力，adj-R2值會下降。 • ANOVA的F值檢定：用來檢定是否全部的自變數顯著影響依變數。

8.3 迴歸模型之檢驗 2/2 • 變數關係判定 • 其檢定的假設為H1：bi ≠0；如果顯著，則表示該變數x具有解釋y的能力。如果某些x是相關的，則稱有共線性(multicollinearity)，可以用每一個x的VIF(variance inflation factor)來檢驗。如果VIF≥10則有共線性的問題。 • 殘差分析 • 殘差應為常態分配。以P−P plot或Q−Q plot檢查是否為常態分配。

8.4 分析範例 1/19 • 單變數迴歸 • 複迴歸 • 當自變數已確定 • 當自變數未定時，選擇適用的自變數 • 虛擬變數的運用 • 干擾效果 • 中介效果

8.4 分析範例 2/19 • 單變數迴歸 • 範例一若想從所得與貸款中擇一變數，用以解釋預測銀行客戶之存款，則應如何進行分析及解釋客戶之存款行為？

8.4 分析範例 3/19 • 1.模型選擇由相關係數可知所得與存款較為密切，而由散布圖大致可判斷兩者為線性關係。

8.4 分析範例 4/19 • 2.模型配適 • 點選Analyze/Regression/Linear/Dependent • 程式操作 • 3.配適度檢測

範例一—程式操作

8.4 分析範例 5/19 • 4.迴歸係數之 t 檢定

8.4 分析範例 6/19 • 5.殘差分析 • 散布圖中，無特殊模式。 • 如果殘差為常態分配，常態圖中應為一45度之直線。

8.4 分析範例 7/19 • 6.分析解釋與應用由推估之結果，存款與所得間之關係可呈現如下，存款(y) = 78.007 + 1.639 所得(x) • 結論：當所得每增加1,000元，存款將增加1,639元。

8.4 分析範例 8/19 • 當自變數已確定請以所得與年齡，說明銀行客戶之存款行為。 • 1.模型選擇一般而言，經常假設自變數與依變數間呈線性關係。 • 2.模型配適：以最小平方法推估參數值。 • 點選Analyze/Regression/Linear/Dependent • 程式操作

範例二—程式操作

8.4 分析範例 9/19 • 3.配適度檢測 • 判定係數(R2)：由Adjusted R Square=0.911，可知所得、年齡與存款間存在線性關係，所推估之迴歸方程式具不錯的解釋能力。 • F檢定：由推估結果的ANOVA表得知Sig. = 0.000 ＜ 0.05，顯示所選的自變數（所得、年齡）至少有一顯著影響依變數（存款）。

8.4 分析範例 10/19 • 4.迴歸係數之 t 檢定 • 由推估結果的係數表得知，所得與年齡之Sig. = 0.000，顯示所得與年齡皆顯著影響存款。 • 共線性檢測 • 在上表的最後，可以看到用來檢驗是否有共線性的VIF值。VIF若小於10，即屬可接受範圍。檢測結果VIF = 1.001，顯示「所得」與「年齡」無共線性。

8.4 分析範例 11/19 • 5.殘差分析檢測結果D-W = 2.187，顯示無序列相關的問題。 • 殘差圖及常態P-P圖如下：圖中看不出明顯的異質性或自我相關的問題，且殘差為常態分配。

8.4 分析範例 12/19 • 6.分析解釋與應用由推估之結果，存款與所得及年齡間之關係可呈現如下：存款(y) = 47.322 + 1.635所得(x1) + 0.829年齡(x2) 當客戶的所得每增加1,000元，存款將增加1,635元；年齡增加1歲，存款將增加829元。

8.4 分析範例 13/19 • 當自變數未定時，選擇適用的自變數 • 強迫進入法 • 逐步選取法： • 順向選擇法(forward) • 反向淘汰法(backward) • 逐步迴歸法(stepwise) • 範例四

範例四 • 依據性別、年齡、所得、貸款，建立適當的客戶存款之預測式。 • 1.點選Analyze/Regression/Linear/Dependent；Method下拉選「Stepwise」 • 2.程式操作 • 3.分析結果

範例四—程式操作

範例四―分析結果1 • 由Adjusted R Square、VIF及參數之 t 值顯著性等綜合考量，以模式3之推估結果最為適當。存款與自變數間之關係可呈現如下：存款(y) = 55.058+1.728所得(x1) + 0.931年齡(x2)−68.270性別(x3)

範例四―分析結果2 當所得每增加1,000元，存款平均增加1,728元；年齡每增加1歲，存款平均增加931元；男性(x3=1)較女性(x3=0) 平均存款少68,270元。

8.4 分析範例 14/19 • 虛擬變數(dummy variables)的運用當自變數為質化的資料型態時，可以虛擬變數來處理質化變數，亦即需將質化變數加以轉換。轉換原則為：若某一質化變數有k個分類，則設立k-1個虛擬變數。 • 範例五

範例五 針對學生成績資料檔，將必要的變數轉換成dummy variables，建立一迴歸模型來描述「數學成績」(Y)。請考慮自變數(X)：科系、性別、居住區域及入學方式。 • 科系分五系，所以設定四個虛擬變數（以電子系為比較基準）；性別分兩類，所以設定一個虛擬變數；居住區域分五區，所以設定四個虛擬變數（以北部為比較基準）；入學方式分三類，所以設定二個虛擬變數（比較基準為第一種升學方式，也就是學測）。因此，數學成績之迴歸方程式設定如下：分析結果

範例五―分析結果 • 迴歸模型為 • 解釋為數學能力分數的總平均為66.293；來自東部的學生比北部學生平均高7.437分；推薦甄試入學的學生比學測入學的學生平均數學成績多8.708分。 • 與電子系學生相比，企管系學生平均低8.088分，外文系低16.304分，法律系低19.201分。

8.4 分析範例 15/19 • 干擾效果對於自變數與依變數間之關係，具有調節或控制作用的變數，即稱為干擾變數或控制變數。 • 範例七

（8.1） 範例七某公司女性員工聲稱，該公司在薪資方面性別歧視，於是蒐集有關薪資、工作經驗（以「先前年資」表示之）與性別等資料（資料檔：bank-reg1.sav）。請就所蒐集之資料，以迴歸分析法說明該公司是否存在薪資性別歧視？ • 「性別」、「先前年資」與「薪資」三者間的關係如圖8-1所示。

範例七 • 模式之意義 • 男性員工之薪資方程式：　　　　 • 女性員工之薪資方程式：　　　　 • 程式操作 • 建立「先前年資」與「female」之交互變數，亦即「先前年資×female」（可利用Transform/Compute/之功能建立此交互變數）。 • 執行Analyze/Regression/Linear/Dependent：拉進「薪資」; Independent(s)拉進「先前年資」、「female」、「先前年資×female 」。 • 模式之結果與意義 (8.2) (8.3)

範例七—程式操作

範例七―分析結果1 • 迴歸方程式如下：

範例七―分析結果2 • 女性員工與男性員工起薪之差異並不顯著（α1之顯著值大於0.05）；而女性員工之先前年資加薪幅度則顯著低於男性員工之先前年資加薪幅度（β1= −1.059，且顯著值小於0.05）。此結果說明，性別並非扮演自變數的角色，而是在薪資與先前年資間產生調節作用，是為干擾變數。 (8.5) (8.6)

8.4 分析範例 16/19 • 中介效果 • 介在純粹外生變數與依變數間，扮演著轉換角色的變數，稱之為「中介變數」。 • 例如： • 「所得」、「坪數」與「房價」間三者的關係，消費者的所得愈高，愈可能買高房價的房子。除此之外，坪數愈大房價當然愈高；而所得高者通常會想購買大坪數的房子。

8.4 分析範例 17/19 • 假設三者間呈線性關係，則整體行為模式可表示如下： • 兩步驟最小平方法之步驟：第一步先以最小平方法校估(8.7)式，並獲得「坪數」配適值(fitted value)(Ŷ1)；第二步則以「坪數」配適值(Ŷ1)取代(8.8)式中的坪數(Y1)，然後再以最小平方法校估(8.8)式。 • 兩階段最小平方法之步驟：第一步先以最小平方法推估(8.7)式（此時「所得」即為工具變數，除「所得」之外還可以放入更多的工具變數），第二步再以(8.7)式所獲得之「坪數」配適值(Ŷ1)取代(8.8)式中之坪數(Y1)，然後再以最小平方法推估(8.8)式。範例八 (8.7) (8.8)

範例八 • 某公司欲了解客戶之「存款」與「貸款」行為，經探討發現「存款」受到「所得」與「年齡」的影響；而「貸款」又受到「存款」與「所得」之影響，各變數間之關係如圖8-4所示。請就所蒐集之資料，推估適當之行為模式並解釋之。 • 線性結構方程式： (8.9) (8.10)

8.4 分析範例 18/19 • 兩步驟最小平方法之步驟 • 以最小平方法執行(8.9)式。 • 再以最小平方法執行(8.10)式，但自變數「存款」改以「PRE_1」代替。 • 程式操作：點選Analyze/Regression/Linear/Dependent。 • 分析結果

最小平方法程式操作

最小平方法分析結果1

最小平方法分析結果2

8.4 分析範例 19/19 • 兩階段最小平方法之步驟 • 以最小平方法推估(8.9)式，此部分之結果與前同。 • 以兩階段最小平方法推估(8.10)式。 • 程式操作：點選Analyze/Regression/2-Stage Least Squares/Dependent。 • 分析結果

兩階段最小平方法程式操作

通常會以路徑分析圖（圖8-5）來表達校估的結果。「所得」與「年齡」正向影響「存款」；「存款」負向影響「貸款」；「所得」對「貸款」的影響可分為兩部分：直接效果為6.58，間接效果為-4.002[1.64×(-2.44)]，所以總效果為2.578。兩階段最小平方法分析結果

迴歸分析

迴歸分析

Presentation Transcript