第十三章線性關係的分析：相關與迴歸

第十三章線性關係的分析：相關與迴歸 Analysis of Linear Relationship: Correlation and Regression 第十三章相關與迴歸

課程目標 • 瞭解線性關係的概念 • 瞭解相關係數的原理 • 瞭解其他類型的相關係數的概念 • 瞭解迴歸分析的原理 • 瞭解迴歸分析的假設 • 熟習相關與迴歸的SPSS統計應用第十三章相關與迴歸

線性關係的分析原理 • 線性關係（linear relationship） • 指兩個變項的關係呈現直線般的共同變化 • 數據的分佈可以被一條最具代表性的直線來表達的關聯情形。 • 該直線之方程式為Y=bx+a，b為斜率（即Δy/Δx，每單位的X變動時，在Y軸上所變動的量） • 線性關係可以散佈圖來表現第一節第十三章相關與迴歸

五種不同的相關情形 • 完全正相關（perfect positive correlation） • 完全負相關（perfect negative correlation） • 正相關（positive correlation） • 負相關（negative correlation） • 零相關（zero correlation）第二節第十三章相關與迴歸

相關分析的圖示 第二節第十三章相關與迴歸

積差相關的假設考驗 • 相關係數是否具有統計上的意義，則必須透過統計考驗(t-test)來判斷 • 從樣本得到的r是否來自於相關為0的母體，即H0:ρXY=（ρ0=0） • 相關係數的t檢定的自由度為N-2，因為兩個變項各取一個自由度進行樣本變異數估計第二節第十三章相關與迴歸

相關係數的特質 • 隨著共變數的大小與正負向，相關係數可以分為正相關(完全正相關)、負相關(完全負相關)、零相關五種情形。 • 相關的大小需經顯著性檢定來證明是否顯著(是否有統計上的意義)。 • 相關係數介於-1至1之間。 • 相關情形的大小非與r係數大小成正比 • 相關並不等於因果 • 相關係數沒有單位, 可以進行跨樣本的比較第二節第十三章相關與迴歸

相關係數的強度大小與意義 第二節第十三章相關與迴歸

點二系列相關係數 • 適用於二分變數的相關係數計算 • rpb的係數數值介於1.0之間，絕對值越大，表示兩個變項的關係越強 • 當rpb係數為正時，表示二分變項數值大者，在連續變項上的得分越高 • 當rpb係數為負時，表示二分變項數值小者，在連續變項上的得分越高 • 當p與q數值為越接近0.5時，rpb的數值才有可能接近1.0 • 二分變項也可以視為一種連續變項，其與其他任何連續變項的相關，即等於Pearson’s r 第三節第十三章相關與迴歸

eta係數 • 適用於一個類別變項與連續變項的相關，可以反應非線性關係的強度 • 原理是計算類別變項的每一個數值（類別）下，連續變項的離散情形佔全體變異量的比例 • 各類別中，在連續變項上的組內離均差平方和，佔總離均差平方和的百分比（以X無法解釋Y的誤差部分），比例越小，表示兩變項的關聯越強 • η係數數值類似積差相關係數，介於0至1之間，取平方後稱為η2，具有削減誤差百分比（PRE）的概念，又稱為相關比（correlation ratio）第三節第十三章相關與迴歸

偏相關與部分相關 • 偏相關（partial correlation）與部分相關（part correlation） • 計算兩個變項的相關係數時，把第三變項的影響加以控制的技術 C C X Y X Y X Y (a) (b) (c) C C X Y X Y (d) (e) 第三節第十三章相關與迴歸

淨相關與部份相關 • 線性關係的統計控制 • 如果兩個連續變項之間的關係，可能受到其他變項的干擾之時，或研究者想要把影響這兩個變項的第三個變項效果排除，可以利用控制的方式，將第三變項的效果進行統計的控制。 • 淨相關 • 在計算兩個連續變項X1與X2的相關之時，將第三變項（X3）與兩個相關變項的相關r13與r23予以排除之後的純淨相關，以r12．3來表示。 • 部份相關 • 計算X1與X2的單純相關，如果在計算排除效果之時，僅處理第三變項與X1與X2當中某一個變項的相關之時，所計算出來的相關係數，稱之為部份相關，或稱為半淨相關（semipartial correlation）第三節第十三章相關與迴歸

均值迴歸（regression toward the mean） • 緣起 • 1855年，英國學者Galton以“Regression toward mediocrity in heredity stature”，分析孩童身高與父母身高之間的關係 • 父母的身高可以預測子女的身高：當父母身高越高或越矮時，子女的身高會較一般孩童高或矮 • 當父母親身高很高或很矮（極端傾向）時，子女的身高會不如父母親身高的極端化，而朝向平均數移動（regression toward mediocrity）第四節第十三章相關與迴歸

迴歸原理 • 迴歸原理 • 將連續變項的線性關係以一最具代表性的直線來表示，建立一個線性方程式Y’=bX+a，b為斜率，a為截距 • 透過此一方程式，代入特定的X值，求得一個Y的預測值。 • 此種以單一獨變項X去預測依變項Y的過程，稱為簡單迴歸（simple regression） • 最小平方法與迴歸方程式 • 配對觀察值（X,Y），將X值代入方程式，得到的數值為對Y變項的預測值，記為Y’ • 差值Y-Y’稱為殘差（residual），表示利用迴歸方程式無法準確預測的誤差 • 最小平方法：求取殘差的平方和最小化的一種估計迴歸線的方法 • 利用此種原理所求得的迴歸方程式，稱為最小平方迴歸線第四節第十三章相關與迴歸

迴歸方程式與未標準化迴歸係數 • 迴歸方程式的斜率與截距第四節第十三章相關與迴歸

標準化迴歸係數（standardized regression coefficient） • 標準化迴歸係數 • 將b值乘以X變項的標準差再除以Y變項的標準差，即可去除單位的影響，得到一個不具特定單位的標準化迴歸係數 • 標準化迴歸係數稱為（Beta）係數。係數是將X與Y變項所有數值轉換成Z分數後，所計算得到的迴歸方程式的斜率 • 係數具有與相關係數相似的性質，數值介於-1至+1之間 • 絕對值越大者，表示預測能力越強，正負向則代表X與Y變項的關係方向第四節第十三章相關與迴歸

迴歸誤差與可解釋變異 • 觀察值Y=bX+a+e • 迴歸方程式為 • 誤差為兩者之差：e=Y-Y’ 第四節第十三章相關與迴歸

迴歸解釋變異量 • 迴歸解釋變異量(R2) • 表示使用X去預測Y時的預測解釋力（獨變項對於依變項的解釋力） • 即Y變項被自變項所削減的誤差百分比第四節第十三章相關與迴歸

調整迴歸解釋變異量 • R2無法反應模型的複雜度（或簡效性） • 簡效性（ parsimony ）問題 • 不斷增加獨變項，R2不會減低（R2為獨變項數目的非遞減函數） • 研究者為了提高模型的解釋力，不斷的投入獨變項，每增加一個獨變項，損失一個自由度，最後模型中無關的獨變項過多，自由度變項，失去了簡效性 • 調整後R2 （adjusted R2） • 為了處罰增加獨變項所損失的簡效性，將自由度的變化作為分子與分母項的除項加以控制，可以反應因為獨變項數目變動的簡效性損失的影響 • 當獨變項數目（p）越多，adjR2越小 • 當樣本數越大，對於簡效性處罰的作用越不明顯第四節第十三章相關與迴歸

迴歸模型的顯著性考驗 • R2的基本原理是變異數，因此對於R2的檢定可利用F考驗來進行第四節第十三章相關與迴歸

估計標準誤 • 預測誤差e是一個呈現常態分配的隨機變數，平均數為0，標準差為se • 估計標準誤的計量性質是標準差，因此可用以反應誤差分配的離散情形 • 標準誤越大，估計誤差越大 • 標準誤越小，估計誤差越小 • 估計標準誤 • 取誤差變異的平方和除以自由度（N-k-1）的開方，亦即F考驗當中的誤差均方（MSe）的開方第四節第十三章相關與迴歸

迴歸模型的參數估計 • 個別的迴歸係數b或可以用以說明預測變項對於依變項的解釋力 • 迴歸係數數值的統計意義需經過假設考驗來檢驗 • R2的顯著性考驗是迴歸分析的整體考驗（overall test） • 迴歸係數的考驗可視為事後考驗（post hoc test） • 迴歸係數的考驗 • H0：=0 • 利用t檢定，自由度為N-p-1：第四節第十三章相關與迴歸

迴歸係數的區間估計 • b係數為未標準化係數，用以反應獨變項對於依變項的影響程度 • b係數可以得知獨變項的變動在依變項的變動情形 • 利用模型的迴歸係數標準誤，b係數的區間估計可用來推估母數出現的範圍 • 利用b係數的95%信心估計區間是否涵蓋0，來檢驗b係數是否顯著不等於0 第四節第十三章相關與迴歸

迴歸分析的基本假設 (一)固定自變項假設（fixed variable） • 特定自變數的特定數值應可以被重複獲得，然後得以此一特定的Xi代入方程式而得到預測值。 (二)線性關係假設（linear relationship） • 當X與Y的關係被納入研究之後，迴歸分析必須建立在變項之間具有線性關係的假設成立上。 (三)常態性假設（normality） • 迴歸分析中的所有觀察值Y是一個常態分配，即Y來自於一個呈常態分配的母群體。因此經由迴歸方程式所分離的誤差項e，即由特定Xi所預測得到的與實際Yi之間的差距，也應呈常態分配。誤差項e的平均數為0。 (四)誤差獨立性假設（independence） • 誤差項除了應呈隨機化的常態分配，不同的X所產生的誤差之間應相互獨立，無相關存在，也就是無自我相關（nonautocorrelation）。 (五)誤差等分散性假設（homoscedasticity）多元共線性假設 • 特定X水準的誤差項，除了應呈隨機化的常態分配，且其變異量應相等，稱為誤差等分散性第四節第十三章相關與迴歸

等分散性假設圖示 第四節第十三章相關與迴歸

Time for rest Chapter 13 is done here.. See you later! 第十三章相關與迴歸

第十三章 線性關係的分析：相關與迴歸