350 likes | 1.09k Views
第十三章 線性關係的分析:相關與迴歸. Analysis of Linear Relationship: Correlation and Regression. 課程目標. 瞭解線性關係的概念 瞭解相關係數的原理 瞭解其他類型的相關係數的概念 瞭解迴歸分析的原理 瞭解迴歸分析的假設 熟習相關與迴歸的 SPSS 統計應用. 線性關係的分析原理. 線性關係( linear relationship ) 指兩個變項的關係呈現直線般的共同變化 數據的分佈可以被一條最具代表性的直線來表達的關聯情形 。
E N D
第十三章線性關係的分析:相關與迴歸 Analysis of Linear Relationship: Correlation and Regression 第十三章 相關與迴歸
課程目標 • 瞭解線性關係的概念 • 瞭解相關係數的原理 • 瞭解其他類型的相關係數的概念 • 瞭解迴歸分析的原理 • 瞭解迴歸分析的假設 • 熟習相關與迴歸的SPSS統計應用 第十三章 相關與迴歸
線性關係的分析原理 • 線性關係(linear relationship) • 指兩個變項的關係呈現直線般的共同變化 • 數據的分佈可以被一條最具代表性的直線來表達的關聯情形 。 • 該直線之方程式為Y=bx+a,b為斜率(即Δy/Δx,每單位的X變動時,在Y軸上所變動的量) • 線性關係可以散佈圖來表現 第一節 第十三章 相關與迴歸
五種不同的相關情形 • 完全正相關(perfect positive correlation) • 完全負相關(perfect negative correlation) • 正相關(positive correlation) • 負相關(negative correlation) • 零相關(zero correlation) 第二節 第十三章 相關與迴歸
相關分析的圖示 第二節 第十三章 相關與迴歸
積差相關的假設考驗 • 相關係數是否具有統計上的意義,則必須透過統計考驗(t-test)來判斷 • 從樣本得到的r是否來自於相關為0的母體,即H0:ρXY=(ρ0=0) • 相關係數的t檢定的自由度為N-2,因為兩個變項各取一個自由度進行樣本變異數估計 第二節 第十三章 相關與迴歸
相關係數的特質 • 隨著共變數的大小與正負向,相關係數可以分為正相關(完全正相關)、負相關(完全負相關)、零相關五種情形。 • 相關的大小需經顯著性檢定來證明是否顯著(是否有統計上的意義)。 • 相關係數介於-1至1之間。 • 相關情形的大小非與r係數大小成正比 • 相關並不等於因果 • 相關係數沒有單位, 可以進行跨樣本的比較 第二節 第十三章 相關與迴歸
相關係數的強度大小與意義 第二節 第十三章 相關與迴歸
點二系列相關係數 • 適用於二分變數的相關係數計算 • rpb的係數數值介於1.0之間,絕對值越大,表示兩個變項的關係越強 • 當rpb係數為正時,表示二分變項數值大者,在連續變項上的得分越高 • 當rpb係數為負時,表示二分變項數值小者,在連續變項上的得分越高 • 當p與q數值為越接近0.5時,rpb的數值才有可能接近1.0 • 二分變項也可以視為一種連續變項,其與其他任何連續變項的相關,即等於Pearson’s r 第三節 第十三章 相關與迴歸
eta係數 • 適用於一個類別變項與連續變項的相關,可以反應非線性關係的強度 • 原理是計算類別變項的每一個數值(類別)下,連續變項的離散情形佔全體變異量的比例 • 各類別中,在連續變項上的組內離均差平方和,佔總離均差平方和的百分比(以X無法解釋Y的誤差部分),比例越小,表示兩變項的關聯越強 • η係數數值類似積差相關係數,介於0至1之間,取平方後稱為η2,具有削減誤差百分比(PRE)的概念,又稱為相關比(correlation ratio) 第三節 第十三章 相關與迴歸
偏相關與部分相關 • 偏相關(partial correlation)與部分相關(part correlation) • 計算兩個變項的相關係數時,把第三變項的影響加以控制的技術 C C X Y X Y X Y (a) (b) (c) C C X Y X Y (d) (e) 第三節 第十三章 相關與迴歸
淨相關與部份相關 • 線性關係的統計控制 • 如果兩個連續變項之間的關係,可能受到其他變項的干擾之時,或研究者想要把影響這兩個變項的第三個變項效果排除,可以利用控制的方式,將第三變項的效果進行統計的控制。 • 淨相關 • 在計算兩個連續變項X1與X2的相關之時,將第三變項(X3)與兩個相關變項的相關r13與r23予以排除之後的純淨相關,以r12.3來表示。 • 部份相關 • 計算X1與X2的單純相關,如果在計算排除效果之時,僅處理第三變項與X1與X2當中某一個變項的相關之時,所計算出來的相關係數,稱之為部份相關,或稱為半淨相關(semipartial correlation) 第三節 第十三章 相關與迴歸
均值迴歸(regression toward the mean) • 緣起 • 1855年,英國學者Galton以“Regression toward mediocrity in heredity stature”,分析孩童身高與父母身高之間的關係 • 父母的身高可以預測子女的身高:當父母身高越高或越矮時,子女的身高會較一般孩童高或矮 • 當父母親身高很高或很矮(極端傾向)時,子女的身高會不如父母親身高的極端化,而朝向平均數移動(regression toward mediocrity) 第四節 第十三章 相關與迴歸
迴歸原理 • 迴歸原理 • 將連續變項的線性關係以一最具代表性的直線來表示,建立一個線性方程式Y’=bX+a,b為斜率,a為截距 • 透過此一方程式,代入特定的X值,求得一個Y的預測值。 • 此種以單一獨變項X去預測依變項Y的過程,稱為簡單迴歸(simple regression) • 最小平方法與迴歸方程式 • 配對觀察值(X,Y),將X值代入方程式,得到的數值為對Y變項的預測值,記為Y’ • 差值Y-Y’稱為殘差(residual),表示利用迴歸方程式無法準確預測的誤差 • 最小平方法:求取殘差的平方和最小化的一種估計迴歸線的方法 • 利用此種原理所求得的迴歸方程式,稱為最小平方迴歸線 第四節 第十三章 相關與迴歸
迴歸方程式與未標準化迴歸係數 • 迴歸方程式 的斜率與截距 第四節 第十三章 相關與迴歸
標準化迴歸係數(standardized regression coefficient) • 標準化迴歸係數 • 將b值乘以X變項的標準差再除以Y變項的標準差,即可去除單位的影響,得到一個不具特定單位的標準化迴歸係數 • 標準化迴歸係數稱為(Beta)係數。係數是將X與Y變項所有數值轉換成Z分數後,所計算得到的迴歸方程式的斜率 • 係數具有與相關係數相似的性質,數值介於-1至+1之間 • 絕對值越大者,表示預測能力越強,正負向則代表X與Y變項的關係方向 第四節 第十三章 相關與迴歸
迴歸誤差與可解釋變異 • 觀察值Y=bX+a+e • 迴歸方程式為 • 誤差為兩者之差:e=Y-Y’ 第四節 第十三章 相關與迴歸
迴歸解釋變異量 • 迴歸解釋變異量(R2) • 表示使用X去預測Y時的預測解釋力(獨變項對於依變項的解釋力) • 即Y變項被自變項所削減的誤差百分比 第四節 第十三章 相關與迴歸
調整迴歸解釋變異量 • R2無法反應模型的複雜度(或簡效性) • 簡效性( parsimony )問題 • 不斷增加獨變項,R2不會減低(R2為獨變項數目的非遞減函數) • 研究者為了提高模型的解釋力,不斷的投入獨變項,每增加一個獨變項,損失一個自由度,最後模型中無關的獨變項過多,自由度變項,失去了簡效性 • 調整後R2 (adjusted R2) • 為了處罰增加獨變項所損失的簡效性,將自由度的變化作為分子與分母項的除項加以控制,可以反應因為獨變項數目變動的簡效性損失的影響 • 當獨變項數目(p)越多,adjR2越小 • 當樣本數越大,對於簡效性處罰的作用越不明顯 第四節 第十三章 相關與迴歸
迴歸模型的顯著性考驗 • R2的基本原理是變異數,因此對於R2的檢定可利用F考驗來進行 第四節 第十三章 相關與迴歸
估計標準誤 • 預測誤差e是一個呈現常態分配的隨機變數,平均數為0,標準差為se • 估計標準誤的計量性質是標準差,因此可用以反應誤差分配的離散情形 • 標準誤越大,估計誤差越大 • 標準誤越小,估計誤差越小 • 估計標準誤 • 取誤差變異的平方和除以自由度(N-k-1)的開方,亦即F考驗當中的誤差均方(MSe)的開方 第四節 第十三章 相關與迴歸
迴歸模型的參數估計 • 個別的迴歸係數b或可以用以說明預測變項對於依變項的解釋力 • 迴歸係數數值的統計意義需經過假設考驗來檢驗 • R2的顯著性考驗是迴歸分析的整體考驗(overall test) • 迴歸係數的考驗可視為事後考驗(post hoc test) • 迴歸係數的考驗 • H0:=0 • 利用t檢定,自由度為N-p-1: 第四節 第十三章 相關與迴歸
迴歸係數的區間估計 • b係數為未標準化係數,用以反應獨變項對於依變項的影響程度 • b係數可以得知獨變項的變動在依變項的變動情形 • 利用模型的迴歸係數標準誤,b係數的區間估計可用來推估母數出現的範圍 • 利用b係數的95%信心估計區間是否涵蓋0,來檢驗b係數是否顯著不等於0 第四節 第十三章 相關與迴歸
迴歸分析的基本假設 (一)固定自變項假設(fixed variable) • 特定自變數的特定數值應可以被重複獲得,然後得以此一特定的Xi代入方程式而得到預測值。 (二)線性關係假設(linear relationship) • 當X與Y的關係被納入研究之後,迴歸分析必須建立在變項之間具有線性關係的假設成立上。 (三)常態性假設(normality) • 迴歸分析中的所有觀察值Y是一個常態分配,即Y來自於一個呈常態分配的母群體。因此經由迴歸方程式所分離的誤差項e,即由特定Xi所預測得到的與實際Yi之間的差距,也應呈常態分配。誤差項e的平均數為0。 (四)誤差獨立性假設(independence) • 誤差項除了應呈隨機化的常態分配,不同的X所產生的誤差之間應相互獨立,無相關存在,也就是無自我相關(nonautocorrelation)。 (五)誤差等分散性假設(homoscedasticity)多元共線性假設 • 特定X水準的誤差項,除了應呈隨機化的常態分配,且其變異量應相等,稱為誤差等分散性 第四節 第十三章 相關與迴歸
等分散性假設圖示 第四節 第十三章 相關與迴歸
Time for rest Chapter 13 is done here.. See you later! 第十三章 相關與迴歸