650 likes | 913 Views
統計分析方法. 變異數分析 迴歸分析 因素分析 區別分析 集區分析. 迴歸分析. 找出預測模式: 簡單迴歸 (Simple regression) 以 一個變項預測另一個有興趣的數量變數。 複迴歸 (Multiple regression) 以 多個變項預測某一個有興趣的數量變數。 羅吉斯 迴歸 (Logistic regression) 以 多個變項預測某一個有興趣的 0-1 變數。. 最小平方迴歸. 迴歸直線 (regression line).
E N D
統計分析方法 變異數分析 迴歸分析 因素分析 區別分析 集區分析
迴歸分析 • 找出預測模式: • 簡單迴歸(Simple regression)以一個變項預測另一個有興趣的數量變數。 • 複迴歸(Multiple regression)以多個變項預測某一個有興趣的數量變數。 • 羅吉斯迴歸(Logistic regression)以多個變項預測某一個有興趣的0-1變數。
迴歸直線(regression line) • 迴歸直線是用來描述反應變數 y與解釋變數 x線性關係的直線,在給定 x 之下通常使用迴歸直線的公式來預測 y。 • 平均日加溫度數為20度時,根據下圖的迴歸直線可算出月平均瓦斯消耗量約為490 cu. ft 。
迴歸直線實例 (20, 5)
預測誤差 • 迴歸直線的選擇直接影響預測值 y 的準確性。 • 我們以 y 觀察值 -預測值 y 稱為誤差, 或稱為垂直距離。 • 平均日加溫度數為 20度時,若實際月平均瓦斯消耗量為 510 cu. ft,則 誤差 = 510 - 490 = 20。
預測誤差圖示 預測值 誤差 觀察值 y
最小平方迴歸直線 • 依據誤差平方和最小的原則求得的迴歸直線,稱為最小平方迴歸直線 (Least square regression line)。 • 改變迴歸直線的截距與斜率,選擇使誤差平方和最小的直線。
最小平方迴歸直線方程式 • 若直線方程式為 y = a + bx,則在 xi之下 yi的預測值為 ,則誤差平方和即為 。 • 依據微積分的方法可求得使誤差平方和最小的 a, b值分別為 • 最小平方迴歸直線即為 。
最小平方迴歸直線實例 • 統計資料 則 • 最小平方迴歸直線即為 。
最小平方迴歸的性質 • 最小平方迴歸直線中反應變數 y與解釋變數 x 的角色無可取代。 • 反應變數 y與解釋變數 x 互換會得到不同的迴歸直線。 • 迴歸直線的斜率與相關係數關係密切。 b = r (sy/sx)
最小平方迴歸的性質(續) • 迴歸直線一定通過 點。 • 迴歸直線方程式 中, 以 代入可得 即表示點 在迴歸直線上。
最小平方迴歸的性質(再續) • 相關係數描述了迴歸直線的強度。 • 相關係數平方即為反應變數 y 的變異中, 在變數 x 迴歸後解釋的部分(比例)。
餘差(Residuals) • 觀察值 y與預測值 的差稱為餘差。 • 餘差總和必為零
餘差圖(Residuals Plot) • 餘差與對應的解釋變數的散佈圖,稱為餘差圖。 • 餘差圖有助於瞭解迴歸直線的適合性。 • 餘差圖為非線性。 • 餘差的散佈隨著 x值的增加而散開或縮減。
標準餘差圖 4 2 0 - 2 - 4 x
曲線型餘差圖 4 2 0 - 2 - 4 x
散發型餘差圖 4 2 0 - 2 - 4 x
餘差圖中的特殊點 • 離群點:餘差特出的點,偏離整體餘差的分佈。 • Child 19 • 干擾點:該點的移除對於迴歸直線的計算結果有重大的影響,稱為干擾點。 • x值特出(大或小)的點,多為干擾點。 • Child 18
餘差圖實例 • 小孩說第一句話的時間與日後Gesell 能力測驗成績的迴歸關係。 • 迴歸直線如後 • 餘差如下,餘差圖如後
迴歸直線圖 Child 19 Child 18
迴歸餘差圖 Child 19 Child 18
特殊點對迴歸直線的影響 Child 19 Child 18
相關性與迴歸直線的侷限 • 相關性與迴歸直線僅用來描述兩變數之間的線性關係,且其數值受特殊點的影響極大。 • 平均日加溫度數為20度時,根據下圖的迴歸直線可算出月平均瓦斯消耗量約為490 cu. ft 。
外插(Extrapolation)預測 • 以迴歸直線預測原解釋變數概括的範圍外資料之對應 y值,其準確性的多半不高。 • 以3~8歲孩童身高資料得到的迴歸直線,預測25歲成人身高(預測值約為8呎長人)必然不準確。
使用平均數 • 使用平均數資料(月平均瓦斯消耗量)評估相關性,往往高於未平均前資料(每日瓦斯消耗量)的相關性。 • 平均數資料已整合了未平均前資料的離散情況。
複相關係數 • 變數 y 與預測變數 x1, x2,…, xp之間的相關係數稱為複相關係數。 • 預測變數之線性組合 a1x1+a2x2+…+apxp與變數 y 之相關係數。
複相關係數實例 • 大一微積分成績為 y,預測變數為聯考數學成績 x1與英文成績 x2。 • 大一微積分y,與聯考英數平均成績 x = (x1+ x2)/2 的相關係數。 • 大一微積分y,與聯考英數加權平均成績 x* = ax1+ bx2的相關係數。 • 求a, b使得 corr(y, ax1+bx2)為最大。
複迴歸模式 • 變數 y 與預測變數 x1, x2之 n 組隨機資料為 yi, x1i, x2i, i =1,…, n 則複迴歸模式為 • 為隨機誤差服從常態 。 • 為三未知常數,可由隨機資料 yi, x1i, x2i, i =1,…, n 估計之。
迴歸方程式之估計 • 最小平方法即為 Normal Equations之解: • 令 分別為上列聯立方程組之解,則迴歸方程式為
複迴歸分析變異數分析表 • 則拒絕
複迴歸實例 • 會計事務所以十位會計師過去資料,利用迴歸直線預測CPA 考試分數。資料如下:
相關分析 • 相關分析得
迴歸係數檢定 • 給定i,檢定 已在模式內時 是否還需要加入即檢定 • 檢定統計量為 ,其中 則拒絕H0。 • 檢定 ,則檢定統計量為
迴歸信賴區間 • bj的100(1-a)% 信賴區間為 • 在x10, x20情形下,的100(1-a)% 信賴區間為 其中
複判別係數 • 判別係數 • k 增加則SSE 減少,則R2增加 • 修正判別係數 • k 增加則SSE 減少,但 增加, 則Adj R2不一定增加
指標變數 • 若考慮性別因素,令x3為指標變數x3=1 為男,x3=0 為女,則模式為 • 一般分類型資料若有 2k類則以k 個指標變數分析。 • 例:以(x3, x4) = (0,0)為第一季,(0, 1)為第二季,(1, 0)為第三季,(1, 1)為第四季,即以 2 個指標變數代表四季。