290 likes | 517 Views
第 16 章 迴歸分析:模型的建立. © 滄海書局. 第 16 章 迴歸分析:模型的建立. 一般線性模型 增加或刪減變數的判斷 分析大型問題的第一步 變數選擇程序 殘差分析 變異數分析與實驗設計的複迴歸方法. 一般線性模型. 為一次方的參數 ( 0 , 1 , . . . , p ) 的模型稱為 線性模型 。 一個預測變數的一階模型 一個預測變數的二階模型 含兩個預測變數交互作用的二階模型. 一般線性模型. 我們通常可以藉著應變數的尺度轉換來修正變異數不等的問題。 對數轉換
E N D
第 16 章迴歸分析:模型的建立 © 滄海書局
第 16 章迴歸分析:模型的建立 • 一般線性模型 • 增加或刪減變數的判斷 • 分析大型問題的第一步 • 變數選擇程序 • 殘差分析 • 變異數分析與實驗設計的複迴歸方法
一般線性模型 為一次方的參數(0, 1, . . . , p )的模型稱為線性模型。 • 一個預測變數的一階模型 • 一個預測變數的二階模型 • 含兩個預測變數交互作用的二階模型
一般線性模型 我們通常可以藉著應變數的尺度轉換來修正變異數不等的問題。 • 對數轉換 大多數的電腦統計軟體都提供以 10 或 e = 2.71828… 為底的。 • 倒數轉換 以 1/y而非 y 作為應變數。
一般線性模型 不為一次方的參數 (0, 1, . . . , p ) 的模型稱為非線性模型。 但在某些情況下,我們可以進行變數轉換,以便我們運用一般線性模型來進行迴歸分析。 • 指數模型 指數模型的迴歸方程式如下: 兩邊取對數,就可以將非線性模型轉換為線性模型。
範例 - 雷諾公司 • 一般線性模型 雷諾公司製造工業用度量衡及實驗儀器。管理階層想調查業務員的任職時間及銷售成績(實驗室用天平的銷售量)間的關係。
範例 - 雷諾公司 • 雷諾公司的資料 任職時間(月)銷售成績任職時間(月)銷售成績 41 375 40 189 106 296 51 235 76 317 9 83 10 376 12 112 22 162 6 67 85 367 56 325 111 308 19 189
範例 - 雷諾公司 • 一階線性模型 Sales = 111 + 2.38 Monyhs 其中, Sales = 業務員售出的實驗室用天秤的個數 Months = 業務員的任職時間 • 二階線性模型 Sales = 45.3 + 6.34 Months – 0.0345 MonthsSq 其中, MonthsSq = 業務員任職月數的平方
範例 - 雷諾公司 • Minitab 電腦報表(二階模型) The regression equation Score = 45.3 + 6.34 Months – 0.0345 Predictor Coef Stdev t-ratio p Constant 45.35 22.77 1.99 0.000 Months 6.345 1.058 6.00 0.000 MonthsSq -0.034486 0.008948 -3.85 0.002 s = 34.45 R-sq = 90.2% R-sq(adj) = 88.6%
範例 - 雷諾公司 • Minitab 電腦報表(二階模型) Analysis of Variance SOURCE DF SS MS F P Regression 2 131413 65707 55.36 0.000 Error 12 14244 1187 Total 14 145657
範例 -泰勒個人用品公司 • 交互作用 泰勒個人用品公司對新推出的洗髮精所做的調查。管理當局相信,銷售價格及廣告費用是影響銷售量的最重要因素。泰勒公司決定以3種價格在24個試賣點試賣:$2.00, $2.50, $3.00,配合2種廣告費用支出:$50,000與 $100,000,來調查兩變數(價格與廣告費用支出)對銷售量的影響。
範例 -泰勒個人用品公司 • 泰勒個人用品公司的資料 單價廣告支出銷售量單價廣告支出 銷售量 ($1,000) (千) ($1,000) (千) $2.00 50 478 $2.00 100 810 $2.50 50 373 $2.50 100 653 $3.00 50 335 $3.00 100 345 $2.00 50 473 $2.00 100 832 $2.50 50 358 $2.50 100 641 $3.00 50 329 $3.00 100 372 $2.00 50 456 $2.00 100 800 $2.50 50 360 $2.50 100 620 $3.00 50 3224 $3.00 100 390 $2.00 50 437 $2.00 100 790 $2.50 50 365 $2.50 100 670 $3.00 50 342 $3.00 100 393
範例 -泰勒個人用品公司 • 估計迴歸方程式 Sales = -276 +175 Price + 19.7 AdvExp – 6.08 Price Adv 其中, Sales = 銷售量(千) Prices = 單價($) AdvExp = 廣告費用($1,000) PriceAdv = 交互作用項(Price*AdvExp)
範例 -泰勒個人用品公司 • Minitab 電腦報表 The regression equation Score = -276 + 175 Price + 19.7 AdvExp – 6.08 PriceAdv Predictor Coef Stdev t-ratio p Constant -275.8 112.8 -2.44 0.024 Price 175.00 44.55 3.93 0.001 Adver 19.680 1.427 13.79 0.000 PriceAdv -6.0800 0.5635 -10.79 0.000 s = 28.17 R-sq = 97.8% R-sq(adj) = 97.5%
範例 -泰勒個人用品公司 • Minitab 電腦報表 Analysis of Variance SOURCE DF SS MS F P Regression 3 709316 236439 297.87 0.000 Error 20 15875 794 Total 23 725191
範例 – 耗油率問題 • 交互作用 為了說明應變數的轉換,我們用下表的資料做例子,這是一個有關汽車重量及其耗油率(每加侖汽油可行駛哩程數)的資料。
範例 -耗油率問題 • 12種汽車的重量及耗油率(每加侖可行駛哩程數)的資料 重量(磅) 每加侖可行駛哩程數 2,289 28.7 2,113 29.2 2,180 34.2 2,448 27.9 2,026 33.3 2,702 26.4 2,657 23.9 2,106 30.5 3,226 18.1 3,213 19.5 3,607 14.3 2,888 20.9
範例 -耗油率問題 • 估計迴歸方程式 MPG = 56.1 - 0.0116 Ewight 其中, MPG = 每加侖汽油可行駛公里數 Weight = 車重(磅)
範例 -耗油率問題 • Minitab 電腦報表:對數轉換 The regression equation Score = 4.52 – 0.000501 Weight Predictor Coef Stdev t-ratio p Constant 4.52423 0.09932 45.55 0.000 Weight -0.00050110 0.00003722 -13.46 0.000 s = 0.06425 R-sq = 94.8% R-sq(adj) = 94.2%
範例 -耗油率問題 • Minitab 電腦報表 Analysis of Variance SOURCE DF SS MS F P Regression 1 0.74822 0.74822 181.22 0.000 Error 10 0.04129 0.00413 Total 11 0.78950
增加或刪減變數的判斷 • F 檢定 用來檢定 x2 加入包含 x1 的模型(或從包含 x1 和 x2 的模型中刪除x2 )是否具有統計顯著性。
範例 在第15章中巴特勒貨運公司的問題裡,該公司想以兩個自變數行駛哩數及送貨批數來建立可以預測行駛時間的估計迴歸方程式。如果只考慮行駛哩數一個自變數時,用最小平方法得到的估計迴歸方程式如下所示。 y = 1.27 + 0.0678 x1 從第15章得知此模型的誤差平方和SSE=8.029。如果模型中加入第二個自變數 ── 送貨批數,以 x2表示,得到的估計迴歸方程式如下。 y = 0.869 + 0.0611 x 1+ 0.923 x2 ^ ^
範例 • F統計量 在 = 0.05時,F = 5.59。由於F = 17.45 > F = 5.59,因此可以拒絕虛無假設,換言之,在僅含 x1一個自變數的模型中加入第二個自變數 x2,的確會使得誤差平方和顯著的減少。
變數選擇程序 • 逐步迴歸 • 逐步迴歸程序首先要決定是否要刪減模型中已有的自變數,首先,對模型中每個自變數計算其F統計量及p 值。Minitab軟體將判定在 α顯著水準下是否應該把自變數刪去表示為Alpha to remove,如果自變數的 p 值大於Alpha to remove,則 p 值最大的自變數將自模型中刪去,而逐步迴歸程序將重新開始。 • 如果沒有自模型中刪去任何變數,逐步迴歸程序就開始檢查是否要增加變數。作法是計算每個尚未加入模型中之變數的F值。Minitab軟體將判定在 α顯著水準下是否應該增加自變數表示為Alpha to enter。如果自變數的 p值小於Alpha to enter,對應的最小 p 值之自變數就被加入模型中,逐步迴歸程序繼續進行。 • 直到沒有任何自變數能被增加或刪減,逐步迴歸程序就停止。
變數選擇程序 • 前向選擇 • 其程序與逐步迴歸類似,差異在於一旦將變數加入模型中,就不再刪減。 • 前向選擇從沒有自變數開始。 • 每次只加入一個自變數。
變數選擇程序 • 後向消去 • 後向消去程序由包含所有欲考量自變數的模型開始。 • 其程序每次只刪減一個自變數。如果每一個自變數的 p 值大於Alpha to remove,後向消去程序即停止。 • 一旦將變數刪減,就不可能再被放入模型中。
變數選擇程序 • 最佳子集迴歸 • 前三種程序都是一次刪減或增加一自變數,以致於無法保證可以找到含特定個自變數的最佳迴歸模型。 • 某些電腦統計軟體會提供最佳子集迴歸程序,此種方法可以找到含特定個自變數的最佳迴歸模型。 • Minitab 輸出報表判別兩個最佳單一自變數估計迴歸方程式、兩個最佳二變數方程式等。
殘差分析:自身相關 • 自身相關與杜賓-華生檢定 • 統計量 • 杜賓—華生統計量的範圍由 0 到 4。 • 如果接續的殘差值都很接近(正自身相關),杜賓—華生統計量將較小。 • 如果接續的殘差值差距都很大(負自身相關),則杜賓—華生統計量將會較大 • 其值落在 0 到 4 內時,表示自身相關不存在。