370 likes | 544 Views
Chapter 9. 設定和資料問題之進一步探討. 9.1 函數形式錯誤設定. 一個複迴歸模型當它沒有適當地考量應變數和可觀察自變數間的關係時,會產生函數形式的錯誤設定。 錯誤設定 1. 遺漏重要解釋變數 2. 模型的函數型式有誤 (例:該以對數型式卻用直線. CH9 設定和資料問題之進一步探討 第 366 頁. 9.1 函數形式錯誤設定. CH9 設定和資料問題之進一步探討 第 368 頁 表 9.1. RESET 為函數形式錯誤設定之一般化檢定. 曾有一些檢定函數形式的錯誤設定之檢定已提出。
E N D
Chapter 9 設定和資料問題之進一步探討
9.1 函數形式錯誤設定 • 一個複迴歸模型當它沒有適當地考量應變數和可觀察自變數間的關係時,會產生函數形式的錯誤設定。 • 錯誤設定 1. 遺漏重要解釋變數 2. 模型的函數型式有誤 (例:該以對數型式卻用直線 CH9 設定和資料問題之進一步探討 第366頁
9.1 函數形式錯誤設定 CH9 設定和資料問題之進一步探討 第368頁 表9.1
RESET 為函數形式錯誤設定之一般化檢定 • 曾有一些檢定函數形式的錯誤設定之檢定已提出。 • Ramsey (1969)的迴歸設定誤差檢定(regression specification error test, RESET)在這方面被證明是有用的。 • RESET 背後的想法是很簡單的。若原始模型為 9.2 CH9 設定和資料問題之進一步探討 第369頁
RESET 為函數形式錯誤設定之一般化檢定 • 令ŷ表(9.2) 式之OLS 配適值。考慮一擴展的方程式 由於原來的估計之配適值函數現在變成自變數 • RESET 可被證明在遺漏變數之期望值為模型中自變數的線性函數時,其對偵測該遺漏變數是沒有檢定力的。 • 正確關於RESET 的說法是其為一函數形式的檢定,而不是檢定任何其他的事物。 9.3 CH9 設定和資料問題之進一步探討 第369-371頁
非包覆之對立假設的檢定 • 有可能檢定模型 • 對立於模型 • 這些是非包覆模型(nonnested models) (見第6 章),故我們不能簡單地用一標準的F檢定來處理。有二種不同的處理方法提出。第一種是建構一個各模型都為其特例的完整模型,再檢定對應各個模型的限制條件。(課本p.371, 9.8式。若拒絕H0,則表示模型應該考慮log型式) 9.6 9.7 CH9 設定和資料問題之進一步探討 第371頁
非包覆之對立假設的檢定 • Davidson-MacKinnon 檢定(Davidson-MacKinnon test) 係基於以下方程式中的t統計量 其中: 表示,以OLS估計模型9.7式所得到的配適值。 顯著的t統計量(雙邊對立假設) 即為(9.6) 式之拒絕。 CH9 設定和資料問題之進一步探討 第371頁
非包覆之對立假設的檢定 產生的問題: • 不一定會產生一明顯的勝利者。二個模型可能都被拒絕或都不被拒絕。 • 發生後面的這種情況,我們可用調整後的R2來選擇模型。 • 利用Davidson-MacKinnon 檢定拒絕(9.6)式,但這並不代表(9.7) 式就是正確的模型。 CH9 設定和資料問題之進一步探討 第372頁
9.2 使用不可觀察解釋變數之代理變數 • 當一模型通常因資料的不可得而未放入一主要變數時,便產生了比上節更困難的問題。(課本p372) • 一種可能性是求得遺漏變數的代理變數(proxy variable)。寬鬆而言,代理變數為和分析中我們想控制住的不可觀察變數有關係的變數。 • 可用一包含三個自變數,其中二個是可觀察的模型來解釋: 9.10 CH9 設定和資料問題之進一步探討 第372-373頁
9.2 使用不可觀察解釋變數之代理變數 對x3的要求(課本p373) • 假設 (不可觀察的)和x3是一樣的,因此我們跑以下迴歸 y 對 x1, x2, x3 • 將x3代入方程式以代替,我們稱此為遺漏變數問題的代入解(plug-in solution to the omitted variables problem)。 (課本p373) 9.12 CH9 設定和資料問題之進一步探討 第373頁
9.2 使用不可觀察解釋變數之代理變數 • 代入解得出β1 和β2 之一致性估計式所需的假設可分為對u和v3的假設: • 誤差項u和x1 、 x2及 無關,這只是模型(9.10) 的標準假設。 • 誤差v3和x1、 x2及x3無關。(課本p374) 9.13 9.14 9.15 CH9 設定和資料問題之進一步探討 第374-377頁
9.2 使用不可觀察解釋變數之代理變數 CH9 設定和資料問題之進一步探討 第376頁 表9.2
使用前期應變數當成代理變數 • 懷疑某個或多個自變數和某遺漏變數相關,但我們不知如何得到該遺漏變數的代理。在這種情況下,我們可以包括為了控制的理由,加入應變數的前期。這在政策分析時特別有用。 • 在橫斷面方程式中使用前期應變數(lagged dependent variable) 增加了對資料數量的要求。 • 一個簡單的方式將過去因素導致應變數的當期差異列入考量,這是使用其他方法所難以考量到的。 CH9 設定和資料問題之進一步探討 第378頁
使用前期應變數當成代理變數 • 例如,有些城市在過去有高犯罪率。很多相同的不可觀察因素對高的過去和當期犯罪率都有影響。(課本p370, 9.16式) • 要使用前期應變數為代理變數,必須考慮過去和未來的應變數之間的連結性。 課本範例9.4 CH9 設定和資料問題之進一步探討 第378頁
使用前期應變數當成代理變數 CH9 設定和資料問題之進一步探討 第379頁 表9.3
對複迴歸的不同看法 • 一個對複迴歸較不結構化,更一般化的作法是放棄在模型中設定不可觀察變數。 • 例如,在工資範例中,以lwage代表log(wage),我們可估計E(lwage|educ, exper, tenure, south, urban, black, IQ) • 回答了我們感興趣的問題:如果二個人有相同的IQ 水準(以及相同經驗、年資等等),但他們教育水準相差一年,則其預期log 工資的差異為何? (表9.2:IQ相同之下,教育水準相差一年,工資差了5.4%) CH9 設定和資料問題之進一步探討 第380-381頁
9.3 隨機斜率模型 • 如果某變數的偏效果取決於會隨著母體中觀察值的不同而不同之不可觀察因素時,要如何處理?若我們只有一個自變數x,我們可將一般模型i 代表母體中的一個隨機抽取寫為 其中ai為第i 個觀察值的截距項且bi為斜率。 9.17 CH9 設定和資料問題之進一步探討 第381頁
9.3 隨機斜率模型 • 在第2 章之簡單迴歸模型中,我們假設bi = β和把ai歸為誤差項ui。(9.17) 式的模型因不可觀察的斜率係數bi被視為和可觀察的資料(xi, yi) ,以及不可觀察的截距ai相同,都是由母體中隨機抽取的,故有時稱為隨機係數模型(random coefficient model) 或隨機斜率模型(random slop model)。 CH9 設定和資料問題之進一步探討 第381頁
9.4 衡量誤差之OLS 特性 • 有時在經濟應用中,我們無法收集真正影響經濟行為變數的資料。 • 當我們在迴歸模型中對某經濟變數使用了不精確的衡量,模型中就包含了衡量誤差。 • 在代理變數的情況,我們要找一個和不可觀察變數有關係的變數。 • 在衡量誤差的情況,我們觀察不到的變數是擁有定義良好的數量化的意義(諸如邊際稅率或年所得),但我們的資料可能包含誤差。 CH9 設定和資料問題之進一步探討 第383-384頁
9.4 衡量誤差之OLS 特性 • 另一個代理變數和衡量誤差問題的重要差異在於,後者通常衡量錯誤的自變數是我們主要感興趣的變數。在代理變數的情況,遺漏變數的偏效果很少是我們主要感興趣的:我們通常對其他自變數的效果感興趣。 CH9 設定和資料問題之進一步探討 第384頁
應變數的衡量誤差 • 令y* 代表我們想解釋的變數。 且我們假設其滿足高斯馬可夫假設。令y代表y* 之可觀察的衡量。(p384:可預期 y和 y*有所不同) 9.23 CH9 設定和資料問題之進一步探討 第384頁
應變數的衡量誤差 • 衡量誤差(在母體中) 是定義為觀察值和實際值的差異: • 寫下y* = y- e0 ,將其代入(9.23) 式,重新整理可得: 9.24 9.25 CH9 設定和資料問題之進一步探討 第384-385頁
應變數的衡量誤差 • 當應變數是對數的形式,故log(y*) 為應變數,很自然地衡量誤差的形式為 • 這產生y的相乘項的衡量誤差(multiplicative measurement error): y = y*a0,其中a0 > 0 ,且e0 = log(a0) 。 • 若應變數的衡量誤差和一個或多個自變數有系統性的關係,則可能導致OLS 的偏誤。若衡量誤差只是與自變數無關的隨機呈報誤差,則OLS 是完全適用的。 9.26 CH9 設定和資料問題之進一步探討 第386-387頁
自變數的衡量誤差 • 從簡單迴歸模型開始(EX: x*為真實所得;x為呈報所得) • 母體的衡量誤差為 且其可為正、負或零。我們假設母體中平均衡量誤差為0 : E(e1) = 0 。這是很自然的假設,且在任何情況也不會影響到之後的重要結論。 9.27 9.28 CH9 設定和資料問題之進一步探討 第387頁
自變數的衡量誤差 • 一個假設為e1和可觀察的衡量x1無關。 • 古典的誤差在變數中(classical errors-in-variables, CEV) 假設衡量誤差和不可觀察的自變數無關: 9.29 9.30 9.31 CH9 設定和資料問題之進一步探討 第387-388頁
自變數的衡量誤差 • 若假設(9.31) 式成立,則x1和e1 必定相關: 9.32 CH9 設定和資料問題之進一步探討 第388頁
自變數的衡量誤差 • 之機率極限為β1加x1以及u β1e1之共變異數對 x1變異數的比率: 9.33 CH9 設定和資料問題之進一步探討 第388-389頁
自變數的衡量誤差 • CEV 之OLS 的縮減偏誤(attenuation bias):平均而言(或在大樣本中),估計的OLS 之效果將被減小。 (p. 389) • 相對於衡量誤差的變異數若 的變異數很大,則OLS 的不一致性將會很小。 • 這是因為 之值當 很大時會接近1。 9.35 CH9 設定和資料問題之進一步探討 第389頁
自變數的衡量誤差 • 在估計β1時仍會有縮減偏誤:我們可證明 9.36 CH9 設定和資料問題之進一步探討 第390頁
遺漏資料 • 遺漏資料(missing data) 問題可以有各種產生的形式。 • 若應變數或某自變數有一觀察值的資料遺漏,則該觀察值在標準的複迴歸分析中就不能被使用。 • 若資料的遺漏是隨機性的,則影響只是樣本規模變小而已。雖然這讓估計式較不精確,它並不會產生任何偏誤。(隨機抽樣假設MLR.2仍成立) • 在大多數情況下,我們都是直接忽略有遺漏資訊的觀察值。 CH9 設定和資料問題之進一步探討 第392頁
非隨機樣本 • 當遺漏資料產生了母體中的非隨機樣本(nonrandom sample) 時,問題就比較大。 • 特定形式的非隨機抽樣並不會導致OLS 的偏誤或不一致性。 • 在高斯馬可夫假設下(但無MLR.2),是可基於自變數來選擇樣本而不會導致任何統計上的問題。這稱為基於自變數的樣本選擇,且這也是外生樣本選擇(exogenous sample selection) 的一個例子。 CH9 設定和資料問題之進一步探討 第393頁
非隨機樣本 • 當選擇基於應變數y時事情就完全不同了,這稱為基於應變數的樣本選擇,且為內生樣本選擇(endogenous sample selection)的一個例子。 • 若樣本是基於是否應變數高於或低於某數值,則估計母體模型的OLS 將產生偏誤。 • 其他抽樣方法常常有意的得到母體之非隨機樣本。一個常用的資料收集方法為層級抽樣(stratified sampling),其將母體區分為互不包含並且為耗竭性(exhaustive) 的幾個群體。 CH9 設定和資料問題之進一步探討 第393-394頁
極端值和影響力觀察值 • 在某些應用中,特別是小樣本資料集,OLS 估計會被一個或幾個觀察值所影響。本書稱此種觀察值為極端值(outliers) 或影響力觀察值(influential observations)。 • 有時候極端值是以所有觀察值跑OLS 迴歸之殘差大小來界定的。 • 類標準化殘差(studentized residuals) 是由原來的OLS 殘差除以標準差的估計值(條件於樣本中的自變數) 而來。 • 特定的函數形式對極端觀察值較不敏感。 CH9 設定和資料問題之進一步探討 第395-399頁
極端值和影響力觀察值 CH9 設定和資料問題之進一步探討 第397頁 圖9.1
9.6 最小絕對差異估計 • 除了試著決定哪一個觀察值對OLS 估計有影響外,另一種對抗極端值的方式是使用比OLS 對於極端值較不敏感的估計方法。其中的一個方法,在實證研究中很受歡迎,稱為最小絕對差異法(least absolute deviations, LAD)。 • 在線性模型中之βj的估計式是極小化殘差之絕對值的和 與OLS 極小化殘差平方和不同,LAD 估計並沒有公式解。 9.45 CH9 設定和資料問題之進一步探討 第401頁
9.6 最小絕對差異估計 CH9 設定和資料問題之進一步探討 第402頁 圖9.2
9.6 最小絕對差異估計 • LAD 是用來估計在x1, x2......, xk之y 的條件中位數(conditional median) 的參數而非條件平均數。 • 由於中位數並不會受到極端觀察值的影響,因此LAD 參數估計對於極端觀察值是較有抵抗性的。 CH9 設定和資料問題之進一步探討 第402頁