第五章模型的建立与估计中的问题及对策

第五章模型的建立与估计中的问题及对策

本章内容 第一节误设定第二节多重共线性第三节异方差性第四节自相关

OLS估计量令人满意的性质，是根据一组假设条件而得到的。在实践中，如果某些假设条件不能满足，则OLS就不再适用于模型的估计。下面列出实践中可能碰到的一些常见问题： l 误设定（Misspecification 或specification error） l 多重共线性（Multicollinearity） l 异方差性（Heteroscedasticity或Heteroskedasticity） l 自相关（Autocorrelation） l 随机解释变量（Stochastic explanatory variables) 本章将对上述问题作简要讨论，主要介绍问题的后果、检测方法和解决途径。

第一节误设定 采用OLS法估计模型时，实际上有一个隐含的假设，即模型是正确设定的。这包括两方面的含义：函数形式正确和解释变量选择正确。在实践中，这样一个假设或许从来也不现实。我们可能犯下列三个方面的错误： • 选择错误的函数形式 • 遗漏有关的解释变量 • 包括无关的解释变量从而造成所谓的“误设定”问题。

一. 选择错误的函数形式 • 这类错误中比较常见的是将非线性关系作为线性关系处理。函数形式选择错误，所建立的模型当然无法反映所研究现象的实际情况，后果是显而易见的。因此，我们应当根据实际问题，选择正确的函数形式。

我们在前面各章的介绍中采用的函数形式以线性函数为主，上一章还介绍了因变量和解释变量都采用对数的双对数模型，下面再介绍几种比较常见的函数形式的模型，为读者的回归实践多提供几种选择方案。这几种模型是：我们在前面各章的介绍中采用的函数形式以线性函数为主，上一章还介绍了因变量和解释变量都采用对数的双对数模型，下面再介绍几种比较常见的函数形式的模型，为读者的回归实践多提供几种选择方案。这几种模型是： • 半对数模型 • 双曲函数模型 • 多项式回归模型

1. 半对数模型 • 半对数模型指的是因变量和解释变量中一个为对数形式而另一个为线性的模型。因变量为对数形式的称为对数-线性模型(log-lin model)。解释变量为对数形式的称为线性-对数模型(lin-log model)。我们先介绍前者，其形式如下： • 对数-线性模型中，斜率的含义是Y的百分比变动，即解释变量X变动一个单位引起的因变量Y的百分比变动。这是因为，利用微分可以得出：

这表明，斜率度量的是解释变量X的单位变动所引起的因变量Y的相对变动。将此相对变动乘以100，就得到Y的百分比变动，或者说得到Y的增长率。由于对数-线性模型中斜率系数的这一含义，因而也叫增长模型(growth model)。增长模型通常用于测度所关心的经济变量（如GDP）的增长率。例如，我们可以通过估计下面的半对数模型 • 得到一国GDP的年增长率的估计值，这里t为时间趋势变量。

线性-对数模型的形式如下： • 与前面类似，我们可用微分得到 • 因此 • 这表明 • 上式表明，Y的绝对变动量等于乘以X的相对变动量。因此, 线性-对数模型通常用于研究解释变量每变动1%引起的因变量的绝对变动量是多少这类问题。

2. 双曲函数模型 • 双曲函数模型的形式为： • 不难看出，这是一个仅存在变量非线性的模型，很容易用重新定义的方法将其线性化。 • 双曲函数模型的特点是，当X趋向无穷时，Y趋向，反映到图上，就是当X趋向无穷时，Y将无限靠近其渐近线（Y = ）。 • 双曲函数模型通常用于描述著名的恩格尔曲线和菲利普斯曲线。

3. 多项式回归模型 • 多项式回归模型通常用于描述生产成本函数，其一般形式为： • 其中Y表示总成本，X表示产出，P为多项式的阶数，一般不超过四阶。 • 多项式回归模型中，解释变量X以不同幂次出现在方程的右端。这类模型也仅存在变量非线性，因而很容易线性化，可用OLS法估计模型。

二. 遗漏有关的解释变量 模型中遗漏了对因变量有显著影响的解释变量的后果是：将使模型参数估计量不再是无偏估计量。三. 包括无关的解释变量模型中包括无关的解释变量，参数估计量仍无偏，但会增大估计量的方差，即增大误差。 [注] 有关上述两点结论的说明请参见教科书P112-113。

四. 选择解释变量的四条原则 • 在模型设定中的一般原则是尽量不漏掉有关的解释变量。因为估计量有偏比增大误差更严重。但如果方差很大，得到的无偏估计量也就没有多大意义了，因此也不宜随意乱增加解释变量。 • 在回归实践中，有时要对某个变量是否应该作为解释变量包括在方程中作出准确的判断确实不是一件容易的事，因为目前还没有行之有效的方法可供使用。尽管如此，还是有一些有助于我们进行判断的原则可用，它们是：

选择解释变量的四条原则 • 1. 理论：从理论上看，该变量是否应该作为解释变 • 量包括在方程中？ • 2. t检验：该变量的系数估计值是否显著？ • 3. ：该变量加进方程中后，是否增大？ • 4. 偏倚：该变量加进方程中后，其它变量的系数 • 估计值是否显著变化？ • 如果对四个问题的回答都是肯定的，则该变量应该包括在方程中；如果对四个问题的回答都是“否”，则该变量是无关变量，可以安全地从方程中删掉它。这是两种容易决策的情形。

但根据以上原则判断并不总是这么简单。在很多情况下，这四项准则的判断结果会出现不一致。例如，有可能某个变量加进方程后， 增大，但该变量不显著。在这种情况下，作出正确判断不是一件容易的事，处理的原则是将理论准则放在第一位。在选择变量的问题上，应当坚定不移地根据理论而不是满意的拟合结果来作决定，对于是否将一个变量包括在回归方程中的问题，理论是最重要的判断准则。如果不这样做，产生不正确结果的风险很大。

*五、模型的选择上一段讨论了某个解释变量应否包括在模型中的几条原则。实践中，要解决的一个问题是如何从大量的潜在解释变量的集合中选择一个最合适的子集，以得到一个正确设定的模型。上个世纪六十年代后相当一段时间，人们使用逐步回归法来解决解释变量的选择问题。这种由计算机机械挑选变量的做法如今已不流行了。目前比较通行的做法是从少量精心设定的备选模型中选择一个。计量经济学家就此提出了很多基于统计学的选择标准，我们这里讨论其中几种，如表5－1所示。

令RSSj表示第j个模型（有kj个解释变量）的残差平方和，并定义令RSSj表示第j个模型（有kj个解释变量）的残差平方和，并定义为第j个模型的的估计值。我们用表示包含全部k个解释变量的模型的估计值。

表5－1 选择回归模型的准则 准则计算公式

1. 准则 希尔（Theil）的准则基于如下假设：所考虑的模型中有一个是正确模型。对于正确模型，，对于不正确模型，。因此，选择最小的模型一般就能选出正确模型。由于最小化与最大化是一回事，我们习惯上称该准则为最大准则。这个准则的主要问题是，一个包括正确模型的所有解释变量但同时也包括一些无关变量的模型也会给出，在这种情况下，我们所选择的其实并非正确模型。当备选模型包含大量无关变量时，选出正确模型的概率较低。

2. 基于预测的均方误差最小的三个准则 希尔的准则是基于回归的标准误差最小，下列三个准则则是基于预测的均方误差（MSE）最小。这三个准则是：马娄斯（Mallows）的准则霍金（Hocking）的准则阿美米亚（Amemiya）的PC准则假设正确的方程有k个解释变量，我们考虑的方程有个解释变量，问题是如何选择k1以及具体的k1个解释变量的集合。在上述三个预测准则中，这是通过使的均方误差达到最小实现的，其中是Y的未来值，而是预测值。

上述三个准则都是基于预测的均方误差最小，但在估计预测的均方误差时采用的假设有所不同，因而形成各自的计算公式，孰优孰劣，并无定论，在实践中可根据所用软件提供的输出结果选用其中一个作为模型选择的准则。具体做法是比较备选的几个模型的上述三个准则都是基于预测的均方误差最小，但在估计预测的均方误差时采用的假设有所不同，因而形成各自的计算公式，孰优孰劣，并无定论，在实践中可根据所用软件提供的输出结果选用其中一个作为模型选择的准则。具体做法是比较备选的几个模型的、或PC值，选其中最小的即可。在三个预测准则的情况下，我们感兴趣的是改善预测的MSE，只要能改善，可以去掉某些变量，即便是正确模型中包括它们也在所不惜。

3. 赤池信息准则（AIC） 赤池信息准则（Akaike’s Information Criterion,AIC）是一个更一般的准则，它可以应用于任何一个可用极大似然法估计的模型。对于我们这里的应用，AIC的计算公式为与赤池信息准则类似的还有施瓦茨信息准则（Schwarz information criterion，SIC）：上述两个准则与前述准则一样，可用于模型选择，其值也是越小越好。

六. 检验误设定的RESET方法 • 前面给出了选择解释变量的四条原则。可是，有时这些原则不能提供足够的信息使研究人员确信其设定是最恰当的，在这种情况下，可考虑使用一些更正规的检验方法来比较不同估计方程的性质。这类方法相当多，这里就不一一列出，仅介绍拉姆齐（J. B. Ramsey）的回归设定误差检验法（RESET法, Regression Specification Error Test）。

RESET检验法的思路 RESET检验法的思路是在要检验的回归方程中加进等项作为解释变量，然后看结果是否有显著改善。如有，则可判断原方程存在遗漏有关变量的问题或其它的误设定问题。直观地看，这些添加的项是任何可能的遗漏变量或错误的函数形式的替身，如果这些替身能够通过F检验, 表明它们改善了原方程的拟合状况，则我们有理由说原方程存在误设定问题。另一方面, 等项形成多项式函数形式，多项式是一种强有力的曲线拟合装置，因而如果存在（函数形式方面的）误设定，则用这样一个装置可以很好地代表它们。

RESET检验法的步骤 • 拉姆齐RESET检验的具体步骤是： • (1) 用OLS法估计要检验的方程，得到 • (2) 由上一步得到的值（i=1,2,…,n），计算，然后用OLS法估计： • (3) 用F检验比较两个方程的拟合情况（类似于上一章中联合假设检验采用的方法），如果两方程总体拟合情况显著不同，则我们得出原方程可能存在误设定的结论。使用的检验统计量为：

其中：RSSM为第一步中回归（有约束回归）的残差平方和，RSS为第二步中回归（无约束回归）的残差平方和，M为约束条件的个数，这里是M=3。其中：RSSM为第一步中回归（有约束回归）的残差平方和，RSS为第二步中回归（无约束回归）的残差平方和，M为约束条件的个数，这里是M=3。 • 应该指出的是，拉姆齐RESET检验仅能检验误设定的存在，而不能告诉我们到底是哪一类的误设定，或者说，不能告诉我们正确的模型是什么。但该方法毕竟能给出模型误设定的信号，以便我们去进一步查找问题。另一方面，如果模型设定正确，RESET检验使我们能够排除误设定的存在，转而去查找其它方面的问题。

第二节多重共线性 应用OLS法的一个假设条件是；矩阵X的秩=K+1<N。即自变量之间不存在严格的线性关系，观测值个数大于待估计的参数的个数。这两条无论哪一条不满足，则OLS估计值的计算无法进行，估计过程由于数学原因而中断，就象分母为0一样。这两种情况都很罕见。然而，自变量之间存在近似的线性关系则是很可能的事。当某些解释变量高度相关时，尽管估计过程不会中断，但会产生严重的估计问题，我们称这种现象为多重共线性。解释变量间存在严格线性相关关系时，称为完全的多重共线性。

一定义 在实践中，若两个或多个解释变量高度线性相关，我们就说模型中存在多重共线性。二后果 1. 不改变参数估计量的无偏性；这是因为，尽管解释变量之间存在多重共线性，但并不影响扰动项和解释变量观测值的性质，故仍有事实上，对于不完全多重共线性，参数估计量仍为BLUE。

2. 但各共线变量的参数的OLS估计值方差很大，即估计值精度很低。（BLUE表明在各线性无偏估计量中方差最小，但不等于方差的值很小。） 3 由于若干个X变量共变，它们各自对因变量的影响无法确定。 4. 各共线变量系数估计量的t值低，使得犯第Ⅱ类错误的可能性增加。由于各共线变量的参数的OLS估计值方差大，因而系数估计量的t值低，使得我们犯第Ⅱ类错误（接受错误的原假设H0: βj=0）的可能性增加，容易将本应保留在模型中的解释变量舍弃了。

三多重共线性的判别和检验 • 1．根据回归结果判别 • 判别是否存在多重共线性的最简单方法是分析回归结果。 • 如果发现: • 系数估计值的符号不对； • 某些重要的解释变量t值低，而R2不低； • 当一不太重要的解释变量被删除后，回归结果 • 显著变化。 • 则可能存在多重共线性。其中上述第二种现象是多重共线性存在的典型迹象。 • 此方法简便易行，因而是实践中最常用的方法，缺点是无法确诊。

2．使用相关矩阵检验 • 统计软件一般提供各解释变量两两之间的相关系数矩阵，如发现某些相关系数高（绝对值高于0.8或0.90），则表明多重共线性存在。但即使解释变量两两之间的相关系数都低，也不能排除存在多重共线性的可能性。 • 3．通过条件指数检验 • 条件指数（Condition index）或条件数Condition number）是X’X矩阵的最大和最小特征根之比的平方根，条件指数高，表明存在多重共线性。至于什么程度算高，也没有一个绝对的标准。通常认为大于10即存在多重共线性，大于30表明存在严重多重共线性。大多数统计软件提供此检验值。

4. 使用VIF检验 VIF是方差膨胀因子的英文 (Variance Inflation Factors) 缩写, 这是一种比较正规的检验方法。该方法通过检查指定的解释变量能够被回归方程中其它全部解释变量所解释的程度来检测多重共线性。方程中每个解释变量有一个VIF，该VIF是关于多重共线性使相应的系数估计值的方差增大了多少的一个估计值。高VIF表明多重共线性增大了系数估计值的方差，从而产生一个减小了的t值。 VIF检验的具体步骤如下：

设原方程为： • Y = 0 + 1X1 + 2X2 + … + kXk + u • 我们需要计算K个不同的VIF，每个Xi一个。为指定Xi计算VIF涉及以下三步： • （1）Xi 对原方程中其它全部解释变量进行OLS回归，例如，若i=1，则回归下面的方程： • X1 = 1 + 2X2 + 3X3 +… + kXk +v • （2）计算方差膨胀因子(VIF)： • 其中Ri2是第一步辅助回归的决定系数。

（3）分析多重共线性的程度 • VIF越高, 多重共线性的影响越严重。 • 由于没有VIF临界值表，我们只能使用经验法则： • 若，则存在严重多重共线性。 • 也有人建议用VIF>10作为存在严重多重共线性的标准, 特别在解释变量多的情形应当如此。 • 需要指出的是，所有VIF值都低，并不能排除严重多重共线性的存在，这与使用相关系数矩阵检验的情况相似。

四解决多重共线性的方法 • 思路：加入额外信息。具体方法有以下几种： • 增加数据 • 对模型施加某些约束条件 • 删除一个或几个共线变量 • 将模型适当变形 • 1．增加数据 • 多重共线性实质上是数据问题，因此，增加数据就有可能消除或减缓多重共线性，具体方法包括增加观测值、利用不同的数据集或采用新的样本。

例：需求函数Yt = β1+β2Xt+β3Pt+ ut • 在时间序列数据中，收入（X）和价格（P）往往是高度相关的，用时间序列数据估计往往会产生多重共线性。然而，在横截面数据中，则不存在这个问题，因为某个特定时点P为常数。如果取一横截面样本（如从5000个家庭取得的数据），则可用来估计 • Yi = α1+α2Xi+ ui • 然后将得到的估计值作为一个约束条件（β2 = • ）施加于时间序列数据的回归计算中，即估计 • Yt- Xt =β1+β3Pt+ ut，得到，。

2．对模型施加某些约束条件 • 在存在多重共线性的模型中，依据经济理论施加某些约束条件，将减小系数估计量的方差，如在Cobb—Douglas生产函数中加进规模效益不变的约束，可解决资本和劳动的高度相关而引起的多重共线性问题。 • 3．删除一个或几个共线变量 • 这样做，实际上就是利用给定数据估计较少的参数，从而降低对观测信息的需求，以解决多重共线性问题。删除哪些变量，可根据假设检验的结果确定。 • 应注意的是，这种做法可能会使得到的系数估计量产生偏倚，因而需要权衡利弊。

4．将模型适当变形 • 例1．某商品的需求函数为： • 其中：Q = 需求量， X = 收入， • P = 该商品的价格， P* = 替代商品的价格 • 在实际数据中，P和P*往往呈同方向变动，它们之间高度相关，模型存在多重共线性。 • 如果我们仅要求在知道两种商品的相对价格变动时，对需求量进行预测，则可将需求函数变为： • 就可以解决多重共线性问题。

例2．有滞后变量的情形 • Yt = β1+β2Xt+β3 Xt-1 + ut • 一般而言，Xt和Xt –1往往高度相关，将模型变换为： • Yt = β1+β2（Xt- Xt –1）+β3´Xt -1+ ut • 其中β3´=β3 +β2 • 经验表明：△Xt和Xt –1的相关程度要远远小于和Xt和Xt –1的相关程度，因而这种变换有可能消除或减缓多重共线性。

5．主成分法 • 可将共线变量组合在一起形成一个综合指数(变量)，用它来代表这组变量。构造综合指数的最常用方法是主成分法。主成分法的计算相当复杂，这里不做介绍。 • 主成分的特点是，各主成分之间互不相关，并且，用很少几个主成分就可以解释全部X变量的绝大部分方差，因而在出现多重共线性时，可以用主成分替代原有解释变量进行回归计算，然后再将所得到的系数还原成原模型中的参数估计值。

五. 处理多重共线性问题的原则 • 1. 多重共线性是普遍存在的，轻微的多重共线性问题可不采取措施。 2. 严重的多重共线性问题，一般可根据经验或通过分析回归结果发现。如影响系数的符号，重要的解释变量t 值很低。要根据不同情况采取必要措施。 3. 如果模型仅用于预测，则只要拟合好，可不处理多重共线性问题，存在多重共线性的模型用于预测时，往往不影响预测结果。

第三节异方差性 回顾我们应用OLS法所需假设条件，其中大部分是有关扰动项的统计假设，它们是：（1）E(ut)=0, t=1,2,…,n. 扰动项均值为0 （2）Cov(ui,uj) = E(uiuj) =0, i≠j. 扰动项相互独立（3）Var(ut) = E(ut²) = 2, t=1,2,…,n. 常数方差（4）ut～N(0,2). 正态性对于（1），我们可论证其合理性。而第（4）条，也没有多大问题。大样本即可假定扰动项服从正态分布。而对于（2），（3）两条，则无法论证其合理性。实际问题中，这两条不成立的情况比比皆是。下面将讨论它们不成立的情况，即异方差性和自相关的情形。

一异方差性及其后果 • 1．定义 • 若Var(ut) = = 常数的假设不成立，即 • Var(ut) = ≠常数，则称扰动项具有异方差性。 • 2．什么情况下可能发生异方差性问题？ • 解释变量取值变动幅度大时，常数方差的假设往往难以成立。异方差性主要发生在横截面数据的情况，时间序列问题中一般不会发生，除非时间跨度过大。

例：Yi = α+βXi+ ui 其中：Y=指定规模和组成的家庭每月消费支出 X=这样的家庭的每月可支配收入设X的N个观测值取自一个家庭可支配收入的横截面样本。某些家庭接近于勉强维持生存的水平，另一些家庭则有很高的收入。不难设想，低收入家庭的消费支出不大可能离开他们的均值E(Y)过远，太高无法支持，太低则消费将处于维持生存的水平之下。因此，低收入家庭消费支出额的波动应当较小，因而扰动项具有较小的方差。而高收入家庭则没有这种限制，其扰动项可能有大得多的方差。这就意味着异方差性。

3．异方差性的后果 • （1）参数估计量不再具有最小方差的性质 • 异方差性不破坏OLS估计量的无偏性，但不再是有效的。 • 事实上，异方差性的存在导致OLS估计量既不是有效的，也不具有渐近有效性。 • 这有两层含义。首先，小样本性质—BLUE的丧失意味着存在着另外的线性无偏估计量，其抽样方差小于OLS估计量的方差。其次，渐近有效性这一大样本性质的丧失，意味着存在着另外的一致估计量，其抽样分布当样本容量增大时，向被估计的回归参数收缩的速度要比OLS估计量快。

（2）系数的显著性检验 • 更为严重的是，在异方差性的情况下， • 矩阵主对角元素不再是OLS估计量方差的无偏估计量，从而导致系数的置信区间和假设检验结果不可信赖。 • 例如在双变量模型中，如果倾向于低估的真实方差，则置信区间可能要比实际的窄，给我们一个错误信息，好象得到的点预测值很精确。同样，在异方差性的情况下，假设检验也会以错误的结果将我们带入歧途。例如，被检验的系数实际上不是统计上显著的，而由于矩阵的主对角元素低估了OLS估计量的相应方差，检验结果却表明其显著。

二异方差性的检验 异方差性后果的严重性意味着我们在实践中必须了解是否存在异方差性。常用的检验方法有：斯皮尔曼等级相关检验法(Spearman Rank Relation test) 戈德弗尔德—匡特检验法(Goldfeld Quandt test) 格里瑟检验法（Glesjer test）帕克检验法（Park test）怀特检验法 (White’s General Heteroscedasticity test) 布鲁奇－帕根检验法(Breusch-Pagan Test)

1.戈德弗尔德——匡特检验法 • 基本思路：假定随Yt的数值大小变动。 • 检验步骤： • （1）将数据分为三组：小Yt值组，中Yt值组，大Yt值组（数据项大致相等） • （2）对小Yt值组估计模型，给出 • （3）对大Yt值组估计模型，给出

（4） H0： • H1：（或） • 检验统计量为F0 =～F（n3-k-1, n1-k-1） • 若F0＞Fc，则拒绝H0，存在异方差性。

例：S=α+βY + u 其中：S=储蓄 Y=收入 设 1951—60年， =0.01625 1970—79年， =0.9725 F0 = 0.9725/0.01625=59.9 查表得: d.f.为（8，8）时，5% Fc=3.44 ∵F0＞Fc 因而拒绝H0。结论：存在异方差性。

第五章 模型的建立与估计中的问题及对策