260 likes | 386 Views
现实的经济问题不可能都满足所有经典假设 , 在接下来的三章 , 将研究违背经典假设的情形 : 第 8 章 多重共线性 ; 假设 6 第 9 章 序列相关性 ; 假设 4 第 10 章 异方差性 ; 假设 5 研究思路 : 1. 问题的性质是什么 ? 2. 出现这种问题的后果是什么 ? 3. 怎样诊断 ? 4. 如何补救 ?. 第 8 章 多重共线性.
E N D
现实的经济问题不可能都满足所有经典假设,在接下来的三章,将研究违背经典假设的情形:现实的经济问题不可能都满足所有经典假设,在接下来的三章,将研究违背经典假设的情形: 第8章 多重共线性;假设6 第9章 序列相关性;假设4 第10章 异方差性;假设5 研究思路: 1.问题的性质是什么? 2.出现这种问题的后果是什么? 3.怎样诊断? 4.如何补救?
第8章 多重共线性 假设6:任何一个解释变量都不是其他解释变量的完全线性函数. 完全多重共线性违背了假设6,但完全多重共线性是很少见的,在实际中常常出现不完全多共线性,不完全多共线性虽然没有违背假设6,但仍然会导致很严重问题.
出现完全多重共线性的估计问题 多变量回归模型的偏回归系数要求其它变量保持不变,而完全共线性注定了变量之间的共变性,因此带来破坏性的后果:无法估计模型参数,而且参数估计的方差无穷大。
以两个解释变量的回归模型为例,假定回归模型为:以两个解释变量的回归模型为例,假定回归模型为: 如果采用OLS估计,则有: 根据最小平方和原则,并求解正规方程组,可得到:
如果X3与X2存在完全共线性,即 则: 因此,存在完全共线性时,不能利用OLS估计参数,参数的方差变为无限大。
完全多重共线性出现时,应剔除其中的一个变量,因为这两个变量没有本质差异.完全多重共线性出现时,应剔除其中的一个变量,因为这两个变量没有本质差异. 完全多重共线性的一种特殊情形:应变量与自变量之间存在完全共线性:将与应变量相关的变量(支配变量)作为自变量而被包含在回归方程中. 后果:导致完全掩盖方程中所有其它自变量的影响. 例如:将鞋厂使用的原材料数量引入该行业的生产函数中,会导致原材料变量出现很高的t统计值,而劳动和资本出现不显著的t统计值. 这里原材料变量为支配变量,与鞋子的生产量完全相关.P140
8.1.2 不完全多重共线性 虽然解释变量之间不存在完全共线性,但是一些解释变量之间高度相关。例如: 样本向量X1与X3的相关系数为0.9959: X3=5X1+u
不完全多重共线性是解释变量之间一种强的线性关系,线性关系越强,就越可能存在显著的多重共线性不完全多重共线性是解释变量之间一种强的线性关系,线性关系越强,就越可能存在显著的多重共线性 • 在一个给定的方程中, 解释变量之间是否存在不完全多重共线性,取决于变量之间的理论关系和所选取的特定样本. • 例如回归模型中引入多项式项或滞后变量 : 消费不仅受当期可支配收入的影响、也受前期可支配收入的影响。 • 例如做电力消费对收入和住房面积的回归. 所以,多重共线性是一种样本现象,也是一种理论现象.
多重共线性仅对解释变量之间的线性关系而言,解释变量之间还可能存在非线性关系.如多项式回归.多重共线性仅对解释变量之间的线性关系而言,解释变量之间还可能存在非线性关系.如多项式回归.
多重共线性产生的原因 • 1、数据采集所用的方法。例如,抽样限于总体中诸回归元所取值的一个有限制的范围内。 • 2、模型或从中取样的总体受到约束。如做电力消费对收入和住房面积的回归. • 3、模型设定。例如回归模型中引入多项式项或滞后变量 。消费不仅受当期可支配收入的影响、也受前期可支配收入的影响。 • 4、过度拟合的模型。这种情况出现在模型的解释变量个数大于观测次数。
多重共线性的经济解释: (1)经济变量在时间上有共同变化的趋势。如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。当这些变量同时进入模型后就会带来多重共线性问题。 (2)解释变量与其滞后变量同作解释变量。
8.2 多重共线性产生的后果 当存在不完全共线性时,普通最小二乘估计量仍然是最优线性无偏估计量。 (1)无偏性是一个重复抽样的性质 (2)最小方差并不意味着方差很小 (3)多重共线性本质上是一个样本回归现象
8.2.1 多重共线性产生的后果 (1)OLS估计量仍然是无偏的 (2)估计量的方差和标准差将会增大。 (3)多重共线性下的t统计量会变小。 (4) 估计量对模型设定的变化变得及其敏感。 (5)方程的整体拟合程度以及不存在多重共线性的变量的参数估计几乎不受影响。 如果目的是预测,则多重共线性不是问题,R2值越高,预测越准。
8.3 多重共线性的诊断 • 克曼塔(Kmenta)的忠告:1、多重共线性是一个程度问题而不是有无的问题2、多重共线性是一种样本现象也是一种理论现象。 给定方程的多重共线性的严重程度随样本的不同而不同;对于给定的样本,依赖数据导向技术来判断多重共线性的严重程度. 而解决多重共线性的策略则依赖于方程的理论基础,即找到一组理论上相关并且统计上不存在多重共线性的变量.
8.3.1 较高的简单相关系数 目前还没有一个被普遍接受的检验多重共线性的统计量,只能通过观察估计方程的特征,判断其严重程度. 1、 高而显著的t值少 2、回归元之间有高度的两两相关,但在多变量模型中,简单相关系数只是多重共线性存在的充分而非必要条件 3、检查偏相关(一种辅助手段)
8.3.2 较高的方差膨胀因子(VIF) 用VIF测量多重共线性受到批评:P146
8.4 多重共线性的补救措施 8.4.1 什么也不做 理由一、如果t统计量仍然显著,参数的符号也和预期的一致,则不用补救; 理由二、剔除变量有可能导致设定偏误,后果可能更严重; 理由三、出于理论上的考虑,重新回归会导致设定误差。多重共线性本质上由样本引起。 所以,什么也不做,除非是极其严重的多重共线性
8.4.2 去掉多余的变量 删除回归模型中引起多重共线性,本质上测量同一事物的两个或多个变量。如把可支配收入和GDP同时作为解释变量,测量的都是收入;如总人口和可支配收入都测量同一对象—总的市场规模。 例:P147: 如何确定应该剔除的变量:理论。
当样本容量增大时, 增大,方差将减小,可以提高参数估计的精度。 8.4.3 增加样本容量 如果多重共线性是由样本引起,增加样本容量可以减少多重共线性的程度。以三变量回归方程为例,参数估计值的方差为:
8.5 最好不要修正多重共线性的实例 P148
习题 • 2、3、4、5、6、7、9 • 其余课后作业。