820 likes | 1.28k Views
第四章异方差性. ● 异方差的实质 异方差产生的原因 ●异方差产生的后果 ●异方差的检验方法 ●异方差的解决方法. 回顾 6 项基本假定. ( 1 ) E(u i )=0 (随机项均值为 0 ) ( 2 ) Var(u i )= 2 (同方差) ( 3 ) Cov(u i , u j )=0 (随机项无自相关) ( 4 ) Cov(x, u i )=0 (随机项与解释变量 X 不相关) ( 5 ) u i ~ N ( 0 , σ 2 ) ( 正态性 )
E N D
第四章异方差性 • ●异方差的实质 • 异方差产生的原因 ●异方差产生的后果 ●异方差的检验方法 • ●异方差的解决方法
回顾6项基本假定 • (1)E(ui)=0 (随机项均值为0) • (2) Var(ui)=2 (同方差) • (3) Cov(ui, uj)=0(随机项无自相关) • (4)Cov(x, ui)=0(随机项与解释变量X不相关) • (5)ui~N(0,σ2) (正态性 ) • (6) (无多重共线性 ) <==>自变量间不相关
违背基本假定的解决办法 • 违反了假定1,即 可能出现 或 • 假设有如下模型: 其中 • 其中 可通过设置虚拟变量的方法解决
当 时可以证明 也可能是有偏的不一致的估计量。 • 违反假定1的原因主要是样本数据出现统计误差,以及模型设定出现偏误。因此我们应尽量使样本数据精确,使设立的模型与实际一致。 • 前者是经济统计的范畴,而后者是数理经济学重点研究的课题; • 对数据测量误差和模型设定偏误的检验可以分别通过豪斯曼检验和拉母齐检验来进行,这些检验将在后面的第8章讲到。 • 对个别数据引起的非零均值问题可以通过设置虚拟变量的方法加以解决,设置虚拟变量的方法也将在后面的第8章讲到。
基本假定违背的解决办法 • 违反了假定2,随机扰动项u不是同方差,而是异方差==>检验是否存在==>消除异方差(第4章) • 违反了假定3,随机扰动项u存在序列相关(存在自相关)==>检验是否存在==>消除自相关(第5章) • 违反了假定4,解释变量是随机变量,且与u相关 ==>随机解释变量模型==>工具变量法(第7章) • 违反了假定6,解释变量之间线性相关,存在多重共线==>检验是否存在模型技术上,只能采用逐步回归、主成分回归、岭回归等(第6章)
假定5:正态性假定 • 即使u不服从正态分布,在大样本时,OLS估计量也趋于正态分布。但是在小样本时,如果没有正态性假定,OLS估计量就不是正态分布。 • 我们知道,扰动项代表大量未明确引入回归模型的独立变量(对于被解释变量)的联合影响,但这些被略去的变量所产生的影响都较小,或者是随机的。根据中心极限定理,大量独立同分布随机变量和的分布趋于正态分布(少数情况有例外)。 • 即使变量数目不是非常大或者这些变量不是严格独立的,它们的和仍然可以服从正态分布。正是这个中心极限定理为的正态性假定提供了理论依据,故正态性假定通常也不作检验。
解决问题的思路与步骤 • 1、违反6项基本假定之一的定义——异方差、自相关、多重共线的基本概念 • 2、违反基本假定的原因 • 3、违反基本假定的后果 • 4、怎样诊断基本假定的违反——检验 • 5、消除或减弱对基本假定的违反——出现违反基本假定的补救措施和解决方法
第一节 异方差性的概念 对于模型 如果出现 即对于不同的解释变量 ,随机误差项的方差不再是常数,而互不相同,或被解释变量Y所有观测值的分散程度随解释变数X的变化而变化。则认为出现了异方差性(Heteroskedasticity)。
P(Y) Y X 同方差的含义 同方差性:对所有的 有: (5.1) 因为方差是度量被解释变量 的观测值围绕回归线 (5.2) 的分散程度,因此同方差性指的是所有观测值的 分散程度相同。
异方差图形表示 异方差性的含义 异方差指的是被解释变量Y所有观测值的分散程度 随解释变数X的变化而变化。
异方差的类型及例 异方差一般可归结为三种类型: (1)单调递增型: i2随X的增大而增大 (2)单调递减型: i2随X的增大而减小 (3)复 杂 型: i2与X的变化呈复杂形式 例 以绝对收入假设为理论假设、以截面数据为样本建立居民消费函数: Yi=0+1Xi+I 将居民按照收入等距离分成n组,取组平均数为样本观测值。
第二节 异方差性产生原因 1.模型省略了某些重要的解释变量 2.模型函数形式的设定误差 3.由于测量误差引起 4.异方差性易产生于横截面数据
(4-8) 第二节 异方差性产生原因 1、模型中省略了某些重要的解释变量假设正确的计量模型是: 假如略去 ,而采用 当被略去的 与 有呈同方向或反方向变 化的趋势时,随 的有规律变化会体现在(4-8) 式的 中。 如在上面研究家庭收入与支出的关系的例子中,未考虑家庭的年龄结构这一解释变量会产生异方差性
2.模型的函数形式设定误差 一般情况下,解释变量与被解释变量之间的关系是比较复杂的非线性关系: 在构造模型时,为了简化模型,用简单的线性模型代替了非线性关系, 这样 就会随着 X增大而逐渐扩大,造成了模型关系不准确的误差,其方差就有增大的趋势。。
3.数据的测量误差 • 样本数据的观测误差有可能随研究范围的扩大而增加,或随时间的推移逐步积累,引起随机扰动项 的方差增大;也可能随着观测技术的提高而观测误差会有所减小,引起 的方差减少。 • 例如:对生产函数 ,随企业规模(通常用K和L反映)的扩大,管理水平提高包括统计监督功能的落实,观测误差较小, 的方差也较小,因此, 具有异方差性。
4.截面数据中总体各单位的差异 • 通常认为,截面数据较时间序列数据更容易产生异方差。这是因为同一时点不同对象的差异(规模和水平),一般说来会大于同一对象不同时间的差异。 • 不过,在时间序列数据发生较大变化的情况下,也可能出现比截面数据更严重的异方差。 • 特别是一些比较大的偶然因素比如自然灾害、金融危机、政策变动等,使经济分析中经常会遇到异方差性的问题。
第三节、异方差的后果 计量经济学模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果: 1. 参数估计量非有效 OLS估计量仍然具有线性无偏性,因为,对 其普通最小二乘法估计量为:
2.无法正确估计参数的标准误差和估计区间 • 由于总体方差 的无偏估计量为: 即: • 因此,可以用 代替 ,参数估计量 的估计标准误差就成为: • 总体参数 的置信区间为 • 但是,在异方差的情况下, 是一些不同的数值,只有估计出每一个 之后才能得到系数的标准误差,这在只有一组样本观察值的情况下是无法做到的。
3.参数的显著性检验失去意义 参数的显著性检验中,在原假设 成立的情况下,参数 的t统计量 当存在异方差时,参数估计量 的方差不再是最小方差,如果仍用同方差时去估计其方差,将会低估存在异方差时的真实方差,从而低估 ,这将导致用于参数显著性检验的统计量的数值偏大,可能造成本来应该接受原假设却成为拒绝原假设的错误。于是可能本来是解释变量对被解释变量的影响不显著的,却作出影响显著的错误判断,使用检验来判断解释变量的影响的显著性将失去意义。
4.模型预测精度降低 一方面,由于上述后果,使得模型不具有良好的统计性质;必然造成被解释变量的点预测值 对均值E( )对个别值的点预测的精确度降低。 另一方面, 的预测区间为: 在推导过程中,用到了在 是同方差的情况下的 和 的方差,由于异方差性的存在,使得参数估计值的方差低估了其真实方差,从而造成参数区间估计失真。
第三节、异方差的检验 • 检验思路: 由于异方差性就是相对于不同的解释变量观测值,随机误差项具有不同的方差。那么: 检验异方差性,也就是检验随机误差项的方差与解释变量观测值之间的相关性及其相关的“形式”。 而随机扰动项是没有办法取得数据的,且每个解释变量X对应的整个总体中的所有Y也很难知道,也就很难知道相应的 ,
问题在于用什么来推断随机误差项的方差 一般的处理方法:
计量经济学检验有两种基本方法 • 图示法和解析法
图示法 • 图示法是利用残差序列绘制出各种图形,以供分析检验使用。包括: • 1、时间为X轴,残差e为Y轴的残差序列图 • 2、解释变量为X轴,被解释变量为Y轴的散点图 • 3、解释变量为X轴,残差e的绝对值(或e2)为Y轴的x-e散点图 • 常使用残差项的平方来作图
解析法 • 解析法是利用导出检验统计量的解析式,根据一些准则,进行检验。例如: • 1、检验异方差的Goldfeld-Quandt检验 • 2、检验自相关的Durbin-Watson检验 • 3、检验多重共线性的简单相关系数法 • 4、综合统计检验法等
1. 图示检验法 • 由异方差的定义可知,异方差是随机扰动项的方差随X的变化而变化,或者是被解释变量Y所有观测值的分散程度随解释变数X的变化而变化,故可以利用被解释变量Y与解释变量X的散点图; • 或者通过观察作为随机扰动项的方差的代表——残差平方 与X散点图,对异方差是否存在及其类型作直观的近似的推测 • 因此,图示检验法有残差图分析和相关图分析两种方法。
(1)相关图分析 • 方差描述随机变量相对其均值的离散程度,而异方差中被解释变量Y与随机扰动项有相同的方差,因此通过观察被解释变量Y与解释变量X的相关图,可以分析被解释变量Y的离散程度与解释变量X之间是否存在着相关关系; • 用X-Y的散点图进行判断,看是否存在明显的散点扩大、缩小或复杂型趋势(即不在一个固定的带型域中) • 建立回归模型时,为了判断模型的函数形式,一般要观察被解释变量与解释变量的相关图,同时也可以大致判断模型是否存在异方差性。
(2)残差图分析 • 虽然随机扰动项无法观测,但样本回归模型的残差在模型的参数估计之后会很容易得到,残差在一定程度上反映了随机扰动项的分布特征,因此,可以通过残差的图形对异方差性进行推断。 • 残差图分析是在利用软件对回归模型进行参数估计之后,在方程窗口点击Resids按钮,直接在计算机屏幕上可以看到残差分布图, 即e的方差随着x的变化而变化,如果残差分布图的区域逐渐变宽或变窄,或出现偏离带状区域的复杂变化,则表明存在着异方差性。 • 实际上一般是通过观察残差x-e2的散点图,对异方差是否存在及其类型作出判断。
2.斯皮尔曼(Spearman)等级相关检验法 斯皮尔曼(Spearman)等级相关相关检验思路: • 异方差的实质是ui的方差 与 相关,所以检验异方差性就是要研究 与 的相关程度,若 与 存在着较强的相关性时,肯定存在异方差性。因此,通过 与 的相关系数 便可检验的异方差性。 • 但是由于随机扰动项无法观测,因而其方差 是未知的,经济问题也无法通过对Yi的重复观测去计算 ,为此,我们可以先利用样本数据建立Y关于X 的估计回归方程,求出残差 , 便可作为 的估计值,只要检验 与 的相关性,便可推断 的异方差性。
但是,不能用简单相关系数来检验 • 因为: • 由于 (或 )的变化可以大致反映的变化, • 因此,在大样本情况下,可通过检验 (或 )与 的相关性来推测ui是否存在异方差性。 • 这样,可以改用等级相关系数来检验。
斯皮尔曼检验的具体步骤 ①利用Y和X的数据对回归直线的参数进行估计,得出残差,然后,利用命令GENR E=abs(RESID)生成残差的绝对值 序列。 ②按照递增或递减顺序评定 和X的等级,计算对应的 和X的等级之差 D;求等级相关系数: ③建立统计量: (4-16) 其自由度为n-2。
④选定某个置信度 ,由t分布表可查得临界值 ⑤进行显著性检验,若 ,则否定同方差假定,认为 与 之间存在显著的相关,即 是异方差性的,若 ,则 与 之间不存在显著的线性相关,但可能存在其他联系,这同样会导致异方差性。因为此时并不能得出“ 是同方差的”这一结论。 • 当样本容量大于30,即为大样本时,则要用Z统计量进行检验。当有多个解释变量时,可以通过分别计算 与各个解释变量之间的等级相关系数进行检验。
3.Goldfeld-Quant检验 • (1).Goldfeld-Quant检验的思路 • (2).Goldfeld-Quant检验的几何意义 • (3).Goldfeld-Quant检验具体做法 • (4).G-Q检验统计量F及其检验 • (5). Goldfeld-Quant检验适用条件
(1)Goldfeld-Quant检验的思路 • 由S·M·Goldfeld和Quandt于1965年提出的。 • 先将样本一分而二,对子样1和子样2分别作回归,然后利用两个子样的残差的方差之比构造检验统计量F进行异方差检验。这个检验统计量服从F分布。 • 递增异方差,方差之比就会远远大于1;反之, • 同方差,方差之比趋近于1 • 递减异方差,方差之比远远小于1
样本1 样本2 3n/8 n/4 3n/8 (2)Goldfeld-Quant检验的几何意义
(3)G-Q检验具体做法 • ①将n对观察值(xi,yi),按解释变量x的大小顺序排列 • ②将其中的 c = n / 4 个观察值除去,余下前后两个子样本,每个子样的个数为(n-c)/2,各自进行回归,分别计算残差平方和,自由度=(n-c)/2-k-1,k是模型中自变量个数 • ③提出假设:原假设:H0:两个子样方差相等 备择假设:H1:具有异方差性 • 进行检验
④构造F统计量 分别对上述两个部分的观察值求回归模型,由此 得到的两个部分的残差平方为 和 。 为前一部分样本回归产生的残差平方和, 为后一部分样本回归产生的残差平方和。 它们的自由度均为 , K是模型解释变量个数。
4.Park检验 • Park认为随机扰动项的方差形式为 • 2i = 2 xi eui两边取对数, ln2i =ln 2+ ln xi +ui • 令 ln2 = α • ln2i = α + ln xi +ui • 两边取对数,进行OLS。若β显著不为0,存在异方差,且找到函数形式;否则无异方差。 (1)Park检验的思想
(2)Park检验的步骤 • ①提出假设:原假设H0: • ②原总体回归模型进行回归,估计参数得拟合回归方程 ,计算残差 并计算残差平方 • ③取残差平方、解释变量X的对数 • ④用对数变换后的数据拟合回归方程 • ⑤对 作统计检验,判断异方差是否存在
5.Glejser检验 (1)检验的基本思想 由OLS法得到残差,取得绝对值,然后将| |对某个解释变量回归,根据回归模型的显著性和拟合优度来判断是否存在异方差。 (2)检验的特点 不仅能对异方差的存在进行判断,而且还能对异方差随某个解释变量变化的函数形式进行诊断。该检验要求变量的观测值为大样本。
(3)检验的步骤 ①建立模型并求 根据样本数据建立回归模型,并求残差序列 ②寻找 与 的最佳函数形式 用残差绝对值 对 进行回归,用各种函数 形式去试,如设其中 再利用判定系数、t检验、 检验等统计量确定最佳的函数形式。
③判断 用回归所得到的R2、t、 等信息选定函数形式。在此基础上进行判断,若参数 显著不为零,即认为存在异方差性,否则认为是同方差性的。 Park检验和Glejser检验的最大优点是,不仅回答了是否存在异方差性,同时也给出了异方差形式的信息,这个信息对于消除扰动项的异方差是很重要的。