1.33k likes | 1.46k Views
第五章 古典线性回归模型. 问题的提出. 数据背后存在着某种规律性 最小二乘保证了 3 条性质 —— 残差和 =0 ,残差与自变量无关、残差与拟合值无关 关于数据生成过程的初步假定 —— 数据生成过程 = 确定性部分 + 非确定性部分 样本一般说来总会反映一些总体的性质,于是对非确定性部分 —— 随机扰动项 —— 作出类似于最小二乘残差的假设. 数据背后存在着某种规律性. 现实世界中本身存在着经济规律,正是这些经济规律的作用,通过现实经济生活又显现出一些复杂现象来。这些现象既有某种确定性(规律性的一面),有具有某种不确定性(随机性的一面)。
E N D
问题的提出 • 数据背后存在着某种规律性 • 最小二乘保证了3条性质——残差和=0,残差与自变量无关、残差与拟合值无关 • 关于数据生成过程的初步假定——数据生成过程=确定性部分+非确定性部分 • 样本一般说来总会反映一些总体的性质,于是对非确定性部分——随机扰动项——作出类似于最小二乘残差的假设
数据背后存在着某种规律性 • 现实世界中本身存在着经济规律,正是这些经济规律的作用,通过现实经济生活又显现出一些复杂现象来。这些现象既有某种确定性(规律性的一面),有具有某种不确定性(随机性的一面)。 • 计量经济学研究假定现实数据中存在某种规律性——数据背后存在一个数据产生的过程,即经济现象后面存在规律性。 • 挖掘数据后面的规律乃是计量经济学的己任。
最小二乘保证了4条性质 • 1、残差和=0 • 2、残差与自变量不相关 • 3、残差与因变量拟合值不相关 • 4、因变量实际值与拟合值的均值相等 • 即:
解决问题的思路 • 数据生成过程=确定性部分+非确定性部分 • 关于数据生成过程的初步假定——提出线性模型 • 从总体与样本的关系看残差与随机扰动项的关系 • 对非确定性部分——随机扰动项——作出6项假设
关于数据生成过程的初步假定 • 虽然数据并不一定满足最小二乘估计直线这些性质,但仍可依据对现实的抽象,假定背后有一个数据生成的过程 • yi=a+b1xi1+b2xi2+b3xi3++bkxik+ui • (i=1,2, ,n) • 仅仅是一个初步假定(假定:数据生成过程=确定性部分+非确定性部分),还须进一步对ui作出假定
从总体与样本的关系看残差与随机扰动项 • 最小二乘估计直线有4条性质。性质中的残差是一个样本的残差。 • 从总体与样本的关系看,数据是总体的一个子集,自然u^i也是ui的一个子集,而ui是总体的随机扰动项。 • 样本一般说来总会反映一些总体的性质,于是对随机扰动项作出类似最小二乘估计残差的假设。 • 从而完成了数据生成过程的假设。
第一节 有关随机扰动项ui的古典模型假设 • 随机扰动项ui是一个有关总体属性的随机变量,下面对ui的分布,依据最小二乘估计得到的残差(样本)的性质作出类似的假设: • 假设1 随机扰动项ui垂直波动 • 假设2 残差分布均值为零 • 假设3 随机扰动项方差一定 • 假设4 随机扰动项(误差)相互独立 • 假设5 所有xi都是可观察的并且独立于ui • 假设6 数据产生过程是线性的
假设1 随机扰动项ui垂直波动 (Vertical Error Jumps) • 样本数据点只沿着yi的方向在真实直线附近垂直跳动,即这种波动围绕真实直线上下波动。对于每一个xi,yi总是垂直变动,没有横向偏移。这也就是说观察到的xi是准确无误的,实际中的xi没有丝毫偏差,而对应于xi的yi却存在垂直的偏差。 • 误差变量模型——xi存在随机偏差(Errorsin Variable Model)(第十五章中讨论)
Y A B X x1 x2 x3 x4 x5 x6 古典线性模型中只有因变量存在垂直波动
Y A B X x1 x2 x3 x4 x5 x6 变量误差模型——自变量也存在随机变动 yi=a+b(xi+i)+ui a+bxi
假设2 残差分布均值为零(Zero Mean Error Displacement) • E(ui)=0 (i=1,2,….,n) • 必须注意:样本残差的数学期望 E(u^i)=0,是最小二乘保证了的,只要使用最小二乘法,就一定会有样本的残差均值为零。 • 而E(ui)=0则是一个假设,假设总体残差(随机扰动项)ui的数学期望为零 • 即总体随机扰动项对回归估计没有影响。或者消除了随机变动,规律性就呈现出来了。
假设3 随机扰动项方差一定(Constant Error Variance) • Var(ui)=2 (i=1,2,……,n) • 表明对所有的ui,变动的方差是相同的,称为同方差。 • 否则,Var(ui)=2i (i=1,2,……,n) • Var(ui)=[ui-E(ui)]2=2i • (i=1,2,……,n) • 2i是一个变量(随I而变)。这种情形称为异方差。(在第十章中讨论)
同方差 u Y a + b x X x1 x2 随着x变化随机扰动项u的方差不变
异方差 u 随着x增加随机扰动项方差增大 Y X x1 x2
假设4随机扰动项(误差)相互独立 (Error Independent) • ui与uj不相关,也就是说,对所有的i<>j,有E(ui,uj)=0 • 由假设2,E(ui)=0,E(uj)=0,因此,COV(ui,uj)=E[ui-E(ui)][uj-E(uj)]=E(ui,uj) • 由假设4,COV(ui,uj) =E(ui,uj)=0 • 自然有ui与uj不相关(i< >j),且有 • E(ui,ui+1)= E(ui-1,ui)=0 • 如果E(ui,uj) < > 0,称为随机扰动项(误差)自相关(Autocorrelation)。(在第十一章中讨论)
假设5 所有xi都是可观察的 并且独立于ui • 即对所有i,j来说COV(xi,uj)=0 • (The x’ are revealed and independent of ui) • 对所有的i,j来说,COV(xi,uj)=0 • 这保证了ui的取值与xj的取值没有任何关系,同时xi与其它xj也没有关系。现实经济活动中这条假设是否满足要大打折扣。例如下述的消费与GNP的关系。 • 否则容易造成多重共线,造成危害。(已经作了部分讨论)
消费与GNP的关系 • Ci = a+bGNPi+ui (1) • GNPi = Ci+Ii+Gi (2) • 其中Ci为消费,Ii为投资,Gi为政府支出,GNPi为国民生产总值,ui为随机扰动项。 • ui的变化必然引起Ci变化,从而引起GNPi发生变化。即ui与GNPi相关。 • 这是一个联立方程模型。Gi和Ii为外生变量,将(1)代入(2)可用回归方法解决
假设6 数据产生过程是线性的 (Linearity of the Model) • yi=a+b1xi1+b2xi2+b3xi3++bkxik+ui • (i=1,2, ,n) • 因变量yi=自变量的线性组合再加上一个随机扰动项。自然,因变量yi也是一个随机变量,于是必须对yi的分布做一番讨论。 • 而a、b等回归估计系数乃是由yi和xij估计出来的,自然也需对它们的性质作进一步的讨论。关于它们性质的讨论十分有用,影响到估计得到规律(回归方程)的检验——可靠性。 • 如果是非线性就不能采用最小二乘法。
第二节 古典假设的一些内涵 • 一、yi的分布 • 二、高斯-马尔科夫定理:最小二乘估计量的样本分布 • 三、一元模型参数估计量的性质 • 四、二元模型参数估计量的性质
问题的提出 • 因变量yi=自变量的线性组合再加上一个随机扰动项,自然因变量yi也是一个随机变量,于是必须对yi的分布做一番讨论。 • 而a、b等回归估计系数乃是由yi和xij估计出来的(可以证明它们是yi的线性组合),自然也需对它们的性质作进一步的讨论。关于它们性质的讨论十分有用,影响到估计得到规律(回归方程)的检验——可靠性和预测。
解决问题的思路 • 根据古典模型的假设,推断出因变量的性质 • 在通过高斯-马尔科夫定理精确地讨论最小二乘估计量的性质
关于随机扰动项的6项假定 假设1 随机扰动项ui垂直波动 自变量X是确定性变量 假设2 残差分布均值为零 ui=0 假设3 随机扰动项方差一定 Var(ui)=2 假设4 随机扰动项(误差)相互独立 E(ui,uj)=0uiuj=0 (i<>j) 假设5 所有xi都是可观察的并且独立于ui E(x,uj)=0xuj=0 假设6 数据产生过程是线性的 Y=XB+u
一、yi的分布 • 根据以上6项假设,模型: • yi=a+b1xi1+b2xi2+b3xi3++bkxik+ui (i=1,2, ,n) • 中的的各个观察值的方差=2,数学期望=0,相互独立,即ui服从i.i.d(0, 2) • i.i.d是 • Identical Independent Distribution • 指的是独立同分布。但是,并没有指出它是何种具体的分布形式。
yi的分布的数字特征 • E(yi)=E(a+b1xi1+b2xi2+b3xi3++bkxik+ui) • 因为a,b1,b2,b3,bk,(参数) 和xi1,xi2,xi3,xik(确定性变量)都不是随机变量(而 a,b1,b2,b3,bk的估计量才是随机变量),所以 • E(yi)=a+b1xi1+b2xi2+b3xi3++bkxik • Var(yi)=Var(a+b1xi1+b2xi2+b3xi3++bkxik+ui) • Var(yi)=2 ,所以yi服从 • i.i.d(a+b1xi1+b2xi2+b3xi3++bkxik,2) • Cov(yi,yj)=0
Var(Yi) Y X Yi分布图 E(yi)是一条总体回归直线 :E(yi)=a+b1x1+……+bkxk 估计得到的回归直线在它的附近 E(yi)=a+b1x1+……+bkxk 2 2 2
E(yi)是一条总体回归直线 :E(yi)=a+b1x1+……+bkxk 估计得到的回归直线在它的附近 Var(Yi) E(yi)=a+b1x1+……+bkxk Y X
二、高斯-马尔科夫定理最小二乘估计量的样本分布二、高斯-马尔科夫定理最小二乘估计量的样本分布
问题的提出 • 对于设计模型: • yi=a+b1xi1+b2xi2+b3xi3++bkxik+ui • (i=1,2, ,n) • 根据一组样本值,经最小二乘估计可以得到一条直线,得到参数的估计值,根据另一组样本又会得到另一条直线,另一组参数的估计值。如果给出多个样本,就会得到多组参数估计值。 • 必须指出,每一条直线必定或多或少地反映了总体的性质,就象子女象它们的父母,带来了总体(母体)的信息,位于总体回归直线附近。 • 我们正是这样假设的数据生成过程。 • 估计得到的参数是一个随机变量(随抽样不同而不同),因此有必要讨论参数估计量的性质。
解决问题的思路 • 从一元模型入手,接着再讨论二元模型。分别讨论: • 1、线性估计 • 2、参数估计量的数学期望 • 3、参数估计量的方差和协方差 • 此外,还要给出它们的矩阵表示
三、一元模型参数估计量的性质 • 一元模型:yi=a+bxi+ui • 1、线性估计 • 2、辅助量wi的性质 • 3、E(b^)=b——无偏估计量 • 4、Var(b^)= ? • 5、E(a^)= a——无偏估计量 • 6、Var(a^)= ?
证明过程很烦琐, • 下面用矩阵证明它们的方差-协方差矩阵。
yi=a+b1xi1+b2xi2+b3xi3++bkxik+ui的矩阵表示yi=a+b1xi1+b2xi2+b3xi3++bkxik+ui的矩阵表示