1 / 133

第五章 古典线性回归模型

第五章 古典线性回归模型. 问题的提出. 数据背后存在着某种规律性 最小二乘保证了 3 条性质 —— 残差和 =0 ,残差与自变量无关、残差与拟合值无关 关于数据生成过程的初步假定 —— 数据生成过程 = 确定性部分 + 非确定性部分 样本一般说来总会反映一些总体的性质,于是对非确定性部分 —— 随机扰动项 —— 作出类似于最小二乘残差的假设. 数据背后存在着某种规律性. 现实世界中本身存在着经济规律,正是这些经济规律的作用,通过现实经济生活又显现出一些复杂现象来。这些现象既有某种确定性(规律性的一面),有具有某种不确定性(随机性的一面)。

mason
Download Presentation

第五章 古典线性回归模型

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第五章 古典线性回归模型

  2. 问题的提出 • 数据背后存在着某种规律性 • 最小二乘保证了3条性质——残差和=0,残差与自变量无关、残差与拟合值无关 • 关于数据生成过程的初步假定——数据生成过程=确定性部分+非确定性部分 • 样本一般说来总会反映一些总体的性质,于是对非确定性部分——随机扰动项——作出类似于最小二乘残差的假设

  3. 数据背后存在着某种规律性 • 现实世界中本身存在着经济规律,正是这些经济规律的作用,通过现实经济生活又显现出一些复杂现象来。这些现象既有某种确定性(规律性的一面),有具有某种不确定性(随机性的一面)。 • 计量经济学研究假定现实数据中存在某种规律性——数据背后存在一个数据产生的过程,即经济现象后面存在规律性。 • 挖掘数据后面的规律乃是计量经济学的己任。

  4. 最小二乘保证了4条性质 • 1、残差和=0 • 2、残差与自变量不相关 • 3、残差与因变量拟合值不相关 • 4、因变量实际值与拟合值的均值相等 • 即:

  5. 解决问题的思路 • 数据生成过程=确定性部分+非确定性部分 • 关于数据生成过程的初步假定——提出线性模型 • 从总体与样本的关系看残差与随机扰动项的关系 • 对非确定性部分——随机扰动项——作出6项假设

  6. 关于数据生成过程的初步假定 • 虽然数据并不一定满足最小二乘估计直线这些性质,但仍可依据对现实的抽象,假定背后有一个数据生成的过程 • yi=a+b1xi1+b2xi2+b3xi3++bkxik+ui • (i=1,2, ,n) • 仅仅是一个初步假定(假定:数据生成过程=确定性部分+非确定性部分),还须进一步对ui作出假定

  7. 从总体与样本的关系看残差与随机扰动项 • 最小二乘估计直线有4条性质。性质中的残差是一个样本的残差。 • 从总体与样本的关系看,数据是总体的一个子集,自然u^i也是ui的一个子集,而ui是总体的随机扰动项。 • 样本一般说来总会反映一些总体的性质,于是对随机扰动项作出类似最小二乘估计残差的假设。 • 从而完成了数据生成过程的假设。

  8. 第一节 有关随机扰动项ui的古典模型假设 • 随机扰动项ui是一个有关总体属性的随机变量,下面对ui的分布,依据最小二乘估计得到的残差(样本)的性质作出类似的假设: • 假设1 随机扰动项ui垂直波动 • 假设2 残差分布均值为零 • 假设3 随机扰动项方差一定 • 假设4 随机扰动项(误差)相互独立 • 假设5 所有xi都是可观察的并且独立于ui • 假设6 数据产生过程是线性的

  9. 假设1 随机扰动项ui垂直波动 (Vertical Error Jumps) • 样本数据点只沿着yi的方向在真实直线附近垂直跳动,即这种波动围绕真实直线上下波动。对于每一个xi,yi总是垂直变动,没有横向偏移。这也就是说观察到的xi是准确无误的,实际中的xi没有丝毫偏差,而对应于xi的yi却存在垂直的偏差。 • 误差变量模型——xi存在随机偏差(Errorsin Variable Model)(第十五章中讨论)

  10. Y A B X x1 x2 x3 x4 x5 x6 古典线性模型中只有因变量存在垂直波动

  11. Y A B X x1 x2 x3 x4 x5 x6 变量误差模型——自变量也存在随机变动 yi=a+b(xi+i)+ui a+bxi

  12. 假设2 残差分布均值为零(Zero Mean Error Displacement) • E(ui)=0 (i=1,2,….,n) • 必须注意:样本残差的数学期望 E(u^i)=0,是最小二乘保证了的,只要使用最小二乘法,就一定会有样本的残差均值为零。 • 而E(ui)=0则是一个假设,假设总体残差(随机扰动项)ui的数学期望为零 • 即总体随机扰动项对回归估计没有影响。或者消除了随机变动,规律性就呈现出来了。

  13. 假设3 随机扰动项方差一定(Constant Error Variance) • Var(ui)=2 (i=1,2,……,n) • 表明对所有的ui,变动的方差是相同的,称为同方差。 • 否则,Var(ui)=2i (i=1,2,……,n) • Var(ui)=[ui-E(ui)]2=2i • (i=1,2,……,n) • 2i是一个变量(随I而变)。这种情形称为异方差。(在第十章中讨论)

  14. 同方差 u Y a + b x X x1 x2 随着x变化随机扰动项u的方差不变

  15. 异方差 u 随着x增加随机扰动项方差增大 Y X x1 x2

  16. 假设4随机扰动项(误差)相互独立 (Error Independent) • ui与uj不相关,也就是说,对所有的i<>j,有E(ui,uj)=0 • 由假设2,E(ui)=0,E(uj)=0,因此,COV(ui,uj)=E[ui-E(ui)][uj-E(uj)]=E(ui,uj) • 由假设4,COV(ui,uj) =E(ui,uj)=0 • 自然有ui与uj不相关(i< >j),且有 • E(ui,ui+1)= E(ui-1,ui)=0 • 如果E(ui,uj) < > 0,称为随机扰动项(误差)自相关(Autocorrelation)。(在第十一章中讨论)

  17. 假设5 所有xi都是可观察的 并且独立于ui • 即对所有i,j来说COV(xi,uj)=0 • (The x’ are revealed and independent of ui) • 对所有的i,j来说,COV(xi,uj)=0 • 这保证了ui的取值与xj的取值没有任何关系,同时xi与其它xj也没有关系。现实经济活动中这条假设是否满足要大打折扣。例如下述的消费与GNP的关系。 • 否则容易造成多重共线,造成危害。(已经作了部分讨论)

  18. 消费与GNP的关系 • Ci = a+bGNPi+ui (1) • GNPi = Ci+Ii+Gi (2) • 其中Ci为消费,Ii为投资,Gi为政府支出,GNPi为国民生产总值,ui为随机扰动项。 • ui的变化必然引起Ci变化,从而引起GNPi发生变化。即ui与GNPi相关。 • 这是一个联立方程模型。Gi和Ii为外生变量,将(1)代入(2)可用回归方法解决

  19. 假设6 数据产生过程是线性的 (Linearity of the Model) • yi=a+b1xi1+b2xi2+b3xi3++bkxik+ui • (i=1,2, ,n) • 因变量yi=自变量的线性组合再加上一个随机扰动项。自然,因变量yi也是一个随机变量,于是必须对yi的分布做一番讨论。 • 而a、b等回归估计系数乃是由yi和xij估计出来的,自然也需对它们的性质作进一步的讨论。关于它们性质的讨论十分有用,影响到估计得到规律(回归方程)的检验——可靠性。 • 如果是非线性就不能采用最小二乘法。

  20. 第二节 古典假设的一些内涵 • 一、yi的分布 • 二、高斯-马尔科夫定理:最小二乘估计量的样本分布 • 三、一元模型参数估计量的性质 • 四、二元模型参数估计量的性质

  21. 问题的提出 • 因变量yi=自变量的线性组合再加上一个随机扰动项,自然因变量yi也是一个随机变量,于是必须对yi的分布做一番讨论。 • 而a、b等回归估计系数乃是由yi和xij估计出来的(可以证明它们是yi的线性组合),自然也需对它们的性质作进一步的讨论。关于它们性质的讨论十分有用,影响到估计得到规律(回归方程)的检验——可靠性和预测。

  22. 解决问题的思路 • 根据古典模型的假设,推断出因变量的性质 • 在通过高斯-马尔科夫定理精确地讨论最小二乘估计量的性质

  23. 关于随机扰动项的6项假定 假设1 随机扰动项ui垂直波动 自变量X是确定性变量 假设2 残差分布均值为零 ui=0 假设3 随机扰动项方差一定 Var(ui)=2 假设4 随机扰动项(误差)相互独立  E(ui,uj)=0uiuj=0 (i<>j) 假设5 所有xi都是可观察的并且独立于ui  E(x,uj)=0xuj=0 假设6 数据产生过程是线性的 Y=XB+u

  24. 一、yi的分布 • 根据以上6项假设,模型: • yi=a+b1xi1+b2xi2+b3xi3++bkxik+ui (i=1,2, ,n) • 中的的各个观察值的方差=2,数学期望=0,相互独立,即ui服从i.i.d(0, 2) • i.i.d是 • Identical Independent Distribution • 指的是独立同分布。但是,并没有指出它是何种具体的分布形式。

  25. yi的分布的数字特征 • E(yi)=E(a+b1xi1+b2xi2+b3xi3++bkxik+ui) • 因为a,b1,b2,b3,bk,(参数) 和xi1,xi2,xi3,xik(确定性变量)都不是随机变量(而 a,b1,b2,b3,bk的估计量才是随机变量),所以 • E(yi)=a+b1xi1+b2xi2+b3xi3++bkxik • Var(yi)=Var(a+b1xi1+b2xi2+b3xi3++bkxik+ui) • Var(yi)=2 ,所以yi服从 • i.i.d(a+b1xi1+b2xi2+b3xi3++bkxik,2) • Cov(yi,yj)=0

  26. Var(Yi) Y X Yi分布图 E(yi)是一条总体回归直线 :E(yi)=a+b1x1+……+bkxk 估计得到的回归直线在它的附近 E(yi)=a+b1x1+……+bkxk 2 2 2

  27. E(yi)是一条总体回归直线 :E(yi)=a+b1x1+……+bkxk 估计得到的回归直线在它的附近 Var(Yi) E(yi)=a+b1x1+……+bkxk Y X

  28. 二、高斯-马尔科夫定理最小二乘估计量的样本分布二、高斯-马尔科夫定理最小二乘估计量的样本分布

  29. 问题的提出 • 对于设计模型: • yi=a+b1xi1+b2xi2+b3xi3++bkxik+ui • (i=1,2, ,n) • 根据一组样本值,经最小二乘估计可以得到一条直线,得到参数的估计值,根据另一组样本又会得到另一条直线,另一组参数的估计值。如果给出多个样本,就会得到多组参数估计值。 • 必须指出,每一条直线必定或多或少地反映了总体的性质,就象子女象它们的父母,带来了总体(母体)的信息,位于总体回归直线附近。 • 我们正是这样假设的数据生成过程。 • 估计得到的参数是一个随机变量(随抽样不同而不同),因此有必要讨论参数估计量的性质。

  30. 解决问题的思路 • 从一元模型入手,接着再讨论二元模型。分别讨论: • 1、线性估计 • 2、参数估计量的数学期望 • 3、参数估计量的方差和协方差 • 此外,还要给出它们的矩阵表示

  31. 三、一元模型参数估计量的性质 • 一元模型:yi=a+bxi+ui • 1、线性估计 • 2、辅助量wi的性质 • 3、E(b^)=b——无偏估计量 • 4、Var(b^)= ? • 5、E(a^)= a——无偏估计量 • 6、Var(a^)= ?

  32. 1、线性估计

  33. 2、辅助量wi的性质

  34. 3、

  35. 4、

  36. 5、

  37. 证明过程很烦琐, • 下面用矩阵证明它们的方差-协方差矩阵。

  38. 四、二元模型参数估计量的性质

  39. yi=a+b1xi1+b2xi2+b3xi3++bkxik+ui的矩阵表示yi=a+b1xi1+b2xi2+b3xi3++bkxik+ui的矩阵表示

  40. 模型的基本假定

  41. 最小二乘法估计

  42. 参数最小二乘估计量的数学期望

  43. 参数最小二乘估计量的方差-协方差

More Related