810 likes | 1.01k Views
第六章 正态条件下回归的推论. 问题的提出. 在前述各章中我们假定随机扰动项服从均值 =0 ,方差等于(常数),独立同分布。但是,并没有假定随机扰动项服从何种具体的分布。 由于没有假定服从何种具体的分布,因而无法计算随机扰动项取不小于某值的概率,因而也无法计算估计量取某种值的概率,也就无法对统计量进行假设检验和进行区间估计。 点估计给出是某个具体的数值,无法给出相应的可靠性,也就是我们得出的结论的缺乏可靠性,从而降低了结论的有效性与实用性。 如果假定随机扰动项服从正态分布,那么估计量就可立即得到相应的区间估计及其概率,也就是结论具有了可靠性。. 同方差 = 常数,协方差 =0.
E N D
问题的提出 • 在前述各章中我们假定随机扰动项服从均值=0,方差等于(常数),独立同分布。但是,并没有假定随机扰动项服从何种具体的分布。 • 由于没有假定服从何种具体的分布,因而无法计算随机扰动项取不小于某值的概率,因而也无法计算估计量取某种值的概率,也就无法对统计量进行假设检验和进行区间估计。 • 点估计给出是某个具体的数值,无法给出相应的可靠性,也就是我们得出的结论的缺乏可靠性,从而降低了结论的有效性与实用性。 • 如果假定随机扰动项服从正态分布,那么估计量就可立即得到相应的区间估计及其概率,也就是结论具有了可靠性。
同方差=常数,协方差=0 同方差=常数,协方差=0 nxn,x Z自变量与随机扰动项无关,从而自变量之间也无关。 X是确定性变量,Y只有垂直变动
解决问题的思路 • 首先,复习有关正态分布的一些结论 • 进而假定随机扰动项服从正态分布 • 导出估计量也服从正态分布 • 给出关于估计量的假设检验和区间估计 • 再给出利用模型进行预测的可靠性,使模型能够运用于实际
有关正态分布的一些结论 • 1、正态分布的线性组合也服从正态分布 • 2、标准正态分布的平方和服从卡平方分布 • 3、标准正态分布除以卡平方分布及其自由度的商,服从t分布 • 4、两个卡平方分布分别除以各自自由度的商之比服从F分布
第一节 问题的引入 • 1、假定随机扰动项服从正态分布,导出Yi也服从正态分布 • 2、一元模型中斜率也服从正态分布 • 3、一元模型中截距也服从正态分布 • 4、回归估计系数的分布的总结
1、假定随机扰动项服从正态分布,导出Yi也服从正态分布1、假定随机扰动项服从正态分布,导出Yi也服从正态分布
第二节 问题的解决 • 1、解决问题的关键是样本带来了总体的信息,所以用样本的信息去估计总体的信息。 • 2、用残差去估计总体的随机扰动项,进而用残差的方差去估计随机扰动项的方差 • 3、构造残差的方差为随机扰动项方差的无偏估计量。 • 4、随机扰动项方差的估计量S2的分布
1、解决问题的关键是用样本残差去估计总体的随机扰动项1、解决问题的关键是用样本残差去估计总体的随机扰动项 • 解决问题的关键是用样本残差去估计总体的随机扰动项。 • 进而用样本残差的方差S2去估计随机扰动项的方差——2 • 最后,在随机扰动项服从正态分布的假定下,导出样本残差方差S2的性质或分布
2、随机扰动项方差的估计量 为什么是n-k-1?(第三节)
3、随机扰动项方差估计量的性质 • (1)无偏性E(S2)=2 • (2)随机扰动项方差估计量S2服从卡方分布,自由度 = n-k-1
第三节 派生内容:自由度 • 1、什么是自由度 • 2、对应于平方和分解的自由度的分解 • 3、k元模型中随机扰动项的自由度为什么=n-k-1?
1、什么是自由度 • 模型中样本值可以自由变动的个数,称为自由度 • 自由度=样本个数- 样本数据受约束条件(方程)的个数 • 例如,样本数据个数=n,它们受k+1个方程的约束(这n个数必须满足这k+1个方程) • 那么,自由度df = n-k-1
数据个数与约束方程 • Y1+Y2+Y3=7 • Y1=7 • 那么Y2、Y3中只有1个是自由的。 • 又如: • Y1+Y2+Y3+Y4=7 • Y1=7 • 那么,Y2、Y3、Y4中只有2个是自由的
2、对应于平方和分解的自由度的分解 • 自由度=变量个数 - 约束方程个数 • TSS=RSS+ESS dfT=dfR+dfE • dfT=n-1 • dfR=k • dfE=dfT-dfR= n-1-k = n - (k+1)
第四节 回归系数的假设检验 • 1、大样本与小样本 • 2、斜率的分布 • 3、回归系数假设检验的意义 • 4、假设检验的原理 • 5、假设检验的种类 • 6、F检验的步骤 • 7、t检验的步骤 • 8、回归分析进行假设检验的步骤
1、大样本与小样本 • 中心极限定理告述我们: • 随机变量X无论服从什么分布,只要它的方差存在,只要样本个数n充分的大,X的平均数就服从正态分布。 • 那么,充分大在实际应用中怎样掌握呢? • 凡是 n >30,我们就可以认为它具有此种极限性质,称为大样本。 • 否则,就称为小样本,小样本不具有此种极限性质。
2、斜率的分布 • (1)已知2或大样本情形 • (2)未知2且为小样本情形
3、回归系数假设检验的意义 • 通过F检验只是对方程作为一个整体进行检验,只要其中一个或几个自变量的系数显著不为零,整个方程就是有意义的。 • 但是,还必须继续对各个自变量的系数进行检验,否则方程中会包含一些对因变量从统计意义上说没有意义的自变量
3、回归系数假设检验的意义 • 例如:Y^=1.78+1.56X1+0.036X2 • 对多元回归除了进行整体检验外,还需要分别对X1和X2的系数进行t检验。 • 对X1的系数检验,计算出来的t大于临界值,拒绝H0,即X1的系数与0有显著的差异,认为X1对Y有意义; • 对X2的系数检验,计算出来的t小于临界值,不拒绝H0,认为X2的系数与0没有本质的差异,虽然它=0.036,于是认为X2对Y没有意义,是方程中的累赘,应剔除,重新估计方程。 • 因此,要求方程中所有系数都应与0差异显著。
4、假设检验的原理 • 1、提出二择一的假设H0(往往与试验目的相反)与HA(往往是欲得到的结论) • 2、给定显著水平(小概率) • 3、在H0成立下,收集数据,寻找检验统计量(如t、F),肯定知道统计量的分布,可计算各种取值的概率 • 4、找出小概率发生的临界值 • 5、将样本值和H0代入检验统计量进行计算 • 6、将计算结果与临界值比较,若大于临界值,小概率事件发生,根据小概率原理,在一次试验中小概率事件是不会发生的。现在,居然发生了。错在哪里? • 7、原来是假设H0错了,因为一切都是在H0成立下推证的,于是拒绝H0。否则,不拒绝H0
大海里捞针——反证法 • H0:一棵针掉进了大海里(海底只有一棵针) • HA:海底不只一棵针 • 显著水平=0.01(小概率) • 进行试验——到海底捞针 • 通常用大海里捞针比喻不可能发生的事 • 现在,一次潜水(试验)就捞上一棵针,这掉下的一棵针居然被我们捞上来,不可能发生的事件发生了,于是拒绝H0,认为大海里不只一个针。
两类错误之一——弃真 • 1、H0:海底只有一棵针。但一次试验捞了上来。因为小概率事件发生,必须拒绝(H0)。然而海底真的只有一棵针,结论说不只一棵针。犯弃真错误了,只有拒绝H0时才会犯弃真错误 • 2、此时犯了弃真的错误,但是犯弃真错误的可能性,事先已经控制——只有显著水平(小概率)那么大 • 3、所以拒绝不仅是坚决的,而且犯错误的概率(冒险率是事先控制的)也很小。所得结论的可靠性 = 1- • 4、所以,人们提出的H0通常是无效的
犯两类错误之二——纳伪 • H0:某某(高考的考生)= 大学生(准予参考就是提出这个假设,即假设他是优秀青年) • 进行抽样试验——参加高考 • 检验统计量——考试总分(包括加分) • 众所周知,大学生乃同龄人中的佼佼者,而该某某平时素质和学业平平,距高等学府之路遥遥,被录取(总分超过报考学校的录取线)的概率很小。H0成立下,优秀毕业生考分低于录取线(失常)的概率很小。 • 在此次抽样中他的总分喜煞人,由于小概率事件(优秀者失常)没有发生,于是不能拒绝H0。某某顺利进入重庆某学院,显然属于纳伪。
不拒绝H0是无可奈何 • 某某进入高校,招生犯了纳伪的错误 • 进行检验时,没有事先控制纳伪的概率——无法度量犯纳伪的可能性。也就不能给出不拒绝H0结论(录取进大学)的可靠性(1- )。 • 就本次试验而言,不拒绝H0是无可奈何的。 • 千万不可,以接受H0作为我们研究的结论。欲证明H0成立必须继续抽样、继续检验,并采用功效函数。 • 所以某某进校后不断地被抽样、被检验
5、假设检验的种类 • 1、参数检验 • 已知分布形式,检验分布的参数,例如检验均值或检验方差 • 2、非参数检验 • 检验随机变量的分布形式,例如是否服从正态分布 • 本课程主要讨论参数检验
6、假设检验的步骤——t检验为例 • 1、提出假设H0和HA • 2、收集数据估计出b^ • 3、计算出2的估计量s2 • 4、计算检验统计量t(代入假设H0) • 5、根据显著水平,查出临界值t • 6、作出统计推断:如果t>t ,拒绝H0;否则不拒绝H0。t的绝对值越大,自变量对因变量的作用越显著。
f(t) 不拒绝H0区域 拒绝域 拒绝域 t t检验的步骤
f(t) 不拒绝H0区域 拒绝域 拒绝域 t
f(t) 不拒绝H0区域 拒绝域 拒绝域 t
f(b^) 置信区间 b^ 下限 上限 假设检验与区间估计是一个问题的两个方面
f(b^) 置信区间 b^ 下限 上限
f(t) t
F检验的步骤 • 假定随机扰动项u服从正态分布。检验目标是联合检验, • (1)提出假设H0: b1 = b2 =b3 =……=bk=0 • (2)适合的检验统计量 • (3)根据冒险率,确定临界值F • (4)将计算出的F与临界值F比较 • (5)下结论:若F>临界值F,则拒绝H0;若F<=临界值F,则不拒绝H0 • (6)结合经济学理论与经验,下经济学的结论或进行经济学分析
f(F) 1- F F
7、回归分析进行假设检验的步骤 • (1)查看拟合优度,进行F检验,从整体上判断回归方程是否成立,如果F检验通不过,无须进行下一步;否则进行下一步 • (2)查看各个变量的t值及其相应的概率,进行t检验,如果相应的概率小于给定的显著水平,该自变量的系数显著地不为0,该自变量对因变量作用显著;否则系数与0无显著差异(本质上=0),该自变量对因变量无显著的作用,应从方程中删去,重新估计方程。 • (3)但是,一次只能将最不显著(相应概率最大)的删除。
第五节 预测 • 1、预测的定义 • 2、利用模型进行预测的种类 • 3、一般水平的预测 • 4、个体水平的预测 • 5、预测的精度 • 6、滞后模型进行预测 • 7、案例分析——假日旅馆房间收入的预测 • 8、指数平滑预测
1、预测的定义 • 预测是对于未来或未知的预计与推测 • 预测不是臆测,这里的预测是科学的预测,它是建立在对预测对象认识、分析和科学的推理基础之上的。 • 由于客观世界的复杂性和不确定性与人类认识的矛盾,以及预测科学(又称未来学)仍然处于成长阶段,还有预测手段的不完善,尤其是与进行预测人员的素质、知识、经验、魄力、胆略、价值取向密切相关,所以预测既是一门科学又是一门艺术。
2、利用模型进行预测的种类 • (1)定性预测与定量预测 • (2)模型预测与非模型预测 • 即利用回归直线或其它模型进行预测,由于回归直线本身有一个变动幅度(随抽样不同而不同),也一定存在误差。 • 一般水平预测与个别值的预测 • 点预测与区间预测 • (3)超长期预测、长期预测、中期预测、短期预测 • (4)情景预测