第六章正态条件下回归的推论

第六章正态条件下回归的推论

问题的提出 • 在前述各章中我们假定随机扰动项服从均值=0，方差等于（常数），独立同分布。但是，并没有假定随机扰动项服从何种具体的分布。 • 由于没有假定服从何种具体的分布，因而无法计算随机扰动项取不小于某值的概率，因而也无法计算估计量取某种值的概率，也就无法对统计量进行假设检验和进行区间估计。 • 点估计给出是某个具体的数值，无法给出相应的可靠性，也就是我们得出的结论的缺乏可靠性，从而降低了结论的有效性与实用性。 • 如果假定随机扰动项服从正态分布，那么估计量就可立即得到相应的区间估计及其概率，也就是结论具有了可靠性。

同方差=常数，协方差=0 同方差=常数，协方差=0 nxn，x Z自变量与随机扰动项无关，从而自变量之间也无关。 X是确定性变量，Y只有垂直变动

解决问题的思路 • 首先，复习有关正态分布的一些结论 • 进而假定随机扰动项服从正态分布 • 导出估计量也服从正态分布 • 给出关于估计量的假设检验和区间估计 • 再给出利用模型进行预测的可靠性，使模型能够运用于实际

有关正态分布的一些结论 • 1、正态分布的线性组合也服从正态分布 • 2、标准正态分布的平方和服从卡平方分布 • 3、标准正态分布除以卡平方分布及其自由度的商，服从t分布 • 4、两个卡平方分布分别除以各自自由度的商之比服从F分布

第一节问题的引入 • 1、假定随机扰动项服从正态分布，导出Yi也服从正态分布 • 2、一元模型中斜率也服从正态分布 • 3、一元模型中截距也服从正态分布 • 4、回归估计系数的分布的总结

1、假定随机扰动项服从正态分布，导出Yi也服从正态分布1、假定随机扰动项服从正态分布，导出Yi也服从正态分布

2、一元模型中斜率也服从正态分布

3、一元模型中截距也服从正态分布

4、回归估计系数的分布的总结

第二节问题的解决 • 1、解决问题的关键是样本带来了总体的信息，所以用样本的信息去估计总体的信息。 • 2、用残差去估计总体的随机扰动项，进而用残差的方差去估计随机扰动项的方差 • 3、构造残差的方差为随机扰动项方差的无偏估计量。 • 4、随机扰动项方差的估计量S2的分布

1、解决问题的关键是用样本残差去估计总体的随机扰动项1、解决问题的关键是用样本残差去估计总体的随机扰动项 • 解决问题的关键是用样本残差去估计总体的随机扰动项。 • 进而用样本残差的方差S2去估计随机扰动项的方差——2 • 最后，在随机扰动项服从正态分布的假定下，导出样本残差方差S2的性质或分布

2、随机扰动项方差的估计量 为什么是n-k-1?（第三节）

3、随机扰动项方差估计量的性质 • （1）无偏性E(S2)=2 • （2）随机扰动项方差估计量S2服从卡方分布，自由度 = n-k-1

第三节派生内容：自由度 • 1、什么是自由度 • 2、对应于平方和分解的自由度的分解 • 3、k元模型中随机扰动项的自由度为什么=n-k-1?

1、什么是自由度 • 模型中样本值可以自由变动的个数，称为自由度 • 自由度=样本个数- 样本数据受约束条件（方程）的个数 • 例如，样本数据个数=n，它们受k+1个方程的约束（这n个数必须满足这k+1个方程） • 那么，自由度df = n-k-1

数据个数与约束方程 • Y1+Y2+Y3=7 • Y1=7 • 那么Y2、Y3中只有1个是自由的。 • 又如： • Y1+Y2+Y3+Y4=7 • Y1=7 • 那么，Y2、Y3、Y4中只有2个是自由的

2、对应于平方和分解的自由度的分解 • 自由度=变量个数 - 约束方程个数 • TSS=RSS+ESS dfT=dfR+dfE • dfT=n-1 • dfR=k • dfE=dfT-dfR= n-1-k = n - (k+1)

3、k元模型中随机扰动项的自由度为什么=n-k-1?

第四节回归系数的假设检验 • 1、大样本与小样本 • 2、斜率的分布 • 3、回归系数假设检验的意义 • 4、假设检验的原理 • 5、假设检验的种类 • 6、F检验的步骤 • 7、t检验的步骤 • 8、回归分析进行假设检验的步骤

1、大样本与小样本 • 中心极限定理告述我们： • 随机变量X无论服从什么分布，只要它的方差存在，只要样本个数n充分的大，X的平均数就服从正态分布。 • 那么，充分大在实际应用中怎样掌握呢？ • 凡是 n >30，我们就可以认为它具有此种极限性质，称为大样本。 • 否则，就称为小样本，小样本不具有此种极限性质。

2、斜率的分布 • （1）已知2或大样本情形 • （2）未知2且为小样本情形

（2）未知2且为小样本情形

3、回归系数假设检验的意义 • 通过F检验只是对方程作为一个整体进行检验，只要其中一个或几个自变量的系数显著不为零，整个方程就是有意义的。 • 但是，还必须继续对各个自变量的系数进行检验，否则方程中会包含一些对因变量从统计意义上说没有意义的自变量

3、回归系数假设检验的意义 • 例如：Y^=1.78+1.56X1+0.036X2 • 对多元回归除了进行整体检验外，还需要分别对X1和X2的系数进行t检验。 • 对X1的系数检验，计算出来的t大于临界值，拒绝H0，即X1的系数与0有显著的差异，认为X1对Y有意义； • 对X2的系数检验，计算出来的t小于临界值，不拒绝H0，认为X2的系数与0没有本质的差异，虽然它=0.036，于是认为X2对Y没有意义，是方程中的累赘，应剔除，重新估计方程。 • 因此，要求方程中所有系数都应与0差异显著。

4、假设检验的原理 • 1、提出二择一的假设H0（往往与试验目的相反）与HA（往往是欲得到的结论） • 2、给定显著水平（小概率） • 3、在H0成立下，收集数据，寻找检验统计量（如t、F），肯定知道统计量的分布，可计算各种取值的概率 • 4、找出小概率发生的临界值 • 5、将样本值和H0代入检验统计量进行计算 • 6、将计算结果与临界值比较，若大于临界值，小概率事件发生，根据小概率原理，在一次试验中小概率事件是不会发生的。现在，居然发生了。错在哪里？ • 7、原来是假设H0错了，因为一切都是在H0成立下推证的，于是拒绝H0。否则，不拒绝H0

大海里捞针——反证法 • H0：一棵针掉进了大海里（海底只有一棵针） • HA：海底不只一棵针 • 显著水平=0.01（小概率） • 进行试验——到海底捞针 • 通常用大海里捞针比喻不可能发生的事 • 现在，一次潜水（试验）就捞上一棵针，这掉下的一棵针居然被我们捞上来，不可能发生的事件发生了，于是拒绝H0，认为大海里不只一个针。

两类错误之一——弃真 • 1、H0：海底只有一棵针。但一次试验捞了上来。因为小概率事件发生，必须拒绝（H0）。然而海底真的只有一棵针，结论说不只一棵针。犯弃真错误了，只有拒绝H0时才会犯弃真错误 • 2、此时犯了弃真的错误，但是犯弃真错误的可能性，事先已经控制——只有显著水平（小概率）那么大 • 3、所以拒绝不仅是坚决的，而且犯错误的概率（冒险率是事先控制的）也很小。所得结论的可靠性 = 1- • 4、所以，人们提出的H0通常是无效的

犯两类错误之二——纳伪 • H0：某某（高考的考生）= 大学生（准予参考就是提出这个假设，即假设他是优秀青年） • 进行抽样试验——参加高考 • 检验统计量——考试总分（包括加分） • 众所周知，大学生乃同龄人中的佼佼者，而该某某平时素质和学业平平，距高等学府之路遥遥，被录取（总分超过报考学校的录取线）的概率很小。H0成立下，优秀毕业生考分低于录取线（失常）的概率很小。 • 在此次抽样中他的总分喜煞人，由于小概率事件（优秀者失常）没有发生，于是不能拒绝H0。某某顺利进入重庆某学院，显然属于纳伪。

不拒绝H0是无可奈何 • 某某进入高校，招生犯了纳伪的错误 • 进行检验时，没有事先控制纳伪的概率——无法度量犯纳伪的可能性。也就不能给出不拒绝H0结论（录取进大学）的可靠性（1- ）。 • 就本次试验而言，不拒绝H0是无可奈何的。 • 千万不可，以接受H0作为我们研究的结论。欲证明H0成立必须继续抽样、继续检验，并采用功效函数。 • 所以某某进校后不断地被抽样、被检验

5、假设检验的种类 • 1、参数检验 • 已知分布形式，检验分布的参数，例如检验均值或检验方差 • 2、非参数检验 • 检验随机变量的分布形式，例如是否服从正态分布 • 本课程主要讨论参数检验

6、假设检验的步骤——t检验为例 • 1、提出假设H0和HA • 2、收集数据估计出b^ • 3、计算出2的估计量s2 • 4、计算检验统计量t（代入假设H0） • 5、根据显著水平，查出临界值t • 6、作出统计推断：如果t>t ，拒绝H0；否则不拒绝H0。t的绝对值越大，自变量对因变量的作用越显著。

f(t) 不拒绝H0区域拒绝域拒绝域 t t检验的步骤

f(t) 不拒绝H0区域拒绝域拒绝域 t

f(b^) 置信区间 b^ 下限上限假设检验与区间估计是一个问题的两个方面

f(b^) 置信区间 b^ 下限上限

f(t) t

F检验的步骤 • 假定随机扰动项u服从正态分布。检验目标是联合检验， • （1）提出假设H0: b1 = b2 =b3 =……=bk=0 • （2）适合的检验统计量 • （3）根据冒险率，确定临界值F • （4）将计算出的F与临界值F比较 • （5）下结论：若F>临界值F，则拒绝H0；若F<=临界值F，则不拒绝H0 • （6）结合经济学理论与经验，下经济学的结论或进行经济学分析

f(F)  1- F F

7、回归分析进行假设检验的步骤 • （1）查看拟合优度，进行F检验，从整体上判断回归方程是否成立，如果F检验通不过，无须进行下一步；否则进行下一步 • （2）查看各个变量的t值及其相应的概率，进行t检验，如果相应的概率小于给定的显著水平，该自变量的系数显著地不为0，该自变量对因变量作用显著；否则系数与0无显著差异（本质上=0），该自变量对因变量无显著的作用，应从方程中删去，重新估计方程。 • （3）但是，一次只能将最不显著（相应概率最大）的删除。

第五节预测 • 1、预测的定义 • 2、利用模型进行预测的种类 • 3、一般水平的预测 • 4、个体水平的预测 • 5、预测的精度 • 6、滞后模型进行预测 • 7、案例分析——假日旅馆房间收入的预测 • 8、指数平滑预测

1、预测的定义 • 预测是对于未来或未知的预计与推测 • 预测不是臆测，这里的预测是科学的预测，它是建立在对预测对象认识、分析和科学的推理基础之上的。 • 由于客观世界的复杂性和不确定性与人类认识的矛盾，以及预测科学（又称未来学）仍然处于成长阶段，还有预测手段的不完善，尤其是与进行预测人员的素质、知识、经验、魄力、胆略、价值取向密切相关，所以预测既是一门科学又是一门艺术。

2、利用模型进行预测的种类 • （1）定性预测与定量预测 • （2）模型预测与非模型预测 • 即利用回归直线或其它模型进行预测，由于回归直线本身有一个变动幅度（随抽样不同而不同），也一定存在误差。 • 一般水平预测与个别值的预测 • 点预测与区间预测 • （3）超长期预测、长期预测、中期预测、短期预测 • （4）情景预测

第六章 正态条件下回归的推论