第六章回归分析

第六章回归分析 【教学目的与要求】通过本章的教学，使学生掌握一元线性回归的基本思想，了解多元线性回归和非线性回归的一般问题，掌握常用的非线性函数的线性化方法；要求学生针对简单的实际问题能建立一元线性回归模型，用最小二乘法求回归系数，进一步对方程进行检验，同时能够利用模型进行简单预测。

第六章回归分析 第二节一元线性回归可化为一元线性回归的曲线回归回归分析的一般介绍第三节第一节

四三二一变量间的统计关系建立实际回归模型的过程回归方程与回归名称的由来回归模型的一般形式第一节回归分析的一般介绍

第一节回归分析的一般介绍 一、变量间的统计关系客观现象之间的数量联系存在着三种不同的类型：函数关系、相关关系和没有关系。 1、确定性的函数关系：已知一个（或几个）变量的值，就可以精确地求出另一个变量的值。如 V = 4/3R3，S = V t 2、非确定性的相关关系：几个变量之间存在着密切的关系，但不能由一个（或几个）变量的值精确地求出另一个变量的值。在相关关系中至少有一个变量是随机变量。如人的血压与年龄，环境因子与农作物的产量，树木的直径与高度，人均收入与商品的销量，商品的价格与消费者的需求量。

相关关系与函数关系的比较 注： ①由于在观察或实验中出现的误差，函数关系也有时通过相关关系反映出来；而当对现象之间的内在联系和规律性了解得更加清楚的时候，相关关系又可能转化为函数关系。 ②函数关系与统计关系是两种不同类型的关系，但是它们之间并不存在严格的界限。

是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定，确定一个相应的数学表达式。是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定，确定一个相应的数学表达式。 • 对这些关系式的可信程度进行各种统计检验，从影响某一特定变量的诸多变量中找出哪些变量的影响显著，哪些不显著。 • 利用所求的关系式，从一个或几个已知量(变量的取值)来预测或控制推测另一个未知量，并给出这种预测或控制的精确程度,为估计预测提供一个重要的方法。第一节回归分析的一般介绍回归分析是研究变量之间的相关关系的一种统计方法。回归（regression）这一术语是1886年高尔顿（Galton）研究遗传现象时引进的。回归分析主要解决如下方面的问题：

y与x之间关系f(x)受随机误差 的干扰使之不能完全确定，故可设有: 例如，在考察某化学反应时，发现反应速度y与催化剂用量 , 反应温度 , 所加压力等等多种因素有关。这里都是可控制的普通变量，y是随机变量，y与诸间的依存关系受随机误差的影响，使之不能完全确定，故可假设有第一节回归分析的一般介绍二、回归模型的一般形式例如，人的血压y与年龄x有关，这里x是一个普通变量，y是随机变量。回归函数随机误差或随机干扰

表达了相关关系既有联系又不确定的特点 : 解释变量(explained variable)或自变量(independent variable) :是不可观察的随机误差(stochastic error term)它是分布与无关的随机变量，一般设其均值为0。 y：被解释变量(explanatory variable)或因变量(dependent variable) 这里的多元函数称为回归函数 , 为了估计未知的回归函数, 同样可作n次独立观察, 基于观测值去计算第一节回归分析的一般介绍二、回归模型的一般形式确定性函数关系随机误差项

第一节回归分析的一般介绍 二、回归模型的一般形式随机误差项主要包括下列因素的影响： • 1、由于人们认识的局限或时间、费用、数据质量等制约未引入回归模型但又对回归被解释变量有影响的因素； • 2、样本数据的采集过程中变量观测值的观测误差的影响； • 3、理论模型设定误差的影响； • 4、其他随机因素的影响。

讨论y和变量 呈线性相关关系的情形，即假定其中，为未知参数，常称它们为回归系数。线性回归模型的“线性”是针对未知参数而言的。对于回归解释变量的线性是非本质的，因为解释变量是非线性时，常可以通过变量的替换把它转化成线性的。第一节回归分析的一般介绍二、回归模型的一般形式即有

如果给出 的一组样本观测值，则线性回归模型可表示为当时，称为一元线性回归模型；当时，称为多元线性回归模型。第一节回归分析的一般介绍二、回归模型的一般形式称为样本线性回归模型。对应的模型称为理论线性回归模型

1、解释变量 是非随机变量，观测值是常数； 4、要求，即样本容量的个数要多于解释变量的个数。古典线性回归模型的基本假设 2、高斯-马尔科夫(Gauss-Markov)条件 3、正态分布的假定条件

1、如何根据样本， 求出及方差的估计； 2、对回归方程及回归系数的种种假设进行检验； 3、如何根据回归方程进行预测控制，以及如何进行实际问题的分析。第一节回归分析的一般介绍二、回归模型的一般形式 • 线性回归模型的理论和应用是我们研究的重点。原因如下： • 1、线性回归的应用最广泛； • 2、在线性的假定下，可得到比较深入和一般的结果； • 3、非线性的可通过恰当的转化变为线性回归问题处理。 • 对线性回归模型我们通常要研究的问题有：

第一节回归分析的一般介绍

回归分析是处理变量x与y之间的关系的一种统计方法回归分析是处理变量x与y之间的关系的一种统计方法和技术。这里所研究的变量之间的关系就是上述的统计关系。即当给定x的值，y的值不能确定，只能通过一定的概率分布来描述。称随机变量y对x的(均值)回归函数。从上式从平均意义上刻画了变量x与y之间的统计规律。第一节回归分析的一般介绍三、回归方程与回归名称的由来

成年儿子身高 第一节回归分析的一般介绍三、回归方程与回归名称的由来 F.Galton和他的学生、现代统计学的奠基者之一K.Pearson(1856—1936年)在研究父母身高与其子女身高的遗传问题时,观察了1 078对夫妇, (以英寸为单位，1英寸=0.0254 m) 父母平均身高由于0.516约等于0.5，意味着身高超过父亲平均身高6英寸，则其儿子的身高，大约只超过儿子平均身高3英寸，可见有向平均值返回的趋势。 Galton把这种孩子的身高向平均值靠近的趋势称为一种回归效应，而他发展的研究两个数值变量的方法称为回归分析。

第一节回归分析的一般介绍 四、建立实际回归模型的过程具体（社会经济）问题设置指标变量收集整理数据构造理论回归模型估计模型的参数 N 模型的检验与修改修改 Y 模型运用经济因素分析经济变量控制经济决策预测

四五三二一回归方程的显著性检验一元线性回归模型利用回归方程作预测最小二乘估计的性质回归系数的最小二乘估计第二节一元线性回归

第二节一元线性回归 一、一元线性回归模型几种实际问题： 1、施肥量与粮食产量之间的关系 2、国民收入与消费额之间的关系 3、火灾损失与火灾发生地距最近消防站的距离之间的关系特点总结上述几个例子都是研究两个变量之间的关系，尽管两个变量之间有着密切的关系，但它们之间密切的程度并不能由一个变量唯一确定里一个变量，即它们间的关系是一种非确定性的关系。为了对这种统计关系进行定量化的描述，需要建立回归模型。

【例1】以家庭为单位，某商品年需求量与其价格之间的调查数据如下【例1】以家庭为单位，某商品年需求量与其价格之间的调查数据如下价格x（元） 1 2 2 2.3 2.5 2.6 2.8 3 3.3 3.5 需求量y（500g） 5 3.5 3 2.7 2.4 2.5 2 1.5 1.2 1.2 一、一元线性回归模型分析：1、x与y之间是相关关系，不能用解析表达式 y = f(x) 表示 2、作散点图。发现这些点分布在一条直线附近。

一、一元线性回归模型 3、把y看成是由两部分叠加而成：一是x的线性式β0+β1x；二是由随机因素引起的误差 。于是有 y =β0+β1x+（1） 4、为估计未知参数β0 、β1，将观测值（xi，yi）代入得 yi=β0+β1xi+ i (i =1，2，…，n) 假定i 相互独立，且i ~ N(0, 2)。称（1）式为一元线性回归模型描述y的平均值或期望值如何依赖于x的方程称为一元线性回归函数截距斜率(回归系数)表示当 x 每变动一个单位时，y 的平均变动值

样本观测值 一、一元线性回归模型画散点图观察分布情况样本点基本上分布在一条直线周围，可用线性函数描述建立公式理论回归方程经验回归方程 y的预测值

称为yi的回归拟合值,简称回归值或拟合值 称为yi的残差第二节一元线性回归二、回归系数的最小二乘估计普通最小二乘估计 (Ordinary Least Square Estimation,简记为OLSE) 最小二乘法就是寻找参数β0、β1的估计值使离差平方和达极小

普通最小二乘估计几何意义 二、回归系数的最小二乘估计用最小二乘法拟合的直线来代表x和y之间的关系与实际数据的误差比其他任何直线都小。

由于Q是关于 , 的非负二次函数，因而它的最小值总是存在的。根据多元函数求极值的原理， , 应满足方程组二、回归系数的最小二乘估计化简得到正规方程组

解之，可得参数 , 的最小二乘估计为 故称为经验回归(直线方程)，或经验公式其中，且回归直线必经过两点

一元线性回归方程建立举例 【例2】假定一保险公司希望确定居民住宅区火灾造成的损失数额与该住户到最近消防站的距离之间的相关关系，以便准确地定出保险金额。表2.1列出了15起火灾事故的损失及火灾发生地与最近消防站的距离。图2.1给出了15个样本点的分布状况。建立二者之间的一元线性回归模型。表2.1 火灾损失表图2.1

一元线性回归方程建立举例 解：从本例的散点图看出，火灾损失与火灾发生地距最近消防站的距离之间的关系之间大致呈现线性相关关系，一元线性回归模型是适用y与x的。现用最小二乘估计公式求 , ，这里n=15 代入公式得于是回归方程为

所谓线性就是估计量 , 为随机变量 的线性函数。第二节一元线性回归三、最小二乘法估计的性质 1、线性性证明：

证明：注意到对任意有 三、最小二乘法估计的性质 2、无偏性于是

在G-M假定条件下可证得与分别是与 的最佳线性无偏估计(Best Linear Unbiased Estimation,BLUE)也称为最小方差线性无偏估计，即在所有的无偏估计量中，最小二乘估计量具有最小方差性。三、最小二乘法估计的性质 3、最优性

证明：利用，将 , 表示为： 由于相互独立，有三、最小二乘法估计的性质 3、最优性

1、无偏估计的意义是，如果屡次变更数据，反复求 , 的估计值，这两个估计量没有高估或低估的系统趋向，它们的平均值将趋于 , ； 3、要想使 , 的估计值 , 更稳定，在收集数据时，应考虑x的取值尽可能分散一些，样本量也应尽可能大些。 4、由表明回归值是的无偏估计，也说明与真实值的平均值是相同的。三、最小二乘法估计的性质几点说明： 2、方差的大小表示随机变量取值波动的大小；

1、 3、对固定的，是的线性组合，且 2、在实际中应用回归方程进行控制和预测时，给定的值不能偏离样本均值太大。注：在时，与不相关，在正态假定下独立；在时不独立。总结

检验如下假设是否为真 第二节一元线性回归四、回归方程的显著性检验检验回归方程是否有意义的问题注意：在对回归方程进行检验时，通常需要正态假设：利用统计学的检验理论检验回归模型的可靠性，具体又可以分为拟合优度检验、相关系数检验、模型的显著性检验(F检验)和模型参数的显著性检验(t检验)

t 检验是统计推断中常用的一种检验方法，在回归分析中，t 检验用于检验回归系数的显著性。目的是通过检验回归系数是否显著的大于0，来判断x，y之间是否有线性关系。 1、t 检验构造t统计量其中

对给定显著性水平 ,通过查t分布表可得双侧检验的临界值。当时，拒绝，存在线性关系；当时，接受，因变量y对自变量x的一元线性回归不成立。 1、t 检验

2、F检验 F检验的方法又称方差分析方法，是从因变量观察值的偏差平方和分解入手的，直接从回归效果检验回归方程的显著性，即检验下列假设是否为真：（1）偏差(变差) (1)因变量的取值是不同的，取值的这种波动称为变差。变差来源于两个方面： ①由于自变量的取值不同造成的， ②除x外的其他因素（如x对y的非线性影响、测量误差等)的影响。 (2)对一个具体的观测值来说，变差的大小可以通过该实际观测值与其均值之差来表示。

y x 2、F检验 (2)偏差的分解图示

2、F检验 (3)偏差平方和的分解

提出假设，即线性关系不显著。 根据 SSR与SSE的独立性，当时，因此，给定显著性水平下，查F分布表得，若，则拒绝假设，结论是回归方程显著，拟合效果好，样本回归模型的整体线性关系显著。 2、F检验 (4)F检验根据数理统计理论的证明，有

来源自由度平方和均方和 F值 P值 1 回归残差总和 2、F检验 (5)方差分析表 F检验不能通过的可能原因如下: (1)某些对预测对象有影响的重要因素被忽略，未包含在方程； (2)变量x与y之间不是线性关系； (3)变量x与y无关。

完全负相关 无线性相关完全正相关 -1.0 -0.5 0 +0.5 +1.0 r 负相关程度增加正相关程度增加 3、相关系数的检验由于一元线性回归方程讨论的是变量x与变量y之间的线性关系，所以我们可以用变量x与y之间的相关系数来检验回归方程的显著性。

3、相关系数的检验 相关系数的检验表附表1 相关系数ρ=0的临界值表

3、相关系数的检验 r 的显著性检验（1）检验两个变量之间是否存在线性相关关系（2）采用R.A.Fisher提出的 t 检验（3）检验的步骤为 • 提出假设 • 计算检验的统计量 • 确定显著性水平 ，并作出决策若t>t，拒绝H0 ，若t <t，接受H0

对于一元线性回归这三种检验的结果是完全一致的 4、三种检验的关系但对于多元线性回归这三种检验是不等价的

第二节一元线性回归 五、利用回归方程作预测根据自变量 x的取值估计或预测因变量y的取值。估计或预测的类型有： • 点预测 • y 的平均值的预测 • y 的个别值的预测 • 区间预测 • y 的平均值的置信区间 • y 的个别值的预测区间

1.点估计 五、利用回归方程作预测 y 的平均值的预测利用估计的回归方程，对于自变量 x 的一个给定值x0，求出因变量 y的平均值的一个估计值E(y0)，就是平均值的点估计 y 的个别值的预测利用估计的回归方程，对于自变量 x 的一个给定值x0，求出因变量 y的一个个别值的估计值，就是个别值的预测。 • 在点估计条件下，平均值的点估计和个别值的点估计是一样的，但在区间估计中则不同。

2.区间预测 点估计不能给出估计的精度，点估计值与实际值之间是有误差的，因此需要进行区间估计。对于自变量 x 的一个给定值 x0 ，根据回归方程得到因变量 y 的一个估计区间。区间估计有两种类型：置信区间估计(confidence interval estimate) 预测区间估计(prediction interval estimate) 五、利用回归方程作预测

利用估计的回归方程，对于自变量 x 的一个给定值 x0，求出因变量 y 的平均值的估计区间，这一估计区间称为置信区间 (confidence interval) E(y0)在1-置信水平下的置信区间为式中：se 为估计标准误差 2.区间预测置信区间估计

第六章 回归分析