第 8 章相关与回归分析

第8章相关与回归分析 8.1 相关与回归的基本概念 8.2 简单线性相关与回归分析 8.3 多元线性相关与回归分析 8.4 非线性相关与回归分析

学习目标 1. 变量间的相关关系与相关系数的计算 2. 总体回归函数与样本回归函数 3. 线性回归的基本假定 4. 简单线性回归参数的估计与检验 5. 多元线性回归参数的估计与检验 6. 多个变量的线性相关关系：复相关系数和偏相关系数 7. 常用的可以转换为线性回归的非线性函数 8. 非线性相关指数

实例1:中国妇女生育水平的决定因素是什么? 妇女生育水平除了受计划生育政策影响以外，还可能与社会、经济、文化等多种因素有关。 1. 影响中国妇女生育率变动的因素有哪些？ 2. 各种因素对生育率的作用方向和作用程度如何？ 3. 哪些因素是影响妇女生育率主要的决定性因素？ 4. 如何评价计划生育政策在生育水平变动中的作用？ 5. 计划生育政策与经济因素比较,什么是影响生育率的决定因素？ 6. 如果某些地区的计划生育政策及社会、经济、文化等因素发生重大变化，预期对这些地区的妇女生育水平会产生怎样的影响？

实例2: 全球吃死的人比饿死的人多? 据世界卫生组织统计，全球肥胖症患者达3亿人，其中儿童占2200万人，11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”，已遍及五大洲。目前，全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。 (引自《光明日报》刘军/文）问题: 肥胖症和体重超常与死亡人数真有显著的数量关系吗? 这些类型的问题可以运用相关分析与回归分析的方法去解决。

8.1 相关与回归的基本概念 一、变量间的相互关系二、相关关系的类型三、相关分析与回归分析

一、变量间的相互关系 ◆确定性的函数关系Y=f (X) ◆不确定性的统计关系—相关关系 Y= f（X）+ε (ε为随机变量) ◆没有关系变量间关系的图形描述：坐标图(散点图)

相关关系的类型 ●从涉及的变量数量看简单相关多重相关（复相关） ●从变量相关关系的表现形式看线性相关——散布图接近一条直线(左图) 非线性相关——散布图接近一条曲线(右图)

相关关系的类型 ●从变量相关关系变化的方向看正相关——变量同方向变化A 同增同减 (A) 负相关——变量反方向变化一增一减 (B) B ● 从变量相关的程度看完全相关 (B) 不完全相关 (A) C 不相关 (C)

相关分析与回归分析 回归的古典意义：高尔顿遗传学的回归概念父母身高与子女身高的关系: 无论高个子或低个子的子女都有向人的平均身高回归的趋势

总体估计因变量平均值自变量固定值样本回归的现代意义一个因变量对若干解释变量依存关系的研究回归的目的（实质）：由固定的自变量去估计因变量的平均值

相关分析与回归分析的联系 ●共同的研究对象：都是对变量间相关关系的分析 ●只有当变量间存在相关关系时，用回归分析去寻求相关的具体数学形式才有实际意义 ●相关分析只表明变量间相关关系的性质和程度，要确定变量间相关的具体数学形式依赖于回归分析 ● 相关分析中相关系数的确定建立在回归分析的基础上

8．2 简单线性相关与回归分析 一、简单线性相关系数及检验二、总体回归函数与样本回归函数三、回归系数的估计四、简单线性回归模型的检验五、简单线性回归模型预测

一、简单线性相关系数及检验 ●总体相关系数对于所研究的总体，表示两个相互联系变量相关程度的总体相关系数为：总体相关系数反映总体两个变量X和Y的线性相关程度。特点：对于特定的总体来说，X和Y的数值是既定的总体相关系数是客观存在的特定数值。

●样本相关系数 通过X和Y 的样本观测值去估计样本相关系数变量 X和Y的样本相关系数通常用表示特点：样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的，是对总体相关系数的估计，它是个随机变量。

相关系数的特点： • 相关系数的取值在-1与1之间。 • 当r=0时，表明X与Y没有线性相关关系。 • 当时，表明X与Y存在一定的线性相关关系: 若表明X与Y 为正相关; 若表明X与Y 为负相关。 • 当时，表明X与Y完全线性相关: 若r=1，称X与Y完全正相关；若r=-1，称X与Y完全负相关。

使用相关系数的注意事项： ▲X和Y 都是相互对称的随机变量，所以 ▲相关系数只反映变量间的线性相关程度，不能说明非线性相关关系。 ▲相关系数不能确定变量的因果关系，也不能说明相关关系具体接近于哪条直线。

相关系数的检验 为什么要检验？样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。检验的依据：如果X和Y都服从正态分布，在总体相关系数的假设下，与样本相关系数 r 有关的 t 统计量服从自由度为n-2的 t 分布：

相关系数的检验方法 给定显著性水平，查自由度为 n-2 的临界值若，表明相关系数 r 在统计上是显著的，应否定而接受的假设；反之，若，应接受的假设。

二、总体回归函数与样本回归函数 若干基本概念 ●Y的条件分布: Y在X取某固定值条件下的分布。 ●对于X的每一个取值，都有Y的条件期望与之对应，在坐标图上 Y的条件期望的点随X而变化的轨迹所形成的直线或曲线，称为回归线。 ●如果把Y的条件期望表示为X的某种函数： , 这个函数称为回归函数。 ●如果其函数形式是只有一个自变量的线性函数,如 , 称为简单线性回归函数。

总体回归函数（PRF） 概念：将总体因变量Y的条件均值表现为自变量X的某种函数，这个函数称为总体回归函数（简记为PRF）。表现形式：（1）条件均值表现形式（2）个别值表现形式（随机设定形式）

样本回归函数（SRF） 概念： ●Y的样本观测值的条件均值随自变量X而变动的轨迹，称为样本回归线。 ●如果把因变量Y的样本条件均值表示为自变量X的某种函数，这个函数称为样本回归函数（简记为SRF）。表现形式：线性样本回归函数可表示为或者

样本回归函数与总体回归函数的关系——相互联系样本回归函数与总体回归函数的关系——相互联系 ● 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。 ● 和是对总体回归函数参数的估计。 ● 是对总体条件期望的估计 ● 残差 e 在概念上类似总体回归函数中的随机误差u。回归分析的目的：用样本回归函数去估计总体回归函数。

样本回归函数与总体回归函数的关系 ——相互区别 ●总体回归函数虽然未知，但它是确定的；样本回归线随抽样波动而变化，可以有许多条。 ●样本回归线还不是总体回归线，至多只是未知总体回归线的近似表现。 ●总体回归函数的参数虽未知，但是确定的常数；样本回归函数的参数可估计，但是随抽样而变化的随机变量。 ●总体回归函数中的是不可直接观测的；而样本回归函数中的是只要估计出样本回归的参数就可以计算的数值。

三、回归系数的估计 回归系数估计的思想：为什么只能对未知参数作估计? 参数是未知的、不可直接观测的、不能精确计算的能够得到的只是变量的样本观测值结论:只能通过变量样本观测值选择适当方法去近似地估计回归系数。前提:u是随机变量其分布性质不确定，必须作某些假定，其估计才有良好性质，其检验才可进行。原则:使参数估计值“尽可能地接近”总体参数真实值

简单线性回归的基本假定 • 假定1：零均值假定。 • 假定2：同方差假定。 • 假定3：无自相关假定。 • 假定4：随机扰动与自变量不相关。 • 假定5：正态性假定

回归系数的最小二乘估计 基本思想：希望所估计的偏离实际观测值的残差越小越好。可以取残差平方和作为衡量与偏离程度的标准—最小二乘准则估计式：

最小二乘估计的性质——高斯—马尔可夫定理 前提：在基本假定满足时 • 最小二乘估计是因变量的线性函数 • 最小二乘估计是无偏估计，即 • 在所有的线性无偏估计中，回归系数的最小二乘估计的方差最小。结论：回归系数的最小二乘估计是最佳线性无偏估计

最小二乘估计的概率分布性质 • 和都是服从正态分布的随机变量，其期望为 • 方差和标准误差为 • 结论：

的无偏估计 • 为什么要估计？确定所估计参数的方差需要由于不能直接观测，也是未知的对的数值只能通过样本信息去估计。 • 怎样估计？可以证明的无偏估计为：

拟合优度的度量 基本思想：样本回归直线是对样本数据的一种拟合，不同估计方法可拟合出不同的回归线。样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上总离差平方和回归平方和残差平方和可决系数定义：

对可决系数的理解

可决系数的特点 • 可决系数是非负的统计量； • 可决系数取值范围：； • 可决系数是样本观测值的函数，可决系数是随抽样而变动的随机变量； • 在一元线性回归中，可决系数在数值上是简单线性相关系数的平方：，

回归系数显著性的 t 检验 • 目的：根据样本回归估计的结果对总体回归函数回归系数的有关假设进行检验，以检验总体回归系数是否等于某个特定的数值。 • 思想：是未知的，而且不一定能获得大样本，这时可用的无偏估计代替去估计参数的标准误差：

回归系数显著性的 t 检验(续) • 用估计的参数标准误差对估计的参数作标准化变换，所得的 t 统计量将不再服从正态分布，而是服从 t 分布：可利用 t 分布作有关的假设检验。

回归系数显著性 t 检验的方法 (1) 提出假设一般假设: 常用假设: (2) 计算统计量 (3)给定显著性水平α，确定临界值 (4) 检验结果判断若则拒绝原假设，而接受备择假设若则接受原假设 , 拒绝备择假设

回归系数显著性的P值检验——P值的意义 P值的意义: 在既定原假设下计算回归系数的t统计量，可求得统计量大于的概率：这里的是 t 统计量大于值的概率，是尚不能拒绝原假设的最大显著水平，称为所估计的回归系数的P值。

回归系数显著性的P值检验——检验方法 回归系数显著性的P值检验方法: 将所取显著性水平与P值对比 ▲所取的显著性水平（例如取0.05）若比P 值更大，就可在显著性水平下拒绝 ▲所取的若小于P值，就应在显著性水平下接受

五、简单线性回归模型预测 对平均值的点预测值： Y的个别值置信度为1－α的预测区间：

因变量的区间预测的特点 （1）个别值的预测区间大于平均值的预测区间: Y平均值的预测值与真实平均值有误差，主要是受抽样波动影响; Y个别值的预测值与真实个别值的差异不仅受抽样波动影响，而且还受随机扰动项的影响（2）对预测区间随变化而变化: 时， =0，此时预测区间最窄，越是远离，越大，预测区间越宽。

因变量的区间预测的特点(续) （3）预测区间与样本容量有关：样本容量n越大，越大，预测误差的方差越小，预测区间也越窄。（4）当样本容量趋于无穷大（即n→∞）时, 不存在抽样误差，平均值预测误差趋于0，此时个别值的预测误差只决定于随机扰动的方差。

8.3 多元线性相关与回归分析 一、多元线性回归模型及假定二、多元线性回归模型的估计三、多元线性回归模型的检验四、多元线性回归模型的预测五、复相关系数和偏相关系数

一、多元线性回归模型及假定 多元总体线性回归函数一般形式条件均值形式多元线性样本回归函数：一般形式条件均值形式

多元线性回归模型的矩阵表示 多元总体线性回归模型的矩阵表示 Y=Xβ+U 多元线性样本回归函数的矩阵表示 + e Y=X • 偏回归系数：多元线性回归模型中，回归系数表示当控制 • 其它自变量不变的条件下，第j个自变量的单位变动对因变 • 量均值的影响，这样的回归系数称为偏回归系数。

二、多元线性回归模型的估计 多元回归模型的假定相同的假定:零均值、同方差、无自相关、随机扰动项与自变量不相关、U正态性增加的假定：各自变量之间不存在线性关系。在此条件下，自变量观测值矩阵X列满秩 Rank( X ) = k 满秩 Rank( )= k 方阵意义：可逆，存在

多元回归参数的最小二乘估计 使残差平方和达到最小，其充分必要条件正规方程组 ---------------------------------------------------

多元线性回归的最小二乘估计式 正规方程组可简记为矩阵形式存在参数向量β的最小二乘估计为参数最小二乘估计的性质可以证明：多元线性回归的最小二乘估计也是最佳线性无偏估计。

随机误差项方差的估计 方差未知，需要利用样本回归的残差平方和去估计。可以证明，是随机扰动项方差的无偏估计

三、多元线性回归模型的检验 拟合优度检验多元线性回归离差平方和的分解式变差 TSS = RSS + ESS (总离差平方和) (残差平方和) (回归平方和) 自由度 n-1 = n-k + k-1 多重可决系数：

修正的可决系数 为什么要修正？可决系数是自变量个数的不减函数，比较因变量相同而自变量个数不同的两个模型的拟合程度时，不能简单地对比多重可决系数。需要用自由度去修正多重可决系数中的残差平方和与回归平方和相互关系：

回归参数的显著性检验—— t 检验 在多元回归中可以证明其中：是矩阵第 j 行第 j 列的元素。：因为未知，故也未知。现用代替对原假设分别作 t 检验，可构造统计量

第 8 章 相关与回归分析