多元线性回归

多元线性回归 李保坤老师西南财经大学统计学院

本节内容提要 • 多元线性回归模型 • 参数估计 • 统计推断 • 变量选择 • 变量转换 • 残差分析 • 多元回归需考虑的其它方面

多元线性回归模型 • 这种模型要解决的问题里通常有几个预测变量　　　　　　　　和结果变量ｙ有关系； • 描述这一关系的线性模型是：

多元线性回归模型 • 参数　　　　　　被称为回归系数 • β0代表截距 • β1代表在其它预测变量保持不变的情况下，x1增加1对应的ｙ的变化量 • 对　　　　的解释与β1类似　　

多元线性回归模型 • 当只有一个预测变量时，该数据可以用一个２维的散点图表示 • 如果有ｋ个预测变量和一个结果变量ｙ，就需要（Ｋ＋１）维的散点图表示 • 每一个变量代表一维

多元线性回归模型：假设条件 • 假设条件：εi是随机误差， εi 独立同分布于N(0,σ2);参数　　　　　　未知 • 这意味着相互独立服从正态分布N(μi,σ2)

多元线性回归的步骤 • 使用统计软件计算模型系数和统计量 • 2. 诊断是否有违反假设条件的情况发生，如果有，需要弥补这些缺陷 • 3. 察看模型统计量评价模型是否拟和得好以及是否有用 • 4. 如果模型通过评价，需要用模型对系数加以解释并产生预测值

参数估计（最小二乘法） 目标是最小化解下列方程组：得到：

参数估计（最小二乘法） 线性模型可以表示为参数估计：

几个平方和 • 误差平方和：SSE • 总平方和：SST • 回归平方和：SSR

决定系数（Ｒ2） • Y变化量被模型解释的百分数 • 较高的R2意味着ｙ变化量的大部分归因于ｘ的变化－这是我们期望的特性 • 在简单回归里， R2越高数据点更紧密地排列在一条直线旁边

决定系数（Ｒ2） • 多大的R2算高，这要具体情况具体分析 • 回归分析者喜欢关注，但这种做法有问题。关注回归模型的“合理性”非常重要 • 不应该只是为了得到虚高的R2而把和Ｙ不相干的ｘ变量包括到模型里

方差分析表（AVOVA） 来源模型误差汇总在此

方差分析表（AVOVA） • F-统计量是检验以下统计假设的统计量 • 检验统计量F是具有k和n-1自由度的F分布

方差分析表（AVOVA） • F值大表明零假设是错误的 • 判定零假设对错的标准是p值，如果p<α,那么H0被拒绝。 • α是指定的一个小数值，通常是0.05或0.01

统计推断 • 在多元回归里，我们还可以对每一个参数βi进行假设检验： • 这样我们就可以决定在保持其它预测变量不变的情况下，某一个预测变量xi是否和结果变量y具有显著的因果关系

统计推断 • 检验以下统计假设的检验统计量是t统计量，其自由度为n-k-1

变量选择 • 给定结果变量y，{x1,x2,…,xk}是预测变量的可能集合。 -为了使得预测目的有用，我们希望模型包括尽可能多的预测变量 -为了精炼和节约成本，我们希望模型包括尽可能少的预测变量

变量选择 • 后向删除 • 前向选择 • 逐步选择

后向删除 • 使用全部（或剩下的）预测变量拟和模型 • 查看模型中每一个预测变量和y的显著关系 • 挑选具有最大p值的预测变量，如果p>α,把这个变量从模型中排除掉，返回到第一步 • 否则，终止这一过程。

前向选择 • 使用一个（或更多）预测变量拟和模型 • 查看模型外的每一个预测变量和y的显著关系 • 挑选具有最小p值的预测变量，如果p<α,把这个变量加入到模型中，返回到第一步 • 否则，终止这一过程。

逐步选择 • 使用一个（或更多）预测变量拟和模型 • 查看模型外的每一个预测变量和y的显著关系 • 挑选具有最小p值的预测变量，如果p<α,把这个变量加入到模型中，返回到第一步 • 查看模型中每一个预测变量和y的显著关系，挑选具有最大p值的预测变量，如果p>α,把这个变量从模型中排除掉，返回到第一步 • 否则，终止这一过程

变量转换 • 结果变量y，和/或预测变量x1,x2,…,xk可进行转换，－目的是为了得到拟和更好的模型－或因为理论上的考量

变量转换 • 对于只有一个简单预测变量的模型： • 加入一个二次项： • 更一般地，多项式回归模型：

变量转换 • 倒数转换 • 或

变量转换 • 对数转换　最后的等式等价于：

变量转换 • 目的是经过转换后预测变量和结果变量可得到线性模型 • 通过转换后模型呈现线性的称为内在线性,否则称为非线性模型 • 除非对y进行的普通的转换使得和所有x呈线性关系，通常应该是转换这些x变量，而y保持不变 • 通常假定在最终模型形式上随机误差有可加性

稳定方差的转换 　函数格式　限制　转换

虚拟预测变量 • 许多应用涉及到类别型预测变量，例如性别、季节、诊断结果（坏、一般、好） • 对于有序变量，例如诊断结果，可以使用打分1,2,3 • 对于具有c个类别的名义变量，使用c-1个指示变量，这些指示变量被称为虚拟变量。例如季节，可用 • X1=1，如果是冬季，否则为0； • X2=1，如果是春季，否则为0； • X3=1，如果是夏季，否则为0

残差分析 • 残差的定义： • 关于残差的假设： (2)　所有观测记录都独立

残差分析 • 如果模型正确，残差ei应该展现出符合我们假设的趋势 • 否则，残差可能表明有假设被违反了

残差分析 • 通常我们会画残差ei对每一个预测变量的散点图： • 我们还画ei对　的散点图对对对

违反假设的残差图案 残差的方差随水平变量的增加而增加

违反假设的残差图案 模型可能缺少一重要变量

违反假设的残差图案 模型需要一二次项

多元回归需考虑的其它方面 • 影响大的观测记录和域外点 • 多重共线性 • 缺失值

影响大的观测记录 影响大的观测记录

多重共线性 • 两个变量之间的精确共线性存在当一个变量的值是另一个变量值的倍数 • 类似地，两个以上变量的精确共线性存在当一个变量可以用其它变量的线性组合构成时 • 两个以上变量的共线性存在当其中一个变量用其余变量回归时可以得到很高的相关系数

多重共线性 • 多重共线性的结果是参数估计: 　　的方差被膨胀 • 这不是我们期望的，因为它会导致置信区间变大以至于无法解释；它还会导致检验统计量太小以至于很难正确认识该变量的重要性

多重共线性测量：方差膨胀因子VIF • VIFj=相关系数矩阵的逆矩阵的对角线元素 • 其中rj2是当使用余下的k-1个预测变量回归xj的决定系数。 VIFj大于10，对应rj2 >0.9，被认为不可接受

缺失值 • 对缺失值的处理以后再讨论。

多元线性回归

多元线性回归

Presentation Transcript