750 likes | 885 Views
第三章. 回归诊断. 在实际中这些假定是否合理?如果实际数据与这些假设偏离比较大,那么前面讨论的有关参数的区间估计,假设检验就不一定成立。如果经过分析,已经确认对所研究的具体数据,上面的假设不成立,那么我们又希望探讨对数据作怎样的修正后,能使它们满足或近似满足这些假设。这些就是回归诊断中所要解决的第一个问题。 回归诊断的另一个研究的问题是对数据的诊断,探查对统计推断有较大影响的样本点,这样的点称为强影响点 ; 以及探查与其它数据不是来自同一模型的样本点,这样的点称为异常点。. §3.1 残差及残差图. 综合以上所述回归诊断有如下主要内容:. 识别、判定和检验异常点。
E N D
第三章 回归诊断
在实际中这些假定是否合理?如果实际数据与这些假设偏离比较大,那么前面讨论的有关参数的区间估计,假设检验就不一定成立。如果经过分析,已经确认对所研究的具体数据,上面的假设不成立,那么我们又希望探讨对数据作怎样的修正后,能使它们满足或近似满足这些假设。这些就是回归诊断中所要解决的第一个问题。在实际中这些假定是否合理?如果实际数据与这些假设偏离比较大,那么前面讨论的有关参数的区间估计,假设检验就不一定成立。如果经过分析,已经确认对所研究的具体数据,上面的假设不成立,那么我们又希望探讨对数据作怎样的修正后,能使它们满足或近似满足这些假设。这些就是回归诊断中所要解决的第一个问题。 回归诊断的另一个研究的问题是对数据的诊断,探查对统计推断有较大影响的样本点,这样的点称为强影响点;以及探查与其它数据不是来自同一模型的样本点,这样的点称为异常点。
综合以上所述回归诊断有如下主要内容: • 识别、判定和检验异常点。 • 区分出对统计推断影响特别大的点(影响分析)。 • 残差分析和残差图能用于研究既定模型与实际数据是否能很好拟合。其中包括:模型线性诊断、模型误差方差齐性诊断、模型误差独立性诊断、模型误差正态性诊断等。
(一)、数据诊断的两个基本概念 (1)异常点 在回归模型中,异常点是指对既定模型偏离很大的数据点。但究竟偏离达到何种程度才算是异常,这就必须对模型误差项的分布有一定的假设(通常假定为正态分布)。
目前对异常点有以下两种较为流行的看法: 把异常点看成是那些与数据集的主体明显不协调,使得研究者大感惊讶的数据点。这时,异常点可解释为所假定的分布中的极端点,即落在分布的单侧或双侧分位点以外的点,而通常取很小的值(如:0.05 ),致使观察者对数据中出现如此极端的点感到意外。
(2)强影响点 数据集中的强影响点是指那些对统计量的取值有非常大的影响力的点。在考虑强影响点时,有几个基本问题需要考虑:
首先必须明确“是对哪个统计量的影响?”例如,线性回归模型所考虑的是对回归系数的估计量的影响;不是对误差方差的估计影响;或是对拟合优度统计量的影响等等。分析目标不同,所考虑的影响亦有所不同。
其次,必须确定“度量影响的尺度是什么?”为了定量地刻划影响的大小,迄今为止已提出多种尺度,基于置信域的尺度,基于似然函数的尺度等等。在每一种类型中又可能有不同的统计量,例如基于影响函数就已提出多种“距离”来度量影响,有Cook距离、Welsch - Kuh距离、Welsch距离等等。每一种度量都是着眼于某一方面的影响,并在某种具体场合下较为有效。这一方面反映了度量影响问题的复杂性,另一方面也说明了影响分析的研究在统计诊断中是一个甚为活跃的方向,还有大量有待解决的问题。
强影响点通常是数据集中更为重要的数据点,它往往能提供比一般数据点更多的信息,因此需引起特别注意。强影响点通常是数据集中更为重要的数据点,它往往能提供比一般数据点更多的信息,因此需引起特别注意。 强影响点和异常点是两个不同的概念,它们之间既有联系也有区别。强影响点可能同时又是异常点也可能不是;反之,异常点可能同时又是强影响点也可能不是。
(2)模型修正 为了修改模型,我们再作以 为横坐标的残差图
三、误差的独立性诊断 • 在不少有关时间序列问题中,观测值往往呈相关的趋势。如河流的水位总有一个变化过程,当一场暴雨使河流水位上涨后往往需要几天才能使水位降低,因而当我们逐日测定河流最高水位时,相邻两天的观测间就不一定独立。