现代回归分析方法

现代回归分析方法 上海财经大学统计系韩小亮

1.回归分析(Regression Analysis) 目的:回归分析研究的是一个变量(应变量)和其他变量(自变量)之间的关系. 其目的可能是: 1. 确定哪些变量有关及其程度; 2.预测; 3.找出最优的组合; 4.控制; 5.寻求合适的数学模型; 6.评估两个或两个以上因素的交互影响等等.

数据资料（data） 应变量（response ）自变量（independent variables, predictor variables) 这里n是记录数目，k是自变量数目（包括常数项).

基本模型:

2.线性回归(Linear Regression) 模型： Y = X +  这里 X是Z的函数(已知), 是未知参数向量， 是误差项

也就是说 有

线性模型的假设： 1. 正态分布； 2.互相独立； 3. 同方差； 4. 一个随机误差项; 5. 系统影响的相加性（additivity of systematic effects); 6. 资料完整.

参数估计（）： 最小二乘估计 → 有 (注意:这里没有用到正态分布的假定)

极大似然估计 这里在正态分布的假定下这个估计是所谓BLUE 的.

估计量的分布

残差平方和的分布 → 方差的估计：（矩估计）

显著性 1。模型的显著性，即检验假设使用统计量当为真时

2。某个因素的显著性，即检验假设 定义对称方阵设为其对角元素，则有检验统计量当成立时

模型选择（变量数目） 当两个模型有嵌套的(nested)关系时，可以用下述 F 检验来决定取舍模型1: 模型2: 当为真时这里是回归平方和, 是残差平方和.

方差分析表

拟合优度 • 确定系数: R2 statistic: • R2c (adjust R2):

Under H0：1=2= … = p-1 = 0 • (test R2 exactly equivalent to F test)

应变量的变换(transformation of response) • 目的： 1。正态分布（对称）； • 2。同方差； • 3。相加性。

异方差或者不独立 • 加权最小二乘估计 : • 假如Y = X +  •  ~ N( 0, 2V) • 而且V已知，则存在满秩对称矩阵 P • PＴP ＝ PP ＝P２＝V • 且有 P－1 ~ N( 0, 2In ) • 即 • P－1Y| X ~N(P－1X, 2In )

对 P－1Y ＝ P－1X＋ P－1 • 取最小二乘估计，得 • ^ ＝ (XTV－1X)-1XTV－1Y • 称之为加权最小二乘估计 • (weighted least square estimator) • 有 ^ ~ N( , 2 (XTV－1X)-1)

3.共线性 (Multicollinearity, collinearity) • 这里主要讨论“几乎”共线性，顺便也讨论一下精确的共线性

定义：自变量之间存在强烈的线性关系。 • 精确地说，存在使 • 或对至少一个k成立.

迹象： • XTX至少有一个很小的特征值(≈0) • 注意: λj≥0 for j=1,2,…,p (这里λj是XTX的特征值).

影响: 典型的影响是使参数估计的方差增大从而使整个估计不精确. • 总的说来: Var(^ )= 2 (XTX)-1 • 具体地说: Var(^j )= • for j=0,1,…,p-1

这里 • R2j是 • 即其它自变量对自变量j回归的确定系数.

线性回归的理想要求是:Y对X有很强的线性关系,而X之间有较弱的线性关系.线性回归的理想要求是:Y对X有很强的线性关系,而X之间有较弱的线性关系.

共线性的测度 • (1) VIF (variance inflation factor) • VIFj=1/(1- R2j ) for j=0,1,2,…,p-1. • 当 max(VIFj)≥10时, 有共线性问题 (这是经验公式,无精确理论基础)

注意: VIF0≡1/(1- R20 ) • 其对应模型是 • 此模型右边无常数项.

(2) Condition Number • 这里λ(j)是按大小排列的矩阵XTX的特征值. 当κ>1000时,可能有严重的共线性问题.

(3) Condition Index • for j=2,3,…,p • Condition Index 能发现多于一个的共线性关系. • 经验公式: 列出所有的κj≥100.

解决方法 • (1) 从模型中除去一些变量(例如对应于比较大的VIFj的Xj). 这个问题与变量选择和模型确定的方法有关; 如果 βj≠0, 则剔除βj会导致 ,即最小二乘估计成为有偏估计.

(2) 主成分回归 • (Principal Component Regression) • Y = X + =X(UUT)  + = (XU)(UT) + ≡Gα +  • 这里 U是XTX的特征向量矩阵(XTX=UΛUT); • G=XU (G称为主成分 principal component) • α= UT

这时α的LS估计是 • α^=(GTG)-1GTY=Λ-1GTY → β^=U α^ • 如果把G去掉(p-r)列(比如说对应于较小的λi),记为G(r), G(r)=XU(r),取 • α~=(GT(r)G(r) )-1GT(r)Y • β~=U(r) α~=U(GT(r)G(r) )-1GT(r)Y • 称之为主成分估计 • (principal component estimator).

这时有 • SV(β~)=2 • SMSE(β~)=2 • 即这个估计是有偏的(除非α2i=0 i=r+1,…,p). • (注意:主成分回归只减少”成分”个数,没有减少变量个数).

(3) 岭回归(Ridge regression) • β*＝ (XTX+kI)-1XTY • 这里k>0通常是个小正数.

前面有 SV(^ ) = 2 • 现在有 SV(* ) = 2 SV(^ ) • 当k→∞时, SV(* ) →0 • 事实上 Var(* )= 2UΛ*UT • 这里 (Λ*)ii=λi(λi+k)-2

然而 SMSE(β*) • =2 • β*是β的有偏估计. • 当k↑有Var(* )↓ 同时bias(* )↑. • 注意到上述SMSE(β*)的第二项是单调增函数,且有当 k=0时为0, • 则存在k*使SMSE(k*)< SMSE(0).

但事实上koptimal不可求(因为式中的β 未知).经验方法是: • 1) k^=p*^2/^T^这里^2 = (Y - X^)T(Y - X^) /(n – p); • 2) 找出使β*”稳定”下来的k (1<VIFmax <10); • 3) 画脊岭迹 (ridge trace), 即对j=0,1,…,p-1画出*j(k),k. • 脊岭迹也可用来作为除去变量的标准:除去那些不稳定(变号,很快趋于零)的变量.

广义逆回归 • 如果完全的共线性存在,即XTX的秩小于p,则最小二乘估计^不唯一.可用广义逆(如Moore-Penrose 广义逆)找出^的一般解.

4.重大影响点,异类点和稳健性回归 • (Influential points, Outliers and Robust regression)

定义: 残差(residual) • 这里hat matrix: • H=X(XTX)-1XT • 有 • var(e)=(I-H)σ2和 var(ei)=(1-hii) σ2 • 且有 (含有β0项时) 和

定义:标准残差(Standardized residual) • zi=ei/s • 有

定义:学生残差(Studentized residual) • 在回归模型假定下ri渐进服从自由度为(n-p)的学生分布.

定义:大折刀残差(Jackknife residual) • 这里s2(-i)是指去掉第i项的方差估计. • 在回归模型假定下r(-i)精确地服从自由度为(n-p-1)的学生分布. • 当 (n-p)>>30时 ri, r(-i)都渐进服从N(0,1).

常用残差图 • (1)分布图或直方图(histogram); • (2) 盒子图(box-plot or schematic plot); • (3) 正态图或半正态图; • (4) 二维图(如Y^,r(-i)).

重大杠杆点(high leverage point) • 一个事实: • for i=1,2,…,n. • (single-row effects)

帽子矩阵 H的一些性质 (1)对称(symmetric); (2) 幂等(idempotent): H2=H; (3) 1/n≤hii≤1; (4) 特征值: the eigenvalues are all either 0 or 1, (# of 1s=Rank(H)); (5) Rank(H)=Rank (X)=p, (tr(H)=Σhii=p).

On average: hii=p/n; • 经验公式:A rule of thumb: hii>2p/n → high leverage point i.

Leverage的度量: Cook’s distance • 当Di<<1时,没有 high leverage 的问题. • (注意: high leverage point 不一定会很大地改变参数估计值.)[图]

异类点及其处理 • 异类点(Outliers)通常指的是这样一种情况:资料不纯(contamination),即资料中的一个记录(点)或某项记录(点)显然与其他大部分记录(点)”不一样”.

现代回归分析方法

现代回归分析方法

Presentation Transcript