1.79k likes | 1.97k Views
现代回归分析方法. 上海财经大学统计系 韩小亮. 1. 回归分析 (Regression Analysis). 目的 : 回归分析研究的是一个变量 ( 应变量 ) 和其他变 量 ( 自变量 ) 之间的关系 . 其目的可能是 : 1. 确定哪些变量有关及其程度 ; 2. 预测 ; 3. 找出最优的组合 ; 4. 控制 ; 5. 寻求合适的数学模型 ; 6. 评估两个或两个以上因素的交互影响等等 . 数 据 资 料( data). 应 变 量( response ) 自 变 量 ( independent variables,
E N D
现代回归分析方法 上海财经大学统计系 韩小亮
1.回归分析(Regression Analysis) 目的:回归分析研究的是一个变量(应变量)和其他变 量(自变量)之间的关系. 其目的可能是: 1. 确定哪些变量有关及其程度; 2.预测; 3.找出最优的组合; 4.控制; 5.寻求合适的数学模型; 6.评估两个或两个以上因素的交互影响等等.
数 据 资 料(data) 应 变 量(response ) 自 变 量 (independent variables, predictor variables) 这 里n是 记 录 数 目,k是 自 变 量 数 目( 包 括 常 数 项).
2.线性回归(Linear Regression) 模 型: Y = X + 这 里 X是Z的函数(已知), 是 未 知 参 数 向 量 , 是 误 差 项
也 就 是 说 有
线 性 模 型 的 假 设: 1. 正 态 分 布; 2.互 相 独 立; 3. 同 方 差; 4. 一 个 随 机 误 差 项; 5. 系 统 影 响 的 相 加 性 (additivity of systematic effects); 6. 资料完整.
参 数 估 计(): 最 小 二 乘 估 计 → 有 (注意:这里没有用到正态分布的假定)
极 大 似 然 估 计 这 里 在正态分布 的假定下 这 个 估 计 是 所 谓BLUE 的.
残 差 平 方 和 的 分 布 → 方 差 的 估 计: ( 矩 估 计)
显 著 性 1。 模 型 的 显 著 性, 即 检 验 假 设 使 用 统 计 量 当为 真 时
2。某个因素的显著性,即检验假设 定义对称方阵 设 为其对角元素,则有检验统计量 当 成立时
模型选择(变量数目) 当两个模型有嵌套的(nested)关系时,可以用下述 F 检验来决定取舍 模型1: 模型2: 当 为真时 这里 是回归平方和, 是残差平方和.
拟合优度 • 确定系数: R2 statistic: • R2c (adjust R2):
Under H0:1=2= … = p-1 = 0 • (test R2 exactly equivalent to F test)
应变量的变换(transformation of response) • 目的: 1。正态分布(对称); • 2。同方差; • 3。相加性。
异方差或者不独立 • 加权最小二乘估计 : • 假如Y = X + • ~ N( 0, 2V) • 而且V已知,则存在满秩对称矩阵 P • PTP = PP =P2 =V • 且有 P-1 ~ N( 0, 2In ) • 即 • P-1Y| X ~N(P-1X, 2In )
对 P-1Y = P-1X+ P-1 • 取最小二乘估计,得 • ^ = (XTV-1X)-1XTV-1Y • 称之为加权最小二乘估计 • (weighted least square estimator) • 有 ^ ~ N( , 2 (XTV-1X)-1)
3.共线性 (Multicollinearity, collinearity) • 这里主要讨论“几乎”共线性,顺便也讨论一下精确的共线性
定义:自变量之间存在强烈的线性关系。 • 精确地说, 存在 使 • 或对至少一个k成立.
迹象: • XTX至少有一个很小的特征值(≈0) • 注意: λj≥0 for j=1,2,…,p (这里λj是XTX的特征值).
影响: 典型的影响是使参数估计的方差增大从而使整个估计不精确. • 总的说来: Var(^ )= 2 (XTX)-1 • 具体地说: Var(^j )= • for j=0,1,…,p-1
这里 • R2j是 • 即其它自变量对自变量j回归的确定系数.
线性回归的理想要求是:Y对X有很强的线性关系,而X之间有较弱的线性关系.线性回归的理想要求是:Y对X有很强的线性关系,而X之间有较弱的线性关系.
共线性的测度 • (1) VIF (variance inflation factor) • VIFj=1/(1- R2j ) for j=0,1,2,…,p-1. • 当 max(VIFj)≥10时, 有共线性问题 (这是经验公式,无精确理论基础)
注意: VIF0≡1/(1- R20 ) • 其对应模型是 • 此模型右边无常数项.
(2) Condition Number • 这里λ(j)是按大小排列的矩阵XTX的特征值. 当κ>1000时,可能有严重的共线性问题.
(3) Condition Index • for j=2,3,…,p • Condition Index 能发现多于一个的共线性关系. • 经验公式: 列出所有的κj≥100.
解决方法 • (1) 从模型中除去一些变量(例如对应于比较大的VIFj的Xj). 这个问题与变量选择和模型确定的方法有关; 如果 βj≠0, 则剔除βj会导致 ,即最小二乘估计成为有偏估计.
(2) 主成分回归 • (Principal Component Regression) • Y = X + =X(UUT) + = (XU)(UT) + ≡Gα + • 这里 U是XTX的特征向量矩阵(XTX=UΛUT); • G=XU (G称为主成分 principal component) • α= UT
这时α的LS估计是 • α^=(GTG)-1GTY=Λ-1GTY → β^=U α^ • 如果把G去掉(p-r)列(比如说对应于较小的λi),记为G(r), G(r)=XU(r),取 • α~=(GT(r)G(r) )-1GT(r)Y • β~=U(r) α~=U(GT(r)G(r) )-1GT(r)Y • 称之为主成分估计 • (principal component estimator).
这时有 • SV(β~)=2 • SMSE(β~)=2 • 即这个估计是有偏的(除非α2i=0 i=r+1,…,p). • (注意:主成分回归只减少”成分”个数,没有减少变量个数).
(3) 岭回归(Ridge regression) • β*= (XTX+kI)-1XTY • 这里k>0通常是个小正数.
前面有 SV(^ ) = 2 • 现在有 SV(* ) = 2 SV(^ ) • 当k→∞时, SV(* ) →0 • 事实上 Var(* )= 2UΛ*UT • 这里 (Λ*)ii=λi(λi+k)-2
然而 SMSE(β*) • =2 • β*是β的有偏估计. • 当k↑有Var(* )↓ 同时bias(* )↑. • 注意到上述SMSE(β*)的第二项是单调增函数,且有当 k=0时为0, • 则存在k*使SMSE(k*)< SMSE(0).
但事实上koptimal不可求(因为式中的β 未知).经验方法是: • 1) k^=p*^2/^T^这里^2 = (Y - X^)T(Y - X^) /(n – p); • 2) 找出使β*”稳定”下来的k (1<VIFmax <10); • 3) 画脊岭迹 (ridge trace), 即对j=0,1,…,p-1画出*j(k),k. • 脊岭迹也可用来作为除去变量的标准:除去那些不稳定(变号,很快趋于零)的变量.
广义逆回归 • 如果完全的共线性存在,即XTX的秩小于p,则最小二乘估计^不唯一.可用广义逆(如Moore-Penrose 广义逆)找出^的一般解.
4.重大影响点,异类点和稳健性回归 • (Influential points, Outliers and Robust regression)
定义: 残差(residual) • 这里hat matrix: • H=X(XTX)-1XT • 有 • var(e)=(I-H)σ2和 var(ei)=(1-hii) σ2 • 且有 (含有β0项时) 和
定义:标准残差(Standardized residual) • zi=ei/s • 有
定义:学生残差(Studentized residual) • 在回归模型假定下ri渐进服从自由度为(n-p)的学生分布.
定义:大折刀残差(Jackknife residual) • 这里s2(-i)是指去掉第i项的方差估计. • 在回归模型假定下r(-i)精确地服从自由度为(n-p-1)的学生分布. • 当 (n-p)>>30时 ri, r(-i)都渐进服从N(0,1).
常用残差图 • (1)分布图或直方图(histogram); • (2) 盒子图(box-plot or schematic plot); • (3) 正态图或半正态图; • (4) 二维图(如Y^,r(-i)).
重大杠杆点(high leverage point) • 一个事实: • for i=1,2,…,n. • (single-row effects)
帽子矩阵 H的一些性质 (1)对称(symmetric); (2) 幂等(idempotent): H2=H; (3) 1/n≤hii≤1; (4) 特征值: the eigenvalues are all either 0 or 1, (# of 1s=Rank(H)); (5) Rank(H)=Rank (X)=p, (tr(H)=Σhii=p).
On average: hii=p/n; • 经验公式:A rule of thumb: hii>2p/n → high leverage point i.
Leverage的度量: Cook’s distance • 当Di<<1时,没有 high leverage 的问题. • (注意: high leverage point 不一定会很大地改变参数估计值.)[图]
异类点及其处理 • 异类点(Outliers)通常指的是这样一种情况:资料不纯(contamination),即资料中的一个记录(点)或某项记录(点)显然与其他大部分记录(点)”不一样”.