1 / 178

现代回归分析方法

现代回归分析方法. 上海财经大学统计系 韩小亮. 1. 回归分析 (Regression Analysis). 目的 : 回归分析研究的是一个变量 ( 应变量 ) 和其他变 量 ( 自变量 ) 之间的关系 . 其目的可能是 : 1. 确定哪些变量有关及其程度 ; 2. 预测 ; 3. 找出最优的组合 ; 4. 控制 ; 5. 寻求合适的数学模型 ; 6. 评估两个或两个以上因素的交互影响等等 . 数 据 资 料( data). 应 变 量( response ) 自 变 量 ( independent variables,

prentice
Download Presentation

现代回归分析方法

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 现代回归分析方法 上海财经大学统计系 韩小亮

  2. 1.回归分析(Regression Analysis) 目的:回归分析研究的是一个变量(应变量)和其他变 量(自变量)之间的关系. 其目的可能是: 1. 确定哪些变量有关及其程度; 2.预测; 3.找出最优的组合; 4.控制; 5.寻求合适的数学模型; 6.评估两个或两个以上因素的交互影响等等.

  3. 数 据 资 料(data) 应 变 量(response ) 自 变 量 (independent variables, predictor variables) 这 里n是 记 录 数 目,k是 自 变 量 数 目( 包 括 常 数 项).

  4. 基本模型:

  5. 2.线性回归(Linear Regression) 模 型: Y = X +  这 里 X是Z的函数(已知), 是 未 知 参 数 向 量 , 是 误 差 项

  6. 也 就 是 说

  7. 线 性 模 型 的 假 设: 1. 正 态 分 布; 2.互 相 独 立; 3. 同 方 差; 4. 一 个 随 机 误 差 项; 5. 系 统 影 响 的 相 加 性 (additivity of systematic effects); 6. 资料完整.

  8. 参 数 估 计(): 最 小 二 乘 估 计 → 有 (注意:这里没有用到正态分布的假定)

  9. 极 大 似 然 估 计 这 里 在正态分布 的假定下 这 个 估 计 是 所 谓BLUE 的.

  10. 估计量的分布

  11. 残 差 平 方 和 的 分 布 → 方 差 的 估 计: ( 矩 估 计)

  12. 显 著 性 1。 模 型 的 显 著 性, 即 检 验 假 设 使 用 统 计 量 当为 真 时

  13. 2。某个因素的显著性,即检验假设 定义对称方阵 设 为其对角元素,则有检验统计量 当 成立时

  14. 模型选择(变量数目) 当两个模型有嵌套的(nested)关系时,可以用下述 F 检验来决定取舍 模型1: 模型2: 当 为真时 这里 是回归平方和, 是残差平方和.

  15. 方差分析表

  16. 拟合优度 • 确定系数: R2 statistic: • R2c (adjust R2):

  17. Under H0:1=2= … = p-1 = 0 • (test R2 exactly equivalent to F test)

  18. 应变量的变换(transformation of response) • 目的: 1。正态分布(对称); • 2。同方差; • 3。相加性。

  19. 异方差或者不独立 • 加权最小二乘估计 : • 假如Y = X +  •  ~ N( 0, 2V) • 而且V已知,则存在满秩对称矩阵 P •   PTP = PP =P2 =V • 且有 P-1 ~ N( 0, 2In ) • 即 • P-1Y| X ~N(P-1X, 2In )

  20. 对 P-1Y = P-1X+ P-1 • 取最小二乘估计,得 • ^ = (XTV-1X)-1XTV-1Y • 称之为加权最小二乘估计 • (weighted least square estimator) • 有 ^ ~ N( , 2 (XTV-1X)-1)

  21. 3.共线性 (Multicollinearity, collinearity) • 这里主要讨论“几乎”共线性,顺便也讨论一下精确的共线性

  22. 定义:自变量之间存在强烈的线性关系。 • 精确地说, 存在 使 • 或对至少一个k成立.

  23. 迹象: • XTX至少有一个很小的特征值(≈0) • 注意: λj≥0 for j=1,2,…,p (这里λj是XTX的特征值).

  24. 影响: 典型的影响是使参数估计的方差增大从而使整个估计不精确. •   总的说来: Var(^ )= 2 (XTX)-1 • 具体地说: Var(^j )= • for j=0,1,…,p-1

  25. 这里 • R2j是 • 即其它自变量对自变量j回归的确定系数.

  26. 线性回归的理想要求是:Y对X有很强的线性关系,而X之间有较弱的线性关系.线性回归的理想要求是:Y对X有很强的线性关系,而X之间有较弱的线性关系.

  27. 共线性的测度 • (1)   VIF (variance inflation factor) • VIFj=1/(1- R2j ) for j=0,1,2,…,p-1. • 当 max(VIFj)≥10时, 有共线性问题 (这是经验公式,无精确理论基础)

  28. 注意: VIF0≡1/(1- R20 ) • 其对应模型是 • 此模型右边无常数项.

  29. (2)   Condition Number • 这里λ(j)是按大小排列的矩阵XTX的特征值. 当κ>1000时,可能有严重的共线性问题.

  30. (3)   Condition Index •   for j=2,3,…,p • Condition Index 能发现多于一个的共线性关系. • 经验公式: 列出所有的κj≥100.

  31. 解决方法 • (1)   从模型中除去一些变量(例如对应于比较大的VIFj的Xj). 这个问题与变量选择和模型确定的方法有关; 如果 βj≠0, 则剔除βj会导致 ,即最小二乘估计成为有偏估计.

  32. (2)   主成分回归 • (Principal Component Regression) • Y = X + =X(UUT)  + = (XU)(UT) + ≡Gα +  • 这里 U是XTX的特征向量矩阵(XTX=UΛUT); • G=XU (G称为主成分 principal component) • α= UT

  33. 这时α的LS估计是 • α^=(GTG)-1GTY=Λ-1GTY → β^=U α^ • 如果把G去掉(p-r)列(比如说对应于较小的λi),记为G(r), G(r)=XU(r),取 • α~=(GT(r)G(r) )-1GT(r)Y • β~=U(r) α~=U(GT(r)G(r) )-1GT(r)Y • 称之为主成分估计 • (principal component estimator).

  34. 这时有 • SV(β~)=2 • SMSE(β~)=2 • 即这个估计是有偏的(除非α2i=0 i=r+1,…,p). • (注意:主成分回归只减少”成分”个数,没有减少变量个数).

  35. (3)   岭回归(Ridge regression) • β*= (XTX+kI)-1XTY • 这里k>0通常是个小正数.

  36. 前面有 SV(^ ) = 2 • 现在有 SV(* ) = 2 SV(^ ) • 当k→∞时, SV(* ) →0 • 事实上 Var(* )= 2UΛ*UT • 这里 (Λ*)ii=λi(λi+k)-2

  37. 然而 SMSE(β*) • =2 • β*是β的有偏估计. • 当k↑有Var(* )↓ 同时bias(* )↑. • 注意到上述SMSE(β*)的第二项是单调增函数,且有当 k=0时为0, • 则存在k*使SMSE(k*)< SMSE(0).

  38. 但事实上koptimal不可求(因为式中的β 未知).经验方法是: • 1) k^=p*^2/^T^这里^2 = (Y - X^)T(Y - X^) /(n – p); •   2) 找出使β*”稳定”下来的k (1<VIFmax <10); •   3) 画脊岭迹 (ridge trace), 即对j=0,1,…,p-1画出*j(k),k. • 脊岭迹也可用来作为除去变量的标准:除去那些不稳定(变号,很快趋于零)的变量.

  39. 广义逆回归 • 如果完全的共线性存在,即XTX的秩小于p,则最小二乘估计^不唯一.可用广义逆(如Moore-Penrose 广义逆)找出^的一般解.

  40. 4.重大影响点,异类点和稳健性回归 • (Influential points, Outliers and Robust regression)

  41. 定义: 残差(residual) • 这里hat matrix: • H=X(XTX)-1XT • 有 • var(e)=(I-H)σ2和 var(ei)=(1-hii) σ2 • 且有 (含有β0项时) 和

  42. 定义:标准残差(Standardized residual) • zi=ei/s • 有

  43. 定义:学生残差(Studentized residual) • 在回归模型假定下ri渐进服从自由度为(n-p)的学生分布.

  44. 定义:大折刀残差(Jackknife residual) • 这里s2(-i)是指去掉第i项的方差估计. • 在回归模型假定下r(-i)精确地服从自由度为(n-p-1)的学生分布. •  当 (n-p)>>30时 ri, r(-i)都渐进服从N(0,1).

  45. 常用残差图 • (1)分布图或直方图(histogram); • (2)   盒子图(box-plot or schematic plot); • (3)   正态图或半正态图; • (4)   二维图(如Y^,r(-i)).

  46. 重大杠杆点(high leverage point) • 一个事实: • for i=1,2,…,n. • (single-row effects)

  47. 帽子矩阵 H的一些性质 (1)对称(symmetric); (2)   幂等(idempotent): H2=H; (3)   1/n≤hii≤1; (4)   特征值: the eigenvalues are all either 0 or 1, (# of 1s=Rank(H)); (5)   Rank(H)=Rank (X)=p, (tr(H)=Σhii=p).

  48. On average: hii=p/n; • 经验公式:A rule of thumb: hii>2p/n → high leverage point i.

  49. Leverage的度量: Cook’s distance • 当Di<<1时,没有 high leverage 的问题. • (注意: high leverage point 不一定会很大地改变参数估计值.)[图]

  50. 异类点及其处理 • 异类点(Outliers)通常指的是这样一种情况:资料不纯(contamination),即资料中的一个记录(点)或某项记录(点)显然与其他大部分记录(点)”不一样”.

More Related