现代回归分析方法
This presentation is the property of its rightful owner.
Sponsored Links
1 / 178

现代回归分析方法 PowerPoint PPT Presentation


  • 61 Views
  • Uploaded on
  • Presentation posted in: General

现代回归分析方法. 上海财经大学统计系 韩小亮. 1. 回归分析 (Regression Analysis). 目的 : 回归分析研究的是一个变量 ( 应变量 ) 和其他变量 ( 自变量 ) 之间的关系 . 其目的可能是 : 1. 确定哪些变量有关及其程度 ; 2. 预测 ; 3. 找出最优的组合 ; 4. 控制 ; 5. 寻求合适的数学模型 ; 6. 评估两个或两个以上因素的交互影响等等 . 数 据 资 料( data). 应 变 量( response ) 自 变 量 ( independent variables,

Download Presentation

现代回归分析方法

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


1 2 3 4 5 6

现代回归分析方法

上海财经大学统计系

韩小亮


1 regression analysis

1.回归分析(Regression Analysis)

目的:回归分析研究的是一个变量(应变量)和其他变量(自变量)之间的关系.

其目的可能是:

1. 确定哪些变量有关及其程度;

2.预测;

3.找出最优的组合;

4.控制;

5.寻求合适的数学模型;

6.评估两个或两个以上因素的交互影响等等.


1 2 3 4 5 6

数 据 资 料(data)

应 变 量(response )

自 变 量

(independent variables,

predictor variables)

这 里n是 记 录 数 目,k是 自 变 量 数 目( 包 括 常 数 项).


1 2 3 4 5 6

基本模型:


2 linear regression

2.线性回归(Linear Regression)

模 型:

Y = X + 

这 里

X是Z的函数(已知), 是 未 知 参 数 向 量 , 是 误 差 项


1 2 3 4 5 6

也 就 是 说


1 2 3 4 5 6

线 性 模 型 的 假 设:

1. 正 态 分 布;

2.互 相 独 立;

3. 同 方 差;

4. 一 个 随 机 误 差 项;

5. 系 统 影 响 的 相 加 性 (additivity of systematic effects);

6. 资料完整.


1 2 3 4 5 6

参 数 估 计():

最 小 二 乘 估 计

(注意:这里没有用到正态分布的假定)


1 2 3 4 5 6

极 大 似 然 估 计

这 里

在正态分布 的假定下

这 个 估 计 是 所 谓BLUE 的.


1 2 3 4 5 6

估计量的分布


1 2 3 4 5 6

残 差 平 方 和 的 分 布

→方 差 的 估 计:

( 矩 估 计)


1 2 3 4 5 6

显 著 性

1。 模 型 的 显 著 性, 即 检 验 假 设

使 用 统 计 量

当为 真 时


1 2 3 4 5 6

2。某个因素的显著性,即检验假设

定义对称方阵

设 为其对角元素,则有检验统计量

当 成立时


1 2 3 4 5 6

模型选择(变量数目)

当两个模型有嵌套的(nested)关系时,可以用下述 F 检验来决定取舍

模型1:

模型2:

当 为真时

这里 是回归平方和, 是残差平方和.


1 2 3 4 5 6

方差分析表


1 2 3 4 5 6

拟合优度

  • 确定系数: R2 statistic:

  • R2c (adjust R2):


1 2 3 4 5 6

  • Under H0:1=2= … = p-1 = 0

  • (test R2 exactly equivalent to F test)


Transformation of response

应变量的变换(transformation of response)

  • 目的: 1。正态分布(对称);

  • 2。同方差;

  • 3。相加性。


1 2 3 4 5 6

异方差或者不独立

  • 加权最小二乘估计 :

  • 假如Y = X + 

  •  ~ N( 0, 2V)

  • 而且V已知,则存在满秩对称矩阵 P

  •   PTP = PP =P2 =V

  • 且有 P-1 ~ N( 0, 2In )

  • P-1Y| X ~N(P-1X, 2In )


1 2 3 4 5 6

  • 对 P-1Y = P-1X+ P-1

  • 取最小二乘估计,得

  • ^ = (XTV-1X)-1XTV-1Y

  • 称之为加权最小二乘估计

  • (weighted least square estimator)

  • 有 ^ ~ N( , 2 (XTV-1X)-1)


3 multicollinearity collinearity

3.共线性 (Multicollinearity, collinearity)

  • 这里主要讨论“几乎”共线性,顺便也讨论一下精确的共线性


1 2 3 4 5 6

  • 定义:自变量之间存在强烈的线性关系。

  • 精确地说, 存在 使

  • 或对至少一个k成立.


1 2 3 4 5 6

  • 迹象:

    • XTX至少有一个很小的特征值(≈0)

  • 注意: λj≥0 for j=1,2,…,p (这里λj是XTX的特征值).


1 2 3 4 5 6

  • 影响: 典型的影响是使参数估计的方差增大从而使整个估计不精确.

  •  总的说来: Var(^ )= 2 (XTX)-1

  • 具体地说: Var(^j )=

  • for j=0,1,…,p-1


1 2 3 4 5 6

  • 这里

  • R2j是

  • 即其它自变量对自变量j回归的确定系数.


1 2 3 4 5 6

  • 线性回归的理想要求是:Y对X有很强的线性关系,而X之间有较弱的线性关系.


1 2 3 4 5 6

共线性的测度

  • (1)   VIF (variance inflation factor)

  • VIFj=1/(1- R2j ) for j=0,1,2,…,p-1.

  • 当 max(VIFj)≥10时, 有共线性问题 (这是经验公式,无精确理论基础)


1 2 3 4 5 6

  • 注意: VIF0≡1/(1- R20 )

  • 其对应模型是

  • 此模型右边无常数项.


1 2 3 4 5 6

  • (2)   Condition Number

  • 这里λ(j)是按大小排列的矩阵XTX的特征值. 当κ>1000时,可能有严重的共线性问题.


1 2 3 4 5 6

  • (3)   Condition Index

  •   for j=2,3,…,p

  • Condition Index 能发现多于一个的共线性关系.

  • 经验公式: 列出所有的κj≥100.


1 2 3 4 5 6

解决方法

  • (1)   从模型中除去一些变量(例如对应于比较大的VIFj的Xj).

    这个问题与变量选择和模型确定的方法有关;

    如果 βj≠0, 则剔除βj会导致 ,即最小二乘估计成为有偏估计.


1 2 3 4 5 6

  • (2)   主成分回归

  • (Principal Component Regression)

  • Y = X + =X(UUT)  + = (XU)(UT) + ≡Gα + 

  • 这里 U是XTX的特征向量矩阵(XTX=UΛUT);

  • G=XU (G称为主成分 principal component)

  • α= UT


1 2 3 4 5 6

  • 这时α的LS估计是

  • α^=(GTG)-1GTY=Λ-1GTY → β^=U α^

  • 如果把G去掉(p-r)列(比如说对应于较小的λi),记为G(r), G(r)=XU(r),取

  • α~=(GT(r)G(r) )-1GT(r)Y

  • β~=U(r) α~=U(GT(r)G(r) )-1GT(r)Y

  • 称之为主成分估计

  • (principal component estimator).


1 2 3 4 5 6

  • 这时有

  • SV(β~)=2

  • SMSE(β~)=2

  • 即这个估计是有偏的(除非α2i=0 i=r+1,…,p).

  • (注意:主成分回归只减少”成分”个数,没有减少变量个数).


1 2 3 4 5 6

  • (3)   岭回归(Ridge regression)

  • β*= (XTX+kI)-1XTY

  • 这里k>0通常是个小正数.


1 2 3 4 5 6

  • 前面有SV(^ ) = 2

  • 现在有SV(* ) = 2 SV(^ )

  • 当k→∞时, SV(* ) →0

  • 事实上Var(* )= 2UΛ*UT

  • 这里(Λ*)ii=λi(λi+k)-2


1 2 3 4 5 6

  • 然而 SMSE(β*)

  • =2

  • β*是β的有偏估计.

  • 当k↑有Var(* )↓ 同时bias(* )↑.

  • 注意到上述SMSE(β*)的第二项是单调增函数,且有当 k=0时为0,

  • 则存在k*使SMSE(k*)< SMSE(0).


1 2 3 4 5 6

  • 但事实上koptimal不可求(因为式中的β 未知).经验方法是:

  • 1) k^=p*^2/^T^这里^2 = (Y - X^)T(Y - X^) /(n – p);

  •  2) 找出使β*”稳定”下来的k (1<VIFmax <10);

  •  3) 画脊岭迹 (ridge trace), 即对j=0,1,…,p-1画出*j(k),k.

  • 脊岭迹也可用来作为除去变量的标准:除去那些不稳定(变号,很快趋于零)的变量.


1 2 3 4 5 6

广义逆回归

  • 如果完全的共线性存在,即XTX的秩小于p,则最小二乘估计^不唯一.可用广义逆(如Moore-Penrose 广义逆)找出^的一般解.


1 2 3 4 5 6

4.重大影响点,异类点和稳健性回归

  • (Influential points, Outliers and Robust regression)


1 2 3 4 5 6

  • 定义: 残差(residual)

  • 这里hat matrix:

  • H=X(XTX)-1XT

  • var(e)=(I-H)σ2和 var(ei)=(1-hii) σ2

  • 且有(含有β0项时) 和


1 2 3 4 5 6

  • 定义:标准残差(Standardized residual)

  • zi=ei/s


1 2 3 4 5 6

  • 定义:学生残差(Studentized residual)

  • 在回归模型假定下ri渐进服从自由度为(n-p)的学生分布.


1 2 3 4 5 6

  • 定义:大折刀残差(Jackknife residual)

  • 这里s2(-i)是指去掉第i项的方差估计.

  • 在回归模型假定下r(-i)精确地服从自由度为(n-p-1)的学生分布.

  •  当 (n-p)>>30时 ri, r(-i)都渐进服从N(0,1).


1 2 3 4 5 6

常用残差图

  • (1)分布图或直方图(histogram);

  • (2)   盒子图(box-plot or schematic plot);

  • (3)   正态图或半正态图;

  • (4)   二维图(如Y^,r(-i)).


High leverage point

重大杠杆点(high leverage point)

  • 一个事实:

  • for i=1,2,…,n.

  • (single-row effects)


1 2 3 4 5 6

帽子矩阵 H的一些性质

(1)对称(symmetric);

(2)   幂等(idempotent): H2=H;

(3)   1/n≤hii≤1;

(4)   特征值: the eigenvalues are all either 0 or 1, (# of 1s=Rank(H));

(5)   Rank(H)=Rank (X)=p, (tr(H)=Σhii=p).


1 2 3 4 5 6

  • On average: hii=p/n;

  • 经验公式:A rule of thumb: hii>2p/n → high leverage point i.


1 2 3 4 5 6

  • Leverage的度量:Cook’s distance

  • 当Di<<1时,没有 high leverage 的问题.

  • (注意: high leverage point 不一定会很大地改变参数估计值.)[图]


1 2 3 4 5 6

异类点及其处理

  • 异类点(Outliers)通常指的是这样一种情况:资料不纯(contamination),即资料中的一个记录(点)或某项记录(点)显然与其他大部分记录(点)”不一样”.


1 2 3 4 5 6

异类点的统计模型

  • 原假设:

  • 备用假设1:确定性备用假设

  • (deterministic alternative)

  • 有记录或测量误差;

  • 备用假设2:内在性备用假设

  • (inherent alternative)


1 2 3 4 5 6

  • 备用假设3:混合型备用假设

  • (mixture alternative)

  • 备用假设4:滑动型备用假设

  • (slippage alternative)

  • 除了事先确定的k个点之外(确定指的是数目k而不是点)所有其他点都属于F. F由位置参数(location) μ 和等级参数(scale) σ2确定.而k个点则来自μ和σ2 有变动的版本F;


1 2 3 4 5 6

  • 备用假设5:可变换型备用假设

  • (exchangeable alternative)

  • 只有一个异类点

  • j等可能地来自[1,2,…,n].


1 2 3 4 5 6

异类点的处理方法

  • (1) 找出并剔除(discardancy test): 例如基于残差的检验.

  • 注意:当用max{r(-i)}n的P值进行检验时,需要考虑所谓的Bonferroni correction.

  • (2) 去除或减少其影响(accommodation):稳健性(robust)统计.

  • 注意:异类点常常是重大杠杆点,但重大杠杆点不一定是异类点.


Bonferroni inequality

Bonferroni Inequality

  • n tests each of size α, the probability of falsely labelling at least one point, an outlier is no grater than nα.

  • 如果选α’=α/n, 则可得保守的 α 值


Robust regression

稳健性回归(Robust regression)

  • 稳健性统计的一些方法 (以位置[location]估计为例):

  • (1) 修剪法(trimming)

  • 略去r个最小的和s个最大的样本值:

  • 或者取αn=r+f(0< f <1)


1 2 3 4 5 6

  • (2) 温莎法(Winsorizing)

  • 或者类似于 定义


1 2 3 4 5 6

  • (3) L估计量,M估计量和R估计量

  • L-estimators (Linear Order Statistics estimators)

  • 注意:修剪法和温莎法都是L估计量.


1 2 3 4 5 6

  • M-estimators

  • 找出方程 关于的解.

  • 注意:当密度函数为f(x-μ)时,取 ,

  • 就是似然方程的解.

  • R-estimators

  • 由一定的秩检验(rank test,如 Wilcoxon test)的程度所取得.


1 2 3 4 5 6

为什么要稳健性回归

  • 替代方法是分两步走:

  • (1)去除异类点;

  • (2)用经典方法进行回归.

  • 但是

    • 去除异类点首先需要可靠的参数估计;

    • 原先的分布假设可能不对;

    • 经验表明稳健性方法往往比剔除异类点的方法更可取.因为它不决断地接受或拒绝一个观察点.


1 2 3 4 5 6

稳健性回归的要求

  • (1) 在假定模型下是好的估计;

  • (2) 假如资料对模型假定有一点偏离,其参数估计还是”稳健的”;

  • (3) 如果资料对模型假定有较大的偏离,参数估计也不是”灾难性”的.


1 2 3 4 5 6

稳健性回归的几个例子

  • (1) 考虑M估计量

  • 当 时, 它就是LS估计.

  • 取 这里0<f<2.

  • 较小的 f 等价于给较大的残差以较小的权.


1 2 3 4 5 6

  • 特别地,当f=1时,称之为Least Absolute Deviation Estimation,又叫L1-regression.

  • 或者取

  • 这里c>0是一个常数.


1 2 3 4 5 6

  • (2) 考虑下列步骤:

  • (i) 对 Yi 回归,得Y^i, s和 ri(或 r(-i));

  • (ii) Winsorize Yi:

  • 这里c是稳健控制值,一般取1到2之间.

  • (iii) 对 Y*i回归,得新的Y^i, s和 ri(或 r(-i));重复(i)和(ii)直到收敛.


1 2 3 4 5 6

  • 注意:当用: e*i =Y*i -Y^i代替: ei =Yi -Y^i 时,将会低估σ2

  • 修正方法:

  • 这里m是未修改的Y的数目.


1 2 3 4 5 6

  • (3) LTS regression

  • 这里h<n, 称之为Least Trimmed Squares Regression


1 2 3 4 5 6

  • (4) LMS regression

  • 称之为Least Median of Squares Regression

  • 注意:稳健性回归的思想具有一般的意义.


5 generalized linear models

5. 广义线性模型(Generalized Linear Models)

  • 线性模型的推广

  • 一大类回归模型

  • 有完整的理论结构


Logistic regression

逻辑回归(Logistic Regression)

  • 如果应变量Yi只能取两个值0和1,则Yi服从二点分布(Bernoulli distribution).


1 2 3 4 5 6

  • 逻辑函数:


1 2 3 4 5 6

逻辑回归模型

  • 这里g定义为连系函数(link function),连系函数将线性组合Xiβ与数学期望pi连在一起.

  • 即 p是关于η的逻辑函数,且有 0<pi <1.


1 2 3 4 5 6

参数β的极大似然估计

  • 得似然函数

  • 于是

  • for r=1,2,…k.


Fisher information matrix

费雪信息矩阵(Fisher information matrix)

  • 这里


1 2 3 4 5 6

  • 当 是逻辑连系函数时

  • 注意:需用叠代算法求出β^,即解方程组.


1 2 3 4 5 6

参数估计β^的性质

  • 事实上β^是渐进正态分布的.


1 2 3 4 5 6

拟合优度

  • 差异函数(deviance function):

  • (注意:0∙log(0)=0)

  • 如果模型假定正确, D渐进服从 ;

  • 如有两个嵌套模型H0和 HA ,则D0 –DA渐进服从 .


1 2 3 4 5 6

  • 注意:嵌套模型的检验比显著性检验D更强,即D服从 的要求比较高, D0 –DA服从 的要求比较低,甚至当D0和DA都不服从 和 时亦成立.


Binomial distribution

二项分布(Binomial distribution)的情形

  • 等价于mj个贝努里实验,且

  • 有:


1 2 3 4 5 6

  • 设连系函数为

  • 似然函数 [去掉常数项] 为


1 2 3 4 5 6

  • 这里


1 2 3 4 5 6

  • 当     是逻辑连系函数时

  • 差异函数


Probit link function

正态连系函数(probit link function)

  • 如果连系函数取所谓的probit link的话,即

  • 则有:

  • 将此式代入,既可得对应的  和W.


Poisson regression

普阿松回归(Poisson Regression)

  • 应变量Yi只能取非负的离散值(事实上只需要一边有界),其离散程度大致与其水平成正比例.


1 2 3 4 5 6

  • (对数连系函数)

  • 则对任何X和β有


1 2 3 4 5 6

参数β的极大似然估计

  • 去掉常数项后

  • 这里


1 2 3 4 5 6

  • 当 时(对数连系函数)

  • 注意:需用叠代算法求出β^,即解方程组


1 2 3 4 5 6

参数估计β^的性质

  • β^渐进服从N[β, (XT WX)-1 )]


1 2 3 4 5 6

拟合优度

  • 差异函数:

  • 如果模型假定正确, D渐进服从 ;

  • 如有两个嵌套模型H0和 HA ,则D0 –DA渐进服从 .


Over dispersion

过度离散(over-dispersion)

  • 实际案例中常有

  • 如对应于负二项分布的情形.

  • 解决方法:

  • 估计


1 2 3 4 5 6

广义线性模型

  • 四个组成部分

  • 1。数学期望(均值)

  • E(Yi) = i

  • 2。线性预测量 (linear predictor)

  • i = Xi

  • 3。连系函数 (link function)

  • g(i) = i

  • 4。方差函数 (variance function)

  • Var(Yi) =  V(i)


Linear exponential family

线性指数分布族(linear exponential family)

  • 形式如:

  • L(,;y)= exp{[y-c()]/+h(y,)}

  • (这里假定  是已知的。如果  是未知的,它可能是二参数的指数分布族,也可能不是。)


1 2 3 4 5 6

  • 对线性指数分布族有:

  • E(y) = c() 

  • Var(y) = c() V()

  • 这里  称之为离散参数(dispersion parameter)


1 2 3 4 5 6

常用分布的离散参数和方差函数


1 2 3 4 5 6

  • 当连系函数g取 c的反函数(记之为 c-1 )形式时,我们称g为标准连系函数

  • (canonical link)


1 2 3 4 5 6

常用分布的标准连系函数


1 2 3 4 5 6

  • 其他常用连系函数:

  • 正态(probit): g()=-1();

  • 幂族(power family): g()= (0)

  • g()=log()(=0)

  • 余双对数(complementary log-log)

  • g()=log[-log(1-)]


1 2 3 4 5 6

参 数 估 计()

  • 线性指数分布族的似然估计方程组是

  • (Yi -i )/i V(i )i /r = 0

  • r=1,2,…,k

  • 对广义线性模型,它成为

  •  (Yi -i )/i V(i ) xir /g(i ) = 0

  • r=1,2,…,k


1 2 3 4 5 6

  • 当离散参数 i= ai i = 1,2,…,n 时,该方程组成为

  •  (Yi -i )/ai V(i ) xir /g(i ) = 0 (*)

  • r=1,2,…,k

  • 而当连系函数g是标准连系函数时,有

  • Yi xir /ai = i xir /ai

  • r=1,2,…,k


1 2 3 4 5 6

  • 一般来说方程组(*)没有直接的解法。

  • 当V()=1, g()=时(线性模型),解是

  • ^= (XT W-1X)-1XT W-1Y

  • 这里 W=diag(1/ai )


1 2 3 4 5 6

迭代加权最小二乘法

  • (iterative weighted least squares,简写为 IWLS)

  • 考虑变量

  • zi = i +(Yi - i )g(i )

  • E(zi ) = i = xir

  • Var(zi ) = [g(i )]2 ai V(i )


1 2 3 4 5 6

  • 迭代算法:

  • (1)从某一个i(0)开始(通常取i(0) = Yi ) 得 i(0) = g(i(0) );

  • (2)给定i(t)和i(t),算出

  • zi(t) = i(t) +(Yi - i(t) )g(i(t) )

  • wi(t) = 1/[g(i(t) )]2 ai V(i(t) ) i=1,2, …,n;


1 2 3 4 5 6

  • (3)给出估计

  • (t+1) = (XT W(t) X)-1 XT W(t)z(t)

  • (这里 W(t)= diag(wi(t)))

  • 定义

  • (t+1) = X(t+1)(t+1) = g-1 ((t+1) )

  • 重复步骤(2)和(3)直到收敛。


1 2 3 4 5 6

迭代加权最小二乘估计的性质

  • ^ ~* N(, i-1 ())

  • 这里

  • i-1 () = -1XTWX

  • W = diag(wi )

  • wi = 1/[g(i )]2 ai V(i ) i=1, 2, …,n


1 2 3 4 5 6

估计量方差的估计

  • Cov^(^) = (XTW^X)-1

  • 的估计:

  • ~ = 1/(n-p) (Yi - i^ )/[ai V(i^ )]


1 2 3 4 5 6

拟合优度

  • 定义差异函数(deviance)为

  • D(y; ^) = 2[l (y; y,) – l(y; ^,)]

  • 如果模型假定正确, D渐进服从 ;

  • 如有两个嵌套模型H0和 HA ,则D0 –DA渐进服从 .


1 2 3 4 5 6

常用分布的差异函数

  • 正态分布 (y-^)2

  • 普阿松分布 2[y(log(y/^)-(y-^)]

  • 二项分布 2{y(log(y/^)+(m-y)

  • log[(m-y)/(m-^)]}

  • 伽玛分布 2[-log(y/^)+(y-^)/^]


1 2 3 4 5 6

  • 在原假定

  • 下,D渐进服从 ;

  • 如有两个嵌套模型H0和 HA ,则D0 –DA渐进服从 .


Non parametric regression

非参数回归(non-parametric regression)

  • 离散图平滑法(scatterplot smoother):

  • 假定X只含有一个变量x.

  • 在x上定义一个函数:s(x)=S(Y|x)

  • 一般s(x) 定义在x的所有定义域上,但也可能只定义在观察值 上.这时对一般的s(x0 )就需要用某种插值法计算.


1 2 3 4 5 6

类型:

  • (1)格子平滑法(bin smoother, regressogram):

  • 选点:

  • 定义:

  • 取:


1 2 3 4 5 6

  • (2)移动平均法(running-mean smoother, moving average smoother):

  • 定义:

  • 取:


1 2 3 4 5 6

  • (3)跑动直线平滑法(running-line smoother):

  • 取:

  • 这里 是对 回归的LS估计量.


1 2 3 4 5 6

  • 倘若这个回归是加权的,则是所谓的loess(locally-weighted running-line smoother).

  • 具体地说可采取下列步骤:

  • (i)找出与最接近的k个样本点,记为 ;

  • (ii)定义:

  • (iii)取权数

  • 这里

  • (iv)


1 2 3 4 5 6

  • (4)核平滑法(kernel smoother):

  • 取:

  • 对点的权数为


1 2 3 4 5 6

  • 这里λ是窗宽参数(window-width parameter); c0是个常数,通常使权数的和为一; d(t)是关于|t|的减函数,如:

  • (Gaussian kernel)

  • (Epanechnikov kernel)

  • (minimum variance kernel)

  • 等等.

  • 注意: 窗宽参数λ的选择比核函数的选择重要的多.


1 2 3 4 5 6

(Gaussian kernel)

(Epanechnikov kernel)

(minimum variance kernel)


1 2 3 4 5 6

  • (5)回归样条(regression spline):

  • 找出k个节点(knots):

  • 取:

  • (+表示正的部分)


1 2 3 4 5 6

  • S(x)有三个特性 (i)在任何区间 内是三次函数;

  • (ii)有一阶和二阶连续导数;

  • (iii)三阶导数是个阶梯函数.

  • 当加上节点以外函数为线性的附加限制时,(三次)样条称之为自然样条(natural spline).

  • 给定节点的数目和位置,未知参数可用回归法求得.但如何确定节点的数目和位置是个较复杂的问题.


1 2 3 4 5 6

  • (6)三次平滑样条(cubic smoothing spline):

  • 找出一个有一阶和二阶连续导数的任意函数f, 使

  • 这里λ是个固定常数, .

  • 可以证明这个函数是节点取在所有上的natural cubic spline.


1 2 3 4 5 6

平滑参数λ

  • 设离散图平滑的模型是:

  • 定义:

  • (average mean-squared error)

  • (average predictive squared error)

  • (这里Yi*是在点xi上的一个新观察值).

  • 有:


1 2 3 4 5 6

  • 定义:

  • (cross-validation sum of squares)

  • 有:

  • (注意:

  • (average squared residual)不是PSE的好的估计量).

  • 可以用下列标准确定λ:


1 2 3 4 5 6

  • 定义:线性平滑法:

  • 对任意常数a和b,有

  • 上述平滑法都是线性平滑法.


1 2 3 4 5 6

  • 对于观察点 来说,一个线性平滑法可表示为

  • 这里S是一个 矩阵,称为平滑矩阵(smoother matrix).

  • 对于一个线性平滑法 来说, 定义偏


1 2 3 4 5 6

  • 有:


1 2 3 4 5 6

  • 定义:Mallows’ Cp

  • 这里

  • λ*是个很小的数(尽量减小偏).

  • 因为

  • 所以Cp是PSE的一个估计.

  • 可以用下列标准确定λ:


1 2 3 4 5 6

  • 注意:

  • (1)Cp只适用于线性平滑法,CV则适用于一般的平滑法.

  • (2)在实际应用时上述两法时常特性不佳.这时用直观的图像法选择λ可能更可靠一些.

  • (3)用自由度来确定λ也是常用的方法.


1 2 3 4 5 6

平滑法的自由度

  • 有三个表示:

  • (1) 自由度:

  • 对于一个线性平滑法


1 2 3 4 5 6

  • (2)误差自由度:

  • 对非线性平滑法的一般定义是:


1 2 3 4 5 6

  • (3) 方差自由度:

  • 对非线性平滑法的一般定义是:


1 2 3 4 5 6

  • 注意:

  • I 如果S是个对称投影矩阵(symmetric projection matrix)(例如线性回归,多项式回归,回归样条),则有

  • II 对于三次平滑样条有

  • 并且三者都是关于λ的减函数.


1 2 3 4 5 6

置信区间

  • 对于线性平滑 有

  • 这里偏向量 是依赖于未知函数 f的.

  • 在一定假定下偏的一个估计是

  • 于是可取 的对角线元素构造置信区间.


1 2 3 4 5 6

  • 这里取自由度


1 2 3 4 5 6

近似的F检验

  • 对于两个线性平滑法

  • (假定f1^比f2^更平滑),有


1 2 3 4 5 6

  • 一个更好的检验是取


Additive model

相加模型(additive model)

  • 一般的相加模型可表示为

  • 这里


1 2 3 4 5 6

  • 惩罚性的最小二乘条件(penalized least-squares):

  • 可以用使penalized least-squares最优化的方法来求得合适的相加模型.


1 2 3 4 5 6

  • 注意:

  • (1) 所谓半参数模型(semi-parametric model)是相加模型的一个重要特例,如:

  • (2) 相加模型可以包括某一个或某几个自变量是离散变量的情况.

  • (3) 相加模型可以包括某一个或某几个函数是多元函数的情况,如:

  • 当然这时需用scatterplot smoother的多维推广.


Generalized additive models

广义相加模型(generalized additive models)

  • 类似于从线性模型推广到广义线性模型的思路,相加模型可以推广成广义相加模型.即定义四个组成部分

  • 1。数学期望(均值)

  • 2。相加预测量 (additive predictor)

  • 3。连系函数 (link function)

  • 4。方差函数 (variance function)


Algorithm

Algorithm

  • 其求解的思路也类似广义线性模型

  • (1) Initialize:

  • (2) Update:

  • with


1 2 3 4 5 6

  • Construct weights

  • Fit a weighted additive model to zi , to obtain estimated

  • Compute the convergence criterion


1 2 3 4 5 6

  • (3) Repeat step (2) replacing by until is below some small threshold.


1 2 3 4 5 6

  • 注意: 所谓半参数广义线性模型(semi-parametric generalized linear model)是广义相加模型的一个重要特例,如:


1 2 3 4 5 6

7. 模型选择

  • 模型选择的目的常常是寻找一个最简单的合理的模型来恰当地描述所观察到的资料.

  • 可以粗略地分为两大类问题:

  • (1) 同一类模型中参数和变量个数的选择;

  • (2) 不同类模型之间的比较.


1 2 3 4 5 6

  • 一个事实:

  • 如果真正的模型是

  • 而我们所用的回归模型是

  • 最小二乘估计是

  • 即一般这个估计是有偏的.


1 2 3 4 5 6

  • 且有

  • 注意:项数太少会造成参数估计有偏;项数太多不会造成参数估计有偏,但因为减少了自由度从而造成效率(精确度)的丧失.


1 2 3 4 5 6

选择回归变量的基本步骤

  • (1) 确定最大的模型:保证”正确”的模型在它之内;

  • (2) 确定选择模型的条件;

  • (3) 确定选择变量的策略;

  • (4) 用最后的模型分析资料;

  • (5) 评估模型的可靠性.


1 2 3 4 5 6

确定最大的模型

  • 可以包括:

  • (1) 所有基本的回归变量;

  • (2)基本回归变量的高阶幂( 等等);

  • (3) 基本回归变量的其它转换如对数,倒数等等;

  • (4)基本回归变量之间二阶或更高阶的交互影响(interaction);

  • (5) (在某些问题中) 所有的控制变量和它们的(2),(3),(4).


1 2 3 4 5 6

  • 注意: 不要选太大的最大模型(会损失可靠性),宜中心突出,针对问题.还应注意共线性问题.

  • 经验公式:

  • (样本大小和变量个数的比例)


1 2 3 4 5 6

确定选择模型的条件

  • (1) 确定系数

  • 此法只适用于参数个数相同的情形.因为对嵌套模型而言, 是关于p的增函数,而 无理论基础.


1 2 3 4 5 6

  • (2) 对于嵌套的线性回归模型,可用统计量

  • 当F检验不显著时,可以用较简单的p个变量模型.


1 2 3 4 5 6

  • (3) 定义

  • 选择较小的


1 2 3 4 5 6

  • (4) Mallow’s Cp

  • 这里k是最大的模型.

  • 选择较小的或最小的Cp

  • 注意:当 时,


1 2 3 4 5 6

  • ACI (Akaike information criterion)

  • 选择较小的或最小的ACI

  • 注意: Mallow’s Cp是ACI的一个特例.


1 2 3 4 5 6

确定选择变量的策略

  • (1) 列出所有的回归模型;

  • 共有 个,通常不实际.


1 2 3 4 5 6

  • (2)向后剔除法(Backward elimination):

  • 步骤:(i)给出最大的回归模型;

  • (ii)一次去掉一个变量,其对应的t值(或等价地,其Partial F值)在所有变量只中是最小的,且低于给定的显著性水平.直到没有这样的变量.

  • 注意:两次去掉一个变量不等价于一次去掉两个变量(即使是相同的两个变量!).


1 2 3 4 5 6

  • (3) 向前选进法(Forward selection):

  • 步骤:(i)选进相关系数最大的第一个变量;

  • (ii)一次一个,选进一个变量,其Partial F最大(在已定模型,既现有变量下),且其p值大于给定的显著性水平. 直到没有这样的变量.

  • 注意:A两次进一个变量不等价于一次进两个变量.

  • B(ii)等价于计算部分相关系数,即Residual of current model 对Xj.


1 2 3 4 5 6

  • (4) 逐步回归(Stepwise regression):

  • 步骤:(i)同向前选进法(i);

  • (ii)选进一个变量,同向前选进法(ii);

  • (iii)去掉一个变量(如有必要),同向后剔除法(ii);

  • 直到没有变量进,也没有变量出.


1 2 3 4 5 6

  • (5) 脊岭回归: 如前所述.

  • (6) PRESS 法:

  • 定义:

  • 这里 是除去第i项后由模型对Yi的预测值.

  • 找出一个模型,其PSS较小且不含有太多的回归变量.


1 2 3 4 5 6

  • 阶段回归(Stagewise regression):

  • 步骤:(i)找出最大相关自变量,得到回归模型

  • (ii)以此模型的残差作为应变量,找出下一个最大相关自变量,得到回归模型

  • 如果模型显著,则新的模型为

  • (iii)再定义 为应变量,重复(ii)直到没有新的变量能进入.

  • 注意:最后的模型不等价于最小二乘估计.


Measurement errors

测度误差问题(Measurement Errors)

  • 有些自变量有较大的测度误差或不可能直接观测到.

  • 将自变量分成两部分:

  • X_有测度误差的自变量,设W是它们的观察值;

  • Z_没有测度误差的自变量.

  • 定义:

  • 函数型模型(classical functional models): X是固定常数(未观察到);

  • 构造型模型(classical structural models): X是随机变量.


1 2 3 4 5 6

测度误差的模型

  • 有两种一般的模型:

  • (1) 误差模型(error models)

  • 给出条件分布W|Z,X 的模型

  • 如: (a)

  • (b)


1 2 3 4 5 6

  • (2) 回归校正模型(regression calibration models)

  • 给出条件分布X|Z,W 的模型

  • 如:


1 2 3 4 5 6

  • 定义:

  • 非特异的(non-differential)测度误差:给出X和Z, W不再含有关于应变量Y的信息.


1 2 3 4 5 6

测度误差对回归分析的影响

  • 参数估计偏离

  • (1)考虑简单线性回归


1 2 3 4 5 6

  • 设βx^*是对w的最小二乘估计,即用模型

  • 则有:

  • 这里:

  • 称为可靠率(reliability ratio)

  • 这种现象称为”缩水”(attenuation).


1 2 3 4 5 6

  • (2) 假如回归和测度误差模型是

  • 这里

  • 设β^*x是LSE估计量

  • 则有


1 2 3 4 5 6

  • (3)现在考虑多个自变量,但只有一个自变量有测度误差的情形

  • 设β^*x是LSE估计量

  • 则有:


1 2 3 4 5 6

  • 这里

  • 和 分别是 w对Z回归和 x对Z回归的残差方差.

  • 的充要条件是 x和Z条件不相关.

  • 这时 也是有偏的

  • 这里Гz是 x对Z回归的回归系数,即


1 2 3 4 5 6

  • (4)更一般的情形是

  • 则有

  • 这里Σab是随机向量A和B的协方差矩阵


1 2 3 4 5 6

纠正测度误差造成参数估计偏差的方法

  • (1) 矩法(Method-of-Moments estimation):

    • (i)简单线性回归情形

    • (ii)一般情形也有对应的形式.


1 2 3 4 5 6

  • (2) 正交回归(orthogonal regression):

  • 假定

  • 而且 已知

  • 则找出

  • 使

  • 最小.

  • 注意:此法的关键在于η是否已知.不正确的η会产生严重的估计误差.


1 2 3 4 5 6

  • (3) 回归校准法(regression calibration):

  • 基本步骤:

  • (i)用可能的资料将X对(Z,W)进行回归分析;

  • (ii)用X^代替未观察到的X,然后进行标准的参数估计;

  • (iii)修正参数估计的误差(因为用的不是X而是X^).


1 2 3 4 5 6

  • 例如:

  • 假如我们的模型是


1 2 3 4 5 6

  • 例子:修正”缩水”效应(最简单的RC)

  • 假定: (i)X只有一个变量;

  • (ii)W=X+U 可以估计;

  • (iii)X,Z,W是多维正态分布的;

  • (iv)

  • 这里f可以是任何广义线性模型的连系函数,如 linear, logistic, probit, loglinear等等.


1 2 3 4 5 6

  • 步骤:(i) (忽略测度误差);

  • (ii) 算出W对Z回归的误差项 ;

  • (iii)


1 2 3 4 5 6

  • (4) 模型外推法(simulation extrapolation):

  • 步骤: (i) 随机模拟

  • 产生一个测度误差不断增大的样本 ;

  • 即:

  • 这里

  • 是独立同分布的.


1 2 3 4 5 6

  • (ii) 定义估计量 ;

  • 并画出 对λ的二维图形.

  • (iii) 外推

  • 外推函数模型 至λ=-1; 即


1 2 3 4 5 6

  • 常用的函数模型 有:

  • (a)

  • (b)


1 2 3 4 5 6

  • 性质:

  • 抽样误差 测度误差引起的误差


  • Login