统计学习概论

北京师范大学复杂系统暑期学校 统计学习概论丁义明 2010年7月22日

概要 • 统计学习中的基本方法简介 • 误差分析与模型选择 • 核磁共振数据分析

一、统计学习中的基本方法简介

数据分析的目标 设其中为独立随机扰动，从有限个样本出发，估计未知函数关系 f 好？？？？

有监督学习 • 有监督学习： • 给定包含输入特征和对应响应的训练样本，学习Y与X之间的关系 • 对新的输入x，预测其响应y • 如果输出值Y的类型是连续值：回归 • 根据公司的业绩和经济学数据，预测今后6个月的股票价格 • 根据患者血液的红外光谱，估计糖尿病患者血液中葡萄糖的含量 • 如果输出值Y为离散值：分类 • 根据数字图像，识别手写的邮政编码数据 • 根据邮件中单词和字符的比例，识别email是否为垃圾邮件 • 目标：根据训练数据 • 正确预测未见过的测试样本 • 理解哪些输入变量影响输出 • 怎样评价预测的质量

简单分类问题 平面上从未知分布产生的200点，其中类别={绿，红}各100个点。我们能建立一个规则，预测将来的点的颜色的规则吗？两种方法：线性回归 k-最近邻方法

线性判别分析

线性回归（高bias低variance） 输入p维向量X，扩展成p+1维(X,Y)：均为列向量 • 类别G=绿时，Y=0；否则Y=1。 • Y用X的线性函数来建模——利用最小二乘法，通过最小化残差的平方和（RSS） • 如果非奇异，

Knn（低偏倚高方差） 观察其邻居，采取投票的方式，为x0的邻域，由训练样本中最邻近x0的k个点xi 定义（ k-近邻）。如果在观测点x邻域中某一类明显占优势，则观测样本也更可能属于该类。分类规则为邻域成员的多数票

最近邻方法

贝叶斯方法

线性与非线性回归

k-NN的误差分析

主成分分析

线性边界与非线性边界

最佳分类方向

支持向量 线性回归线性判别

样条逼近

样条+正则化 f(x) = β0 + βT x +∑αjhj(x), h为样条函数

核磁共振数据的小波逼近

局部化方法

端点的处理

内部优化

垃圾邮件判别 分叉树方法

PRIM

PRIM—例子

不同模型的比较

神经网络过度拟合

支持向量机（SVM） f(x) = β0 + βT x +∑αjhj(x) h 为一组基函数

混合判别分析（MDA）

无监督学习 → 有监督学习

二维线性主成分

非线性主成分 误差更小！

不适定问题（ill-posed problem） • 适定(well-posed)：问题的解存在、唯一、稳定 • 不适定 • 正则化方法

人脸识别 非负矩阵分解

二、误差分析与模型选择

损失函数 损失函数：L(Y, fˆ(X)) • 平方误差：L(Y, fˆ(X))= (Y − fˆ(X))2 • 绝对误差： L(Y, fˆ(X))= |Y − fˆ(X)|

Huber损失函数

损失函数

训练误差与测试误差 • 训练误差： (xi, yi)为训练样本 • 测试误差： Err=E[L(Y, fˆ(X))] （难以预先估计） • Overfitting: 训练误差明显小于测试误差好的模型：测试误差小

Bias+Variance分解

Overfitting

乐观性（Optimism） • Training error： • In-sample error: • 乐观性：op=Errin-Ey(err) • 在一定条件下 • 样本内误差估计：

奥卡姆剃刀（Occam's Razor） • 由14世纪逻辑学家、圣方济各会修士奥卡姆的威廉（William of Occam，约1285年至1349年）提出。他在《箴言书注》2卷15题说“切勿浪费较多东西”，去做“用较少的东西，同样可以做好的事情”。 • 奥卡姆剃刀原理可以归结为：若无必要，勿增实体 • 被称为吝啬定律（Law of parsimony），或者称为朴素原则 • 亚里士多德：“自然界选择最短的道路”。模型选择

模型选择标准——理论方法 • AIC： -2loglik+2 d/N • BIC：-2loglik+d logN 最大化后验概率 • MDL：尽可能容易传输 • SRM(VC 维数)：样本内误差上界最小

模型选择标准——实证方法 • CV (cross validation) （交叉验证） • Leave-one-out CV • Bootstrap（自助法）:又放回抽样，增加数据样本

Bootstrap

统计学习概论

统计学习概论

Presentation Transcript