620 likes | 728 Views
北京师范大学复杂系统暑期学校. 统计学习概论. 丁义明 2010 年 7 月 22 日. 概要. 统计学习中的基本方法简介 误差分析与模型选择 核磁共振数据分析. 一、统计学习中的基本方法简介. 数据分析的目标. 设 其中 为独立随机扰动, 从 有限个 样本出发, 估计 未知函数关系 f 好????. 有监督学习. 有监督学习: 给定包含输入特征和对应响应的训练样本,学习 Y 与 X 之间的关系 对新的输入 x ,预测其响应 y 如果输出值 Y 的类型是连续值:回归
E N D
北京师范大学复杂系统暑期学校 统计学习概论 丁义明 2010年7月22日
概要 • 统计学习中的基本方法简介 • 误差分析与模型选择 • 核磁共振数据分析
数据分析的目标 设 其中 为独立随机扰动, 从有限个样本出发,估计未知函数关系 f 好????
有监督学习 • 有监督学习: • 给定包含输入特征和对应响应的训练样本,学习Y与X之间的关系 • 对新的输入x,预测其响应y • 如果输出值Y的类型是连续值:回归 • 根据公司的业绩和经济学数据,预测今后6个月的股票价格 • 根据患者血液的红外光谱,估计糖尿病患者血液中葡萄糖的含量 • 如果输出值Y为离散值:分类 • 根据数字图像,识别手写的邮政编码数据 • 根据邮件中单词和字符的比例,识别email是否为垃圾邮件 • 目标:根据训练数据 • 正确预测未见过的测试样本 • 理解哪些输入变量影响输出 • 怎样评价预测的质量
简单分类问题 平面上从未知分布产生的200点,其中类别={绿,红}各100个点 。 我们能建立一个规则,预测将来的点的颜色的规则吗? 两种方法: 线性回归 k-最近邻方法
线性回归(高bias低variance) 输入p维向量X,扩展成p+1维(X,Y):均为列向量 • 类别G=绿时,Y=0;否则Y=1。 • Y用X的线性函数来建模——利用最小二乘法,通过最小化残差的平方和(RSS) • 如果 非奇异,
Knn(低偏倚高方差) 观察其邻居,采取投票的方式, 为x0的邻域,由训练样本中最邻近x0的k个点xi 定义( k-近邻)。 如果在观测点x邻域中某一类明显占优势,则观测样本也更可能属于该类。 分类规则为邻域成员的多数票
支持向量 线性回归 线性判别
样条+正则化 f(x) = β0 + βT x +∑αjhj(x), h为样条函数
垃圾邮件判别 分叉树方法
支持向量机(SVM) f(x) = β0 + βT x +∑αjhj(x) h 为一组基函数
非线性主成分 误差更小!
不适定问题(ill-posed problem) • 适定(well-posed): 问题的解 存在、唯一、稳定 • 不适定 • 正则化方法
人脸识别 非负矩阵分解
损失函数 损失函数:L(Y, fˆ(X)) • 平方误差:L(Y, fˆ(X))= (Y − fˆ(X))2 • 绝对误差: L(Y, fˆ(X))= |Y − fˆ(X)|
训练误差与测试误差 • 训练误差: (xi, yi)为训练样本 • 测试误差: Err=E[L(Y, fˆ(X))] (难以预先估计) • Overfitting: 训练误差明显小于测试误差 好的模型:测试误差小
乐观性(Optimism) • Training error: • In-sample error: • 乐观性:op=Errin-Ey(err) • 在一定条件下 • 样本内误差估计:
奥卡姆剃刀(Occam's Razor) • 由14世纪逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam,约1285年至1349年)提出。他在《箴言书注》2卷15题说“切勿浪费较多东西”,去做“用较少的东西,同样可以做好的事情”。 • 奥卡姆剃刀原理可以归结为:若无必要,勿增实体 • 被称为吝啬定律(Law of parsimony),或者称为朴素原则 • 亚里士多德:“自然界选择最短的道路”。 模型选择
模型选择标准——理论方法 • AIC: -2loglik+2 d/N • BIC:-2loglik+d logN 最大化后验概率 • MDL:尽可能容易传输 • SRM(VC 维数):样本内误差上界最小
模型选择标准——实证方法 • CV (cross validation) (交叉验证) • Leave-one-out CV • Bootstrap(自助法):又放回抽样,增加数据样本