1 / 62

统计学习概论

北京师范大学复杂系统暑期学校. 统计学习概论. 丁义明 2010 年 7 月 22 日. 概要. 统计学习中的基本方法简介 误差分析与模型选择 核磁共振数据分析. 一、统计学习中的基本方法简介. 数据分析的目标. 设 其中 为独立随机扰动, 从 有限个 样本出发, 估计 未知函数关系 f 好????. 有监督学习. 有监督学习: 给定包含输入特征和对应响应的训练样本,学习 Y 与 X 之间的关系 对新的输入 x ,预测其响应 y 如果输出值 Y 的类型是连续值:回归

Download Presentation

统计学习概论

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 北京师范大学复杂系统暑期学校 统计学习概论 丁义明 2010年7月22日

  2. 概要 • 统计学习中的基本方法简介 • 误差分析与模型选择 • 核磁共振数据分析

  3. 一、统计学习中的基本方法简介

  4. 数据分析的目标 设 其中 为独立随机扰动, 从有限个样本出发,估计未知函数关系 f 好????

  5. 有监督学习 • 有监督学习: • 给定包含输入特征和对应响应的训练样本,学习Y与X之间的关系 • 对新的输入x,预测其响应y • 如果输出值Y的类型是连续值:回归 • 根据公司的业绩和经济学数据,预测今后6个月的股票价格 • 根据患者血液的红外光谱,估计糖尿病患者血液中葡萄糖的含量 • 如果输出值Y为离散值:分类 • 根据数字图像,识别手写的邮政编码数据 • 根据邮件中单词和字符的比例,识别email是否为垃圾邮件 • 目标:根据训练数据 • 正确预测未见过的测试样本 • 理解哪些输入变量影响输出 • 怎样评价预测的质量

  6. 简单分类问题 平面上从未知分布产生的200点,其中类别={绿,红}各100个点 。 我们能建立一个规则,预测将来的点的颜色的规则吗? 两种方法: 线性回归 k-最近邻方法

  7. 线性判别分析

  8. 线性回归(高bias低variance) 输入p维向量X,扩展成p+1维(X,Y):均为列向量 • 类别G=绿时,Y=0;否则Y=1。 • Y用X的线性函数来建模——利用最小二乘法,通过最小化残差的平方和(RSS) • 如果 非奇异,

  9. Knn(低偏倚高方差) 观察其邻居,采取投票的方式, 为x0的邻域,由训练样本中最邻近x0的k个点xi 定义( k-近邻)。 如果在观测点x邻域中某一类明显占优势,则观测样本也更可能属于该类。 分类规则为邻域成员的多数票

  10. 最近邻方法

  11. 最近邻方法

  12. 贝叶斯方法

  13. 线性与非线性回归

  14. k-NN的误差分析

  15. 主成分分析

  16. 线性边界与非线性边界

  17. 最佳分类方向

  18. 支持向量 线性回归 线性判别

  19. 样条逼近

  20. 样条+正则化 f(x) = β0 + βT x +∑αjhj(x), h为样条函数

  21. 核磁共振数据的小波逼近

  22. 局部化方法

  23. 端点的处理

  24. 内部优化

  25. 垃圾邮件判别 分叉树方法

  26. PRIM

  27. PRIM—例子

  28. 不同模型的比较

  29. 神经网络过度拟合

  30. 支持向量机(SVM) f(x) = β0 + βT x +∑αjhj(x) h 为一组基函数

  31. 混合判别分析(MDA)

  32. 无监督学习 → 有监督学习

  33. 二维线性主成分

  34. 非线性主成分 误差更小!

  35. 不适定问题(ill-posed problem) • 适定(well-posed): 问题的解 存在、唯一、稳定 • 不适定 • 正则化方法

  36. 人脸识别 非负矩阵分解

  37. 二、误差分析与模型选择

  38. 损失函数 损失函数:L(Y, fˆ(X)) • 平方误差:L(Y, fˆ(X))= (Y − fˆ(X))2 • 绝对误差: L(Y, fˆ(X))= |Y − fˆ(X)|

  39. Huber损失函数

  40. 损失函数

  41. 训练误差与测试误差 • 训练误差: (xi, yi)为训练样本 • 测试误差: Err=E[L(Y, fˆ(X))] (难以预先估计) • Overfitting: 训练误差明显小于测试误差 好的模型:测试误差小

  42. Bias+Variance分解

  43. Overfitting

  44. 乐观性(Optimism) • Training error: • In-sample error: • 乐观性:op=Errin-Ey(err) • 在一定条件下 • 样本内误差估计:

  45. 奥卡姆剃刀(Occam's Razor) • 由14世纪逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam,约1285年至1349年)提出。他在《箴言书注》2卷15题说“切勿浪费较多东西”,去做“用较少的东西,同样可以做好的事情”。 • 奥卡姆剃刀原理可以归结为:若无必要,勿增实体 • 被称为吝啬定律(Law of parsimony),或者称为朴素原则 • 亚里士多德:“自然界选择最短的道路”。 模型选择

  46. 模型选择标准——理论方法 • AIC: -2loglik+2 d/N • BIC:-2loglik+d logN 最大化后验概率 • MDL:尽可能容易传输 • SRM(VC 维数):样本内误差上界最小

  47. 模型选择标准——实证方法 • CV (cross validation) (交叉验证) • Leave-one-out CV • Bootstrap(自助法):又放回抽样,增加数据样本

  48. Bootstrap

More Related