1 / 45

第三部分:统计学习基础

有监督学习概述 [ESL] Chp2 回归分析 [ESL] Chp3 [Wasserman] Chp13 模型评估与选择 [ESL] Chp7/8. 第三部分:统计学习基础. [ESL] Trevor Hastie, Robert Tibshirani, Jerome Friedman 著 “ The Elements of Statistical Leanring” ,范明,柴玉梅,昝红英译 《 统计学习基础 — 数据挖掘、推理与预测 》 , 电子工业出版社, 2004 . 例:一个回归例子. 例: 然后对每个数据加上高斯噪声, 目标:

jennis
Download Presentation

第三部分:统计学习基础

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 有监督学习概述 [ESL] Chp2 回归分析 [ESL] Chp3 [Wasserman] Chp13 模型评估与选择 [ESL] Chp7/8 第三部分:统计学习基础 [ESL] Trevor Hastie, Robert Tibshirani, Jerome Friedman 著 “The Elements of Statistical Leanring”,范明,柴玉梅,昝红英译《统计学习基础—数据挖掘、推理与预测》, 电子工业出版社,2004

  2. 例:一个回归例子 • 例: • 然后对每个数据加上高斯噪声, • 目标: • 通过最小化残差的平方和(RSS) • 拟合 f

  3. 3阶多项式拟合 1阶多项式拟合 例:一个回归例子(续) 样本数据点 拟合得到的曲线

  4. 例:一个回归例子(续) 训练正确率和测试误差 10阶多项式拟合

  5. 一些术语 • 有监督学习: • 给定包含输入特征 和对应响应 的训练样本,学习Y与X之间的关系 • 对新的输入x,预测其响应y • 如果输出值Y的类型是连续值:回归 • 根据公司的业绩和经济学数据,预测今后6个月的股票价格 • 根据患者血液的红外光谱,估计糖尿病患者血液中葡萄糖的含量 • 如果输出值Y为离散值:分类 • 根据数字图像,识别手写的邮政编码数据 • 根据邮件中单词和字符的比例,识别email是否为垃圾邮件

  6. 目标 根据训练数据, • 正确预测未见过的测试样本 • 理解哪些输入影响输出 • 怎样评价预测的质量

  7. 哲学思想 • 理解各种技术背后的基本思想,以知道如何和在什么情况采用这些技术 • 先理解比较简单的方法,以便掌握更复杂的技术 • 正确评价方法的性能很重要,以便知道该方法在什么情况下工作得好,在什么情况下工作得不好 [简单的方法通常和那些很华丽时髦的方法工作得一样好!]

  8. 一个例子 IR2上从未知分布产生的200点,其中类别G={绿,红}各100个点。我们能建立一个规则,预测将来的点的颜色的规则吗?

  9. 比较两种最简单的预测方法 • 线性回归 • k近邻法(k - nearest neighbors, knn)

  10. 线性回归 • 输入p维向量,扩展成p+1维: • 向量均为列向量 • 类别G=绿时,Y=0;否则Y=1。 • Y用X的线性函数来建模 • 最简单、也是最常用的模型

  11. 线性回归 • 利用最小二乘法,通过最小化残差的平方和(RSS) • 得到 • 如果 是非奇异的,则唯一解为 • 则学习得到 f 的估计为

  12. 线性回归 • 对将来的点 的预测为 • 在训练集上错误率为14% • 比随机猜测强的多 • 但还是有很多错误 • 决策边界 是线性的 • 采用更灵活的模型能得到更好的结果?

  13. knn • 观察其邻居,采取投票的方式 • 其中 为x0的邻域,由训练样本中最邻近x0的k个点xi 定义( k-近邻) • 如果在观测x邻域中某一类明显占优势,则观测样本也更可能属于该类。分类规则为邻域成员的多数票

  14. 15-近邻分类:训练集上的错误率为12%

  15. 过拟合 • knn比线性回归表现稍好 • 但我们应警惕过拟合(overfitting)问题 • 在训练集上模型工作得很好(有时甚至100%正确),但忘记了训练集是一个随机过程的输出,从而训练好的模型可能在其它情况(另外的测试集)工作欠佳 • 1nn?

  16. 1-近邻分类。没有样本被误分,判决边界更加不规则1-近邻分类。没有样本被误分,判决边界更加不规则

  17. knn中k的选择? • 在测试集上,哪个模型表现最佳? • k的选择:偏差—方差折中 • 较小的k:预测更灵活,但太灵活可能会导致过拟合,从而估计方差更大 • 较大的k:预测更稳定,但可能不够灵活,不灵活通常与偏差/不准确有关

  18. 当k较小时,训练误差较小,但测试误差一般较大当k较小时,训练误差较小,但测试误差一般较大 当k较大时,训练误差较大,但测试误差一般较小 在前面200个点上训练,在10,000个数据上测试的结果

  19. 统计决策理论 • 令 表示一个实值的随机输入向量, 表示实值的随机输出变量 • 损失函数: • 对回归问题,常用平方误差损失 • 风险函数(损失函数的期望): • 对每个输入x,目标是使风险函数最小,得到: • 为条件期望,亦称回归函数。

  20. 统计决策理论 • 对分类问题,常用损失函数为0-1损失函数 • 风险函数为 • 对每个输入x,使风险函数最小 • 结果为最大后验估计(MAP),亦称贝叶斯分类器

  21. 贝叶斯最优分类器的结果

  22. 贝叶斯分类器 • 为什么不用贝叶斯分类器 ? • 因为通常我们不知道 • 在上例中我们是已知数据产生的过程 • 每个类的概率密度为10个高斯的均匀混合 • 对类别绿,k=1;对类别红,k=2 • 对类别绿,10个均值从正态分布产生: • 对类别红,10个均值从正态分布产生: • 方差

  23. 贝叶斯分类器 • knn是贝叶斯分类器的直观实现 • 不知道 ,在x附近的小邻域类别为g的数目 • 用频数近似概率 • 在点上取条件放宽为在目标点的邻域内取条件 • 如果取 • 则贝叶斯分类器与回归函数之间的关系为:

  24. knn vs. 线性回归 • 当 且 时,knn的估计 • 即该估计是一致的。 • 但通常没有那么多样本 • 线性回归假设 的结构是线性的: 并最小化训练样本上的平均损失: • 随着样本数目的增多, 收敛于 • 但模型受到线性假设的限制

  25. knn vs. 线性回归 • 通过用样本均值来逼近数学期望,knn和线性回归最终都得到近似条件期望。但二者对模型的假设截然不同: • 线性回归:假定 可以用一个全局线性函数很好近似 • knn:假定 可以用一个局部常量函数很好近似 • 后者看上去更合理:可以逼近更多的函数类,但必须为这种灵活性付出高昂代价

  26. knn • 很多现代的学习过程是knn的变种 • 核平滑:每个样本的权重不是0/1,而是随样本点到目标点的距离平滑减至0 • 著名的支持向量机(support vector machine, SVM)与核平滑有许多相同之处

  27. 维数灾难 • 似乎有了合理大的训练数据集,使用knn平均总能逼近理论上的最佳条件期望 • 我们能找到接近任意x的相当大的观测值邻域,并对它们取平均 • 这样就不必考虑线性会回归了 • 但在高维空间中,knn法将失败 • 在目标点附近很难收集到k个邻居:维数灾难(curse ofdimensionality)

  28. 维数灾难 • 邻域不再是“局部的”:考虑输入在p维单位超立方体上的均匀分布,选取目标点的超立方体的邻居,覆盖比例为r,则边长为: • 当维数p=10时,边长为 • 为了得到数据的1%或10%的覆盖,必须覆盖输入变量定义域的63%或80%。这样的邻域不再是“局部的” • 最近邻居的空间趋近于很大,从而估计是有偏的 • 而降低邻域的大小也无济于事,因为取平均值的观测值越少,拟合的方差会增大 • 但并不表示局部方法(如knn)在高维空间中没有意义 • 因为通常数据在高维空间中是有结构的,如成团分布,即数据的本质维数不高

  29. 维数灾难 e r

  30. 函数逼近 • 考虑连续数据的回归问题:给定X,Y的最佳预测为回归函数: • 为了预测,我们需要知道f ,但通常我们并不知道f • 有时科学知识(如物理化学定律)告诉我们f 的形式 • 如胡克定律指出:在弹性限度内,弹簧的的形变 f 跟引起形变的外力x,即 • 其中 为弹簧的初始长度, 为物质的弹性系数,由材料的性质所决定 • 对给定的弹簧,我们不知道其弹性系数,但我们可以通过测量不同外力下的形变来估计弹性系数

  31. 函数逼近 • 但测量会有误差 ,这样考虑统计模型的观点: • 其中 且为随机误差,与X独立 • 当有足够多的数据时,最小二乘能得到精确预测,并且我们能正确(偏差小)、精确(方差小)地预测任意外力下的形变 • 如果科学知识告诉我们应该应该选择非线性模型,如sigmoid模型,我们仍然可以用最小二乘法求解,只是计算可能稍复杂 • 经验告诉我们,当二元正态分布的相关系数为0.5时,意味着线性关系仍能工作得很好 • 事实上,有时候人们既没有从理论上,也没有从经验上分析就直接采用线性模型

  32. 函数逼近 • 更通用的做法是选择一个函数族,参数形式为 • 其中为参数集合 • 可以用最小二乘法求解,也可以用更一般的极大似然法来求解 • 可能是一个封闭的解析解 • 也可能要通过数值计算的方法迭代计算得到

  33. 函数逼近 • 但可能我们选定的函数族中的任何函数都不能很好表示f • 如上述红绿点分类的例子中线性模型表现不够好,偏差太大 • 或者是选择函数族太灵活 • 如红绿点分类的例子中knn (k=1)时,估计不够好,因为估计利用的数据太少(只利用了k=1个点)方差太大 • 问题:如何选择合适的函数族? • 增加结构约束

  34. 结构化的回归模型 • 对任意函数f,考虑RSS准则 • 任何通过 的函数的RSS=0:有无穷多个解 • 当测试数据与训练数据不同时,该函数可能是一个非常糟糕的预测 • 只有当n足够大时,样本均值才能趋于条件期望 • 为了得到对有限n有效的结果,需要将解限定在一个合理的较小函数集合:如参数模型 • 通常限制施加的是复杂性约束:通常这意味着在输入空间上小邻域上的规则,即对所有的输入点x,在某种度量下,它们都足够靠近, 显示出某种特殊的结构,如近似常数、线性或低阶多项式。

  35. 结构化的回归模型 • 约束的强度由邻域的大小决定:邻域越大,约束越强,并且解对约束的特定选择越敏感 • knn:局部常数拟合 • 在无穷小的邻域中,局部常数拟合通常不再是约束 • 线性回归:全局线性拟合 • 在非常大的邻域中,局部线性拟合几乎是全局的线性模型,并且限制很强 • 局部线性回归:局部线性拟合 • 在邻域中用线性拟合

  36. 偏差—方差折中 • 如在knn回归中: • 模型为 ,其中 • 则在点 处的期望误差(亦称测试误差/泛化误差) • 当k变化时,在偏差-方差之间有一个折中 • 偏差为k的增函数,而方差为k的减函数 • 较小的k,模型较复杂,拟合精度高,偏差较小,但方差较大 • 模型选择:拟合精度与模型复杂度之间的平衡

  37. 当k较小时,训练误差较小,但测试误差一般较大当k较小时,训练误差较小,但测试误差一般较大 当k较大时,训练误差较大,但测试误差一般较小

  38. 模型选择 • 目标:测试误差最小 • 测试误差:用训练误差估计 • 但训练误差不是测试误差的一个很好估计,因为训练误差不能很好地解释模型的复杂性 欠拟合区域 过拟合区域

  39. 本章小结 • 有监督学习:给定训练数据 ,求使风险最小的 f,即 • 当损失为平方误差损失,结果为 • 实际求解时,只能利用训练样本的信息,用样本均值近似期望 • 但不能以训练误差作为标准,因为样本均值只能在大样本情况下才能逼近期望 • 目标为期望风险/测试误差最小,但测试集不可得,所以应该增加限制,即函数限制在一个合理的较小集合 • 不同的学习过程表现为对 施加不同的限制,这种限制通常为复杂性约束(在输入空间上小邻域上的规则) • 模型选择:模型复杂度和训练误差之间的折中/偏差—方差折中

  40. 下节课内容 • 下节课内容:线性回归模型 • [Wasserman] Chp13 • [ESL] Chp3

  41. 第三部分实验 • 数据:前列腺癌数据 • ESL一书中回归分析的主要数据用例 • 实验内容: • 实现回归模型中的两种 • 线性回归:必选 • 岭回归 • LASSO • 核回归 • 局部线性回归 • 并选择合适复杂度的模型 • AIC/BIC • 交叉验证 • bootstrap

  42. 前列腺癌数据 • 考察第9列的前列腺癌特殊抗原水平(lpsa: log prostate specific antigen) 与前8列临床指标之间的相关性 • lcavol:log cancel volume (肿瘤体积) • lweight:log prostate weight (前列腺重量) • age:(年龄) • lbph:log bengin prostatic hypcrplasia (良性前列腺增生量) • svi:seminal vesicle invasion (精囊浸润) • lcp:log of capsular penetration (包膜穿透) • gleason:gleason score (Gleason积分) • pgg45:percent of Gleason scores 4 or 5 ( Gleason4/5所占百分比 ) • 共97个样本,第10列标记某个样本为训练样本还是测试样本 • 67训练样本 • 30个测试样本

  43. 维数灾难问题2:大多数点都靠近样本的边界 • 考虑均匀分布在以原点为中心的p维单位球内的n个数据点,假设考虑最近邻。则从原点到最近数据点的中位数距离为: • 当n=500,p=10时, ,超过到边界的一半 • 大部分样本更靠近样本空间的边界,而不是靠近其他数据

  44. 证明(1) • 考虑均匀分布在以原点为中心的p维单位球上的n个数据点,假设考虑最近邻。则从原点到最近数据点的距离的中位数为: • 证明:令 表示以原点为中心,半径为r的p维超球的体积,则 • 则一个数据点落入半径为r的超球内的概率为

  45. 证明(2) • 令R表示原点到最近数据点的距离,由于数据是随机的,R为随机变量。则R的CDF为: 中位数:

More Related