第三部分：统计学习基础

有监督学习概述 [ESL] Chp2 回归分析 [ESL] Chp3 [Wasserman] Chp13 模型评估与选择 [ESL] Chp7/8 第三部分：统计学习基础 [ESL] Trevor Hastie, Robert Tibshirani, Jerome Friedman 著 “The Elements of Statistical Leanring”，范明，柴玉梅，昝红英译《统计学习基础—数据挖掘、推理与预测》，电子工业出版社，2004

例：一个回归例子 • 例： • 然后对每个数据加上高斯噪声， • 目标： • 通过最小化残差的平方和（RSS） • 拟合 f

3阶多项式拟合 1阶多项式拟合例：一个回归例子（续）样本数据点拟合得到的曲线

例：一个回归例子（续） 训练正确率和测试误差 10阶多项式拟合

一些术语 • 有监督学习： • 给定包含输入特征和对应响应的训练样本，学习Y与X之间的关系 • 对新的输入x，预测其响应y • 如果输出值Y的类型是连续值：回归 • 根据公司的业绩和经济学数据，预测今后6个月的股票价格 • 根据患者血液的红外光谱，估计糖尿病患者血液中葡萄糖的含量 • 如果输出值Y为离散值：分类 • 根据数字图像，识别手写的邮政编码数据 • 根据邮件中单词和字符的比例，识别email是否为垃圾邮件

目标根据训练数据， • 正确预测未见过的测试样本 • 理解哪些输入影响输出 • 怎样评价预测的质量

哲学思想 • 理解各种技术背后的基本思想，以知道如何和在什么情况采用这些技术 • 先理解比较简单的方法，以便掌握更复杂的技术 • 正确评价方法的性能很重要，以便知道该方法在什么情况下工作得好，在什么情况下工作得不好 [简单的方法通常和那些很华丽时髦的方法工作得一样好！]

一个例子 IR2上从未知分布产生的200点，其中类别G={绿，红}各100个点。我们能建立一个规则，预测将来的点的颜色的规则吗？

比较两种最简单的预测方法 • 线性回归 • k近邻法（k - nearest neighbors, knn）

线性回归 • 输入p维向量，扩展成p+1维： • 向量均为列向量 • 类别G=绿时，Y=0；否则Y=1。 • Y用X的线性函数来建模 • 最简单、也是最常用的模型

线性回归 • 利用最小二乘法，通过最小化残差的平方和（RSS） • 得到 • 如果是非奇异的，则唯一解为 • 则学习得到 f 的估计为

线性回归 • 对将来的点的预测为 • 在训练集上错误率为14% • 比随机猜测强的多 • 但还是有很多错误 • 决策边界是线性的 • 采用更灵活的模型能得到更好的结果？

knn • 观察其邻居，采取投票的方式 • 其中为x0的邻域，由训练样本中最邻近x0的k个点xi 定义（ k-近邻） • 如果在观测x邻域中某一类明显占优势，则观测样本也更可能属于该类。分类规则为邻域成员的多数票

15-近邻分类：训练集上的错误率为12%

过拟合 • knn比线性回归表现稍好 • 但我们应警惕过拟合(overfitting)问题 • 在训练集上模型工作得很好（有时甚至100%正确），但忘记了训练集是一个随机过程的输出，从而训练好的模型可能在其它情况（另外的测试集）工作欠佳 • 1nn?

1-近邻分类。没有样本被误分，判决边界更加不规则1-近邻分类。没有样本被误分，判决边界更加不规则

knn中k的选择？ • 在测试集上，哪个模型表现最佳？ • k的选择：偏差—方差折中 • 较小的k：预测更灵活，但太灵活可能会导致过拟合，从而估计方差更大 • 较大的k：预测更稳定，但可能不够灵活，不灵活通常与偏差/不准确有关

当k较小时，训练误差较小，但测试误差一般较大当k较小时，训练误差较小，但测试误差一般较大当k较大时，训练误差较大，但测试误差一般较小在前面200个点上训练，在10,000个数据上测试的结果

统计决策理论 • 令表示一个实值的随机输入向量，表示实值的随机输出变量 • 损失函数： • 对回归问题，常用平方误差损失 • 风险函数（损失函数的期望）： • 对每个输入x，目标是使风险函数最小，得到： • 为条件期望，亦称回归函数。

统计决策理论 • 对分类问题，常用损失函数为0-1损失函数 • 风险函数为 • 对每个输入x，使风险函数最小 • 结果为最大后验估计（MAP），亦称贝叶斯分类器

贝叶斯最优分类器的结果

贝叶斯分类器 • 为什么不用贝叶斯分类器 ? • 因为通常我们不知道 • 在上例中我们是已知数据产生的过程 • 每个类的概率密度为10个高斯的均匀混合 • 对类别绿，k=1；对类别红，k=2 • 对类别绿，10个均值从正态分布产生： • 对类别红，10个均值从正态分布产生： • 方差

贝叶斯分类器 • knn是贝叶斯分类器的直观实现 • 不知道，在x附近的小邻域类别为g的数目 • 用频数近似概率 • 在点上取条件放宽为在目标点的邻域内取条件 • 如果取 • 则贝叶斯分类器与回归函数之间的关系为：

knn vs. 线性回归 • 当且时，knn的估计 • 即该估计是一致的。 • 但通常没有那么多样本 • 线性回归假设的结构是线性的：并最小化训练样本上的平均损失： • 随着样本数目的增多，收敛于 • 但模型受到线性假设的限制

knn vs. 线性回归 • 通过用样本均值来逼近数学期望，knn和线性回归最终都得到近似条件期望。但二者对模型的假设截然不同： • 线性回归：假定可以用一个全局线性函数很好近似 • knn：假定可以用一个局部常量函数很好近似 • 后者看上去更合理：可以逼近更多的函数类，但必须为这种灵活性付出高昂代价

knn • 很多现代的学习过程是knn的变种 • 核平滑：每个样本的权重不是0/1，而是随样本点到目标点的距离平滑减至0 • 著名的支持向量机（support vector machine, SVM）与核平滑有许多相同之处

维数灾难 • 似乎有了合理大的训练数据集，使用knn平均总能逼近理论上的最佳条件期望 • 我们能找到接近任意x的相当大的观测值邻域，并对它们取平均 • 这样就不必考虑线性会回归了 • 但在高维空间中，knn法将失败 • 在目标点附近很难收集到k个邻居：维数灾难(curse ofdimensionality)

维数灾难 • 邻域不再是“局部的”：考虑输入在p维单位超立方体上的均匀分布，选取目标点的超立方体的邻居，覆盖比例为r，则边长为： • 当维数p=10时，边长为 • 为了得到数据的1%或10%的覆盖，必须覆盖输入变量定义域的63%或80%。这样的邻域不再是“局部的” • 最近邻居的空间趋近于很大，从而估计是有偏的 • 而降低邻域的大小也无济于事，因为取平均值的观测值越少，拟合的方差会增大 • 但并不表示局部方法（如knn）在高维空间中没有意义 • 因为通常数据在高维空间中是有结构的，如成团分布，即数据的本质维数不高

维数灾难 e r

函数逼近 • 考虑连续数据的回归问题：给定X，Y的最佳预测为回归函数： • 为了预测，我们需要知道f ，但通常我们并不知道f • 有时科学知识（如物理化学定律）告诉我们f 的形式 • 如胡克定律指出：在弹性限度内，弹簧的的形变 f 跟引起形变的外力x，即 • 其中为弹簧的初始长度，为物质的弹性系数，由材料的性质所决定 • 对给定的弹簧，我们不知道其弹性系数，但我们可以通过测量不同外力下的形变来估计弹性系数

函数逼近 • 但测量会有误差 ，这样考虑统计模型的观点： • 其中且为随机误差，与X独立 • 当有足够多的数据时，最小二乘能得到精确预测，并且我们能正确（偏差小）、精确（方差小）地预测任意外力下的形变 • 如果科学知识告诉我们应该应该选择非线性模型，如sigmoid模型，我们仍然可以用最小二乘法求解，只是计算可能稍复杂 • 经验告诉我们，当二元正态分布的相关系数为0.5时，意味着线性关系仍能工作得很好 • 事实上，有时候人们既没有从理论上，也没有从经验上分析就直接采用线性模型

函数逼近 • 更通用的做法是选择一个函数族，参数形式为 • 其中为参数集合 • 可以用最小二乘法求解，也可以用更一般的极大似然法来求解 • 可能是一个封闭的解析解 • 也可能要通过数值计算的方法迭代计算得到

函数逼近 • 但可能我们选定的函数族中的任何函数都不能很好表示f • 如上述红绿点分类的例子中线性模型表现不够好，偏差太大 • 或者是选择函数族太灵活 • 如红绿点分类的例子中knn (k=1)时，估计不够好，因为估计利用的数据太少（只利用了k=1个点）方差太大 • 问题：如何选择合适的函数族？ • 增加结构约束

结构化的回归模型 • 对任意函数f，考虑RSS准则 • 任何通过的函数的RSS=0：有无穷多个解 • 当测试数据与训练数据不同时，该函数可能是一个非常糟糕的预测 • 只有当n足够大时，样本均值才能趋于条件期望 • 为了得到对有限n有效的结果，需要将解限定在一个合理的较小函数集合：如参数模型 • 通常限制施加的是复杂性约束：通常这意味着在输入空间上小邻域上的规则，即对所有的输入点x，在某种度量下，它们都足够靠近，显示出某种特殊的结构，如近似常数、线性或低阶多项式。

结构化的回归模型 • 约束的强度由邻域的大小决定：邻域越大，约束越强，并且解对约束的特定选择越敏感 • knn：局部常数拟合 • 在无穷小的邻域中，局部常数拟合通常不再是约束 • 线性回归：全局线性拟合 • 在非常大的邻域中，局部线性拟合几乎是全局的线性模型，并且限制很强 • 局部线性回归：局部线性拟合 • 在邻域中用线性拟合

偏差—方差折中 • 如在knn回归中： • 模型为，其中 • 则在点处的期望误差（亦称测试误差/泛化误差） • 当k变化时，在偏差-方差之间有一个折中 • 偏差为k的增函数，而方差为k的减函数 • 较小的k，模型较复杂，拟合精度高，偏差较小，但方差较大 • 模型选择：拟合精度与模型复杂度之间的平衡

当k较小时，训练误差较小，但测试误差一般较大当k较小时，训练误差较小，但测试误差一般较大当k较大时，训练误差较大，但测试误差一般较小

模型选择 • 目标：测试误差最小 • 测试误差：用训练误差估计 • 但训练误差不是测试误差的一个很好估计，因为训练误差不能很好地解释模型的复杂性欠拟合区域过拟合区域

本章小结 • 有监督学习：给定训练数据，求使风险最小的 f，即 • 当损失为平方误差损失，结果为 • 实际求解时，只能利用训练样本的信息，用样本均值近似期望 • 但不能以训练误差作为标准，因为样本均值只能在大样本情况下才能逼近期望 • 目标为期望风险/测试误差最小，但测试集不可得，所以应该增加限制，即函数限制在一个合理的较小集合 • 不同的学习过程表现为对施加不同的限制，这种限制通常为复杂性约束（在输入空间上小邻域上的规则） • 模型选择：模型复杂度和训练误差之间的折中/偏差—方差折中

下节课内容 • 下节课内容：线性回归模型 • [Wasserman] Chp13 • [ESL] Chp3

第三部分实验 • 数据：前列腺癌数据 • ESL一书中回归分析的主要数据用例 • 实验内容： • 实现回归模型中的两种 • 线性回归：必选 • 岭回归 • LASSO • 核回归 • 局部线性回归 • 并选择合适复杂度的模型 • AIC/BIC • 交叉验证 • bootstrap

前列腺癌数据 • 考察第9列的前列腺癌特殊抗原水平（lpsa: log prostate specific antigen）与前8列临床指标之间的相关性 • lcavol：log cancel volume （肿瘤体积） • lweight：log prostate weight （前列腺重量） • age：（年龄） • lbph：log bengin prostatic hypcrplasia （良性前列腺增生量） • svi：seminal vesicle invasion （精囊浸润） • lcp：log of capsular penetration （包膜穿透） • gleason：gleason score （Gleason积分） • pgg45：percent of Gleason scores 4 or 5 （ Gleason4/5所占百分比） • 共97个样本，第10列标记某个样本为训练样本还是测试样本 • 67训练样本 • 30个测试样本

维数灾难问题2：大多数点都靠近样本的边界 • 考虑均匀分布在以原点为中心的p维单位球内的n个数据点，假设考虑最近邻。则从原点到最近数据点的中位数距离为： • 当n=500，p=10时，，超过到边界的一半 • 大部分样本更靠近样本空间的边界，而不是靠近其他数据

证明（1） • 考虑均匀分布在以原点为中心的p维单位球上的n个数据点，假设考虑最近邻。则从原点到最近数据点的距离的中位数为： • 证明：令表示以原点为中心，半径为r的p维超球的体积，则 • 则一个数据点落入半径为r的超球内的概率为

证明（2） • 令R表示原点到最近数据点的距离，由于数据是随机的，R为随机变量。则R的CDF为：中位数：

第三部分：统计学习基础

第三部分：统计学习基础

Presentation Transcript