1 / 17

统计学习基础

统计学习基础. 卿来云 中国科学院研究生院信息学院 lyqing@gucas.ac.cn / lyqing@jdl.ac.cn. 概率 vs. 统计. 概率:研究随机事件出现的可能性的数学分支,描述非确定性的正式语言 基本问题:给定以一个数据产生过程,输出的性质? 统计推断:处理数据分析和概率理论的数学分支,与数据挖掘和机器学习是近亲 基本问题:给定输出数据,该数据的产生过程?. 概率. 数据产生过程. 观测到的数据. 统计推断. 统计学习. 统计学 ≈ 根据数据进行推理的学科 统计学习 ≈ 多元统计分析 + 计算统计学

urbano
Download Presentation

统计学习基础

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 统计学习基础 卿来云 中国科学院研究生院信息学院 lyqing@gucas.ac.cn / lyqing@jdl.ac.cn

  2. 概率 vs. 统计 • 概率:研究随机事件出现的可能性的数学分支,描述非确定性的正式语言 • 基本问题:给定以一个数据产生过程,输出的性质? • 统计推断:处理数据分析和概率理论的数学分支,与数据挖掘和机器学习是近亲 • 基本问题:给定输出数据,该数据的产生过程? 概率 数据产生过程 观测到的数据 统计推断

  3. 统计学习 • 统计学 ≈ 根据数据进行推理的学科 • 统计学习≈多元统计分析+ 计算统计学 • 多元统计分析 ≈ 基于一个多元变量数据集,预测函数值 • 计算统计学 ≈ 统计问题的计算方法(a.k.a. 统计计算) + 计算繁重的统计方法 • 数据挖掘 ≈ 研究数据分析,尤其是大数据量/复杂的数据集

  4. 学习的主要目的:预测 • 通过学习,得到训练数据的某种模型 • 然后利用该模型,预测未见过的测试数据 • 假设测试数据与训练数据来自相同分布

  5. 统计学习的任务 • 概率密度估计:预测概率密度 • 回归:预测连续目标变量的值 • 分类:预测离散目标变量的值 • 其他:聚类、降维 • 有监督/无监督学习 • 有监督学习:回归、分类 • 无监督学习:概率密度估计、聚类、降维

  6. 统计学习的主要部分 • 模型类别 • 参数模型、非参数模型 • 损失函数 • L2损失、0-1损失、log似然损失… • 推广性 • 训练误差(学习)、测试误差(预测) • 优化计算

  7. 例:回归 • 数据产生过程为 • 加上 的高斯噪声 • 目标:用多项式模型 • 拟合 ,使得 • 最小。

  8. Fig1(b) 3阶多项式拟合 Fig1(a) 1阶多项式拟合 例:回归(续) 样本数据点 拟合函数

  9. Fig1(c) 10阶多项式拟合 Fig1(d) 训练误差和测试误差 例:回归(续)

  10. 例:人脸形状 ICCV2001: Learning inhomogeneous Gibbs models of faces by minimax entropy

  11. 一些问题 • 怎样表示误差?(损失函数) • 怎样保证在未来的数据集上误差最小?(推广性) • 对特定的数据,应该选择哪个模型/方法?(模型选择、假设检验) • 我们的方法在未来数据集上的误差是多少?(误差估计、置信带、学习理论)

  12. 课程目的 • 为计算机专业的学生快速提供广泛的概率和统计背景 • 概率 • 统计 • 统计学习 • 为学习其他课程打好统计学基础 • 机器学习 • 数据挖掘 • 模式识别 • 人工智能 • …

  13. 数学基础的重要性 • 研究数据分析必须打好概率和统计基础 • Using fancy tools like neural nets, boosting and support vector machines without understanding basic statistics like doing brain surgery before knowing how to use a band-aid.

  14. 教材/参考书 • [AOL] Larry Wasserman, All of Statistics: A Concise Course in Statistical Inference • 中译本:《统计学完全教程》 • 主要教材:内容很全,但有些部分篇幅略少,更偏向于从统计的角度讲述 • Chp1-13, Chp20 • [ESL] Trevor Hastie, Robert Tibshirani, Jerome Friedman,The Elements of Statistical Learning – Data Mining, Inference, and Prediction • 中译本:《统计学习基础—数据挖掘、推理与预测》 • 统计学习部分的主要教材:主要从机器学习的角度讲述 • Chp1-7 • [PRML] Bisshopr,Pattern Recognition and Machine Learning

  15. 课程内容(1) • 第一部分:概率 • 随机变量及其概率分布 • 概率不等式和收敛性 • 第二部分:统计推断 • 统计推断基本知识 • 非参数估计、Bootstrap、Jackknife • 参数估计 • 假设检验

  16. 课程内容(2) • 第三部分:统计学习 • 统计学习概述 • 线性回归 • 核方法 • 统计判决理论 • 模型选择和模型评估

  17. 作业和考试 • 助教:池晨 chichen@jdl.ac.cn • 作业:40% • 每次作业留2周时间 • 请按时交作业,鼓励讨论,但NO COPY • 期末考试: 60%,开卷

More Related