1 / 58

机器学习技术与应用

机器学习技术与应用. 潘 炎 中山大学软件学院 panyan5@mail.sysu.edu.cn. The speaker. 潘炎,博士 / 讲师,中山大学软件学院 研究兴趣:机器学习 Learning algorithms Large-scale learning Learning on high dimensional data Structural learning Learning to rank (搜索引擎结果排序) Image classification (图像分类) Object detection&tracking (智能监控等).

moeshe
Download Presentation

机器学习技术与应用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 机器学习技术与应用 潘 炎 中山大学软件学院 panyan5@mail.sysu.edu.cn

  2. The speaker • 潘炎,博士/讲师,中山大学软件学院 • 研究兴趣:机器学习 • Learning algorithms • Large-scale learning • Learning on high dimensional data • Structural learning • Learning to rank (搜索引擎结果排序) • Image classification (图像分类) • Object detection&tracking (智能监控等)

  3. Philosophy of the course • Mastering a set of key principles and key tools that can solve a wide range of problems (通用) • Finding a solution tailed to the special structure of the given practical problem (灵活运用)

  4. About this course • Practical machine learning techniques • Two parts: • 基本概念,核心工具 • 学习的框架 • 优化方法 • 分类 • 回归 • 主流技术,典型实际问题的解决方法 • 支持向量机(SVM) • Boosting,decision tree • 搜索引擎、社交网络、图像视频理解等

  5. About the exam • 论文阅读报告 20% • 个人项目 30% • 团队项目 40% • 课堂互动 10%

  6. 软件的现状 • 过去十多年,我们开发的软件系统主要是收集数据 • ERP系统=单据电子化 • 邮件系统=信件电子化 • 监控摄像头(小区,交通,商铺),人工监控,事后取证 • ……

  7. 软件的未来 • 从收集数据到分析数据 • 市场上需要“聪明”的软件 • 智能监控是否可以实时预警? • 能否给我推荐我喜欢的电影/产品/新闻/广告? • 汽车能否自动驾驶? • 能否为我公司的生产流程的改进提供建议? • 游戏里能否植入广告而又不会让玩家觉得不自然?

  8. Data is money?

  9. 例子:人脸识别

  10. 例子:网页分类

  11. 例子:搜索引擎结果排序

  12. 例子:垃圾邮件过滤

  13. 例子:机器翻译

  14. 例子:文档自动摘要

  15. 例子:手写识别

  16. 例子:图像去噪

  17. 例子:视频跟踪和智能事件分析 行人跟踪 车辆跟踪 视频跟踪 打架 交通事故 事件分析

  18. Cat Dog ?

  19. Cleanliness Size

  20. $ $$ $$$ $$$$ ?

  21. Price $$$$ $$$ y $$ $ Top speed x

  22. Binary Classification • Is this person Manyu Zhang or not? • Is this person male or female? • Is this person beautiful or not?

  23. Multi-Class Classification • Is this person 张曼玉, 林青霞or 黎姿? • Is this person happy, sad, angry or bemused?

  24. Ordinal Regression • Is this person very beautiful, beautiful, ordinary or ugly?

  25. Regression • How beautiful is this person on a continuous scale of 1 to 10? 9.99?

  26. Ranking • Rank these people in decreasing order of attractiveness.

  27. Multi-Label Classification • Tag this image with the set of relevant labels from {female, Manyu Zhang, beautiful, SYSUfaculty}

  28. Learning from experience and data • In what form can the training data be obtained? • What is known a priori? • Complexity of training • Complexity of prediction Are These Problems Distinct?

  29. Madhubala

  30. 相关学科 数据挖掘 统计学 神经科学,心理学 计算机 人工智能

  31. What is machine learning? • Two steps • Training/Learning • 给定一个数据样本集,从中学习出规律(模型) • Testing/Predicting/Inference • 对于一个新的数据样本,利用学到的模型进行预测

  32. 例子:天气预报 • 目标:预测明天广州会不会下雨 • 数据:过去10年广州每一天的天气数据 • 那天是否有下雨:label s(是/否) • 那天的前一天傍晚18点的气温、相对湿度、风向、风速、气压等:features • 训练:学习得到规律(模型) • 预测:给定今天傍晚18点的气温、相对湿度、风向、风速、气压等、根据模型预测明天是否下雨

  33. 机器学习的关键问题 • 如何表示数据样本? • 通常用一个向量来表示一个样本,向量中选用哪些特征是关键 • 如何找出规律 • 通常变成一个选择题,给你n个候选的模型让你选。 • 确定选择的标准(什么样的模型才叫好模型) • 如何快速地从n个模型中选出最好的 • 如何根据找到的规律进行预测

  34. 步骤1:如何表示样本? • 把样本(一篇文章,一个图片)表示成一个向量

  35. 例子:家庭用车 • 任务:把车分类 家庭用车/非家庭用车 • 样本:车 • 问题:如何把车表示成一个向量?选取哪些特征? • 价格,排量

  36. 例子:预测病人是否会发心脏病 • 样本:病人 • 把病人表示成一个向量 • 血糖,血压(高,低),血脂,心率

  37. 例子:预测天气 • 温度,相对湿度,风向,风速,气压

  38. 步骤2:如何找出规律? • 确定要找的是哪类规律(函数形式) • 例如,假设规律是向量特征上的权重 • 从众多可能的规律中选出最好的那个 • Q:选择标准是什么? • A:最小化在训练集上的损失函数 • Q:如何从众多候选规律中快速地找到最好的那个? • A:优化算法

  39. 步骤3:根据找到的规律进行预测 • 打分,根据分数作判别

More Related