1 / 32

智能数据分析 (Intelligent Data Analysis,IDA)

智能数据分析 (Intelligent Data Analysis,IDA). Josipa Kern, PhD Andrija Stampar 公共卫生学院 萨格勒布大学医学院 萨格勒布,克罗地亚. 对智能数据分析的兴趣和激情. 决策的过程就是寻求信息和知识的过程 数据处理可以提供这些 问题的多维度在于寻找合适的解决方案和进行深入的数据处理和分析. 学习目标. 理解 IDA 的概念 浏览相关的网页和文献 接触一些 IDA 的工具 学习如何使用 IDA 工具和验证 IDA 的结果. 绩效目标. 识别需要使用 IDA 来解决的问题 准备数据并进行分析

Download Presentation

智能数据分析 (Intelligent Data Analysis,IDA)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 智能数据分析(Intelligent Data Analysis,IDA) Josipa Kern, PhD Andrija Stampar公共卫生学院 萨格勒布大学医学院 萨格勒布,克罗地亚

  2. 对智能数据分析的兴趣和激情 • 决策的过程就是寻求信息和知识的过程 • 数据处理可以提供这些 • 问题的多维度在于寻找合适的解决方案和进行深入的数据处理和分析

  3. 学习目标 • 理解IDA的概念 • 浏览相关的网页和文献 • 接触一些IDA的工具 • 学习如何使用IDA工具和验证IDA的结果

  4. 绩效目标 • 识别需要使用IDA来解决的问题 • 准备数据并进行分析 • 验证并解释IDA的结果

  5. IDA就是… • …与有效的数据分析相关的多学科研究 • …用来从大量的联机数据中提取有用信息;从固有数据库中提取需要的知识和感兴趣的模型。

  6. IDA还是… • 数据开发(data mining) • 从数据中获得的知识 • 基于算法(algorithm-based)的遗传规律的发现 • 知识的发现 • 学习分类系统 • 机器学习(machine learning) • 其他

  7. IDA提供知识…

  8. 知识就是… • 经过收集,分类,组织,整合,概括和增值的信息的精华 • 位于比资料和信息更高的抽象概念的水平,并能用来推出新的信息和知识 • 往往表现为用来解决特定问题的专门技能

  9. 知识的获得… • 是一个抽提、分析、转换、分类、组织和整合知识并以一种能用于计算机系统的形式来阐明的过程

  10. 一个领域的知识能用一系列的规律来表达

  11. 规律就是… • 用来规定建议、指令或策略的正规方式。常用“如果前提,那么结论”或“如果条件那么行为”的形式表达

  12. 怎样发现隐藏在数据中的规律?

  13. 一些IDA的工具… • See5—以决策树和/或规律设置的形式来分析数据和生成分类器的程序 http://www.rulequest.com

  14. 一些IDA的工具… • Cubist—分析数据和生成基于规律的分段线形模型—规律的集合,每个规律都有相关的线形表达来计算目标值… http://www.rulequest.com

  15. 一些IDA的工具… • ILLM—此工具以规律的形式建立了分类模型,这种规律阐述了有关隐藏在数据中的关系的知识 http://dms.irb.hr

  16. 一些IDA的工具… • Magnum Opus—找寻相关性规律,因可以揭示数据中因素之间潜在的相互作用而具有竞争性优势 http://www.rulequest.com

  17. IDA结果评价 • 绝对&相对精确性 • 灵敏性&特异性 • 假阳性&假阴性 • 误差率 • 规律的可靠性 • 及其他

  18. IDA举例 使用See5进行IDA演示

  19. See5…应用… • 应用.姓名—列出案例可能所属的组别以及用来描述每个案例的属性 • 属性有两类:离散属性从一系列可能性中提取出一个数值,而连续性属性有数字值

  20. See5…应用… • 应用.数据—提供训练案例的信息,See5从中提取出模型 • 每个案例的入口由一条或多条决定所有属性值的线组成

  21. See5…应用… • 应用.测试—提供测试案例的信息(用于结果评价) • 每个案例的入口由一条或多条决定所有属性值的线组成

  22. See5…应用…实例… • 流行病学研究(1970-1990) • 在这段时间内死于心血管病的受试者样本 • 问题:他们知道自己生病了吗? 1—他们是健康的 2—他们有疾病(药物治疗,临床和实验室检 查阳性结果)

  23. See5…应用…实例… • 应用.姓名—实例 目标 性别:男,女 活性:1,2,3 年龄:连续的 吸烟:否,是 — 目标:1,2 —

  24. See5…应用…实例… • 应用.数据—实例 男,1,59,是,0,0,0,0,119,73,103,86,247,87,15979,?,?,?,1,73,2.5 男,1,66,是, 0,0,0,0,132,81,183,239,?,783,14403,27221,19153,23187,1,73,2.6 男,1,61,否, 0,0,0,0,130,79,148,86,209,115,21719,12324,10593,11458,1,74,2.5 ……

  25. See5…应用…实例… • 结果—实例 规律 1:(包括26名) 性别=男 收缩压>111 油脂>2.9 -> 1组 [0.929]

  26. See5…应用…实例… • 结果—实例 规律 4:(包括14名) 吸烟=是 收缩压>131 葡萄糖>93 葡萄糖<=118 油脂<= 2.9 -> 2组 [0.938]

  27. See5…应用…实例… • 结果—实例 规律 15:(包括2名) 收缩压<=111 油脂>2.9 -> 2组别 [0.750]

  28. See5…应用…实例… • 结果—实例 训练数据评价(199例) (a) (b) <-分组为 ---- ---- 107 3 (a): 组 1 17 72 (b): 组 2

  29. See5…应用…实例… • 结果—实例(训练集) 灵敏性=0.97 特异性=0.81

  30. See5…应用…实例… • 结果—实例 测试数据评价(73例) (a) (b) <-分组为 ---- ---- 43 1 (a): 组 1 3 26 (b): 组 2

  31. See5…应用…实例… • 结果—实例(测试集) 灵敏性=0.98 特异性=0.90

  32. 所有推荐的IDA工具在提到的URL上都是可用的,至少也有测试版本所有推荐的IDA工具在提到的URL上都是可用的,至少也有测试版本 试试你自己的IDA… 谢谢!

More Related