1 / 42

数据可视化基础 高维数据可视化技术

数据可视化基础 高维数据可视化技术. 陈为 chenwei@cad.zju.edu.cn http://www.cad.zju.edu.cn/home/chenwei/visclass. 数据模型. • 3 个特征  对象 感兴趣项 学生,课程,学期, …. )  属性 数据的特征或属性 (name, age, GPA, number, date, …) (姓名,年龄, GPA ,学号,日期, … )  关系 两个对象是如何联系的 ? (学生上课,学期的课程, … ). 属性变量类型. • 变量的三种主要类型

Download Presentation

数据可视化基础 高维数据可视化技术

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 数据可视化基础高维数据可视化技术 陈为 chenwei@cad.zju.edu.cn http://www.cad.zju.edu.cn/home/chenwei/visclass

  2. 数据模型 • 3个特征  对象 感兴趣项 学生,课程,学期,….)  属性 数据的特征或属性 (name, age, GPA, number, date, …)(姓名,年龄,GPA,学号,日期,…)  关系 两个对象是如何联系的? (学生上课,学期的课程,…)

  3. 属性变量类型 • 变量的三种主要类型  N-Nominal(类型的) (等或不等于其他值) 例如: 性别  O-Ordinal (有序的) (服从< 关系, 有序的集合) 例如: fr,so,jr,sr  Q-Quantitative (量化的) (可以进行数学操作) 例如: 年龄 值间关系: 排序 比率 相互关系

  4. 高维数据 3维散点图是可以的 每个变量都独立显示 仍然是二维的, 但使用标记属性 来表示第三个变量 多维视图 Based on slide from Stasko

  5. 高维数据可视化--散点图矩阵 对什么有用? 丢失什么? 在二元变量对的散点图中表达其二元关系

  6. 高维数据可视化--数据表格 面向特征的类别用户界面 继续调整电子数据表的原语 列代表数据项,行表示属性 使用条形盒或其他的方式描述属性值

  7. 高维数据可视化--平行坐标

  8. 高维数据可视化--星型散点图 • 空间变量围绕着一个圆心 • 使用“辐条”编码数据值 • 数据点是一个形状

  9. 星型散点图

  10. 高维数据可视化—切尔诺夫脸谱图(Chernoff Faces) 用人脸特征编码不同变量的值

  11. 切尔诺夫脸谱图

  12. 类别数据 • 多元的类别数据如何表示? • 学生 • 性别:男,女 • 眼睛颜色:棕、蓝、绿、淡褐色 • 头发颜色:黑、红、棕、亚麻色、灰 • 祖国:美国、中国、意大利、印度…

  13. 马赛克图(Mosaic Plot)

  14. 马赛克图(Mosaic Plot) 女男

  15. 马赛克图(Mosaic Plot) 棕淡褐 绿 蓝色 女男

  16. 马赛克图(Mosaic Plot) 黑 红 棕 亚麻色 棕淡褐 绿 蓝色 女男

  17. 属性直方图 多直方图视点,每个属性一个(像格子) 每个数据实例用一个方格描述 根据实例的对应的属性值确定方格的位置 从一个视点选择数据实例,其他视点也会做出反应 查询控件缩小范围 使用着色来表示查询匹配的程度(全匹配时最深)

  18. 特征 属性直方图 在所有属性范围的所有对象 通过属性限制来交互

  19. 特征 属性笔刷间的相互联系

  20. 特征 颜色编码的敏感度

  21. 总结 • 总结 • 属性直方图 • 属性关系 • 敏感度信息 • 零单击情况或当你一点也不熟悉数据时特别有用 • 局限性 • 属性的数量是有限的

  22. 散点图:灰尘&磁铁 不同原语的聚集 数据实例多如铁粉屑 不同的属性如磁铁般给出物理显示 对象交互来挖掘数据

  23. 界面

  24. 交互 铁屑(数据)依据磁铁(属性),按其值排列 显示的所有磁铁影响铁屑的位置 磁铁的个体影响可能被改变 铁屑的颜色和尺寸也连接到磁铁(属性) 移动一个磁铁使所有的铁屑移动 移动铁屑的命令 如何放置磁铁来挖掘数据的不同策略

  25. 高维数据可视化--紧凑的像素显示 • 用像素代表数据样本或变量 • 同时显示上百万或更多的像素 • 可能依赖于颜色的使用 • 容纳大量数据 • 挑战:布局是什么?

  26. 大规模例子

  27. 数据库的应用 • 多个数据项组成一个n维的数据库 • 发出请求一个规定维度的目标执行的查询请求 • 通常,得不到精确的匹配 • 考虑发现相近的匹配 D. Keim, H-P Kriegel, “VisDB Database ExplorationUsing Multid Vis”, IEEE CG&A, 1994.

  28. 问题 • 如果维度的数据类型是浮点数或字符串,怎么做? • 如果每一维的数据类型相同,但不同的数据规模? • 必须定义某种距离,然后,乘以权重因子

  29. 技术 • 计算所有数据点的相关性 • 根据相关性排序数据项 • 使用螺旋技术排序—从中心散开 • 基于相关性给数据项着色 相关性色彩——经验设计 高低

  30. 螺旋法 高度相关的数据在中心, 随着线形向外延伸,相关性降低 图1. 某一个维度的螺旋形布局

  31. 样例显示 8维 1000项 多窗口分组

  32. 关联的数据 Dx--- x轴属性 Dy--- y轴属性 Ox--- 规定x轴排序规则 Oy--- 规定y轴排序规则 C--- 颜色映射规则

  33. 应用实例 图13. 挖掘405,000个销售记录的多条形图(例如,Dx=产品类型, Dy=⊥, Ox=浏览次数, Oy=金额, C)。(a)颜色:金额 (b) 颜色: 参观次数,(c)颜色:数量 • 7号产品和10号产品有消费额高的客户群(图13a中条形7和条形10) • 花费的金额和浏览的次数是明显相关的,特别是4号产品(图13b的4号条形的顶部的深颜色线性增加) • 4号和11号产品销售数量最高(图13c的条形4和条形11的深颜色) • 单击像素A显示那个客户的具体细节

  34. 可视映射 把量化的值变成条形

  35. 实例化

  36. 细节 聚焦于数据项,同时可以显示内容 http://www.open-video.org/details.php?videoid=8304

  37. 低维嵌入

  38. 降维 • 使用线性或非线性变换把高维数据投影到低维空间 • 投影保留重要的关系(例如,没有信息损失、数据区分) 

  39. 降维 • 线性方法 • 主成分分析 (PCA) – Hotelling[33] 多维尺度分析 (MDS) – Young[38] • • 非负矩阵分解 (NMF) – Lee[99] • 非线性方法 • 局部线性嵌套(LLE)– Roweis[00] IsoMap – Tenenbaum[00] Charting – Brand[03] • •

  40. 多维尺度分析 (MDS)

  41. MDS • 输入:H维数据点的彼此间的距离组成的矩阵M • 输出:一个L维空间的数据的投影,投影空间中的两两点的距离尽量和原始空间 距离保持一致

  42. 实例

More Related