430 likes | 784 Views
数据可视化基础 高维数据可视化技术. 陈为 chenwei@cad.zju.edu.cn http://www.cad.zju.edu.cn/home/chenwei/visclass. 数据模型. • 3 个特征 对象 感兴趣项 学生,课程,学期, …. ) 属性 数据的特征或属性 (name, age, GPA, number, date, …) (姓名,年龄, GPA ,学号,日期, … ) 关系 两个对象是如何联系的 ? (学生上课,学期的课程, … ). 属性变量类型. • 变量的三种主要类型
E N D
数据可视化基础高维数据可视化技术 陈为 chenwei@cad.zju.edu.cn http://www.cad.zju.edu.cn/home/chenwei/visclass
数据模型 • 3个特征 对象 感兴趣项 学生,课程,学期,….) 属性 数据的特征或属性 (name, age, GPA, number, date, …)(姓名,年龄,GPA,学号,日期,…) 关系 两个对象是如何联系的? (学生上课,学期的课程,…)
属性变量类型 • 变量的三种主要类型 N-Nominal(类型的) (等或不等于其他值) 例如: 性别 O-Ordinal (有序的) (服从< 关系, 有序的集合) 例如: fr,so,jr,sr Q-Quantitative (量化的) (可以进行数学操作) 例如: 年龄 值间关系: 排序 比率 相互关系
高维数据 3维散点图是可以的 每个变量都独立显示 仍然是二维的, 但使用标记属性 来表示第三个变量 多维视图 Based on slide from Stasko
高维数据可视化--散点图矩阵 对什么有用? 丢失什么? 在二元变量对的散点图中表达其二元关系
高维数据可视化--数据表格 面向特征的类别用户界面 继续调整电子数据表的原语 列代表数据项,行表示属性 使用条形盒或其他的方式描述属性值
高维数据可视化--星型散点图 • 空间变量围绕着一个圆心 • 使用“辐条”编码数据值 • 数据点是一个形状
高维数据可视化—切尔诺夫脸谱图(Chernoff Faces) 用人脸特征编码不同变量的值
类别数据 • 多元的类别数据如何表示? • 学生 • 性别:男,女 • 眼睛颜色:棕、蓝、绿、淡褐色 • 头发颜色:黑、红、棕、亚麻色、灰 • 祖国:美国、中国、意大利、印度…
马赛克图(Mosaic Plot) 棕淡褐 绿 蓝色 女男
马赛克图(Mosaic Plot) 黑 红 棕 亚麻色 棕淡褐 绿 蓝色 女男
属性直方图 多直方图视点,每个属性一个(像格子) 每个数据实例用一个方格描述 根据实例的对应的属性值确定方格的位置 从一个视点选择数据实例,其他视点也会做出反应 查询控件缩小范围 使用着色来表示查询匹配的程度(全匹配时最深)
特征 属性直方图 在所有属性范围的所有对象 通过属性限制来交互
特征 属性笔刷间的相互联系
特征 颜色编码的敏感度
总结 • 总结 • 属性直方图 • 属性关系 • 敏感度信息 • 零单击情况或当你一点也不熟悉数据时特别有用 • 局限性 • 属性的数量是有限的
散点图:灰尘&磁铁 不同原语的聚集 数据实例多如铁粉屑 不同的属性如磁铁般给出物理显示 对象交互来挖掘数据
交互 铁屑(数据)依据磁铁(属性),按其值排列 显示的所有磁铁影响铁屑的位置 磁铁的个体影响可能被改变 铁屑的颜色和尺寸也连接到磁铁(属性) 移动一个磁铁使所有的铁屑移动 移动铁屑的命令 如何放置磁铁来挖掘数据的不同策略
高维数据可视化--紧凑的像素显示 • 用像素代表数据样本或变量 • 同时显示上百万或更多的像素 • 可能依赖于颜色的使用 • 容纳大量数据 • 挑战:布局是什么?
数据库的应用 • 多个数据项组成一个n维的数据库 • 发出请求一个规定维度的目标执行的查询请求 • 通常,得不到精确的匹配 • 考虑发现相近的匹配 D. Keim, H-P Kriegel, “VisDB Database ExplorationUsing Multid Vis”, IEEE CG&A, 1994.
问题 • 如果维度的数据类型是浮点数或字符串,怎么做? • 如果每一维的数据类型相同,但不同的数据规模? • 必须定义某种距离,然后,乘以权重因子
技术 • 计算所有数据点的相关性 • 根据相关性排序数据项 • 使用螺旋技术排序—从中心散开 • 基于相关性给数据项着色 相关性色彩——经验设计 高低
螺旋法 高度相关的数据在中心, 随着线形向外延伸,相关性降低 图1. 某一个维度的螺旋形布局
样例显示 8维 1000项 多窗口分组
关联的数据 Dx--- x轴属性 Dy--- y轴属性 Ox--- 规定x轴排序规则 Oy--- 规定y轴排序规则 C--- 颜色映射规则
应用实例 图13. 挖掘405,000个销售记录的多条形图(例如,Dx=产品类型, Dy=⊥, Ox=浏览次数, Oy=金额, C)。(a)颜色:金额 (b) 颜色: 参观次数,(c)颜色:数量 • 7号产品和10号产品有消费额高的客户群(图13a中条形7和条形10) • 花费的金额和浏览的次数是明显相关的,特别是4号产品(图13b的4号条形的顶部的深颜色线性增加) • 4号和11号产品销售数量最高(图13c的条形4和条形11的深颜色) • 单击像素A显示那个客户的具体细节
可视映射 把量化的值变成条形
细节 聚焦于数据项,同时可以显示内容 http://www.open-video.org/details.php?videoid=8304
降维 • 使用线性或非线性变换把高维数据投影到低维空间 • 投影保留重要的关系(例如,没有信息损失、数据区分)
降维 • 线性方法 • 主成分分析 (PCA) – Hotelling[33] 多维尺度分析 (MDS) – Young[38] • • 非负矩阵分解 (NMF) – Lee[99] • 非线性方法 • 局部线性嵌套(LLE)– Roweis[00] IsoMap – Tenenbaum[00] Charting – Brand[03] • •
多维尺度分析 (MDS)
MDS • 输入:H维数据点的彼此间的距离组成的矩阵M • 输出:一个L维空间的数据的投影,投影空间中的两两点的距离尽量和原始空间 距离保持一致