数据可视化基础数据科学

数据可视化基础数据科学 陈为 chenwei@cad.zju.edu.cn http://www.cad.zju.edu.cn/home/chenwei/visclass

内容提纲 • 大数据时代 • 数据科学简介 • 大数据的案例

大数据的定义与特性 • 大数据的3V特性 • 大数据用来定义那些大小超出常用软件工具在可承受的运行时间内进行数据捕获、管理和处理的能力的数据集。

美国政府的大数据计划 2009年，美国国家标准技术研究所(NIST)帮助发表了一篇题为“控制数据的力量”的报告，对大数据研发计划的开展有许多影响。 2011年，总统科技顾问委员会(PCAST) 提出增加美国在大数据研发方面投入的建议，同时成立大数据高层指导小组。 2012年3月29日奥巴马政府公布了“大数据研发计划” (Big Data Research and Development Initiative）

美国政府的大数据计划 • 国防部(DoD) • 自然语言处理(Machine Reading) • 视觉智能(Mind’s Eye) • 安全云(Mission Oriented Resilient Clouds) • 对加密数据的编程计算(PROCEED) • 对视频和图像的检索和分析工具(VIRAT) • CINDER计划 • Insight计划

美国政府的大数据计划 • 国土安全部(DHS) • 可视化数据分析(CVADA) • 能源部 (DOE) • ASCR计划，提供数据管理，可视化和数据分析的社区，包括数字化保存和社区访问 • 生物和环境研究计划(BER) • 系统生物学知识库(Kbase) • 美国核数据计划(USNDP) • NASA • 全球地球观测系统(GEOSS) • 行星数据系统(PDS)

美国政府的大数据计划 • 卫生和人类服务部(HHS) • 生物传感2.0 计划 • 癌症成像存档(TCIA) • 癌症基因组图谱(TCGA) • 传染病代理研究模型(MIDAS) • 人口研究数据共享(DSDR) • 计算神经科学的合作研究(CRCNS) • 食品药品监督管理局(FDA) • 虚拟实验室环境(VLE)计划 • 国家安全局(NSA) • 情报共同体(IC)计划

美国政府的大数据计划 • 美国地质调查局(USGS) • 利用庞大的数据集、先进的计算能力和协作工具，提高对一些地球问题的认识，如气候变化，地震的复发率。 • 美国国家自然基金委(NSF) • 开发、整合一套一体化的数据工具和先进的基础设施方案以支持科学和教育。 • 美国国家卫生研究院(NIH) • The Structural Genomics Initiative，通过发现，分析和传播蛋白质的三维结构，RNA和其他生物大分子结构，展现生物的多样性，以促进在生物学，农业和医药的基本认识和应用。

多尺度异常检测(ADAMS) 2011年由国防部高级研究计划局(DARPA)提出。投资：3500万美元。该项目旨在发现和防止内部威胁。系统预期输出对象是反间谍机构。同时可以用于解决大规模数据集的异常检测和特征化，用于商业融资等其他领域。核心技术由乔治亚理工学院高性能计算团队研发。

Insight计划 解决目前情报，监视和侦察系统的不足，进行自动化和人机集成推理，使得能够提前对时间敏感的更大潜在威胁进行分析开发新的方法来检测军事计算机网络与网络间谍活动

XDATA计划 • 国防部高级研究计划局(DARPA)今年提出开始XDATA计划。 • 将在四年里拟投资每年2500万美元。 • 开发用于分析大量的半结构化和非结构化数据的计算技术和软件工具。 • 提出的挑战: • 开发可扩展的算法处理分布式数据中不完整存储的数据。 • 研发有效的人机交互工具促进在各种各样的任务中快速分析并反馈最重要的视觉信息。

DAX计划 高级科学计算研究办公室(ASCR)提出。 DAX是一个为推动百万兆级计算所需的数据分析和可视化算法提供细粒度并发支持的工具包。基本单元是实现一个网格里元素行为的函数。每个函数只能访问传递和调用的元素，避免了内存冲突从而实现无限数量的线程并发。执行器遍历网格所有元素，调用一个或多个函数处理无差别功能的元素并收集每个元素的值。

PROMIS计划 病人报告结果测量信息系统 2002年5月，国家卫生研究所召开多个会议为21世纪的医学研究制定了发展路线并提出了NIH共同基金。为支持重要项目之一的慢性疾病病人临床研究动态评估，由NIH共同基金提出了合作项目PROMIS。 PROMIS是一个高度可靠，有效，灵活，准确，反应病人健康状况的评估工具系统。核心资源是评估中心：提供工具和数据库，以帮助研究人员收集，存储，分析病人的健康状况有关的数据。

EOSDIS计划 NASA提出的地球科学数据和信息系统研制计划主要目标：处理、存储与分发地球科学卫星数据。提供用于方便管理地球科学数据的工具。促进地球科学数据的跨学科使用。通过国际之间地球观测数据的共享和整合，推动地球系统科学，满足气候和环境变化的挑战。有12个数据中心，14个科学研究处理系统以及26个合作伙伴为项目提供支持。

大数据计划特点总结及高校面临的挑战 • 美国“大数据计划”特点 • 应用单位提出，应用单位主导 • 有非常明确的应用需求，要求解决实际问题 • 应用单位完全掌握大数据资源 • 高校参与关键技术研究 • 我国高校面临的挑战 • 不掌握大数据来源 • 很难得到真正的实际需求 • 无能力建设试验环境 • 不能提供足够的人力资源

提取、转换、加载 （ETL）分析商业智能数据产品

数据准备-复杂化 语法错误语义错误缺失值异常检测再归一化编码降维整合

数据准备-语法和语义错误 • 利用：日志！ • 维护一个记载错误记录的文件 • 尽可能多地捕捉出错地方的状态 • 能够帮助确定数据源的错误 • 对于文本格式，人来检查是可能的 • 对于二进制格式，使用16进制编辑器 • 进行语法或语义变化，或者检查数据源是否有错？ • 涉及到其他记录和数据源的限制是十分难查的

数据准备-扩展性问题 • 已有的数据和需要的数据均是动态的目标 • 数据质量是一个过程 • 经常会在分析数据是发现问题 • 修复找到的错误会是极耗资源或不可能的 • 容错 • 保留初始数据 • 能够将工作流的阶段回滚 • 允许以前工作的重用

数据准备-扩展性问题 • 工作流元数据管理 • 现在正在运行什么？ • 自动源捕获 • 对工作流进行版本编号 • 工作流进度估计 • 必须向下流进程通信 • 工作流单元重用 • 在复合时：常用工作流库 • 在执行时：消除工作流常见任务的冗余

数据表现 • 数据表现概览 • 图表 • 单变量 • 双变量 • 其他 • 图表的选择 • 设计的考虑 • 表格 • 图表 • 颜色 • 活板印刷

数据表现-例子 图信息图表格图表信息窗介绍文档视频应用程序

数据表现图

数据表现信息图

数据表现表格

数据表现图表

数据表现信息窗

数据表现图像

设计的考虑表格和图表 • 减少图表垃圾/表格垃圾；增加数据墨水比 • 认知的限制：限制一次展示的物体数量 • 颜色 • 颜色模式 • 对比、强调 • 与公司一致 • 6大格式塔原则：接近、相似、圈围、封闭、连续、连接（proximity, similarity, enclosure, closure, continuity, connection）

数据产品 • 不要只关注“思想” • 你构建了数据集 • 你构建了信息窗 • 你构建了实验平台 • 其他你可以构建的事 • 搜索 • 广告定位 • 垃圾检测 • 内容推荐

Facebook大数据案例 潜在的朋友

提纲推荐谁？静态，离线预测动态，在线重排序性能/热身

你可能认识的人 • 前1～2个推荐会直接显示在Faceboook的主页上 • 查看所有链接会使用户看到更多的推荐 • 很多的好友都是直接在主页而不是“查看所有”页面被添加的 • ‘Xing’某个用户把某人永远地从列表里删除 • 在未来的推荐中取消掉 • 占了Facebook中朋友中的很大一部分内容

帮助用户在FB上找到好友 • 推荐已经在很多应用中得到了证明 • Amazon、NetFlix等都有复杂的系统 • 和他们一样，我们可以通过作出优秀的推荐来增加我们对用户的价值 • 有更多好友的用户更频繁地使用网站，从中也得到更多 • 不像那些系统（协同过滤）我们必须要考虑社交背景

好友统计 • 大约每天有两亿的页面互访 • 26%直接来自于PYMK的贡献（点击PYMK添加链接） • 另外14%是间接引起的 • 新用户（注册帐号不超过两周）每天要连接4千万 • 28%直接通过PYMK，总共为42% • 没有“你可能认识的人”（PYMK）时很多人可能都无法被他人所发现 • 被从PYMK上移除的新用户在6周以后会少27%的好友

如何推荐 • 大部分的友谊来自于朋友的朋友（Friend of Friend, F-F） • 以前的工作表明FoF（2跳）的友谊比多余3跳的友谊要多五倍以上 • FB上92%的新朋友关系 • 从实际的角度来看，做比F-F更深入的工作是不可能的了 • 一般用户平均有超过130个好友 • 130×130 = 17K FoFs • 130^2 = 2.2M FoFoFs • 特殊的用户会有大约5000个好友

推荐朋友的朋友 • 问题陈述： • 给定一个源用户，找到最佳的朋友的朋友推荐给他 • 挑战： • 一个典型的用户会有成百上千的FoFs(平均为40K，有一部分人会达到800K！) • 哪些特性可以帮助我们从中进行选择 • 我们如何结合网络和人口特性

共同好友 • 共同好友数目是一个很好的指标 • 两个有10个共同好友的人成为好友的概率是仅有1个共同好友的12倍 • 其他社交网络特性也很有帮助： • 比如，如果你的好友刚刚添加了一个新的还有，这也是一个很好的推荐 • 我们可以结合网络特性： • 给出了边创建以来的时间

系统概览 • 系统检测所有的FoFs • 产生前100位候选人列表 • 存储评分并且使用简便易得的数据来预测实时的CTRs • 候选人被重新排序并且在每次访问时展示 • 结果被反馈到系统并保留 • 实时模型依赖于输出分数，并进行在线训练来保证CTR预测的准确性

进行静态预测 • 使用传统机器学习 • 对一个用户u，考虑所有的FoFs w1,…,wk • 对每一对(u, wj) 生成一系列特性 • 共同好友，很久以前的共同好友，新的共同好友等 • 也结合u和wj各自的特性 • 年龄、性别、国家、总的朋友、在FB的时间等 • 我们使用袋装决策树（许多决策树的平均） • 训练集来自于以前的PYMK • 只训练 “first impression”或主页

好友的好友特性 • 两类特性 • 带权的共同好友(MFs) • 实际的MFs、带时间权重的MFs、有向的MFs、带强度权的MFs、推迟的MFs • 个人特点 • 年龄、国家、FB年龄、性别、朋友数 • 由于用户平均有40K个FoFs,这些必须在每台机器上进行冗余备份而不是共享 • 用于预测的最重要特性 • 时间流逝的共同好友 • 源用户的国籍和FB年龄 • 好友数目

特性选择 4和5是其他的共同好友权重，其他重要特性是U的度，V的度以及U的年龄 • 首要特性 • 1.时间权重，有向共同好友 • 2.国家(u) • 某些国家的用户相比于其他国家的用户更倾向于使用某些特性 • 3.从u到v的带权重边 • 来自于信息订阅的权重粗略地暗示了联系的强度

数据可视化基础 数据科学