1 / 50

HP VERTICA 技术概览

HP VERTICA 技术概览. 2011 年 8 月 上海 深圳 北京. 为大数据设计的平台. Vertica 分析平台. 扩展. Vertica 分析平台. 性能. 扩展. Vertica 分析平台. 简便. 性能. 扩展. 平台核心. 高效 扩展 强劲. 列存储创新 :. 高效. 列存储 – 基于列的磁盘 I/O. 列存储 - 读取 3 列. NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS

apollo
Download Presentation

HP VERTICA 技术概览

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. HP VERTICA技术概览 2011年8月 上海 深圳 北京

  2. 为大数据设计的平台

  3. Vertica分析平台 扩展

  4. Vertica分析平台 性能 扩展

  5. Vertica分析平台 简便 性能 扩展

  6. 平台核心 高效 扩展 强劲

  7. 列存储创新: 高效

  8. 列存储– 基于列的磁盘 I/O 列存储- 读取3列 NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS 143.74 143.75 37.03 37.13 NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS 5/05/09 5/06/09 5/05/09 5/06/09 AAPL AAPL BBY BBY 行存储- 读取所有列 AAPL NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSENYSE143.74NYSE NYSENYSE5/05/09 AAPL NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSENYSE143.74NYSE NYSENYSE5/06/09 … BBY NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSENYSE37.03NYSE NYSENYSE5/05/09 BBY NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSENYSE37.13NYSE NYSENYSE5/06/09 SELECT AVG(price) FROM tickstore WHERE symbol = ‘AAPL” AND date = ‘5/06/09’ Typical FinServ price per stock for 1 day

  9. 列存储– 高速排序及编码 性别 班级 成绩 级别 姓名 学生ID Schreckengost, Max Stober, Saundra 90 Junior 1210466 A F Thon, Max 1231806 1248100 76 M 82 Sophomore Senior B M C Cappiello, Emilia Porcelli, Darren Borba, Milagros D Sophomore 1249290 F 96 62 Freshman F 1256678 A Trembley, Allyson 1243483 A F Junior Junior M 67 100 1246648 D Dalal, Alana Sinko, Erik Sosnowski, Hillary Senior F 1254038 D 1244262 A 92 Junior 68 F 1230382 M 91 A Freshman Orner, Katy Nibert, Emilia F Sophomore 59 76 Junior C 1252490 F F 1278858 Tarvin, Julio B Sophomore M 85 1240224 Frigo, Avis Popovic, Tanisha 1230807 M D Senior 64 Lessig, Elnora D 95 Freshman F F 1222781 1267170 Junior A 63

  10. 列存储– 高速排序及编码 性别 班级 成绩 姓名 学生_ID 级别 1230807 1278858 1256678 1210466 1243483 1246648 1231806 1254038 1249290 1230382 1240224 1248100 1267170 1252490 1244262 1222781 Popovic, Tanisha Thon, Max Dalal, Alana Stober, Saundra Cappiello, Emilia Lessig, Elnora Trembley, Allyson Tarvin, Julio Borba, Milagros Sinko, Erik Sosnowski, Hillary Frigo, Avis Porcelli, Darren Schreckengost, Max Nibert, Emilia Orner, Katy 64 62 82 76 59 90 96 68 85 100 76 63 67 95 92 91 D A C D F A A A C B A D D D B A Sophomore Junior Freshman Freshman Sophomore Junior Senior Sophomore Junior Sophomore Junior Senior Senior Junior Freshman Junior M M F F F F F F M M F F M F F M 谓词中使用的列 按照前置列数值进行排序的相关数值

  11. 列存储– 高速排序及编码 学生_ID 成绩 班级 姓名 性别 级别 F Junior Sophomore M F B F M Senior Junior A 92 Senior Dalal, Alana Nibert, Emilia D 62 Sophomore 1256678 M F Freshman 1252490 Sosnowski, Hillary 1278858 Cappiello, Emilia Orner, Katy 90 C 1210466 D A 64 Frigo, Avis Junior 1230807 1254038 Stober, Saundra 59 1249290 Borba, Milagros 96 76 A 68 1244262 M A 95 1267170 Popovic, Tanisha F 91 A 1248100 Freshman Senior 1243483 67 Junior Porcelli, Darren D C 76 Schreckengost, Max Sinko, Erik 1230382 Freshman 1240224 Tarvin, Julio Lessig, Elnora 1222781 F 63 D 1231806 85 Sophomore 82 B Thon, Max 1246648 Trembley, Allyson 100 F Junior D F M F F Junior F Sophomore M A 按照前置列数值进行排序的相关数值 谓词中使用的列

  12. 列存储– 高速排序及编码 抵消 抵消 抵消 Junior 100 A Junior Junior Junior 90 F Junior A 姓名 级别 班级 学生_ID 成绩 性别 Sophomore F Junior F Sophomore M F Sophomore B B F Senior M Junior C 1210466 Senior 1254038 62 Cappiello, Emilia Freshman M F Freshman Dalal, Alana Stober, Saundra 1278858 A 92 1256678 Junior Popovic, Tanisha 1267170 59 95 1252490 68 Nibert, Emilia 1244262 96 Borba, Milagros 1249290 90 Sosnowski, Hillary 1248100 F Orner, Katy 100 1230807 Senior Tarvin, Julio 1240224 91 76 1230382 67 Porcelli, Darren 1243483 76 Sinko, Erik 85 Lessig, Elnora 63 C M Thon, Max Freshman 82 A A 1246648 Trembley, Allyson A 1222781 1231806 Schreckengost, Max A 64 Frigo, Avis D F D Junior D F M F Junior D D F Junior F Sophomore M A 2nd I/O 3rd I/O 4th I/O 1st I/O 读取整个列 查询范例: select avg( Score ) from example where Class = ‘Junior’ and Gender = ‘F’ and Grade = ‘A’

  13. 列存储– 基于列的编码 压缩率 压缩结果 压缩后的数据 原始数据

  14. 如何构建原生列的DBMS? 执行 存储 系统集成

  15. 实时读取与查询 读 写 ROS WOS 批量写入 写优化存储– WOS 读优化存储– ROS Tuple Mover – TM

  16. 线性扩展 MPP: 对等集群 工作负载管理

  17. 非共享,向上扩展架构 客户端网络 集群网络 大规模并行处理(MPP) 100% 对等 • 无需专有节点 • 可以读取/查询任何节点 • 线性延展性能

  18. 工作负载管理 队列 移动/网络用户 处理流水线 业务分析 CRM 应用

  19. 强劲: 告别宕机时间 革命性的高可用性 备份/灾难恢复 弹性集群

  20. 革命性的高可用性 客户端网络 集群网络 Segment N Segment 3 Segment 2 Segment 1 Segment N-1 Segment 1 Segment N Segment 2 Segment 3 数据库内类似RAID的功能 Smart K-安全性 持续读取/查询

  21. 备份/恢复与灾难恢复支持 • VerticaI3备份技术– 对主要集群影响极低 • 即时、难以察觉的备份 • 逐步备份与恢复 • 从备份中获得更多的分析能力! • 简单强大的灾难恢复支持 读取 即时 难以察觉 查询 备份 逐步

  22. 灵活的备份/恢复与灾难恢复 多对多(2) 多对一 多对多(1) (通过分段快速导入/导出) (IP网络) (IP网络) (IP网络) (NAS或磁带服务器)

  23. 弹性Vertica集群 弹性计算能力 • 线性延展性 • 在线增加/移除节点 • 数据再平衡:最小化I/O,增加存储空间利用 云及虚拟化先锋方案 • Vertica EC2实例 • Vmware镜像配合 简便易用的解决方案

  24. 平台核心总结 • 一个列存储、大规模并行处理、弹性的数据库集群 • 近乎实时分析源数据 – 一个思维的转换 • 能力优化 • 高效使用硬件资源: CPU, I/O,存储 • 可以按需扩展/缩减集群规模

  25. Analytics Everywhere™

  26. 分析之痛 低性能 函数有限 部署与使用上的复杂 与其他例如Hadoop这样的大数据平台无法互通

  27. SQL Analytics User-Defined Analytics (UDx) Hadoop connector

  28. SQL分析 用例 • Tickstore数据清理 • CDR/VOD数据分析 • Clickstream 访问流程 • 数据聚合及压缩 • 蒙特卡罗仿真 • 图算法 • … 特点 • 时序填补及插入 • 事件窗口功能及访问流程 • 模式配对 • 事件时序组合 优点 • 高性能(CPU用于数据本身) • 低成本(工业标准模块) • 易使用 (自动 + 可用)

  29. 时序填补及插入 假设我们有两秒钟的分割时点。

  30. 时序聚合功能(TSA Functions)‏ 例如,计算三秒间隔的最小投注值:

  31. Clickstreams上的访问流程 SELECTuser_id, timestamp, URL CONDITIONAL_TRUE_EVENT(timestamp – LAG(timestamp) > ’30 seconds’) OVER (PARTITION BY user_id ORDER BY timestamp) AS session_id FROM clickstream; • 简单、快速、可扩展 • 可以基于用户行为自定义访问参数

  32. 模式配对及网页内容优化之发现 • 4 种事件类型: 主页,关于,注册, 及目标 • 目的:分析用户如何到达目标界面。 • 分析案例: • Q: 对以上类型网页进行PMD查询 • A: 非常用模式: Home page -> Register -> Goal • Q: 另一PMD查询:Home Page -> ? -> Register -> Goal • A: 80%的时间是通过Anna所写的白皮书所在网页! • 行动: 让Anna给我们写更多的白皮书 

  33. 社会化图分析 - Zynga

  34. 统计模型扩展 • 用例 • 贷款违约预测 • 依据购买习惯的客户分类 • 技术 • 分类 – 序列回归及决策树 • 原生Vertica实施将是大规模并行处理且高性能的

  35. 蒙特卡罗仿真: 纵览

  36. 蒙特卡罗分析: 为什么使用数据库? 声明SQL简化了开发及测试 并行执行利用率全部硬件资源

  37. 蒙特卡罗分析: 例子 基于预测的变化百分比,Top 5股票是那些? - 同时计算标准方差

  38. 蒙特卡罗分析: 方案 STEP 1: STEP 2: STEP 3:

  39. 蒙特卡罗分析: 灵活性与细化

  40. UDx架构 • 一个用于用户定义函数及变换的架构 • 基于C++的扩展架构 • 灵活性:进行多种类型的分析计算 • 即时、完全并行的执行

  41. 映射/减少 整合 • Vertica模式 • 支持并使用Hadoop及周边系统,无需在MR wheel上重复投资 • 技术 • Hadoop 连接器 • 为大程序提供的Squeal优化编译器 • 用例 • 并行导入/输出至HDFS • 在Vertica和Hadoop上进行的富分析计算

  42. 新分析章节 云 网间交换 移动设备 Vertica优势 低空间需求 低硬件需求 富分析 Analytics Everywhere™

  43. 使用性 标准界面 自动调节 全面监控

  44. 应用整合

  45. 自定义整合 Informatica写入插件 SquirrelSQL上的开源插件 Hadoop连接器 Data Analysts的Quest Software Toad

  46. 自动性能调节 • 最优数据布局 (物理模式)  最优性能 • 用户提供 • 逻辑模式 • 范例数据集 • 典型查询 • 数据库设计器生成数据布局建议: • 优化查询性能 • 优化数据读取吞吐量 • 最小化存储空间 • 负载分析器

  47. 数据库设计器案例分析 • 金融服务 (vs 手动设计) • 4x 查询速度 • 减少50%存储 • 设计成本: 4分钟 vs 几个月 • 市场与广告 • 所有查询均得到优化;仅存储10%源数据 • 零售 (vs 手动设计) • 2x 查询速度;减少33%存储 • 新媒体(vs 手动设计) • 查询速度相当; 减少25%存储

  48. 监控能力 • 通过SQL监控 • 目录 • 实时状态 • 历史数据 • 监控范围 • 磁盘空间及数据量 • 硬件状态 • 用户负载 • …

  49. 用例 每天的哪个时段CPU使用量最大? 哪个查询运行时间最长? 哪个正在运行的查询消耗最多的CPU? 有多少活动进程?有多少活动查询? 资源池使用状况怎样? 目前平均每池查询队列状况? …

  50. 我们有4千万玩家,每天产生3TB新数据,Vertica提供的两个Zynga列数据仓库集群中包含230个节点,这可不是分析发条玩具。我们有4千万玩家,每天产生3TB新数据,Vertica提供的两个Zynga列数据仓库集群中包含230个节点,这可不是分析发条玩具。 Ken Rudin, 分析VP, Zynga 分析了多个同类产品后,我们选择了Vertica,因为它可以以比其他所考察的方案更低的成本,在更短时间内为我们的业务需求提供答案。 Mike Relich, CIO, Guess

More Related