1 / 21

Oracle Big Data Connectors:Hadoop 与 Oracle 数据库的高性能集成

Oracle Big Data Connectors:Hadoop 与 Oracle 数据库的高性能集成. Marty Gubar Oracle 大数据产品管理部. 本讲座的目标. 介绍 Oracle Big Data Connectors 了解它们如何在 Oracle 数据库与 Oracle 大数据机之间实现高性能的连接 了解 Connectors 的实际应用!. Oracle 大数据平台. 可视化与决策. 组织与发现. 数据流. 获取. 分析. Oracle 大数据平台. Hadoop. Oracle 数据库.

Download Presentation

Oracle Big Data Connectors:Hadoop 与 Oracle 数据库的高性能集成

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Oracle Big Data Connectors:Hadoop 与 Oracle 数据库的高性能集成 Marty Gubar Oracle 大数据产品管理部

  2. 本讲座的目标 • 介绍 Oracle Big Data Connectors • 了解它们如何在 Oracle 数据库与 Oracle 大数据机之间实现高性能的连接 • 了解 Connectors 的实际应用!

  3. Oracle 大数据平台 可视化与决策 组织与发现 数据流 获取 分析

  4. Oracle 大数据平台 Hadoop Oracle 数据库 Oracle Big Data Connectors

  5. Oracle Big Data Connectors 组件 • Oracle SQL Connector for HDFS • Oracle Loader for Hadoop • Oracle R Connector for Hadoop • Oracle Data Integrator Application Adapters for Hadoop

  6. 什么是 HDFS? 以 Hadoop为底层的主存储系统 容错能力强、可扩展且可用性高 其设计非常适合于分布式处理 结构简单,与 UNIX 文件系统类似 大数据机 HDFS

  7. 什么是 Hive? 提供文件结构 元数据描述表/列 HiveQL提供基本的 SQL 数据访问 Hive 将 HiveQL查询转换为MapReduce作业 大数据机 HDFS CREATE EXTERNAL TABLE myTable ( movieId STRING, hits INT ) ROW FORMAT DELIMITED… SELECT movieId, sum(hits)FROM myTable GROUP BY movieId

  8. Oracle SQL Connector for HDFS 使用 Oracle 外部表访问 Hive 表和 HDFS 文件 自动设置访问 连接两个一体机的数据 并行访问或加载数据 Hadoop Oracle 数据库 SQL 查询 外部表 OSCH ODCH ODCH

  9. 性能对比 Fuse DFS 加载速度对比 CPU 使用率对比

  10. 主要优点 • 能够从 Oracle 数据库访问 HDFS 数据文件,这一点十分独特 • 性能 • 从 Oracle 大数据机到 Oracle Exadata 的数据加载速度达到 12 TB/小时 • 与同类第三方产品相比,速度快 5-20 倍 • 对于 Oracle DBA 和 Hadoop 开发人员来说,易于使用 • 由 Oracle 开发并提供支持

  11. 演示:使用 Oracle SQL Connector for Hadoop

  12. Oracle Loader for Hadoop 从数据库读取目标表元数据 从reducer节点连接到数据库,并行(JDBC或直接路径)加载到数据库分区 Oracle Loader for Hadoop 分区、分类并转换为在Hadoop上支持的 Oracle 数据类型 Shuffle /Sort 将数据预处理从数据库服务器分流至Hadoop 支持多种输入数据格式 解决输入数据倾斜问题,以最大限度地提高性能 在线和离线模式(离线:在 HDFS 上创建 Oracle 数据泵文件) 映射 Reduce MAP Reduce MAP MAP Shuffle /Sort Reduce MAP Reduce MAP Reduce

  13. 自动解决输入数据倾斜问题 • 在reduce任务之间平均分配负载 • 所有reducers的工作量大体相同 • 避免因reducer负载不平衡而导致速度减慢 • 最大程度地提高性能 • 对数据进行采样,以确定map的输出key的最佳分区 实现Reducers的负载平衡

  14. 性能对比 第三方产品 加载速度对比 CPU 使用率对比

  15. 主要优点 • 直接从 HDFS、Hive 表……加载到 Oracle 数据库,而无需暂存文件 • 性能 • 与同类第三方产品相比,速度快 10 倍 • 将数据库服务器处理分流到 Hadoop • 尽量降低对生产应用程序的性能 SLA 的影响 • 对于 Oracle DBA 和 Hadoop 开发人员来说,易于使用 • 由 Oracle 开发并提供支持

  16. 利用两个 Connector 使用 Oracle SQL Connector of HDFS 查询 HDFS 中的 Oracle 数据泵文件(若需要则加载)。 脱机加载:在 HDFS 中将数据以 Oracle 数据泵格式进行预处理和写入。 Oracle SQL Connector for HDFS Oracle Loader for Hadoop Shuffle/Sort MAP 化简 MAP SQL 查询 化简 MAP 外部表 HDFS 客户端 OSCH MAP Shuffle/Sort 化简 ODCH ODCH MAP 化简 Oracle 数据库 MAP 化简

  17. 演示:使用 Oracle Loader for Hadoop

  18. 有关更多信息 请在 OTN 上搜索…… • 大数据 • 数据仓储博客 • Oracle 大数据交互式电子书 • Oracle 大数据 YouTube 视频

More Related