Oracle Big Data Connectors：Hadoop 与 Oracle 数据库的高性能集成

Oracle Big Data Connectors：Hadoop 与 Oracle 数据库的高性能集成 Marty Gubar Oracle 大数据产品管理部

本讲座的目标 • 介绍 Oracle Big Data Connectors • 了解它们如何在 Oracle 数据库与 Oracle 大数据机之间实现高性能的连接 • 了解 Connectors 的实际应用！

Oracle 大数据平台 可视化与决策组织与发现数据流获取分析

Oracle 大数据平台 Hadoop Oracle 数据库 Oracle Big Data Connectors

Oracle Big Data Connectors 组件 • Oracle SQL Connector for HDFS • Oracle Loader for Hadoop • Oracle R Connector for Hadoop • Oracle Data Integrator Application Adapters for Hadoop

什么是 HDFS？ 以 Hadoop为底层的主存储系统容错能力强、可扩展且可用性高其设计非常适合于分布式处理结构简单，与 UNIX 文件系统类似大数据机 HDFS

什么是 Hive？ 提供文件结构元数据描述表/列 HiveQL提供基本的 SQL 数据访问 Hive 将 HiveQL查询转换为MapReduce作业大数据机 HDFS CREATE EXTERNAL TABLE myTable ( movieId STRING, hits INT ) ROW FORMAT DELIMITED… SELECT movieId, sum(hits)FROM myTable GROUP BY movieId

Oracle SQL Connector for HDFS 使用 Oracle 外部表访问 Hive 表和 HDFS 文件自动设置访问连接两个一体机的数据并行访问或加载数据 Hadoop Oracle 数据库 SQL 查询外部表 OSCH ODCH ODCH

性能对比 Fuse DFS 加载速度对比 CPU 使用率对比

主要优点 • 能够从 Oracle 数据库访问 HDFS 数据文件，这一点十分独特 • 性能 • 从 Oracle 大数据机到 Oracle Exadata 的数据加载速度达到 12 TB/小时 • 与同类第三方产品相比，速度快 5-20 倍 • 对于 Oracle DBA 和 Hadoop 开发人员来说，易于使用 • 由 Oracle 开发并提供支持

演示：使用 Oracle SQL Connector for Hadoop

Oracle Loader for Hadoop 从数据库读取目标表元数据从reducer节点连接到数据库，并行（JDBC或直接路径）加载到数据库分区 Oracle Loader for Hadoop 分区、分类并转换为在Hadoop上支持的 Oracle 数据类型 Shuffle /Sort 将数据预处理从数据库服务器分流至Hadoop 支持多种输入数据格式解决输入数据倾斜问题，以最大限度地提高性能在线和离线模式（离线：在 HDFS 上创建 Oracle 数据泵文件）映射 Reduce MAP Reduce MAP MAP Shuffle /Sort Reduce MAP Reduce MAP Reduce

自动解决输入数据倾斜问题 • 在reduce任务之间平均分配负载 • 所有reducers的工作量大体相同 • 避免因reducer负载不平衡而导致速度减慢 • 最大程度地提高性能 • 对数据进行采样，以确定map的输出key的最佳分区实现Reducers的负载平衡

性能对比 第三方产品加载速度对比 CPU 使用率对比

主要优点 • 直接从 HDFS、Hive 表……加载到 Oracle 数据库，而无需暂存文件 • 性能 • 与同类第三方产品相比，速度快 10 倍 • 将数据库服务器处理分流到 Hadoop • 尽量降低对生产应用程序的性能 SLA 的影响 • 对于 Oracle DBA 和 Hadoop 开发人员来说，易于使用 • 由 Oracle 开发并提供支持

利用两个 Connector 使用 Oracle SQL Connector of HDFS 查询 HDFS 中的 Oracle 数据泵文件（若需要则加载）。脱机加载：在 HDFS 中将数据以 Oracle 数据泵格式进行预处理和写入。 Oracle SQL Connector for HDFS Oracle Loader for Hadoop Shuffle/Sort MAP 化简 MAP SQL 查询化简 MAP 外部表 HDFS 客户端 OSCH MAP Shuffle/Sort 化简 ODCH ODCH MAP 化简 Oracle 数据库 MAP 化简

演示：使用 Oracle Loader for Hadoop

有关更多信息 请在 OTN 上搜索…… • 大数据 • 数据仓储博客 • Oracle 大数据交互式电子书 • Oracle 大数据 YouTube 视频

Oracle Big Data Connectors：Hadoop 与 Oracle 数据库的高性能集成