180 likes | 377 Views
“ 大云 ” 大 数据平台及应用. 中国移动通信研究院 郭磊涛 2013 年 11 月. 电信运营商具有更多的数据. 移动互联网 服务商. 消息. 专业 SNS. 博客. 视频. 优惠券. 电商. 图片. 点评. 新闻. 微博. 电信 运营商. 音乐. 签到. SNS. 地图. 问答. 论坛. 2G 、 3G 、 4G 、 WIFI. 除了像移动互联网服务商那样关注“结果”,电信运营商还需要关注“过程”!. 典型的应用场景 之一: 大 数据批处理系统.
E N D
“大云”大数据平台及应用 中国移动通信研究院郭磊涛 2013年11月
电信运营商具有更多的数据 • 移动互联网 • 服务商 消息 专业SNS 博客 视频 优惠券 电商 图片 点评 新闻 微博 • 电信运营商 音乐 签到 SNS 地图 问答 论坛 2G、3G、4G、WIFI 除了像移动互联网服务商那样关注“结果”,电信运营商还需要关注“过程”!
典型的应用场景之一:大数据批处理系统 目标:针对海量结构化、非结构化数据的ETL操作。从各种数据源获取数据,并进行清洗、转换、去重、缺值补充等操作。通常采用MapReduce等并行计算技术。 技术要求举例: • 针对海量数据实时离线批处理运算(ETL),通常时间要求较为宽松,如几个小时级别。 • 数据ETL运算种类多,灵活性强,通常具有很强的定制化特征 • 数据通常需要导出到数据库、数据仓库,提供报表能力 • 需要灵活的调度的系统,便于系统需要和其他业务系统混合部署,提高资源利用水平 例图:分时段汇总的业务场景
典型的应用场景之二:大数据查询系统 目标:针对海量结构化、半结构化数据的精确定位、区段扫描等条件查询操作,用于网络优化、帐详单查询、故障定位、搜索引擎等业务场景。 计算2 采集预处理 计算1 原始 数据 处理 融合 消息 技术要求举例: • 针对海量数据实施交互式查询,返回时间在1秒钟左右。 • 针对海量大数据规模实施查询,数据规模可以达到100TB-10PB规模。 • 数据插入通常采用批处理方式,而查询通常带有条件,通常返回结果数较少 • 系统具备较高的并发性,支持大量用户同时查询,依然可以在给定时间出口返回结果 • 数据具有很高的可靠性和可用性要求 大数据库 大数据库 营业厅系统 营业厅3 营业厅1 营业厅2 营业厅4 例图:帐详单查询系统
典型的应用场景之三:大数据挖掘系统 目标:针对海量结构化、非结构化数据的进行深度挖掘。通常需要根据业务需求设计模型、训练集并选择算法(分类、聚类、关联、非结构化)。通常会使用各种分布式数据挖掘工具和算法 人群1 技术要求举例: • 针对海量数据实施全量数据挖掘,规模达到10TB-PB规模。 • 处理时间没有严格要求,通常达到几个小时,甚至更长时间 • 需要支持各种并行计算模式,如MapReduce、BSP等 • 数据挖掘系统需要较好的用户界面,用户通常具备业务知识,但是未必具备开发经验 • 系统可以和其他系统混合部署 • 数据具有一定的可靠性和可用性要求 其它人群 例图:客户分类识别应用
中国移动“大云”云计算平台 结算 系统 信令 系统 经分KPI 集中运算 物联 网应用 云计算 资源池系统 经分系统 ETL/DM EMail IDC服务 … “大云”产品 PaaS 产品 系统监控和管理 CloudMaster 平台安全管理 CloudSecurity 数据管理/分析类 实时交易类 IaaS 产品 能力开放平台 商务智能平台 计算/存储资源池 K-V数据库 BC-kvDB K-V数据库 BC-kvDB 分布式SQL数据库 BC-RDB 分布式SQL数据库 BC-RDB 搜索引擎 BC-SE 并行数据挖掘工具集 BC-PDM 并行数据挖掘工具集 BC-PDM 并行数据 抽取转换 BC-ETL 文件中间件 BC-NAS 弹性计算 BC-EC 数据仓库系统 HugeTable 数据仓库系统 HugeTable 分布式内存引擎BC-DME 消息队列 BC-Queue BC-BSP 数据并行框架 BC-BSP 数据并行框架 对象存储 BC-oNest 弹性块存储 BC-Block store BC-Hadoop数据存储和分析平台 BC-Hadoop数据存储和分析平台 其他平台中间件 IT基础资源
Hadoop数据存储与分析 BC-Hadoop:对开源Hadoop/HBase进行扩展和增强,为大云其他组件提供基本的存储计算能力。 基于Hadoop 1.0的NameNode/JobTracker HA,HBase Coprocessor优化,管理工具整合等 Zookeeper JobTracker (Virtual IP) RS级别结果汇聚 线程池管理 JT-0002 JT-0003 JT-0001
基于Ambari的Hadoop监控管理工具 • Apache Ambari是对Hadoop进行部署、监控和管理的开源项目 • Puppet部署hadoop服务 • Ganglia 收集hadoop服务数据与生成图表 • Nagios监控集群服务状态并报警
基于Ambari的Hadoop监控管理工具 • TODO: • 启用MRv1 JT/HMaster HA • 删除节点 • 节点异构配置(Ambari-3531)
数据仓库系统(HugeTable) 基于Hadoop的海量结构化数据存储系统,利用低成本硬件提供高性能的数据加载、索引查询和并行分析能力,对外提供易于应用集成的数据访问接口 • 大容量:支持PB级别的数据存储能力 • 低成本:基于PC架构,不需要外接集中存储设备 • 高性能:秒级别索引查询、数据并行扫描 • 可靠性:数据冗余备份永不丢失 • 可定制:根据应用需求选择索引类型及存储引擎 • 接口丰富:提供标准的JDBC/ODBC/ SQL接口;提串行Scan接口和分布式MapReduce接口 • 外围工具:支持数据、性能、故障、配置、日志管理功能;支持外部数据并行加载;支持数据快速备份、恢复 • 单条查询等(少量数据) • 实时性要求高的分析查询SQL(数据量满足impala内存限制条件) • 复杂SQL语句或者扫描大表全表(大规模数据聚合查询等占用空间超过了impala内存能力)
图计算平台(BC-BSP) BC-BSP:针对社交网络分析、用户精准营销、搜索引擎PageRank计算等图计算领域的数据挖掘需求而研发的并行计算框架,针对迭代计算,计算效率优于MapReduce框架 http://www.github.com/cmri/
并行数据挖掘工具集(BC-PDM) 应用 各种海量数据处理、挖掘应用 Web GUI/工作流引擎 SQL脚本 CLI命令行 并行 数据探索 并行 数据挖掘 用户权限管理 数据交换 HugeTable BC-BSP MapReduce … BC-PDM:支持SaaS模式的海量数据并行处理、分析与挖掘系统。适用于经营决策、用户行为分析、精准营销、网络优化、移动互联网等领域的智能数据分析与挖掘应用 主要特点 • 数据交换:支持与RDB直接交换数据、支持CSV格式数据 • 数据ETL:支持数据清洗、转换、集成等7大类45种ETL • 数据探索:支持数据统计、变量分析、分布特征探索等 • 数据挖掘算法:支持分类、聚类、关联分析等3大类共15种算法 • 社交网络分析:支持网络特征分析、社团发现和演化、社团展示等 • 支持SaaS服务模式:Web浏览器使用,并可支持应用共享 • 支持丰富的用户UI:支持Web图形化方式创建数据分析逻辑,支持SQL脚本方式,支持CLI命令行方式 • 支持二次开发:Java API、Web Service 子任务 M 1 任务分解 任务 M 2 数据分割 … M i M 2 R 1 block3 block2 R 2 … R j 广域网 block1 block1 block1 block3 R j block2 block3 block2 社交 网络分析 并行 数据ETL M 1 R 2 R 1 M i
K-V数据库(BC-KVDB) BC-KVDB:根据订购关系存储、用户个人信息存储等应用需求和相关规范,增强系统操作维护功能、优化性能并提高系统可靠性。提供一个高并发、高可扩展的键值对存储系统。 实现用户认证和授权 实现多个主节点的互备 元数据与用户数据隔离存储 数据连续范围分区,类似HBase 通过Region数据的多副本,保证数据的高可靠 • 不依赖DFS,数据直接读写本地多个磁盘 • Query Cache & Block Cache
SQL数据库(BC-RDB) BC-RDB 是基于MySQL的分布式数据库,系统由多个安全组(safegroup)和一个分布式事务管理器组成。 采用“两阶段提交协议即2PC”来实现分布式事务
“大云”应用案例之一:大数据ETL业务 现网3.2天,减少为0.8天节约近2.5天 滚详单类 现网90分钟 减少为10分钟 仅为1/10 出月表类
“大云”应用案例之二:大数据查询业务 帐详单系统存储数量急剧膨胀,传统架构难以满足当前业务运营要求,系统面临扩容难题 计算2 采集预处理 计算1 原始 数据 处理 融合 • 某地市应用,每个月帐详单总体数据量10TB • 话单通过HTLoad工具批量加载 • 帐详单查询通过SQL或NativeAPI接口进行 • 复杂分析则通过MR接口进行 • HugeTable支持数据按照Join key预先进行数据划分,减少join过程中数据在节点间的拷贝 消息 HugeTable表2 HugeTable表1 营业厅系统 • 应用效果: • 加载:支持数据并行加载,数据加载保证完整性和可靠性; • 查询:在高并发条件下,数据查询性能一般可达到网络IO(对于千兆以太网单节点可达1GB)或磁盘IO瓶颈; • 更新:可支持单条或批量数据增删改查操作,聚合更新带宽可达网络IO极限; • 压缩:对数据内容进行高效压缩,节省磁盘、网络IO,节省存储空间 营业厅3 营业厅1 营业厅2 营业厅4
小结 BC-PDM 挖掘 BC-BSP 图计算 BC-RDB DataBase HugeTable SQL工具 BC-NoSQL KeyValue Hadoop HDFS+MR