新一代大数据分析平台建设思路
This presentation is the property of its rightful owner.
Sponsored Links
1 / 31

新一代大数据分析平台建设思路 PowerPoint PPT Presentation


  • 96 Views
  • Uploaded on
  • Presentation posted in: General

新一代大数据分析平台建设思路. 2013-01. 内容提要. 大数据给中国联通的业务支撑运营模式带来的影响. 大数据分析环境强力支撑日益繁复的业务分析需求. Greenplum 为中国联通提供全面的大数据分析解决方案. 移动互联网发展对传统通讯业务运营的挑战. 传统运营商盈利模式受到挑战. 市场环境. 终端复杂性. 业务与产品. 市场日渐饱和,用户增长缓慢 语音业务增长乏力,数据业务应用激增 激烈的市场竞争以及政策的改变正在让运营商的利润率越来越低. 智能终端、智能手机、桌面视频和通信软件都能为运营商增加新的业务提供能力,但同时也增加了复杂性以及运营和支撑成本.

Download Presentation

新一代大数据分析平台建设思路

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


6432105

新一代大数据分析平台建设思路

2013-01


6432105

内容提要

大数据给中国联通的业务支撑运营模式带来的影响

大数据分析环境强力支撑日益繁复的业务分析需求

Greenplum为中国联通提供全面的大数据分析解决方案


6432105

移动互联网发展对传统通讯业务运营的挑战

传统运营商盈利模式受到挑战

市场环境

终端复杂性

业务与产品

  • 市场日渐饱和,用户增长缓慢

  • 语音业务增长乏力,数据业务应用激增

  • 激烈的市场竞争以及政策的改变正在让运营商的利润率越来越低

  • 智能终端、智能手机、桌面视频和通信软件都能为运营商增加新的业务提供能力,但同时也增加了复杂性以及运营和支撑成本

  • 更多产品选择意味着更多的细分市场并能针对性服务,但也会让用户眼花缭乱,用户感知降低。

  • 为细分客户提供不同优先级的服务

应用多样性

数据量爆炸式增长

  • 数据量爆炸式增长

  • 大数据量消费终端的出现拉动流量,但单位收入下降,并对网络基本业务产生影响。

  • 数据业务从“杀手级应用”朝着“网络杀手”转变。

  • 网络和终端的开放平台引入了新的应用模式以及更多合作伙伴,扩大了用户的选择,但在这种开放平台的前提下,谁能主导用户关系?


6432105

技术挑战–大数据的存储、处理与挖掘分析

1

支持种类繁多的互联网业务

2

面向大量外部商户的营销数据服务

3

每日PB级数据的实时性挖掘分析

4

复杂的网络数据整合、质量控制、标准化

GreenPlum凝聚全球智慧,在不断整合优秀解决方案与沉淀总结成功案例的同时,坚持技术创新,不懈探索移动互联时代的通信运营商数据分析的最佳实践。

5

海量的、结构庞杂的数据存储、计算、搜索


6432105

大数据改变商业模式

  • 通过构建基于云计算的营销分析系统,可以在第一时间了解营销状况,例如:实时BI、秒级营销

  • 可以在第一时间分析企业的海量数据,使决策敏捷高效,把我们历史数据变成我们的数据资产

  • 通过应用云计算和虚拟化技术,可以实现绿色云化数据中心,从根本上解决系统宕机故障问题

  • 基于云计算和虚拟化技术、X86工业标准和大规模并行处理无共享架构的数据仓库技术已经成为近几年的市场主流


6432105

新的数据类型:非结构化数据源

例如:

电子文档、电子邮件

Web日志、点击流文件

社交网络关系

系统日志文件

移动互联网数据

图像、视频

新的分析: 高于SQL实现,使用MapReduce发现潜在模式

例如:

模式或路径匹配分析

社交网络分析

图形分析

文本分析

新的BI业务支撑能力:传统BI和数据科学家的融合

迭代分析(数据探索和调查分析)

数据科学家/专业数据分析人员/分析开发人员/计量分析师Quants

非结构化数据存储、管理和分析新的数据类型 + 新的分析=新的BI业务支撑能力


6432105

数据库一直都是作为数据分析的选择

SQL是高层次的,且易于重复使用

适用于任何数据库结构

纯SQL可以用在大容量的数据

已有许多上百TB级或PT级数据仓库

如何用数据库分析大数据?


6432105

...但我们失去了什么?

  • 可重复使用的功能

    • 数据模型:模式,统计,局部优化

    • 通用算法:joins, grouping, sorting

  • 为什么我们不能有

    • 可轻易重复使用的

    • 易用的

    • 能处理大容量的数据的分析平台?


6432105

内容提要

大数据给中国联通的业务支撑运营模式带来的影响

大数据分析环境强力支撑日益繁复的业务分析需求

Greenplum为中国联通提供全面的大数据分析解决方案


6432105

场景举例:业务与网络数据融合能带来什么价值?

提升后端数据的前端应用价值

提升OSS域数据的深度分析能力

  • 让后端的网络域数据走向前端,体现网络数据的市场、营销、服务价值

  • 让海量的网络域数据产生直接收益

  • 使网络维护、分析系统释放更大能量,带来更多价值

  • 改善当前网络数据的分析方式比较简单的现状,对网络数据进行深入的数据挖掘、建模、智能分析

O+B

价值

提升对各重点专题的支持能力

统一数据模型,激发更多应用

  • 对当前重点、前沿的分析专题进行强有力支撑。如终端、三网融合、重点数据业务、移动互联网业务、2/3G切换等专题的深入分析

  • 实现O域内外数据的全关联,构建统一数据模型。首先统一网络数据模型,然后实现前后端数据的关联融合。在此统一的数据模型下,激发更多的特色分析应用


6432105

数据业务

分析

融合分析

TDR

Generation

TDR

Generation

数据业务

数据集市

集中式

企业数据仓库

内容

分析

融合分析

SUR

Generation

SUR

Generation

内容

数据集市

语音业务

分析

融合分析

CDR

Generation

CDR

Generation

语音业务

数据集市

数据层面的全融合:优势弥补,形成综合分析合力

用户

网络

Before

After

资费

业务

告警

商务

终端

网管

信令

BSS


Greenplum

Greenplum 统一分析云计算平台

Bl Analyst

Data Engineer

Data Analyst

LOB User

Data Scientist

Greenplum Chorus - Analytic Productivity Layer

3rd Party/Partner Tools & Services

DATA SCIENCE TEAM

Data Access & Query Layer

Greenplum Database

Greenplum Hadoop

Data Platform Admin

Private/Hybrid Cloud Infrastructure or Appliance


6432105

淘宝创新的集中化、双中心数据仓库体系架构供中国联通参考

企业数据中心

风控系统

会员营销

客户服务

资金管理

财务分析

客户信用

数据收集分发中心

数据源

OLTP 系统

数据仓库主库

定时任务计算

120台

资金/财务等

Data mart/模型计算平台

KPI报表与业务报告

业务指标仪表盘监控

运营与营销数据分析

综合数据查询

挖掘分析报告

用户访问行为跟踪

竞争情报

服务

会员营销

Data mart/计算平台

数据

分发

  • 信用/CTU

  • Data mart/计算平台

交易系统

CDC

抽取

财务系统

数据仓库备库

查询

120台

CDC

数据

分发

销售系统

CDC

商业智能

信息门户

CDC

账户系统

数据历史库/挖掘

60台

CDC

数据

分发

客服系统

挖掘工具集

CDC

日志挖掘服务器

H+1,20台

打点

日志收集

服务器

20台

网站访问

日志/行为模型计算

准实时,4台

  • 线上即时作弊判断

  • 线上即时个性化营销

服务

数据仓库工具与管理平台/调度系统)管理

元数据(Meta Data)管理


6432105

淘宝创新的集中化、双中心数据仓库体系架构供中国联通参考

性能指标

  • 目前支付宝账户数量:6.5亿

    • 数据库数据增量:500G/天,每年数据量增加2倍以上

    • 数据加载频度:大多数H+1(每小时加载),网站访问D+1(每天加载)

  • 应用刷新频率:

    • 每小时更新一次数据。

    • 3小时完成月结

    • 7小时完成年节

  • 贷款审批

    • 每年处理170万笔贷款,平均每笔7000元

    • 10万元以下贷款,30分钟以内完成

    • 10万元以上,需要人工进行审核和调查

云计算Hadoop与关系数据库混搭

  • 双中心集中式的数据仓库系统

  • 创新引入Hadoop云计算架构进行混合型数据仓库环境设计

  • 敏捷分析云环境强力支持日益复杂繁重的业务分析需求


6432105

参考点1:双中心集中式的数据仓库系统

数据收集分发中心

数据源

OLTP 系统

交易系统

资金/财务等

Data mart/模型计算平台

数据仓库主库

定时任务计算

120台

会员营销

Data mart/计算平台

财务系统

CDC

抽取

  • 信用/CTU

  • Data mart/计算平台

数据

分发

销售系统

CDC

CDC

账户系统

CDC

数据仓库备库

查询

120台

客服系统

数据

分发

CDC

网站访问


2 hadoop

参考点2:创新引入Hadoop云计算架构进行混合型数据仓库环境设计

数据历史库/挖掘

60台

挖掘工具集

日志挖掘服务器

H+1,20台


6432105

总部/省/地市

经分用户

知识工作者

数据

传播区

敏捷分析沙盒

生产数据仓库

应用数据

View

MD View

省/地市

个性化用户

汇总数据

外部用户

基础数据

缓冲数据

CRM/BOSS

Web数据

HDFS

参考点3:敏捷分析私有云环境强力支持日益复杂繁重的业务分析需求


6432105

敏捷分析的特点与好处

业务用户

IT用户

  • 自助

    • 提供自助服务方式,快速创建分析环境

    • 多用户高自主性,即用分析资源

    • 满足一线人员的个性化分析需要

    • 充分支持现有熟悉的BI和统计工具

  • 高效

    • 缩短与IT部门协调过程,加快切入市场时间

    • 能够“快速试错”,易于尝试出新想法思路

  • 灵活

    • 业务人员可按需自配置分析空间

    • 允许业务用户上载特定数据

    • 直接与核心数据关联,让业务人员能够结合真实数据,实践敏捷分析

  • 简单

    • 简化应用和数据的提供和过程

    • 由数据仓库引入原型,提高敏捷和可利用性

  • 可控

    • 安全可控的分析环境管理

    • 利用混合负载管理减少用户用途间相互影响

    • 在统一平台上进行管理

    • 进行预定义好的空间大小与保留周期,有效规划企业资源容量

  • 节约

    • 充分利用云计算的特点:虚拟化、弹性,有效提高资源利用率

    • 降低使用直接和间接的成本

    • 避免低效的外部物理数据集市


6432105

内容提要

大数据给中国联通的业务支撑运营模式带来的影响

大数据分析环境强力支撑日益繁复的业务分析需求

Greenplum为中国联通提供全面的大数据分析解决方案


Greenplum1

Greenplum提供完整的大数据分析解决方案

Data Sources

Alerts

Reports

Hadoop

Mobile

Dashboards

Spreadsheets

Data Visualization

Documents

Map-

Reduce

Map-Reduce

Ecosystem*

Statistics

HDFS

Mobile

Genetic Algorithms

Data

Quality

Machine

Documents

BU 2

BU 1

NoSQL Stores

Data Mining

Multimedia

BU 3

BI as a Service

SQL Stores

Enterprise

Data

Warehouse

KeyValues

Other NoSql

Web/Social

OLAP

MDM

LOB data

Data Marts

ERP

Operations Research

ETL

Neural Nets

CRM

Federated

Data Warehouse

POS

Traditional data

Integration

Structureddata sources

Traditional data

warehousing

Big data analytics ramifications

*Hadoop Ecosystem includes: Hive, Pig, Mahout, HBase, ZooKeeper, Oozie, Sqoop, Avro


Greenplum2

Greenplum的动态在线扩容,满足弹性扩容需要

  • 数据自动在所有节点上重新分布

  • 容量和性能在扩展后线性增长

步骤1:新节点扩容到 MPP集群

步骤2:数据在所有节点上重分布

Master

联网

seg1

seg2

seg3

seg4

seg5

seg6


6432105

EDW/BI系统云计算架构

利用虚拟化的方法提高设备综合利用率,以规模化降低硬件投资成本和运维成本

利用集中化建设的方法节省硬、软件平台、工具和应用开发和运维的投入,缩短上线时间

灵活采用SaaS、PaaS和IaaS建设方法,保持模型和应用的标准化与灵活性兼顾,达到既能集中建设也能满足分公司个性化需求的目的

云计算BI

应用基于统一数据标准和交互标准集中管理和统一开发,并实现应用共享

SaaS

应用软件层

运营管理

个性应用

全网应用

共性应用

故障管理

平台层

PaaS

提供集成的开发运维环境,由分公司和开发商参与开发

挖掘工具

工作流引擎

ETL工具

性能管理

规则引擎

数据库软件

……

配置管理

在数据层兼顾标准的模型和个性化的模型,加强模型管理,数据以同步和服务的方式对外提供使用

数据层

DaaS

安全管理

标准模型

个性化模型

基础设施层

数据质量管理

IaaS

提供虚拟化的硬件资源,操作系统

虚拟化

主机

PC

存储

网络及安全


6432105

某省通讯公司经分系统现状和面临主要问题

系统规模随着企业的不断发展在不断扩大,支撑数据越来越多,具有的分析能力也越来越深化,系统定位发生了非常大的变化,已从单纯的决策分析支持转变成重要的一线生产系统。

现状

主要问题

当前传统技术和方案(小型机)的扩容,已无法使运算能力线性增长。

数据仓库架构


6432105

某省通讯公司云经分试点项目

为解决经分系统面临的问题、更好的发挥数据支撑作用。某通讯公司经过相关部门和合作厂商长期研究,决定开始进行云经分相关试点工作,同时也可以总结经验,为集团和兄弟公司作出贡献。


6432105

云经分试点项目的应用功能规划方案

试点移植应用的选取主要考虑在原经分占资源较多、分析时间较长、不影响正常生产的应用。主要包括:客户洞察(CI)、校园用户分析、竞争对手分析和集团成员分析等。

经分元数据管理

经分数据质量管理

试点移植应用专题

客户洞察(CI)

校园用户分析

竞争对手分析

集团成员分析

……

交往圈识别

区域识别

……

私有云仓库

消费汇总

行为汇总

……

原经分

数据仓库

个体信息

消费情况

……

ETL

数据源

10086

CRM

BOSS

VGOP

……


6432105

云数据仓库平台试点方案

1.选择的必备条件

2.方案测试验证

3.云数据仓库平台方案

  • 加载效率:目前生产库每天通话详单加载时间50分钟,云计算方案加载时间10分钟,性能提升5倍;

  • 查询效率:云计算方案查询统计时间性能提升5倍以上;

  • 压缩测试:云计算方案在线压缩测试比可达5-10倍;

  • 高可用测试:模拟单节点失效,测试系统可用性;

由26台低成本中高端 PC server(2C12核 64G内存);

本地磁盘:每台16块450G;

ETL主机利旧;10G高速网络。


6432105

应用性能优势

性能优势:

  • 完成试点应用移植后,应用在云平台生产环境上运行的性能提升明显。比原经分总体性能提升2~5倍。

取办理产品变更业务后得到的平均数据

取办理产品变更业务后得到的平均数据

取办理产品变更业务后得到的平均数据


6432105

成本优势

  • 总体成本优势

    • 本试点方案采用云仓库软件+X86架构,成本优势明显。

    • 构建云,可节约50%的硬件投资。经分系统每年硬件(小型机、存储)投资约在1000-2000万,割接到云后,每年只需投资200-300万,年节约投资1000万以上,还不含电力、机柜位置等节省。


Greenplum3

生产环境

  • 为总部侧提供数据采集,整合,存储,发布服务

Greenplum在联通数据总部数据中心的部署架构

验证环境

  • 为BSS侧生产原型数据提供完整的稽核验证服务


Greenplum4

依赖Greenplum强大的并行和扩展能力、先进的混合负载管理功能和完善的高可用性解决方案,Greenplum完全支持中国联通IT架构的演进,并完全满足今后相关应用的部署,能够在获得最低总体拥有成本的同时,向所有用户提供最好的性能。

Greenplum将一如继往地将中国联通作为重要的合作伙伴,竭力提供更高性价比的产品和更先进的方案及服务,全力提升中国联通对Greenplum的满意度。

Greenplum对中国联通的承诺


  • Login