slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
从零 开始搭建大数据平台 PowerPoint Presentation
Download Presentation
从零 开始搭建大数据平台

Loading in 2 Seconds...

play fullscreen
1 / 21

从零 开始搭建大数据平台 - PowerPoint PPT Presentation


  • 154 Views
  • Uploaded on

从零 开始搭建大数据平台. 白德鑫 @ leoobai. 屌丝的数据分析 土豪要和屌丝做朋友 屌 丝 的 进化 屌 丝变土豪. 摘要. 构建电视分析数据平台. 本案例是在为 在为超级电视及乐视盒子数据提供用户行为的数据分析及挖掘服务而启动的数据平台项目的过程和经验分享 。 对超级电视的用户行为数据进行实时和离线分析,为运营提供决策支持 。 通过对电视数据挖掘来进行系统优化和服务提升。. 白德鑫 来自乐视网 TV 开放平台事业部

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '从零 开始搭建大数据平台' - abel-abbott


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide2

屌丝的数据分析

土豪要和屌丝做朋友

屌丝的进化

屌丝变土豪

摘要

slide3

构建电视分析数据平台

本案例是在为在为超级电视及乐视盒子数据提供用户行为的数据分析及挖掘服务而启动的数据平台项目的过程和经验分享。

对超级电视的用户行为数据进行实时和离线分析,为运营提供决策支持。

通过对电视数据挖掘来进行系统优化和服务提升。

slide4

白德鑫

来自乐视网TV开放平台事业部

历经电信、游戏、互联网三个行业,互联网电视拓荒者,目前负责乐视网超级电视运营平台、LetvStore、TV数据挖掘分析平台、TV开放平台项目建设。

微博:@leoobai

G粉,钓鱼迷和摩托迷

slide5

屌丝如何成为糕富帅

  • 苦逼屌丝配置两台MySQL(主从)记录日志,通过CronJob加上SQL方式在Slave进行统计分析
  • 发奋图强的屌丝尝试使用Cassandra将日志存储,使用Hadoop进行计算,然后把结果塞到MySQL里
  • 太多的数据组合,屌丝尝试使用MySQL集群加上Kettle进行统计分析
  • 鸟枪换炮屌丝开始使用大规模杀伤性武器Kafka、Storm、Hadoop、Hbase、Hive、Oozie、Sqoop
slide6

数据

  • NoSQL阶段
      • 存储靠Cassandra
      • 任务采用Hadoop
      • 计算使用M/R
      • 需求基本很简单
  • Hadoop阶段
      • Hadoop生态进行离线计算
      • Kafka进行数据收集
      • Storm进行实时计算
      • Hadoop周边小工具
  • MySQL阶段
      • 存储靠MySQL
      • 任务靠CronJob
      • 统计靠手写SQL
      • 展现基本很简单
  • Kettle阶段
      • 大量中间数据采用MySql集群
      • 使用Kettle对数据进行抽取加工

需求

slide9

人员离职造成系统失控,Cassandra没人维护了

  • 人员离职对系统影响很大
  • 不一定时刻都有合适的人接替
  • 招聘成本很高,因为有技术的土豪都不愿意和屌丝做朋友
  • 人员流失往往带来技术的流失
  • 一个萝卜一个坑,萝卜走了坑要很久才能填上
slide11

土豪和我们做朋友了

  • 数据量从年初的3个月翻一倍到目前每个月翻一倍
  • 数据每月一亿条增长到每周一亿条只用了半年不到
  • 超级电视及盒子的快速增长引起需求快速变化,从设备行为快速向用户行为转变
  • 一边找土豪一边增强自身能力
  • 为此成立了独立的数据研发团队及数据分析人员
  • 从年初我们也开始了鸟枪换炮的工作
slide12

增强内功

  • 数据研发团队通过将近半年的努力,逐步搭建并完善了新的平台
  • 新平台通过Kafka接收其他系统、超级电视、乐视盒子等业务数据、日志数据、以及其他元数据(包括内容、应用)然后整合加工
  • Storme通过整合Kafka加工之后的数据存入MySQL及Hbase中去
  • 通过Hadoop及数据服务为AD-HOC、开放数据平台、数据门户对各个业务部门提供数据服务
  • 这些是人才依靠招聘和内部自荐的方式进行扩充
slide14

数据入门第一套

测试服务器

两台4core cpu, 6G memory,20个线程

slide15

数据入门第一套

测试服务器

1台4core cpu, 6G memory,20个线程

slide16

数据入门第一套

测试服务器

1台4core cpu, 6G memory,20个线程

slide17

数据入门第二套

Storm 集群

Spout

Bolt

WriterBolt

ParserBolt

Spout

Bolt

WriterBolt

ParserBolt

Cbase

Spout

Bolt

WriterBolt

ParserBolt

组合计算

Kafka消息随机

slide20

案例ROI分析

数据量每月基本翻一倍,原有的系统架构根本无法满足新的数据需求

Kettle方式的数据整合时间越来越久

采用Hadoop+Storm等方案,数据量增长不会对数据挖掘产生特别大的影响。

数据从原来每日抽取报表到实时数据随意查询整合

还有很多事情要做

slide21

案例启示

不同的阶段选择不同的方案

人员流失会导致技术流失

技术储备和内部自荐要比招聘牛人更快

对于新业务新平台都要小心对待,否则出现问题很难解决

数据安全很重要,重要数据需要提供多份备份

服务器多了就是爽。