100 likes | 431 Views
百度大数据与数据团队 2012-09-10. Agenda. 大数据趋势 百度大数据 数据仓库 &beyond 数据分析 & 数据挖掘 百度数据团队. 大数据趋势. 这次“大数据”是真的吗,还是营销概念? 因果 vs 相关 数据:信息时代的原油. 百度大数据. 全网用户行为日志 广告点击日志 百度统计 广告相关数据 移动云 ……………. 数据仓库 &beyond. BUDW- 百度用户数据仓库 数据仓库体系 数据收集 数据传输 数据存储与管理 任务调度与管理 数据查询与获取 数据分析 数据挖掘 数据可视化
E N D
Agenda • 大数据趋势 • 百度大数据 • 数据仓库&beyond • 数据分析&数据挖掘 • 百度数据团队
大数据趋势 • 这次“大数据”是真的吗,还是营销概念? • 因果vs相关 • 数据:信息时代的原油
百度大数据 • 全网用户行为日志 • 广告点击日志 • 百度统计 • 广告相关数据 • 移动云 • ……………
数据仓库&beyond • BUDW-百度用户数据仓库 • 数据仓库体系 • 数据收集 • 数据传输 • 数据存储与管理 • 任务调度与管理 • 数据查询与获取 • 数据分析 • 数据挖掘 • 数据可视化 • Beyond 数据仓库?
数据分析&数据挖掘 • 数据分析 • BI, Business Analystics, OLAP, 多维数据模型 • 数据挖掘 方法: 分类, 聚类, 预测, 关联规则 过程: CRISP-DM,SEMMA,5A 应用: 消费预估, 客户保持
百度数据团队 • 当前主要项目 • 软件系统: Doris,Olap engine, Query Engine, LongScheduler, DT统一数据平台(Portal) • 数据项目:UDW(数据仓库), Insight(商业智能) • 目标及使命 • 构建数据平台,提供技术服务,推动数据整合,处理,挖掘和应用
DT整体数据架构 BI Insight BIEE Doris 数据仓库 BUDW Baidu User Data Warehouse Logging 数据收集 LOG 数据源 Transfer Meta ETL 数据处理
主要技术与工具 • Doris3存储:OLAP存储系统 • 使用BIEE:BI套件 • UDW:用户行为数据仓库 • LongScheduler:调度系统 • 多维分析建模技术 • 数据挖掘技术
The End Q&A