1 / 19

Hadoop 在京东的应用

Hadoop 在京东的应用. 作者:唐红军 邮箱: tanghongjun@jd.com. 我的团队. 联系方式: cdrd-uhp@jd.com. 导航. 四纷 五落. - 历史状况. - 改进 - 第一代架构 - 挑战与解决方案. 众流 归海. - 变革 - 第二代架构 - 关键技术. 统一 分治. 历史状况. 现象 集群众多 规模小 版本不一 问题 资源不能合理分配 人力资源浪费 无法满足大数据对资源的要求. 导航. 四纷 五落. - 历史状况. - 改进 - 第一代架构 - 挑战与解决方案. 众流

philip-kidd
Download Presentation

Hadoop 在京东的应用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hadoop在京东的应用 作者:唐红军 邮箱:tanghongjun@jd.com

  2. 我的团队 联系方式:cdrd-uhp@jd.com

  3. 导航 四纷 五落 • -历史状况 • - 改进 • - 第一代架构 • -挑战与解决方案 众流 归海 • - 变革 • - 第二代架构 • -关键技术 统一 分治

  4. 历史状况 • 现象 • 集群众多 • 规模小 • 版本不一 • 问题 • 资源不能合理分配 • 人力资源浪费 • 无法满足大数据对资源的要求

  5. 导航 四纷 五落 • -历史状况 • - 改进 • - 第一代架构 • -挑战与解决方案 众流 归海 • - 变革 • - 第二代架构 • -关键技术 统一 分治

  6. 改进 • 现象 • 统一硬件 • 统一数据 • 统一人力 • 统一调度 • 目的 • 资源合理利用 • 节约成本 • 适应海量数据计算需求 • 提高效率

  7. 第一代架构 数据平台 搜索 推荐 仓储供应链 机器人 … hue 日志系统 统一监控 oozie 权限管理 impala hbase Mapred,hive,R,mahout HDFS 流式日志同步 sqoop

  8. 挑战- HDFS稳定性 • 问题 单namenode稳定性无法得到保障; 用户多、业务多平台异常损失影响大; • 解决方案

  9. 挑战- 无报警预警 • 问题 无法及时发现问题;无法预防问题的发生;无法了解运营数据。 • 解决方案 URL存活性监控 端口存活性监控 所有进程僵死监控 主服务可用性监控 新老生代容量变化 监控预警报警 任务运行阀值报警 运行耗时趋势预警 YOUNG与FULL GC时间/频率 监控 Hdfs数据上传耗时 阀值报警;hdfs上 传耗时趋势预警 Zookeeper所有操作 耗时阀值报警与 趋势预警 运行线程,最大线程 阀值报警线程趋势 预警 Hbase读写计算耗时 报警和趋势预警 hdfs写入/读取/操 作监控记录 任务输出/使用资 源/读取/运行时段

  10. 挑战- 无安全 • 问题 大量部门和小组接入平台,用户数据和任务安全问题突出。 • 解决 hive • 增加用户密码 • 增加服务端组验证 添加用户密码 改进库表权限控制 验证中心化 服务端 客户端 验证用户密码 用户 获取用户组 用户密码 验证用户和组

  11. 挑战- 效率 • Jobtracker • 网络调整 • smart scheduler • Reduce启动时间调整 • 推测执行规则修改 • Namenode • 提供主从可读 • 意向锁 • 修改checkpoint方式 • Datanode • 单机多datanode改造 • 增加读写锁 • 修改块汇报方式

  12. 导航 四纷 五落 • -历史状况 • - 改进 • - 第一代架构 • -挑战与解决方案 众流 归海 • - 变革 • - 第二代架构 • -关键技术 统一 分治

  13. 变革 • 现象 • 一个大集群 • 众多不同用途集群 • 统一的入口 • 不同类型数据处理框架集群共存 • 目的 • 运维自动化 • 资源合理利用 • 适应用户对新技术使用需求 • 提高人效和资源的利用率 数据处理平台和服务管理平台

  14. 第二代架构 用户 业务方 数据管理 资源管理 任务管理 报表管理 监控预警管理 数据 处理 平台 流失计算服务 实时计算服务 离线/批量计算服务 分布式数据库服务 海量存储服务 缓存服务 storm Hbase hadoop/Impala/spark mysql hbase/hdfs redis 数据库数据同步 日志数据同步 数据库数据 日志文本数据 数据源

  15. 第二代-资源管理

  16. 第二代-任务管理

  17. 第二代-Geminifs3.0 • 虚拟节点 • 每个虚拟节点代表原目录树空间中以此节点为根的子树 • 每个Namenode负责1个或多个虚拟节点所对应的子树 / k a z zx Namespace zxn a1 ax ka kk kz zn zz … … kn Namenode Namenode BlockManager BlockManager • Heartbeat • Block replicate check • Block management Storage knk knn knz Datanode Datanode Datanode Datanode

  18. 下一步

  19. 谢谢! Thank you! 唐红军 成都市武侯区武兴三路19号西部智谷D区39栋B座7层 T. 028-65057196 F. 028-65057196 E. tanghongjun@jd.com www.jd.com

More Related