hadoop n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Hadoop 在京东的应用 PowerPoint Presentation
Download Presentation
Hadoop 在京东的应用

Loading in 2 Seconds...

play fullscreen
1 / 19

Hadoop 在京东的应用 - PowerPoint PPT Presentation


  • 168 Views
  • Uploaded on

Hadoop 在京东的应用. 作者:唐红军 邮箱: tanghongjun@jd.com. 我的团队. 联系方式: cdrd-uhp@jd.com. 导航. 四纷 五落. - 历史状况. - 改进 - 第一代架构 - 挑战与解决方案. 众流 归海. - 变革 - 第二代架构 - 关键技术. 统一 分治. 历史状况. 现象 集群众多 规模小 版本不一 问题 资源不能合理分配 人力资源浪费 无法满足大数据对资源的要求. 导航. 四纷 五落. - 历史状况. - 改进 - 第一代架构 - 挑战与解决方案. 众流

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Hadoop 在京东的应用' - philip-kidd


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
hadoop

Hadoop在京东的应用

作者:唐红军

邮箱:tanghongjun@jd.com

slide2
我的团队

联系方式:cdrd-uhp@jd.com

slide3

导航

四纷

五落

  • -历史状况
  • - 改进
  • - 第一代架构
  • -挑战与解决方案

众流

归海

  • - 变革
  • - 第二代架构
  • -关键技术

统一

分治

slide4
历史状况
  • 现象
    • 集群众多
    • 规模小
    • 版本不一
  • 问题
    • 资源不能合理分配
    • 人力资源浪费
    • 无法满足大数据对资源的要求
slide5

导航

四纷

五落

  • -历史状况
  • - 改进
  • - 第一代架构
  • -挑战与解决方案

众流

归海

  • - 变革
  • - 第二代架构
  • -关键技术

统一

分治

slide6
改进
  • 现象
    • 统一硬件
    • 统一数据
    • 统一人力
    • 统一调度
  • 目的
    • 资源合理利用
    • 节约成本
    • 适应海量数据计算需求
    • 提高效率
slide7
第一代架构

数据平台

搜索

推荐

仓储供应链

机器人

hue

日志系统

统一监控

oozie

权限管理

impala

hbase

Mapred,hive,R,mahout

HDFS

流式日志同步

sqoop

slide8
挑战- HDFS稳定性
  • 问题

单namenode稳定性无法得到保障;

用户多、业务多平台异常损失影响大;

  • 解决方案
slide9
挑战- 无报警预警
  • 问题

无法及时发现问题;无法预防问题的发生;无法了解运营数据。

  • 解决方案

URL存活性监控

端口存活性监控

所有进程僵死监控

主服务可用性监控

新老生代容量变化

监控预警报警

任务运行阀值报警

运行耗时趋势预警

YOUNG与FULL

GC时间/频率

监控

Hdfs数据上传耗时

阀值报警;hdfs上

传耗时趋势预警

Zookeeper所有操作

耗时阀值报警与

趋势预警

运行线程,最大线程

阀值报警线程趋势

预警

Hbase读写计算耗时

报警和趋势预警

hdfs写入/读取/操

作监控记录

任务输出/使用资

源/读取/运行时段

slide10
挑战- 无安全
  • 问题

大量部门和小组接入平台,用户数据和任务安全问题突出。

  • 解决

hive

  • 增加用户密码
  • 增加服务端组验证

添加用户密码

改进库表权限控制

验证中心化

服务端

客户端

验证用户密码

用户

获取用户组

用户密码

验证用户和组

slide11
挑战- 效率
  • Jobtracker
    • 网络调整
    • smart scheduler
    • Reduce启动时间调整
    • 推测执行规则修改
  • Namenode
    • 提供主从可读
    • 意向锁
    • 修改checkpoint方式
  • Datanode
    • 单机多datanode改造
    • 增加读写锁
    • 修改块汇报方式
slide12

导航

四纷

五落

  • -历史状况
  • - 改进
  • - 第一代架构
  • -挑战与解决方案

众流

归海

  • - 变革
  • - 第二代架构
  • -关键技术

统一

分治

slide13
变革
  • 现象
    • 一个大集群
    • 众多不同用途集群
    • 统一的入口
    • 不同类型数据处理框架集群共存
  • 目的
    • 运维自动化
    • 资源合理利用
    • 适应用户对新技术使用需求
    • 提高人效和资源的利用率

数据处理平台和服务管理平台

slide14
第二代架构

用户

业务方

数据管理

资源管理

任务管理

报表管理

监控预警管理

数据

处理

平台

流失计算服务

实时计算服务

离线/批量计算服务

分布式数据库服务

海量存储服务

缓存服务

storm

Hbase

hadoop/Impala/spark

mysql

hbase/hdfs

redis

数据库数据同步

日志数据同步

数据库数据

日志文本数据

数据源

geminifs3 0
第二代-Geminifs3.0
  • 虚拟节点
  • 每个虚拟节点代表原目录树空间中以此节点为根的子树
  • 每个Namenode负责1个或多个虚拟节点所对应的子树

/

k

a

z

zx

Namespace

zxn

a1

ax

ka

kk

kz

zn

zz

kn

Namenode

Namenode

BlockManager

BlockManager

  • Heartbeat
  • Block replicate check
  • Block management

Storage

knk

knn

knz

Datanode

Datanode

Datanode

Datanode

slide19

谢谢!

Thank you!

唐红军

成都市武侯区武兴三路19号西部智谷D区39栋B座7层

T. 028-65057196 F. 028-65057196

E. tanghongjun@jd.com www.jd.com