320 likes | 486 Views
构建Hadoop集群. 余磊. 集群规范. 1.商业硬件不等同于低端硬件,集群规模大,故障率高,维护成本高 2.大型数据库级别机器性价比低,一台机器故障,对集群负面影响大。 2010年典型机器:. Hadoop集群该有多大. 1.对于小集群而言,可在一台机器上运行namenode和jobtracker,随着集群和文件数增长,namenode需要更多内存,需要放在另外的机器上 2.大规模集群namenode和辅助namenode最好在不同机器上运行. 网络拓补. 一般各机架装配30-40个服务器,共享1gb的交换机,各机架交换机通过上行链路与一个核心交换机或路由相连.
E N D
构建Hadoop集群 余磊 小田 @ www.iloveppt.org
集群规范 • 1.商业硬件不等同于低端硬件,集群规模大,故障率高,维护成本高 • 2.大型数据库级别机器性价比低,一台机器故障,对集群负面影响大。 • 2010年典型机器:
Hadoop集群该有多大 • 1.对于小集群而言,可在一台机器上运行namenode和jobtracker,随着集群和文件数增长,namenode需要更多内存,需要放在另外的机器上 • 2.大规模集群namenode和辅助namenode最好在不同机器上运行
网络拓补 • 一般各机架装配30-40个服务器,共享1gb的交换机,各机架交换机通过上行链路与一个核心交换机或路由相连
网络拓补 • Hadoop配置通过Java接口DNSToSwitchMapping记录节点地址和网络位置的映射关系
集群的构建与安装 • apache Hadoop 分发包安装Hadoop • 第一步:安装Java • 第二步:创建Hadoop用户 创建特定的Hadoop用户账号以区分Hadoop和本地其他服务
SSH配置 • SSH安装好后允许用户无需密码就能键入集群内机器(创建公钥和私钥)
配置管理 • 集群的Hadoop节点各自保存一系列配置文件,管理员完成配置文件同步工作 • 主机器和工作机器用同一套配置文件,便于操作(硬件不同有局限性)
控制脚本 • Hadoop用脚本执行指令,为了执行脚本,需要指定集群内所有机器(利用两个文件) • masters记录拟运行辅助namenode的所有机器 • slaves记录运行datanode和tasktracker的所有机器 • 用户无需指定masters中那台机器正在运行namenode或jobtracker,操作由运行脚本的机器决定
具体脚本执行 • start-dfs.sh脚本 • start-mapred.sh脚本
主场景节点 • 文件系统包含大量文件,单台机器内存无法同时运行namenode和辅助namenode • 在运行大量mapreduce作业的高负载集群上,jobtracker占用大量cpu,最好运行在专用节点上
环境设置 • mapred.tasktracker.map.tasks.maximum控制一个tasktracker能运行的时最多map任务数量,默认2 • mapred.tasktracker.reduce.tasks.maximum 控制reduce
系统日志文件 • .log文件记录应用程序的日志消息,系统不会自动删除过期文件 • .out文件,记录标准输出和标准错误日志,系统仅保留最新的5个
Hdfs Hdfs配置文件只要分布在3个文件:core.xml hdfs-site.xml mapred-site.xml
安全性 hdfs文件稀客模块会组织用户由于程序漏洞而毁坏整个文件系统,但是无法阻止恶意用户假冒root标示 yahoo解决方案 kerberos 鉴定登录账号是否他所声称的用户 hdfs决定这个用户的权限
云端Hadoop Amazon Ec2 启动集群: 创建EC2安全组,允许主节点工作节点相互访问,循序从其他地方以ssh访问集群 mapreduce作业: 可以从集群内部机器或外部机器启动运行 终止集群:
声明 演绎创作 网络 共享 付费下载 欢迎用于非商业用途的演绎创作 可在保留文件完整性的前提下共享文件 禁止任何形式的付费下载
http://t.sina.com.cn/iwps/ http://t.qq.com/kingsoftwps/ 更多模板下载:http://www.wps.cn/moban/