构建Hadoop集群

构建Hadoop集群 余磊小田 @ www.iloveppt.org

集群规范 • 1.商业硬件不等同于低端硬件，集群规模大，故障率高，维护成本高 • 2.大型数据库级别机器性价比低，一台机器故障，对集群负面影响大。 • 2010年典型机器：

Hadoop集群该有多大 • 1.对于小集群而言，可在一台机器上运行namenode和jobtracker，随着集群和文件数增长，namenode需要更多内存，需要放在另外的机器上 • 2.大规模集群namenode和辅助namenode最好在不同机器上运行

网络拓补 • 一般各机架装配30-40个服务器，共享1gb的交换机，各机架交换机通过上行链路与一个核心交换机或路由相连

网络拓补 • Hadoop配置通过Java接口DNSToSwitchMapping记录节点地址和网络位置的映射关系

集群的构建与安装 • apache Hadoop 分发包安装Hadoop • 第一步：安装Java • 第二步：创建Hadoop用户创建特定的Hadoop用户账号以区分Hadoop和本地其他服务

安装Hadoop

SSH配置 • SSH安装好后允许用户无需密码就能键入集群内机器（创建公钥和私钥）

Hadoop配置文件

配置管理 • 集群的Hadoop节点各自保存一系列配置文件，管理员完成配置文件同步工作 • 主机器和工作机器用同一套配置文件，便于操作（硬件不同有局限性）

控制脚本 • Hadoop用脚本执行指令，为了执行脚本，需要指定集群内所有机器（利用两个文件） • masters记录拟运行辅助namenode的所有机器 • slaves记录运行datanode和tasktracker的所有机器 • 用户无需指定masters中那台机器正在运行namenode或jobtracker，操作由运行脚本的机器决定

具体脚本执行 • start-dfs.sh脚本 • start-mapred.sh脚本

主场景节点 • 文件系统包含大量文件，单台机器内存无法同时运行namenode和辅助namenode • 在运行大量mapreduce作业的高负载集群上，jobtracker占用大量cpu，最好运行在专用节点上

环境设置 • mapred.tasktracker.map.tasks.maximum控制一个tasktracker能运行的时最多map任务数量，默认2 • mapred.tasktracker.reduce.tasks.maximum 控制reduce

工作节点内存占用

namenode内存分配

系统日志文件 • .log文件记录应用程序的日志消息，系统不会自动删除过期文件 • .out文件，记录标准输出和标准错误日志，系统仅保留最新的5个

Hdfs Hdfs配置文件只要分布在3个文件：core.xml hdfs-site.xml mapred-site.xml

Hadoop关键属性

Mapreduce关键属性

Hadoop其他属性

安全性 hdfs文件稀客模块会组织用户由于程序漏洞而毁坏整个文件系统，但是无法阻止恶意用户假冒root标示 yahoo解决方案 kerberos 鉴定登录账号是否他所声称的用户 hdfs决定这个用户的权限

kerberos

委托令牌

安全性改进

Hdfs基准测试程序

云端Hadoop Amazon Ec2 启动集群：创建EC2安全组，允许主节点工作节点相互访问，循序从其他地方以ssh访问集群 mapreduce作业：可以从集群内部机器或外部机器启动运行终止集群：

声明演绎创作网络共享付费下载欢迎用于非商业用途的演绎创作可在保留文件完整性的前提下共享文件禁止任何形式的付费下载

http://t.sina.com.cn/iwps/ http://t.qq.com/kingsoftwps/ 更多模板下载：http://www.wps.cn/moban/

Hadoop集群该有多大

构建Hadoop集群