230 likes | 332 Views
河海校园网格的设计与实现. 解放军理工大学指挥自动化学院 王 毅 wingking.wang@163.com. 建设基础. “ 九五 ”“ 211 工程 ” 的建设 具有较为先进的校园网络环境 添置了许多高性能的硬件与软件。 科研人员急需高性能计算能力-高性能计算机利用率不高 高性能计算机本身应用门槛 为了安全需要提出申请到高性能机房上机 购置了许多专业软件-软件闲置 由于 license 的限制只能安装在某台高性能机 软件本身配置、安装、应用的门槛 对某些应用会出现资源不够用的现象. 需求.
E N D
河海校园网格的设计与实现 解放军理工大学指挥自动化学院 王 毅 wingking.wang@163.com
建设基础 • “九五”“211工程”的建设 • 具有较为先进的校园网络环境 • 添置了许多高性能的硬件与软件。 • 科研人员急需高性能计算能力-高性能计算机利用率不高 • 高性能计算机本身应用门槛 • 为了安全需要提出申请到高性能机房上机 • 购置了许多专业软件-软件闲置 • 由于license的限制只能安装在某台高性能机 • 软件本身配置、安装、应用的门槛 • 对某些应用会出现资源不够用的现象
需求 • 需要要让用户访问校园网格就像访问Web一样方便-解决资源利用率不高与资源相对闲置矛盾 • 对校园网内高性能资源集成-解决对于某些应用资源不够用的问题 • 通过Web访问大型软件,解决软件闲置的现象 • 将通用的算法和应用进行封装,增加学校的学科积累 • 利用计算资源和软件来支撑水利等领域的应用
网格平台的功能 • 便利的作业提交Portal • 计算资源的透明性 • 软件资源的透明性 • 权限的控制和管理 • 网格平台的管理 • 计算资源节点加入 • 软件资源的加入 • 用户管理-权限管理、策略管理等 • 任务管理-任务监控、计费等 • 支撑水利应用 • 系统的容错性 • 支撑环境的配置
河海校园网格设计 • 网格资源节点 • 网格层 • 网格门户建设
河海校园网格资源节点 • 网格资源节点指接入到网格系统之中的高性能计算资源 • 目前资源节点组成 • 信息中心IBM刀片机群 • 计算机学院IBM刀片机群 • 力学系HP机群 • 信息中心试验机群 • 常州校区机群 • 下一步可能加入的资源 • 信息中心SUN10k大型机 • 其他一些机群
网格资源节点集成 • 方法:部署符合OGSA (开放网格服务架构)规范的服务将网格节点资源接入到网格系统之中。 • 网格节点资源管理软件-SGE(Sun网格引擎),其他资源管理软件 • 适配中间件 • 适配器功能的扩展 • 作业相关属性通知 • MDS的实时监控信息扩展
网格资源节点的服务 • 数据服务 • RFT(可靠文件传输服务) • GridFTP • 执行管理服务 • GRAM(网格资源分配管理) • 安全服务 • Delegation(代理服务) • 监控服务 • MDS(监测与发现服务)
河海校园网格设计 • 网格资源节点 • 网格层 • 网格门户建设
网格层 • 网格平台的核心层 • 对底层的分布的网格资源节点集成,给上层的网格应用提供一个统一的透明接口,并且隐藏底层具体的网格资源。
网格层作用与功能 • 基本作用 • 通过通用的接口集成各种计算资源,并对之进行有效的管理 • 为网格用户提供单一的访问网格资源的接口 • 解决异构性、安全性、可使用性、可扩展性等问题 • 功能模块 • 资源的注册与发现 • 资源的调度与管理 • 安全管理与用户管理 • 服务质量以及计费管理
资源的注册与发现 • 基于GT4的MDS服务,并且对之进行一定的扩展 • 特点:动态资源的发现 • 扩展:资源属性的扩展
资源的调度与执行管理 • 通过可定制的调度策略对资源进行调度和管理 • 底层资源的执行管理由GT4的GRAM服务实现 • 调度策略分为两类:单作业调度,应用调度 • 调度的容错性
安全管理与用户管理 • 网格安全管理是网格系统的基础 • 网格Portal通过配置SSL保证其安全性。 • 对网格资源采用基于Globus的CA(认证授权)框架。 • 远程Shell交互采用SSH。 • 用户管理 • 系统分为两种用户:网格用户与系统用户 • 通过网格用户与系统用户的映射实现用户分级
服务质量以及计费 • 服务质量指网格服务可用性以及实用性 • 目前系统的服务质量根据用户的级别进行资源的调度和管理 • 计费是网格系统服务消费的基本要求 • 付费依据与模型 • 每个作业耗费的cpu时间 • 每个资源的价格
河海校园网格设计 • 网格节点 • 网格中间件 • 网格门户建设
网格门户 • 网格门户是网格的最终用户访问网格的界面 • 主要功能 • 用户通过图形界面或者字符界面提交任务 • 下载作业结果 • 远程登陆申请 • 查询任务运行状态,自动保存网格任务运行结果 • 在任务运行过程中同任务进行交互
河海校园网格平台 信息中心 IBM刀片集群 计算机学院IBM刀片集群 工程力学系 HP服务器集群 常州校区 服务器集群 信息中心 SUN10k大型机 其他将要加 入的计算资源 信息中心 试验微机机群 应用 作业提交Web Portal 远程Shell 水利应用 信息中心 元调度 安全管理 计费等 网格软件 信息服务 执行管理 数据管理 其他服务
小结 • 多种调度策略应用 • 灵活的用户权限管理机制 • 资源属性信息收集以及作业属性信息收集扩展 • 下一步的主要工作 • SUN10k大型机的加入 • 基于SLA(服务等级协议)的资源管理