210 likes | 323 Views
计算环境整合及网格环境建设 -- 机群计算和网格计算. 孙功星. 报告内容. 计算系统的现状分析。 资源整合的共享方案及实施。( 04 年) LCG 网格的北京站点设置和维护。( 04 年) 基于国家网络设施的中国国家高能网格试验床的建设( 04 年) 64 位计算平台研究( 04 年)。 2004 年以后的工作设想。. 高能所计算环境现状. 从 VAX HP 工作站 PC Linux Cluster.
E N D
计算环境整合及网格环境建设--机群计算和网格计算计算环境整合及网格环境建设--机群计算和网格计算 孙功星
报告内容 • 计算系统的现状分析。 • 资源整合的共享方案及实施。(04年) • LCG网格的北京站点设置和维护。(04年) • 基于国家网络设施的中国国家高能网格试验床的建设(04年) • 64位计算平台研究(04年)。 • 2004年以后的工作设想。
高能所计算环境现状 • 从VAXHP工作站PC Linux Cluster. • 当前,在计算中心有4套PC-FARM计算系统。分别是基于AMD和Intel系统。它们分别服务于BES、YBJ和LHC、AMS等实验。以及即将建设的同步辐射信息平台。 • 每个计算系统的实物及连接见图1。 • 其硬/软件配置如表1。
图1:当前的高能物理计算环境 Internet Div. 1 Central Switch Div. 3 BES farm LHC farm YBJ farm
PC Farm OS No. CPUs Batch System Hep-farm Linux RH7.2 25×Intel PIII OpenPBS 2.4 YBJ-farm Linux RH7.2 32×AMD MP OpenPBS 2.4 LHC-farm Linux RH7.2 32×AMD MP OpenPBS 2.4 计算环境的硬件配置
资源整合和共享实施 • 当前PC FARMS分离运行存在使用率低的问题。 - 最高的使用效率不到40%,本月约10%。 • 使用效率不高的可能原因有三个: - 物理的硬件瓶颈 - 优化问题。 - 应用的是非持续的应用。 • 在高能所计算环境中,这三个方面的问题都存在: - 硬件的连接带宽不够。 - 系统的配置不当。 - 几个物理实验对资源的使用具有不同的周期。 • 使用资源的整合、共享不仅可以消除这些问题,也可以节省资金。在所、室两级领导以及其他兄弟室的大力支持下,已经获得了33万元的资助。
高能所Batch系统的体系结构 Input/ Output Central Schuler UI
高能所BATCH系统的用户环境 • 用户的home目录将使用afs提供统一的界面。 /afs/ihep.ac.cn/bes/ /afs/ihep.ac.cn/ybj/ 等等。 • 数据的访问将提供NFS和rfio协议支持。 /castor/ihep.ac.cn/bes/ /castor/ihep.ac.cn/ybj/ • 支持海量数据的在线存储与访问。
基于国家网络基础设施的数据网格计算环境研究和实施基于国家网络基础设施的数据网格计算环境研究和实施 • 设置和维护服务于中国高能物理计算的CA(Certificate Authority)。使高能所成为一个中国高能物理计算的主要网格站点。目前正在申请以获得LCG的承认。 • 建设包括高能物理研究所、北京大学、山东大学等在内的中国国家高能物理网格计算试验床环境(于主任牵头)。
Gloriad网络和高能物理计算环境 • Gloriad网络已经于2004年1月份开通。 - 北京—香港—芝加哥—阿姆斯特丹—俄罗斯。 - 155Mbps。年中可能达到2.5Gbps,逐步达到10Gbps。 • 正在设置LCG北京站点,其组成为:(和陈刚) UI (User Interface)、CE(Computing Element)、SE(Storage Element)、LCFGng和5个WNs(Work Nodes)。 • 将LCG北京站点加入全球LCG计算环境中。
LCG北京站点的组成 lcg001 lcg004 LCFGng Server Storage Element Computing Element lcg002 lcg003 User Interface lcgwn001 lcgwn002 lcgwn003 lcgwn004 lcgwn005 Worker Nodes
64位架构的计算平台研究 • 基于Intel和AMD的64位平台会渐渐成为一种普通的计算平台。-与时俱进 • 科学院网络中心已经购置一台拥有1032个英特尔安腾64位CPU的超级机群系统,位于全世界的14位。希望科学院的其他单位使用。1万元电费/1天。 • 当前,64bit平台与32位是不兼容的,所以,需要对其操作系统,程序库和应用程序的兼容性进行研究。-技术储备
资金与人员 • 课题的资金已经用完(40万)。 设备费用LHC PC-Farm(32CPUs+1.28TB+4PCs):约27万。 LCG(9 PC Workstations):约7.65万。 研究生+会议+论文版面:约7万。 结余:-10000元。 • 希望所里考虑再追加经费20万元,购买CA,监视服务器,以及建立一个开发环境,LCG北京站点的存储。 • 人员建设:正在招聘一个硕士研究毕业生。
2005年以后的设想 • 为了支持不断增长的高能物理及其他方面的需求,研究和跟踪PC-Farm的硬件体系结构和可扩展性。 • 开发和实施大规模PC-Farms的监视和管理系统。并加入计算中心的系统网络监视中心。 • 研究基于应用的网格资源集成的调度策略。 • 研究BES、YBJ等计算网格环境技术(?)。 • 建立中国高能网格计算环境,培养研究、技术支撑及维护队伍。加强国内的合作。 • 维护和扩充LCG北京站点,以及其他Tier-2(3)站点的技术支持,使之成为Tier-1或Tier-2(?)中国区域中心,以及中国高能网格的全球LCG计算资源的入口。加强国际合作。
结论 通过上面的项目的实施和技术储备,将可以获得: - PC机群系统的技术与经验。 - 网格计算的技术与经验。 - 技术队伍的建设。 完全有理由相信,与海量存储等研究组以及各个兄弟室一道,计算中心能够迎接未来中国高能物理的计算需求的挑战。 希望获得各位用户的支持!!