280 likes | 456 Views
计算中心 2003年上半年总结. 2003.7.15. 任务完成情况. 在实行本室提出的“一个服务、两个跟踪”总方针的努力下,计算中心较好地完成了我所网络和计算环境今年上半年的运行任务;各研究课题也都正常进展,研究成果不同程度地用到了改善我所网络和计算环境,取得了一定效果。. 计算机系统管理.
E N D
计算中心2003年上半年总结 2003.7.15
任务完成情况 在实行本室提出的“一个服务、两个跟踪”总方针的努力下,计算中心较好地完成了我所网络和计算环境今年上半年的运行任务;各研究课题也都正常进展,研究成果不同程度地用到了改善我所网络和计算环境,取得了一定效果。
计算机系统管理 • 在实验物理中心王贻芳副主任的支持下将BES实验组的二个farm(besfarm和ihepfarm)的作业管理从NQS统一升级为PBS,为了推动PBS的使用,在一室研究生会上介绍高能所网络和计算环境使用方法以及相关问题的处理,建立farm网页供用户查询并解答用户提出的有关问题,besfarm和ihepfarm运行效率明显提高 • 对E5交换机背板连接有时失效的问题,通过供应商更换背板和48X100模块,失效现象有所减少,但在背板和模块更换后还出现过一次失效,原因待查 • 利用santest测试环境为核分析室赵宇亮研究员及其研究生提供计算环境,由于计算涉及量子化学,需要大量的CPU时间,计划在消化原商用软件I/O流的情况后,通过和北大合作,将作业纳入PBS管理 • 为了解决YBJ-Farm的数据输入/输出问题增加了一个磁带机,并为中日合作导入了300GB数据,使用脚本重写了PBS的调度系统,避免了PBS调度器的不稳定
校园网管理与建设 • 完成了全所网络线路、路由器和各级交换机的运行维护和管理、出口线路的维护和故障排除、14台网络服务器系统的日常管理和维护 • 完成了校园网改进课题与东华公司之间的验收工作。在园区铺设光缆 4 条,共 900 M ;完成了对撞机区域装修中计算机网絡综合布线系统方案的设计;28号楼计算机网络系统的启用 • 对主楼网络设备进行了调研和实验,考虑到使用原有网络交换机品牌价格较高,先试用了3COM核心交换机和工作组级交换机,效果不满意,现正试用华为的交换机,如果还不满意,有可能还得使用原来品牌(EnteraSys)的核心交换机 • 对全所各单位的网络和计算机做了大量的服务与技术支持,服务内容包括用户计算机硬件故障诊断与排除;用户计算机软件(包括系统软件和应用软件)故障查找、修复和安装;用户邮件丢失恢复(在本机上的恢复);病毒处理、系统加固和防病毒软件安装;为用户进行网络设置等等,一共170 多人次
防火墙 针对高能所网络安全的特点和需要,再次对防火墙结构进行了调整,将原来一个防火墙承担的任务改为由两个防火墙分担实现 • 两个防火墙串联,其中一个防火墙负责静态或永久安全规则的配置,另一个防火墙负责动态或临时安全规则的配置,提高了防火墙系统的整体性能 • 在第二个防火墙上编写了专用的流量统计程序,解决了加防火墙后无法用路由器计帐的问题 • 开发了适用于高能所的网络安全检测系统,该系统能及时发现所内外网络之间的异常通讯(如针对网络安全漏洞的病毒传播方式,对他人主机进行漏洞检测等行为),并实时地进行阻断 • 研制了网络安全预警系统并建立了网络监视跟踪设施,能分析查找攻击源并给出警告
Internet 公用电话网 目前防火墙结构(防火墙网络布线结构) 路由器 路由器 集线器 Linux防火墙 流量统计 通讯异常监测 “长城”防火墙 集线器 Switch集线器 Switch集线器 网络监视设备 双防毒墙 andh: 202.122.32.133/27 nsmg: 202.122.32.142/27 中心交换机 Ftp: 202.38.128.130/26 Wins: 202.38.128.138/26 Nsg: 202.38.128.142/26 Proxy1: 202.38.128.136/26 Proxy2: 202.38.128.137/26 Kill: 202.38.128.139/26 Sec: 202.38.128.172/26 MAIL: 202.38.128.1/26 WWW: 202.38.128.8/26 SUN: 202.38.128.10/26 DNS: 202.38.128.58/26 允许被从所外访问的服务器 高能所内网
防计算机病毒 今年以来,世界范围的网络病毒事件愈演愈烈。虽然我所网络中的计算机在病毒防范体系的保护下,病毒泛滥和传播现象基本受到控制,但小范围的病毒感染现象仍时有发生,这与部分用户的个人计算机安全设置不正确有关。我所累计为约700台计算机安装了KILL防病毒软件,但从网络防病毒管理服务器上经常只能看到400多台在线。最近管理员通过远程命令,以不影响用户前台操作的方式,对全所所有在线的KILL客户端进行后台统一杀毒,并查杀病毒30多种,6696个。今年上半年防病毒网关拦截病毒7860个,平均每天44.4个,根据防病毒网关产生查杀病毒的日志,应用数据库编写了统计软件,并提供了方便的WEB查询界面,可以查出任意时间段内任意协议的查杀病毒的情况并显示到WEB界面上,提供了文字及图形(饼图、曲线图)方式。目前此软件已提供使用,连接在所内网站上。
防垃圾邮件 • 在mail和sun两台邮件服务器上设置了垃圾邮件过滤规则,垃圾邮件有所减少 • 近期试用了清华大学计算机中心的EQmanage防垃圾邮件网关软件,在15天的试用期内,每天平均收到邮件17000个其中14000个被确认为垃圾邮件而被过滤掉,占邮件总数的80%,另外500个被怀疑是垃圾邮件放进管理员处理的列表,2500个放行,效果显著。现正进一步试用,以判断是否有正常信件被误判成垃圾邮件
网络性能研究 • 从2003年初开始实施网络管理软件的部署,已经完成: • 网络设备的自动发现并生成网络拓扑图 • 各个关键服务器和网络设备性能数据采集 • 网络设备故障预警 • 网络管理客户端等等 • 对我所整个网络的性能监视和评估工作已经展开,取得了部分评估结果和评估数据,评估结果认为: • 我所校园主干网完全满足目前使用需求,任意一条线路使用率均低于10%,且线路故障率较低 • 经过调整、增加配置和更新后,骨干网上的全部交换机配置均能满足数据处理需求,资源利用率不超过30% • 服务器性能基本满足需求
网络性能研究(续) • 通过网管软件的监视和评估,发现并解决了一些具体问题。如: • 发现中心交换机内存利用率过高,导致其控制模块经常切换,中心交换机内存升级(64M 256M)后问题解决 • MAIL服务器由于用户大量增加,CPU利用率极高,满足不了需求,购买了双至强服务器Dell 1600替代原有单CPU服务器 • 对于某一时刻或某一段时间内交换机端口流量异常,可以跟踪交换机上端口信息,将故障(问题)定位到用户的PC上,查到系统问题(病毒、黑客等) • 通过对出口路由器的监视发现CPU负担较重,不能在提供网络服务的同时提供视频会议服务,因此提出更新路由器的需求
视频会议 • 经过多次试验,改变了网络配置和路由,将高能所到院网络中心的光缆临时作为视频会议的专线,在“非典”时期实现了通过Internet的国际视频会议多次,此项工作得到了所领导和有关部门的肯定 • 目前正在设法实现多点视频会议
虚拟化存储系统课题 • 建立了由10个节点组成的Santest测试环境,在该环境下进行了CERN/Castor分级存贮管理软件试用及AFS全局文件系统的安装、配置和测试。对L3C实验组12盘LTO/1磁带的约2.4TB的数据实现自动管理。以批处理方式从LTO带上把数据迁移到磁盘上。通过对CERN/Castor软件的试用,使我们有机会学习和掌握该软件的使用和管理模式,并在试用中发现santest测试环境中可用性和可靠性方面存在的一些问题,以待今后解决 • 由于AFS在Linux平台上的开放,我们提出了在高能所部署AFS,调研了国外高能物理实验室布署AFS相关经验,先后用不同版本的AFS在santest环境上安装和配置,初步掌握了AFS数据库服务器、文件服务器、client的安装和配置方法。对单Cell和多Cell环境下用户管理和认证进行了调研和测试;对文件服务器中三种不同属性的卷的配置、使用和管理进行了布署和测试,解决了AFS环境下用户管理认证等技术细节问题,提出了AFS部署、管理策略。目前正解决试用环境的布署及local、NFS、AFS、HSM等文件的整合、测试和比较
计算机集群资源管理与网格计算 • 研究并基本实施了大型计算系统的自动配置和安装的技术和方案 • 部署了高能所校园网格的监视系统,该系统可以实时监视:CPU、内存、网络、节点的状态、作业及队列,以及节点增/删的自动发现等 • 通过监视研究了各个PC- Farm计算环境存在的问题(BES- Farm的CPU负荷太高,而YBJ- Farm的网络I/O是瓶颈),提出了通过高速网络整合各Farm实现共享的校园网格计算环境方案。该方案在投资不多(33万元)的情况下,能明显提高计算资源的利用率和工作效率。目前该方案已经得到了物理学家的共识和所领导的批准 • 在规划了高能所校园网格的硬件环境的改造计划的同时,设计了高能所校园网格的软件环境及其各组件之间的关系
数据库应用课题 • 承担BEPC-II工程数据库的任务,完成了“BEPCII数据信息管理系统”预研申请项目书的撰写,在评审、会签及审定批准后,“BEPCII数据信息管理系统”预制研究项目在工程办完成立项 • 由于“BEPCII数据信息管理系统”将使用三层开发模式进行系统集成,课题组对以J2EE为基础架构的各类开发工具JSP、Servlet、EJB等进行了研究;对Oracle 9i、MySQL数据库管理系统及多个应用服务器软件进行安装、配置及性能评估;在研究使用的基础上,对编制数据库管理系统通用模块已做了分工和安排 • 为熟练掌握和使用以J2EE以为基础架构的开发工具,承担了“北京同步辐射装置用户数据库管理系统”的开发任务,编制基于Web界面同步辐射装置用户数据库管理系统。该项目正在进行中 • 为后勤服务中心节能办公室开发的“水、电、气费数据库管理系统“已验收并投用
参加院科学数据库项目 经过与核分析室、高能天体物理中心等有关单位交流合作,在院网络中心科学数据库办公室的帮助下,完成了我所参加院科学数据库项目的申请、报告和任务书编写工作,并已得到批准。从今年到2005年,院共资助该项目30万元。
队伍结构与人才培养 • 人员情况 • 学科带头人 • 在职职工情况 • 研究生情况
人员情况 • 计算中心共有在职职工25人,其中具有博士学位2人、硕士学位1人;另有返聘研究人员2人;在站博士后1人 • 现有博士生7人,硕士生6人(其中2人转博士生),今年新入学博士生2人,硕士生3人,毕业博士生1人,今年下半年将有在读研究生17人,达到历史最高水平 • 其他流动科研人员(许榕生课题合作人员及外聘人员)10人
学科带头人 • 计算平台、存储系统、网格计算方面,现有杨大鉴、孙功星,陈刚将逐渐接替杨大鉴。将来两个博士,平均41岁,应该可以很放心,但应该增加具体技术工作人员并在工作中培训,以满足近期到2006年以后的科研需求 • 数据库方面,马梅,53岁。数据库课题组技术力量较强,有能干的年轻人,但承担大型项目还需要培养和锻炼 • 网络管理及网络安全管理方面,寿学俭,60岁,逐渐培养刘保旭(博士后)和安德海,该组年轻技术人员多,需要加强技术能力的培养
研究室建设 • 今年上半年实行了计算中心副主任招聘,5月底陈刚任副主任,随即进行了室务会的改组并进行了分工,孙功星接替杨大鉴的室学术小组组长的位置。室务会由4人组成,包括主任、副主任、支部书记和学术小组长 • 计算中心有较严格的值班制度,“非典”期间,对本室人员和流动人员的门卡进行了严格的复查,收回了一批借用的门卡。在门口安装了门铃 • 安全问题: • 机房ID卡门禁在安装后厂家没有交钥匙,不能投入使用,前不久与保卫处联系,准备要求厂家补钥匙 • 6月25日晚8点加速器中心和BNL开视频会议时发现网络不通,网络组查原因到晚11点,发现院网络中心光缆的光电转换器插头脱开,影响了开会。补救措施是2号机房无人时锁门
学术活动 计算中心学术气氛浓厚,各课题组经常有学术交流活动,包括学术报告、技术研讨、课题小结和布置下阶段任务、请公司技术人员讲课培训、介绍有关软件功能等,虽然“非典”时期有一段时间停止各种会议,1-6月份室内学术活动仍达21次,参加国内学术会议8人次
规章制度建立和执行情况 • 计算中心严格执行考勤制度,由工作性质决定,计算中心严格实行坐班制,除特殊情况外,上班8小时必须在班上。曾有个别年轻同志习惯夜间工作,甚至彻夜工作,上午睡觉,在组长多次做工作后,现在改过来了。我室在新建住宅楼分到房子的同志装修和搬家较少占用工作时间,没怎么影响工作 • 计算中心每个人有明确的工作职责,有较严格的值班和On Call制度,遇到网络故障或用户反映的问题时能很快组织有关人员找到原因并排除故障
下半年工作考虑 • 根据各项课题任务做好人员岗位调整 • 继续做好我所网络和计算环境的管理和运行维护工作,做好为高能科研的服务工作 • 完成我所网络出口的调整,使之更加符合我所科研需求,更加合理 • 完成计算中心各PC-Farm的硬件整合和部分网格软件的部署,带着问题去CERN • 完成局部的AFS部署,为部分用户提供数据共享的AFS环境 • 升级CERN/Castor分级存储管理软件并解决相关技术问题,为部分用户提供试用环境 • 完成计算中心在BEPC-II工程中的立项工作 • 完成我所在国家自然科学基金重大研究计划“以网络为基础的科学活动环境研究”中的基金申请工作