1 / 40

并行计算、集群与网格技术在虚拟天文台中应用探讨

并行计算、集群与网格技术在虚拟天文台中应用探讨. 天津大学 IBM 中心 于策 http://ibm.tju.edu.cn/~yuce/ 2004-12. 内容大纲. 并行计算技术 集群及相关技术 网格计算. 如何满足不断增长的计算力需求?. 用速度更快的硬件,也就是减少每一条指令所需时间 优化算法(或者优化编译) 用多个处理机 ( 器 ) 同时解决一个问题 并行计算. 串行计算与并行计算. 并行的层次. 程序级并行  子程序级并行 语句级并行 操作级并行 微操作级并行. 粗. 并行粒度. 细. S. …. …. P. P. P.

Download Presentation

并行计算、集群与网格技术在虚拟天文台中应用探讨

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 并行计算、集群与网格技术在虚拟天文台中应用探讨并行计算、集群与网格技术在虚拟天文台中应用探讨 天津大学IBM中心 于策 http://ibm.tju.edu.cn/~yuce/ 2004-12

  2. 内容大纲 • 并行计算技术 • 集群及相关技术 • 网格计算

  3. 如何满足不断增长的计算力需求? • 用速度更快的硬件,也就是减少每一条指令所需时间 • 优化算法(或者优化编译) • 用多个处理机(器)同时解决一个问题 • 并行计算

  4. 串行计算与并行计算

  5. 并行的层次 • 程序级并行  • 子程序级并行 • 语句级并行 • 操作级并行 • 微操作级并行 粗 并行粒度 细

  6. S … … P P P P M M M 共享内存与分布式内存 P=处理器 M=内存 S=网络交换设备

  7. S … … P P P P … M M Node Node 局部共享内存

  8. 实现并行计算的常见方法 • 1、多线程程序 • 2、基于OpenMP的并行程序 • 3、基于消息传递的并行程序 • PVM • MPI

  9. XPVM

  10. XPVM

  11. 并行计算环境简介 • PVP(Parallel Vector Processor) • 使用专用向量处理器 • 银河I,CrayT90,NEC的地球模拟器。。。 • SMP(Symmetric Multiprocessor) • 同一主板上多个处理器可以等同访问共享存储器、I/O设备和操作系统服务 • IBM RS6000。。。 • Cluster • 由很多连接在一起的独立计算机组成,像一个单独的集成的计算机一样协同工作 • 集群的节点可以是SMP(或者PVP) • Cluster1350,蓝色基因。。。

  12. 在虚拟天文台中的应用情形 • 处理实时性要求很高的大量观测数据 • 观测数据的并行可视化处理 • 并行数据挖掘 • 并行数据服务提供 • 。。。。。。

  13. 集群技术 • 集群概念最早由IBM于20世纪60年代提出 • 集群一般由高速网络连接起来的高性能工作站或PC机组成。集群在工作中像一个统一的整合资源,所有节点使用单一界面。

  14. 集群 Not a Cluster Cluster

  15. 集群计算系统体系结构

  16. 集群相关技术 • 网络层 • 网络互联结构、通信协议、信号技术等。 • 节点机及操作系统层 • 高性能PC或工作站、分层或基于微内核的操作系统等。 • 集群系统管理层 • 资源管理、资源调度、负载平衡、并行I/O、安全等。 • 应用层 • 并行程序开发环境、串行应用、并行应用等。

  17. Cluster1350 http://www-900.ibm.com/developerWorks/cn/linux/cluster/l-ibm1350/index.shtml • Cluster1350是IBM公司目标定位于高性能计算市场的Linux集群,包括一套完整的解决方案,集成了众多IBM与非IBM的先进的软硬件技术,有其特有的技术优势与强大的服务支持。

  18. Cluster1350逻辑结构

  19. Cluster1350节点硬件、网络和操作系统(天津大学IBM中心)Cluster1350节点硬件、网络和操作系统(天津大学IBM中心) • 管理节点  • IBM eServer xSeries 345 (1) • 计算节点  • IBM eServer xSeries 335 (16) • 网络 • 千兆以太网 • 操作系统 • Red Hat Linux 7.3

  20. CSM(Cluster System Management) • CSM是IBM公司开发,专门用于集群系统管理的中间件,在Cluster1350解决方案集成。 • CSM的设计思想与体系结构来自PSSP (IBM Parallel System Support Programs for AIX)与其它一些开源的集群管理软件。还有一些中间件及技术,虽然不直接为用户服务,但构成了CSM的不可或缺的基础,包括RMC、SRC、RSCT等。

  21. CSM

  22. Cluster1350系统管理 • 整个集群由单一结点控制 • 所有结点的 • 开机、关机、状态查询 • 显示远程控制台 • 安装操作系统 • 升级(安装)各结点系统及应用软件 • 。。。 • 一个完整的集群只需一套外置输入/输出设备(键盘、鼠标、显示器)

  23. Linux 集群上可用的任务调度系统 • Mosix(Multicomputer Operating System for UnIX ) • 可以自动完成节点间进程迁移 • 需要重新编译Linux内核 • 对用户来说是透明的 • PBS(Portable Batch System) • 由NASA的Ames研究中心开发 • 为了达到集群系统整体上的负载平衡,对各个节点上的任务进行调度,但不进行节点间任务迁移 • 不需要重新编译内核

  24. 集群上的应用程序(计算)开发 • 适于开发基于消息传递的并行应用程序 • 可以使用PVM/MPI • 步骤: • 配置并行计算的编译与运行环境 • 主要是rsh/ssh • 设计、编写、编译程序 • 使用PVM/MPI提供的程序库及编译环境 • 部署应用程序 • ftp、rcp、scp、CSM、NFS、GPFS等方式 • 运行程序

  25. 配置高可用集群 • 最大程度地减少服务中断,而不是容错。 • Hearbeat • LVS(Linux Virtual Sever) • IBM 的 Tivoli 和 WebSphere 系列软件 • ……

  26. Heartbeat 集群

  27. LVS集群

  28. 集群在虚拟天文台中的角色 • 高性能计算 • 构成虚拟天文台网格环境中强有力的计算资源 • 高可用服务 • 在网格环境中提供稳定、可靠的数据、计算、调度等服务

  29. 网格计算 “Resource sharing & coordinated problem solving in dynamic, multi-institutional virtual organizations”

  30. On Demand

  31. 理想的网格

  32. 理想的网格

  33. The picture above describes a DataGrid testbed with three sites and a Certification Authority. For space reasons we do not show all the machines of each site. The user requests a certificate to the Certificate Authority web front-end. The certificate is produced and signed by the Certificate Server. The user gets the certificate. Now that the user has his/her certificate installed on his/her User Interface, he/she can submit his/her job requests.

  34. Submitted Waiting After creating a proxy process with temporary credentials (“grid-proxy-init” command), the user submits his/her job request to the Resource Broker. The Resource Broker queries the Replica Catalog and Information Index to find suitable resources (storage space, data and computing power).

  35. Ready Scheduled Done The Resource Broker submits the job to the selected Computing Element(s). The Computing Element delivers the job to its Worker Node(s), which will do the real work. The Resource Broker selects the resources.

  36. Output Ready The output is moved to the Resource Broker

  37. Cleared The user gets his/her output

  38. WAN LAN LAN LAN 网格计算环境示例 Site B SMP Cluster Cluster Cluster Site A Grid Grid Grid Grid UI/API Grid UI/API Grid Site C Grid Grid Grid Grid SMP SMP Cluster Cluster UI/API Grid Grid Grid Grid Grid SMP SMP SMP Cluster

  39. 结束语 • 虚拟天文台将构筑于网格环境之上 • 集群将构成网格环境中强有力的计算与服务支撑平台 • 并行计算将为具体事务处理提供技术与手段上支持

  40. Thanks!

More Related