610 likes | 749 Views
第九章 网格系统管理. 龚 斌 山东大学计算机科学与技术学院 山东省高性能计算中心. 用户管理 系统监控 系统记帐. 用户管理. 用户命名 用户创建 用户登录 用户授权 用户变更. 网格监控系统的特点. 数据生命周期短,更新频繁; 性能信息是动态的,随机的; 数据的集成和传递要求系统具有高性能; 性能度量的影响必须最小化;. 要求. 低延迟; 低性能影响 可扩展性 安全性 可管理性. 功能. 故障处理和错误检测
E N D
第九章 网格系统管理 龚 斌 山东大学计算机科学与技术学院 山东省高性能计算中心
用户管理 • 系统监控 • 系统记帐
用户管理 • 用户命名 • 用户创建 • 用户登录 • 用户授权 • 用户变更
网格监控系统的特点 • 数据生命周期短,更新频繁; • 性能信息是动态的,随机的; • 数据的集成和传递要求系统具有高性能; • 性能度量的影响必须最小化;
要求 • 低延迟; • 低性能影响 • 可扩展性 • 安全性 • 可管理性
功能 • 故障处理和错误检测 • 如果网格中的某个节点出了故障,在网格这么一个高度复杂的环境中是很难发现和定位的。通过监控可以发现出现故障的节点,帮助用户在最短的时间内恢复和调整系统; • 性能分析和系统调优 • 一个网格应用如果效率不高,那么问题可能出在各个环节。通过监控可以迅速定位系统瓶颈,帮助用户分析以便于对系统进行调试和优化。 • 记账 • 通过监控可以了解用户对计算资源以及存储资源等使用情况,这些信息可以用来记账。
功能(续) • 指导调度 • 通过监控可以了解计算资源的系统状态以及负载分布情况,指导调度程序进行资源分配和作业调度。 • 历史分析 • 通过监控可以将系统监控信息进行长期储存以进行历史分析。 • 入侵检测 • 通过监控可以进行入侵检测等安全方面的监控。
网格资源监控要求 • 可扩展 • 在监控方面没有集中的瓶颈 • 监控数据发送接受数据方面没有集中的瓶颈 • 有效 • 能够处理许多高容量的信息流 • 灵活 • 可以和各种已经存在的监控工具共同工作
网格资源监控任务 • 获取各个资源的状态 • 分布式计算环境中各个层面资源 • 资源状态的信息收集 • 统一集中监控每个资源的运行状态 • 及时识别和诊断发生故障的主机和网络 • 最小化主机和网络失败的影响 • 为系统资源管理和网格应用提供支持 • 分析系统性能瓶颈 • 预测系统运行的轨迹 • 对网格动态的应用和资源调度提供依据 • 事件机制
网格监控与传统监控系统差别 • Windows NT/2K 和 Unix系统中,提供完备的单机状态和性能监控,不支持远程访问。 • SNMP能够提供远程访问的功能,但只提供了点对点的访问机制。 • 机群系统中,监控对象的地理位置相对集中决定了其简单的软件及监控对象结构不能为网格监控所用。
网格监控与传统监控系统差别 • 网格监控在广域范围内是可扩展的,能包容异构资源 • 兼容已经存在的监控工具 • 在命名和安全方面能和其他的网格中间件集成 • 适应多个管理域
网格监控信息特性 • 更新频繁 • 性能信息是随机的 • 数据的集成和传递必须高性能 • 性能度量的影响必须最小化
网格监控对象和事件表示 • 监控对象:需要掌握运行状态的计算资源。以主机为中心,由上而下分为3类: • 系统类(CPU Usuage , Memory Usuage etc.) • 网络类(主机间通信延迟,数据传输的带宽,路由情况等) • 应用类(Web服务器,DB服务器或其他事务服务器的运行状态)
网格监控对象和事件表示 • 监控事件:与监控对象紧密联系,是在特定时间由特定输入触发的输出结果,每个监控对象对应3种监控事件 • 警告 • 故障 • 数据过期(时效性)
GMA (Grid Monitor Architecture) • GMA基本介绍 • GMA体系结构和术语 • GMA组件和接口 • GMA的应用例子
GMA基本介绍 • GGF Performance Working Group提出草稿 • 规范网格监控术语的定义与描述 • 解决网格监控工具开发的互操作性。 • 主要贡献是提出Producer/Comsumer模型和Event Subscribe的数据传送方式
GMA体系结构和术语 • GMA体系结构:由三种类型的组件组成 • Consumer • Producers • Directory Service
3) Event producer & Event schema information 4) Query or Subscribe 2) Lookup 5) Event data 1) Event publication information = API & wire protocol & data format GMA体系结构 Consumer Directory Service (LDAP?) Producer Plus security!
GMA术语 • Events:命名的数据集合,可以与任何事物相关,但是一般指Memory Usage, CPU Usage, Network Usage,或者错误条件(如服务进程崩溃等); • Producer(生产者):使Event Data 可用的组件; • Consumer:请求或者接受Event Data 的任何进程; • Directory Service:发布哪些Event Data是可用的,和哪个producer 联系以得到这些数据;
生产者/消费者间的互操作 • GMA体系结构支持3种在生产者/消费者之间传输数据的互操作: • publish/subscribe:互操作的发起者可以是生产者,也可以是消费者 • query/response:发起者必须是消费者,类似HTTP的request/reply • notification(通知):发起者必须是生产者,所有互操作由生产者一步完成。
GMA 生产者和消费者协议 (1) • Publish/Subscribe model • Consumer can subscribe to Producer to receive a stream of events • Producer can subscribe to Consumer to push a stream of events • Either side can unsubscribe • Query model • Consumer can get a single event
GMA 生产者和消费者协议 (2) • Example of Consumer subscribing to latency information between two hosts.
GMA组件和接口 • Directory Service • producer • consumer • compound components
Directory Service • 目录服务的作用是定位、命名和描述网格中具有结构化特征的数据,让信息消费者(users, visualization tools, programs and resource schedulers)发现信息、理解可用信息的特性。信息生产者必须能够更新信息以反映系统状态。 • Directory Service包含所有可用事件数据的列表,使Consumer可以发现当前可用的事件数据,数据的特性,以及应该和哪个Producer联系以获取指定类别的数据。
Directory Service(Cont.) • 简单来说,目录服务并不储存事件的附加数据,它只提供数据的名称、特性和位置信息。这样一来,若想获得事件的数据,首先要通过目录服务找到该事件生产者的静态信息,比如事件类型、主机地址等,然后再向该生产者发出请求获得相应数据。
Directory Service支持的功能 • Add: 向目录加入记录(entry)。 • Update:改变记录在目录中的状态。 • Remove:从目录中删除一个记录 • Search:查找事件数据,Client可以指定是仅仅返回一个结果、还是多个结果。
Producer • 负责通过接口为Consumer提供事件数据的组件。Producers 将在目录服务中发布事件可用信息。 • A given component may have multiple producer interfaces, each acting independently and sending events. • The term producer is used interchangeably, and inexactly, to refer both to a single producer interface and to a component that contains at least one producer interface.
Producer 支持的功能 • Maintain Registration : • add/update/remove directory service entry or entries describing events that the producer will send to a consumer. • Corresponds to Directory Service Add,Update, and Remove. • Accept Query: 接受Consumer的查询,返回一组事件。
Producer 支持的功能 • Accept Subscribe:接受Consumer的请求订阅。 如果订阅成功,生产者发送事件数据给消费者直到订阅被终止。 • Accept Unsubscribe:接受Consumer的取消订阅。如果Consumer取消订阅,Producer应该自动取消其在任何地方的订阅。 • Locate Consumer:在directory service中查找一个消费者
Producer 支持的功能 • Notify(通报):发送一个单一的事件数据给消费者 • Initiate Subscribe: Producer 异步开始与Consumer之间的订阅。被授权可以给Consumer传送数据。 • Initiate Unsubscribe: Producer通知Consumer订阅将结束。
Producer • Producer也可以用于访问控制,容许不同等级的用户进行不同的访问。由于网格一般有多个组织来控制被监控的资源,因而会有不同的访问策略,支持不同的访问频率,对组织内外的Consumer将提供不同的性能细节。
Consumer • Consumer 是通过接口从Producer接受事件数据的任意组件。接收来自Producer的异步请求的Consumer将在目录服务中发布这一信息。 • 一个Consumer组件可能包含一个或多个接口,每个接口可单独从Producer接受事件数据
Consumer 支持的功能 • Locate Producer: Consumer向目录服务查询生产者 • Initiate Query:请求从producer接收一个或者一组事件。可以设置filter表明感兴趣的部分。 • Initiate Subscribe:Consumer 请求建立到producer的连接以连续接收数据。 • Initiate Unsubscribe:Consumer告诉Producer关闭Subscribe。 Subscription 被删除,producer确认之后不再在这个Subscription上传送数据。
Consumer 支持的功能 • Maintain Registration: 增加/更新/删除目录服务中有关从 producer接收的事件的记录。 • Accept Notification: Consumer 接受来自Producer通知。 • Accept Subscribe: Consumer接受来自希望传送数据的Producer的subscription。 • Accept Unsubscribe: Consumer 接受来自Producer的取消订阅请求。 • 定位消息模式:在给定的事件类型中在模式库中搜索请求
Consumer 的类型 具有以下类型的Consumer: 1、Real-time monitor: 实时收集监控数据供实时分析工具使用。 2、Archiver:为存档服务收集信息。收集的信息可以供历史分析。 3、 Overview monitor:从多个信息源收集事件,使用组合信息做出无法基于单个主机的数据做出的决定。
Consumer & Producer • 有的组件同时既是Consumer也是Producer
事件数据源 • 用于构建事件的数据能从许多资源上进行收集。比如硬件/软件传感器能够收集实时的性能数据;另外,通过数据库的查询接口可以得到历史数据。如图3 完整的监控系统,比如说NWS,可以看作一个事件数据源。
事件数据源 Figure 3: Sources of Event Data
Produce and Sensor • 一个Producer可以关联一个传感器、一个指定主机上的所有传感器、一个给定子网的所有传感器、或者任意一组传感器。这些在GMA中没有定义,可以实现时确定。 • 一个Producer和Sensor的关系如下图:
3) Event producer & Event schema information 4) Query or Subscribe 2) Lookup 5) Event data 1) Event publication information = API & wire protocol & data format Ruth Aydt – GGF1 Performance Working Group Architecture Consumer Directory Service (LDAP?) Producer Plus security!
2) Register archive service for any event type 1) Register producer of ws* CPU_LOAD events Ruth Aydt – GGF1 Performance Working Group Simple Case Study archivsys archivsys Event Type Directory: CPU_LOAD schema Event Producer Directory: srvr / CPU_LOAD Event Consumer Directory: archivsys /*(event) / archive Directory Service adminsys srvr WS1 WS2 WS10 . . .
5) Subscribe to ws* CPU_LOAD events Events 4) Request archive service subscription for ws* CPU_LOAD events 3) Locate archive service Ruth Aydt – GGF1 Performance Working Group Simple Case Study archivsys archivsys Event Type Directory: CPU_LOAD schema Event Producer Directory: srvr / CPU_LOAD Event Consumer Directory: archivsys /*(event) / archive Directory Service adminsys srvr WS1 WS2 WS10 . . .
6) Locate ws* CPU_LOAD events 7) Subscribe to ws* CPU_LOAD events Events Ruth Aydt – GGF1 Performance Working Group Simple Case Study archivsys archivsys Event Type Directory: CPU_LOAD schema Event Producer Directory: srvr / CPU_LOAD Event Consumer Directory: archivsys /*(event) / archive Events Directory Service adminsys srvr WS1 WS2 WS10 . . .
Ruth Aydt – GGF1 Performance Working Group Simple Case Study archivsys archivsys Event Type Directory: CPU_LOAD schema Event Producer Directory: srvr / CPU_LOAD Event Consumer Directory: archivsys /*(event) / archive Events Directory Service adminsys Events srvr WS1 WS2 WS10 . . .
Network Weather Service • NWS是美国加州大学圣迭戈分校和田纳西州大学开发的网络天气服务系统。 • NWS是一个通用的分布式预测系统,它基于以往的性能检测,提供短期的性能预测,它的目的是为元计算应用程序提供动态的精确的及时的性能预测服务。
Autopilot • Autopilot是由University of Illinois at Urbana Champaign, Pablo研究组开发的,并且已经在很多项目中进行应用,包括网格应用程序开发软件项目(GrADS)。 • Autopilot是用于并行或者分布式计算资源的一种实时自适应控制系统。它的目标是建立一个可以提供分布式应用程序自适应控制的环境,这样它们可以根据请求模式以及测量到的资源性能自动选择并且配置资源管理特性。
欧洲DataGrid网格系统R-GMA网格监控架构 • DataGrid是由整个欧盟发起的一个大型网格项目。DataGrid项目旨在为广泛分布的科学机构建立一个具有超级计算能力、大存储容量、数据广泛共享的下一代计算网格基础设施。 • R-GMA(Relational Grid Monitoring Architecture)[10,11] 是全球网格论坛定义的网格监测结构GMA的一个实现,基于关系数据模型,其主要用途是订阅事件,即用户可以直接从数据源预定具有某具体特性的数据流,从而产生了一对新的生产者/消费者关系,允许在特性满足条件时,消费者从生产者获得订阅的数据。