1 / 38

虚拟计算环境下的大数据处理实践 刘欣然 2013-10-31 HPC2013 桂林

虚拟计算环境下的大数据处理实践 刘欣然 2013-10-31 HPC2013 桂林. 目录. 1. 2. 3. 4. 网络信息安全业务特点及计算需求. 基于虚拟计算环境的计算模式. iVCE 计算面临 的挑战. 目前运行情况及典型案例. 网络信息安全业务的典型流程. 业务的迅速增加对资源提出了很高需求. 这对承载业务的基础设施和系统都带来了很大的压力,无论是传统的集群技术还是当前的云计算技术均是如此. 业务的迅速增加对资源提出了很高需求.

Download Presentation

虚拟计算环境下的大数据处理实践 刘欣然 2013-10-31 HPC2013 桂林

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 虚拟计算环境下的大数据处理实践刘欣然2013-10-31HPC2013 桂林

  2. 目录 1 2 3 4 网络信息安全业务特点及计算需求 基于虚拟计算环境的计算模式 iVCE计算面临的挑战 目前运行情况及典型案例

  3. 网络信息安全业务的典型流程

  4. 业务的迅速增加对资源提出了很高需求 • 这对承载业务的基础设施和系统都带来了很大的压力,无论是传统的集群技术还是当前的云计算技术均是如此

  5. 业务的迅速增加对资源提出了很高需求 • 大规模数据中心因为拥有着超大规模的计算、存储和网络资源,当仁不让地成为了云计算技术的重要载体,在解决类似问题方面已经给出了很多成功的案例 • 但是,资源过度集中也产生了很多棘手的问题,如供电、制冷、场地、带宽等成为制约很多IDC发展壮大的瓶颈

  6. 业务的迅速增加对资源提出了很高需求 • 单一数据中心即使拥有再多的资源,在面向互联网规模的问题求解时,仍然显得微不足道同时 • 与此同时,互联网上大量的零散资源无法得到充分利用而白白浪费,传统的集群系统尤其突出

  7. 一些特殊需求 • 除了计算、存储、网络资源外,不少网络信息安全应用(包括不少互联网应用)一些特殊需求很难由传统的IDC满足,如: • 对接入的运营商的要求 • 对接入地域的要求 • 对IP地址动态性的要求 • 对移动性的要求 • 如网速测量、互联互通性测量、域名服务状态监测、互联网状态检测(路由、拓扑)、移动业务服务等级评价等

  8. 网络信息安全业务特点

  9. 思考? • 上述特点说明,完全可能“租用”海量的、分布于各地的、小的“不可靠”资源来解决大的应用问题 • 如果能够将分散于多个管理域中的海量闲散计算资源整合起来,构造一个对用户透明的“虚拟计算环境”,这样一方面避免资源过度集中带来了突出问题,使闲散资源得以充分利用,更重要的是这个虚拟计算环境在接入的运营商、接入地域、带宽、移动性、IP分布等多个方面能够最大程度地贴近互联网的真实情况

  10. 目录 1 2 3 4 网络信息安全业务特点及计算需求 基于虚拟计算环境的计算模式 iVCE计算面临的挑战 目前运行情况及典型案例

  11. 建立在开放的网络基础设施之上,为终端用户或应用系统提供可信、透明的一体化服务环境,实现有效资源共享和便捷协同工作。建立在开放的网络基础设施之上,为终端用户或应用系统提供可信、透明的一体化服务环境,实现有效资源共享和便捷协同工作。 • 基于973项目“虚拟计算环境聚合与协同机理研究”(课题编号:2005CB321800)、“高效可信的虚拟计算环境基础研究”(项目编号:2011CB302600)的成果

  12. iVCE实验床概况 • 利用分布于全国的计算资源,基于互联网构建了一个“虚拟计算环境实验床(简称iVCE实验床)”,在部署了一系列典型的网络信息安全业务系统 • 总节点数:物理节点数接近500个,虚拟节点数超过2000个,其中移动节点40个,覆盖当前主流的计算平台 • 分布:全国31个省份 • 接入运营商:全国各省的电信、联通,部分省份移动、铁通 • 接入网络类型:所有省份的电信、联通固定互联网(带宽从10M-50M不等)、绝大多数省份的电信/联通ADSL拨号互联网(100M接入)

  13. iVCE实验床设计理念与原则 • iVCE实验床面向第三方应用,与特定的业务应用严格无关 • 用“服务”取代“管理”,实验床的各个角色之间都是服务与被服务的关系,放弃了传统的“管理”的实现方法 • iVCE实验床要具备良好的可扩展性(具备扩展至1万-10万量级的潜力),形成标准的对外服务接口,对不同种类应用提供统一的使用视图 • 对用户个性化设置/配置/需求能够提供灵活的支持,最大程度地按照用户意愿聚合资源承担虚拟计算任务

  14. iVCE实验床的体系结构 本实验床由应用层、任务代理层、应用分发与结果回收层、资源代理层、虚拟资源层、以及运行监测层构成。

  15. iVCE实验床的体系结构说明

  16. iVCE实验床的体系结构说明

  17. iVCE实验床的关键技术(1) • 任务代理层:接收来自应用层的任务并根据需求采取不同的资源聚合策略,实现任务到iVCE虚拟计算资源的映射,主要包括: • 按需聚合资源:根据海量、多样化的任务需求,聚合与之相适应的虚拟资源上,实现任务到虚拟资源的调度 • 突发情况下用户服务质量保障:解决在业务突发情况下,对特定用户提供有保障的QoS服务 • 高可靠调度:在不稳定、不可靠的虚拟计算环境下实现对高可靠运行要求的业务支撑

  18. iVCE实验床的关键技术(2) • 提出了统一的任务属性和资源属性描述接口规范(正在完善中) • 定义了任务描述文件(JDF):对任务在优先级、完成时间、可靠性、运营商网络、计算存储开销等方面的需求进行了明确定义 • 定义了资源描述文件(RDF):对资源在硬件性能、软件环境、接入网络、计算存储能力、网络延迟、运行负载等方面进行了详细定义 • JDF与RDF的使用,大大提高了任务代理层的资源聚合、任务调度效率

  19. iVCE实验床的关键技术(3) • 提出基于滑动窗口的资源池管理算法,为重要任务提供更好的QoS保障 • 可根据重要任务负荷的大小自适应地动态调整窗口的尺寸,在重要任务增加时扩大窗口大小以保证重要任务调度,重要任务减少时缩小窗口以减少资源浪费 • 支持窗口的动态滑动,即根据窗口中资源现状动态刷新,不断地淘汰差的资源,引入新的优秀资源,以保证窗口中资源的“优质率” • 初步测试结果:在每天几十万任务的真实虚拟计算环境中,滑动窗口算法保证重要任务的平均下发时间为1.76秒,明显小于普通任务(15.2秒)

  20. iVCE实验床的关键技术(4) • 提出了多副本冗余调度管理算法(正在完善中) • 根据应用对可靠性的不同等级要求,基于虚拟节点可靠性概率的历史记录,通过副本冗余技术,为同一任务生成不同数量副本下发到多个资源上同时并发执行,以保证任务执行的可靠性和响应及时性

  21. iVCE实验床的关键技术(5) • 应用分发与结果回收层(正在完善中) • 与应用无关的业务应用向虚拟计算平台的快速分发部署:在传统的内容分发网络思想的基础上,提出了预先推送的概念。即在数据上传之后、被请求之前,根据历史经验,预先将数据推送到多个网络节点,从而缩短分发时间 • 与应用无关的计算结果回收管理:第三方的计算结果回收与管理,面向不同应用提供服务

  22. iVCE实验床的关键技术(6) • 资源代理层:对虚拟计算资源的状态进行及时采集、分析和可信性评价,为资源的按需聚合提供依据,主要包括: • 对海量、异构资源状态采集:针对不同的资源状态信息通过主动、被动两种方式及定制化的频率进行合理采集,并对资源标识与状态判断进行了研究,实现了对资源状态信息的动态、实时监测与采集 • 大规模资源状态信息的分析与评价:提出了资源的多维度信誉评价模型及资源可信性的评价机制,解决海量、多样化任务调度与海量、异构资源之间的映射与匹配问题

  23. iVCE实验床的关键技术(7) • 虚拟资源层:接收来自任务代理层下发的任务,执行任务并按照要求反馈结果;发布自身资源状态信息,支持资源代理层、运行监测层各信息采集方按需进行采集,主要包括: • 海量、异构资源为多样化应用提供统一服务模式:研究虚拟化技术来屏蔽异构资源的差异性,从而为上层应用提供统一的服务接口与模式

  24. iVCE实验床的关键技术(8) • 大规模资源状态信息及时发布:研究多维度的资源发布机制实现对大规模资源状态信息的及时发布技术,供各信息采集方按需进行采集,为大规模资源和用户行为的统计分析、虚拟计算环境的性能测量、故障检测和行为分析、实验床的状态监控与维护管理等提供基础数据 • 系统资源类信息:如资源的CPU、内存、磁盘、操作系统、网络带宽、I/O速率等 • 应用级信息:应用服务种类、信誉等级、已经完成及正在处理的任务信息等应用级信息

  25. 目录 1 2 3 4 网络信息安全业务特点及计算需求 基于虚拟计算环境的计算模式 iVCE计算面临的挑战 目前运行情况及典型案例

  26. iVCE计算与云计算的本质差异 • iVCE计算模式与目前广泛采用的云计算模式有着显著的不同,具体表现在 • 资源从属于多管理域 vs  资源从属于单一管理域 • 资源高度分布 vs 资源高度集中 • 低速网络互连 vs 高速网络互连 • 可靠性完全无法保证 vs 能够保持较高的可靠性 • 数据无共享/极低共享 vs  数据高度共享 • 迭代高延迟 vs 迭代低延迟 • …… • 上述差异决定着iVCE计算效能的评价比云计算效能评价更为复杂,影响的因素更多、更难以预料

  27. 挑战一:任务调度效率与iVCE资源利用率评价问题挑战一:任务调度效率与iVCE资源利用率评价问题 • 在iVCE计算中,大量的应用系统共享各种资源,如何使这些应用获得最好的性能,并使整个虚拟计算平台的资源利用率达到最高,需要研究对调度机制的有效性和效率的评价方法 • 需求多样化的任务在属性多样化的虚拟资源上的高效调度评价 • 挑战二:计算可靠性评价问题 • 如何用不可靠的计算资源来满足不同可靠性等级应用的运行需要

  28. 挑战三:任务分发/结果回收效率评价问题 • 随着业务规模和计算强度的增长,大规模的任务分发/结果回收将成为系统运行的瓶颈 • 挑战四:跨多管理域的资源弹性、动态扩展与可信性计算问题 • 跨多个管理域的资源弹性、动态扩展 • 跨多个管理域和角色的可信性评价问题

  29. 挑战五:业务建模问题 • 公共功能组件难以共享,存在重复开发问题,无法为上层新业务提供快速灵活的构建方式 • 每个业务独立运行,从任务下发到回传数据都是独享,是种“管状”的结构,服务与数据没有得到合理复用

  30. 业务建模,生成有向无环图 应用层 调度算法,将有向无环图中节点按照一定逻辑对应到资源层中具体执行的元件 任务层 资源调度:资源层中的元件,找到匹配的虚拟资源进行实现 资源层

  31. 目录 1 2 3 4 网络信息安全业务特点及计算需求 基于虚拟计算环境的计算模式 iVCE计算面临的挑战 目前运行情况及典型案例

  32. iVCE实验床概况--原理

  33. iVCE实验床概况--任务下发

  34. iVCE实验床概况--结果回收

  35. iVCE实验床概况--虚拟资源

  36. iVCE实验床概况--虚拟任务

  37. Thank You !

More Related