1 / 74

第四章 业务连续性 Business Continuity

第四章 业务连续性 Business Continuity. 存储技术基础 Storage Technology Foundations 北京大学信息科学技术学院 网络与信息系统研究所 系统虚拟化及空间信息技术实验室( http://gis.pku.edu.cn ). 本章目标及内容. 企业需要提供不间断的服务,而不可避免的各种灾难也使得数据的容灾与恢复变得极为重要。本章介绍了信息的备份、恢复等基本概念,讲解了在业务连续性的需求下,存储解决方案是如何满足苛刻的业务连续性要求的。另一方面,面对灾难下的数据备份与恢复也是本章主要介绍的内容。 本章内容包括 4 个方面:

Download Presentation

第四章 业务连续性 Business Continuity

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第四章 业务连续性Business Continuity 存储技术基础 Storage Technology Foundations 北京大学信息科学技术学院 网络与信息系统研究所 系统虚拟化及空间信息技术实验室(http://gis.pku.edu.cn)

  2. 本章目标及内容 企业需要提供不间断的服务,而不可避免的各种灾难也使得数据的容灾与恢复变得极为重要。本章介绍了信息的备份、恢复等基本概念,讲解了在业务连续性的需求下,存储解决方案是如何满足苛刻的业务连续性要求的。另一方面,面对灾难下的数据备份与恢复也是本章主要介绍的内容。 本章内容包括4个方面: 4.1 业务连续性概述(Business Continuity Overview) 4.2 备份与恢复(Backup and Recovery) 4.3 业务连续性:本地复制(BC: Local Replication) 4.4 业务连续性:远程复制(BC: Remote Replication)

  3. 一、业务连续性概况 Business Continuity Overview http://ncis.pku.edu.cn

  4. 业务连续性概况 通过本节学习,你将了解: • 业务连续性与灾备恢复(Disaster Recovery)的差别 • 灾备恢复与灾备重启(Disaster Restart)的差别 • 恢复点目标(RPO, Recovery Point Objective )和恢复时间目标( RTO, Recovery Time Objective )的概念 • 业务连续性规划的高层次描述 • 明确单点故障(SPF, Single Points of Failure)并了解避免SPF的解决方案 http://ncis.pku.edu.cn

  5. 什么是业务联系性 • 业务连续性是指针对哪些对业务操作有负面影响的应用中断所做的准备、响应和恢复。 • 业务连续性的解决方案关注于系统的不可用、应用系统性能的降低以及不可接受的恢复策略等。 http://ncis.pku.edu.cn

  6. 为什么需要关注业务连续性 Lost Productivity Lost Revenue Know the downtime costs (per hour, day, two days...) • Number of employees impacted (x hours out * hourly rate) • Direct loss • Compensatory payments • Lost future revenue • Billing losses • Investment losses Damaged Reputation Financial Performance • Customers • Suppliers • Financial markets • Banks • Business partners • Revenue recognition • Cash flow • Lost discounts (A/P) • Payment guarantees • Credit rating • Stock price Other Expenses Temporary employees, equipment rental, overtime costs, extra shipping costs, travel expenses...

  7. 信息的可用性 • Protection from data loss • Ensuring data access • Appropriate data security • Information availability depends upon robust, functional IT systems.

  8. 业务连续性及其规划的重要性 Millions of US Dollars per Hour in Lost Revenue 1.1 Retail 1.2 Insurance 1.3 Information technology 1.5 Financial institutions 1.6 Manufacturing 1.6 Call location 2.0 Telecommunications 2.6 Credit card sales authorization 2.8 Energy 3.6 Point of sale (POS) 6.5 Retail brokerage Source Meta Group, 2005

  9. 恢复点目标(RPO) 在系统中断后,在Recovery Point Objective(RPO)时间点之前的系统状态和相关数据都必须被恢复。RPO定义了业务可以容忍的数据损失的多少。 Wks Days Hrs Mins Secs Secs Mins Hrs Days Wks Recovery Point Recovery Time Recovery Point Recovery Time Asynchronous Replication Synchronous Replication Asynchronous Replication Synchronous Replication Periodic Replication Periodic Replication Tape Backup Tape Backup

  10. 恢复时间目标(RTO) 在系统中断后,整个系统、应用或功能在多长时间后可以恢复。 RTO(Recovery Time Objective )定义了业务可以容忍多长时间的服务中断。 Wks Days Hrs Mins Secs Secs Mins Hrs Days Wks Recovery Point Recovery Time Recovery Point Recovery Time Manual Migration Tape Restore Manual Migration Tape Restore Global Cluster Global Cluster • Recovery Time includes: • Fault detection • Recovering data • Bringing apps back online

  11. 灾备恢复 vs. 灾备重启 • 多数关键业务应用都存在一定程度的数据相互依赖关系 • 灾备恢复 • 恢复先前的数据副本,并通过日志回放使数据回到一个明确的数据一致性得到保证的状态点上。 • 一般来说都隐含的使用了备份技术 • 把数据复制到磁带上并存放在异地 • 在恢复过程中需要人工干涉 • 灾备重启 • 重启数据和应用的状态一致的镜像 • 通过在DBMS初始化过程中利用自动化日志恢复,使得所有的协同工作的DBMS重新启动到一个公共的一致的状态点 • 重启所需要的时间应该和系统掉电后重新启动所用的时间相当

  12. 数据可用性的影响因素 • Disaster (<1% of Occurrences) • Natural or man made • Flood, fire, earthquake • Contaminated building • Unplanned Occurrences (13% of Occurrences) • Failure • Database corruption • Component failure • Human error • Planned Occurrences (87% of Occurrences) • Competing workloads • Backup, reporting • Data warehouse extracts • Application and data restore Source: Gartner, Inc.

  13. 业务中断的原因 Human Error System Failure Infrastructure Failure Disaster

  14. 业务连续性 vs. 灾备恢复 • 业务连续性更关注于避免业务中断: • 预测性技术来识别风险 • 维持业务功能的程序 • 灾备恢复着眼与恢复: • 在有害事件发生后所采取的将实体恢复到其正常功能状态的活动

  15. 业务连续性规划(BCP) BCP(Business Continuity Planning)包括下列活动 • 确定关键业务功能 • 收集当前业务过程的数据 • 评估、区分、减小和管理风险 • 风险分析(Risk Analysis) • 业务影响分析(BIA, Business Impact Analysis) • 设计并制定意外事故计划和灾备计划 (DR Plan) • 培训、测试及维护

  16. Objectives Implement, Maintain, and Assess Analysis Train, Test, and Document Design Develop 业务连续性规划的生命周期

  17. BCP的生命周期 1. 目标 确定业务连续性需求与目标(包括范围和预算) 团队选择(包括所有业务与专题领域的专家(内部/外部)) 制定项目计划 2. 分析 收集数据、业务流程、基础设施支持、依赖性、使用频度等相关的信息 识别关键需要,设置恢复优先性 进行风险分析并尽可能制定出化解风险的策略 完成业务影响分析(BIA, Business Impact Analysis ) 做花费/收益分析—明确当数据不可用时在业务上的每日(时)开销 评估各种选择

  18. BCP的生命周期 3. 设计和开发BCP规划和 确定角色和职责 设计意外事件场景 开发应急响应程序 恢复,重启和修复业务流程 设计数据保护策略并搭建基础设施 实现风险管理并减轻程序过程 4. 培训,测试并完成文档 5. 实施、维护和评估

  19. 业务影响分析(BIA)

  20. IP 确定单点故障 Primary Node User & Application Clients Storage Systems Architecture - Introduction

  21. HBA HBA失效 • 配置多个HBA设备,防备失效的HBA被发给 • 可提供增强的性能(依赖于供应商) HBA HBA Port Port HBA Switch Host Storage Storage Systems Architecture - Introduction

  22. 交换机及存储阵列端口失效 • 配置多个交换机 • 通过多存储阵列端口保证设备的可用性 HBA HBA Port Port HBA HBA Port Port Host Switch Storage

  23. 硬盘失效 • 采用一定等级的RAID HBA HBA Port Port HBA HBA Port Port Host Switch Storage

  24. 主机失效 • 用集群防护主机失效的影响 HBA HBA Port Port HBA HBA Port Port Host Switch Storage Storage Host

  25. Storage 站点/存储阵列失效 • 远程副本防护整站失效和存储阵列失效 HBA HBA Port Port HBA HBA Port Port Host Switch Storage

  26. IP IP 单点失效解析 Redundant Disks (RAID 1/RAID 5) Redundant Paths Redundant Network Primary Node Clustering Software User & Application Clients Switches Keep Alive Failover Node Redundant Site Storage Array Storage Array

  27. 业务连续性解决方案 • 本地复制 • 远程复制 • 备份/恢复

  28. 本地及远程副本 • 从工作设备把数据复制到一组副本设备上 • 副本设备上经过一定时间后将拥有和原工作设备向同的数据 • 后续数据复制可被终止。此时副本设备上的数据可被独立使用 • 在数据损毁或其他事件发生后,副本可被用于恢复操作 • 进一步,副本设备上的数据还可备份到磁带,这可避免在工作设备进行备份操作带来的开销

  29. 备份/恢复 • 备份到磁带曾是保证数据可用性和业务练习性的首要方法 • 低成本、高容量硬盘驱动器现在也被用于备份到磁盘,这会显著提高备份恢复的速度 • 备份的频度由所明确的RPO/RTO需求及数据变化率决定

  30. 小结 • 业务连续性的重要性 • 失效的类型及其对业务的影响 • 业务连续性规划及灾备恢复 • RPO和RTO的定义 • 灾备恢复和灾备重启的差别 • 确定并避免单点失效 Storage Systems Architecture - Introduction

  31. 二、备份与恢复 Backup and Recovery http://ncis.pku.edu.cn

  32. 备份与恢复 • “规划备份与恢复”的最佳实践 • 备份与恢复策略所关注的数据类型及公共媒介 • 一般的备份与恢复的拓扑关系 • 备份与恢复程序 • 备份与恢复中的管理考量 Backup and Recovery

  33. 本节内容 • 规划备份与恢复 • 备份与恢复的方法 • 备份系统结构的拓扑关系 • 管理备份过程 Backup and Recovery

  34. 规化备份与恢复 • 备份与恢复的定义 • 备份和恢复计划的一般缘由 • 介绍备份与恢复中的业务考量 • 定义RPO和RTO • 介绍备份与恢复中的数据考量 • 备份与恢复的规划 Backup and Recovery

  35. 什么是备份 • 备份是数据的另一份额外的副本,此副本可用于恢复等目的 • 备份数据在主数据丢失或损毁后使用 • 备份数据可生成为: • 简单拷贝 (可以有一到多个副本) • 镜像拷贝 (备份数据在主数据发生变动时进行更新)

  36. 备份与恢复策略 可以有多种方法把数据备份到备份媒介上: • 数据复制 • 基于镜像(或快照)的复制 • 远程备份 • 复制后再备份或远程备份

  37. 所有的都是为了恢复! • 企业备份业务数据,使得在数据意外损害时可使用备份进行恢复 • 企业备份数据还是为了满足业务监管的需要 • 派生出来的备份的分类: • 灾备恢复 • 存档 • 操作

  38. 需要备份计划的原因 • 硬件失效 • 人为错误 • 应用程序失效 • 安全漏洞 • 天灾 • 监管和业务上的需要

  39. 如何备份? • 客户端/服务器角色划分 • 服务器 • 指导操作 • 维护备份目录 • 客户端 • 收集备份数据(备份客户端把要备份的数据发给备份服务器或存储设备 • 存储节点

  40. 如何备份? Clients Servers Backup Clients Backup Server& Storage Node MetadataCatalog Data Set DiskStorage TapeBackup

  41. 业务上的考虑 • Customer business needs determine: • 什么是恢复需求– RPO & RTO ? • 何时何地进行恢复? • 最常见的恢复请求? • 需要备份哪些数据? • 备份数据的频度 • 时, 日, 周, 月 • 备份需要花多少时间? • 做几个备份副本? • 这些副本需要保存多长时间?

  42. 数据方面的考虑,文件的特性 • Location • 备份中数据的各个子集如何同步 • 这些应用是如何被恢复的 • Size • 单个大文件 • 众多小文件 • Number • 大量对文件系统访问对系统性能的影响 • 查找时间/媒介的影响

  43. 数据方面的考虑: 数据压缩 可压缩性取决于数据的类型: • 应用程序二进制数据 • 压缩性不好. • 文本 • 压缩性很好. • JPEG/ZIP 文件 • 基本上无法再压缩

  44. 数据方面的考虑: 保持时间 • 操作上 • 能满足大多数恢复请求的数据集存放到主媒介(硬盘)上,过了时间点的数据转存到二级存储上(磁带) • 灾备恢复 • 由所制定的灾备恢复策略决定 • 便携媒介(磁带) 可被送往站外 • 在另外的站点做数据的副本 • 直接备份到远程站点(disk, tape or emulated tape). • 存档 • 由组织结构的策略决定 • 适应监管的需求

  45. 小结 • 备份与恢复的定义及例子 • 备份与恢复的一般原因 • 业务上对备份和恢复的考虑 • RPO/RTO目标 • 备份和恢复在数据上的考虑 • 备份与恢复计划 Backup and Recovery

  46. 备份与恢复的方法 • 介绍热备份和冷备份 • 定义备份的粒度 Backup and Recovery

  47. 数据库备份方法 • 热备: 业务处理不会被打断 • 冷备: 业务处理需要暂停 • 备份代理管理对不同数据类型的备份进行管理: • 结构化数据(such as databases) • 半结构化数据(such as email) • 无结构数据(file systems)

  48. Full Backup 备份粒度和级别 Cumulative (Differential) Incremental Full Cumulative Incremental

  49. Key Features Files that have changed since the last full or incremental backup are backed up. Fewest amount of files to be backed up, therefore faster backup and less storage space. Longer restore because last full and all subsequent incremental backups must be applied. Monday Tuesday Wednesday Thursday Files 1, 2, 3 File 4 File 3 File 5 Files 1, 2, 3, 4, 5 Full Backup Incremental Incremental Incremental Production 恢复增量保持数据

  50. Key Features More files to be backed up, therefore it takes more time to backup and uses more storage space. Much faster restore because only the last full and the last cumulative backup must be applied. Monday Tuesday Wednesday Thursday Files 1, 2, 3 File 4 Files 4, 5 Files 4, 5, 6 Files 1, 2, 3, 4, 5, 6 Full Backup Cumulative Cumulative Cumulative Production 恢复累积多次进行恢复

More Related