480 likes | 686 Views
计算机系统安全 第三讲 计算机系统的可靠性. 第三讲 计算机系统的可靠性. 一、可靠性、可用性和可维修性. 可靠性( Reliability): 指从它开始运行( t=0) 到某时刻 t 这段时间内能够正常运行的概率。在给定的时间间隔和给定条件下,系统能正确执行其功能的概率称为可靠度。. 第三讲 计算机系统的可靠性与容错性. 一、可靠性、可用性和可维修性. 平均无故障时间 MTBF(Meantime Between Failures) 是指两次故障之间能正常工作的平均值。故障即可能是元器件故障、软件故障、也可能是人为攻击造成的系统故障。
E N D
计算机系统安全 第三讲 计算机系统的可靠性
第三讲计算机系统的可靠性 一、可靠性、可用性和可维修性 可靠性(Reliability):指从它开始运行(t=0)到某时刻t这段时间内能够正常运行的概率。在给定的时间间隔和给定条件下,系统能正确执行其功能的概率称为可靠度。
第三讲计算机系统的可靠性与容错性 一、可靠性、可用性和可维修性 平均无故障时间MTBF(Meantime Between Failures)是指两次故障之间能正常工作的平均值。故障即可能是元器件故障、软件故障、也可能是人为攻击造成的系统故障。 可用性(Availability):系统在执行任务的任意时刻能正常工作的概率。系统可用性用可用度来度量。系统在t时刻处于正确状态的概率称为可用度,用A(t)来表示。 A = MTBF / (MTBF + MTRF) ,即: A =平均无故障时间/ (平均无故障时间+平均修复时间)
第三讲计算机系统的可靠性 一、可靠性、可用性和可维修性 可维修性:指计算机的维修效率,通常用平均修复时间(MTRF)来表示。MTRF是指从故障发生到系统恢复平均所需要的时间。 可维修性有时用可维修度来度量。在给定时间内,将一失效系统恢复到运行状态的概率称为可维修度。
第三讲计算机系统的可靠性与容错性 一、可靠性、可用性和可维修性 提高可靠性的方法: 完美性(perfection):提高软硬件的质量,抵御故障的发生。追求一种避错技术。要求各个部件具有高可靠性, 容错性(Fault Tolerance):在故障发生时,系统仍能继续运行,提供服务与资源。这就是所说的“容错能力”。
可靠性 ┌──────┴──────┐ 容错性 完美性 │ ┌───┴───┐ 冗余技术─┬硬件冗余 完美硬件 完美软件 (redundancy)├软件冗余 ├整机完美性 │ | | ├部件完美性 可信软件 | └信息冗余 └器件完美性 | 静态冗余(部件冗余)
第三讲计算机系统的可靠性与容错性 二、完美性 1、硬件的可靠性与完美性 提高可靠性,可以通过元器件的精选、严格的工艺、精心的设计来实现。系统应尽量不出故障,一旦出故障,系统则失效。这种设计是以系统“不出故障”为前提的,故称为“避错设计”。
第三讲计算机系统的可靠性与容错性 二、完美性 2、软件的可靠性与完美性 一般采用统计方式来衡量。在规定的时间周期内在给定条件下执行所要求的功能的程序的能力。
第三讲计算机系统的可靠性与容错性 三、容错性的实现 1、容错的概念 容错技术:在一定程度上容忍故障的技术。也称为故障掩盖技术(fault masking)。 容错系统:采用容错技术的系统。
第三讲计算机系统的可靠性与容错性 三、容错性 1、容错的概念 容错主要依靠冗余设计来实现,以增加资源换取可靠性。由于资源的不同,冗余技术分为硬件冗余、软件冗余、时间冗余和信息冗余。可以是元器件级、部件级的、系统级的冗余设计。 在可靠性与资源消耗之间折衷、权衡。
第三讲计算机系统的可靠性与容错性 容错性的硬件实现 • 硬件冗余: • 增加线路、设备、部件,形成备份 • 堆积冗余:在逻辑域可采用多数表决方案。自动恢复。 • 待命储备冗余:该系统中多个模块,其中只有一块处于工作状态,其余块都处于待命接替状态。当有一个模块发生故障时,立刻将其切除,并代之以无故障待命模块。 • 混合冗余:堆积冗余和待命储备冗余的结合。
第三讲计算机系统的可靠性与容错性 容错性的硬件实现 • 数据备份 • 数据容错的策略就是数据备份,指的是将计算机系统中硬磁盘上的一部分数据转到可脱机保存的介质 (如磁带、软磁盘和光盘 )上 。 • 备份的策略有三种: • 完全备份 • 增量备份 • 差分备份。
第三讲计算机系统的可靠性与容错性 容错性的硬件实现 双CPU容错系统 当一个 CPU板出现故障时,另一个 CPU保持继续运行。这个过程对用户是透明的,系统没有受到丝毫影响,更不会引起交易的丢失,充分保证数据的一致性和完整性。系统的容错结构能够提供系统连续运行的能力,任何单点故障不会引起系统停机,系统提供在线的维护诊断工具可在应用继续运转的情况下修复单点故障。
第三讲计算机系统的可靠性与容错性 容错性的硬件实现 双机热备份 传统的高可靠性系统采用双机热备份方案。两台服务器都处于热机状态,如果一台服务器坏了,另一台服务器可以将所有的业务接管过来。
第三讲计算机系统的可靠性与容错性 容错性的硬件实现 双机热备份 两种工作方式: Online方式:两台服务器都在工作,分别担负不同的任务,均衡负载。成本大,管理难 。 Standby方式:备份机不工作,只是监测作业机的工作状况。缺点:服务器之间切换时间较长。
第三讲计算机系统的可靠性与容错性 容错性的硬件实现 三机表决系统 三台主机同时运行,由表决器 (Voter)根据三台机器的运行结果进行表决,有两个以上的机器运行结果相同,则认定该结果为正确。通常可靠性比双机系统要高。缺点:成本高。 当一台机器出现故障后表决已失去意义,其可靠性甚至比不上一个双机系统。因此当三机中坏掉一台后就当作双机备份系统来用,不再进行表决。
第三讲计算机系统的可靠性与容错性 容错性的硬件实现 集群系统(Clusting) 指均衡负载的双机或多机系统。 DEC公司最早在其 VAX系统上实现了集群技术,多服务器集群系统的主要目的是使用户的应用获得更高的速度、更好的平衡和通信能力,而不仅仅是数据可靠性很好的备份系统。集群系统对于金融、证券等大型关键业务系统是最好选择。
第三讲计算机系统的可靠性与容错性 软件冗余 目的:提供足够的冗余信息和程序,使得能及时发现编程错误,采取补救措施,提高可靠性。 增加程序,一个程序分别用几种途径编写,按一定方式执行,分段或多种表决。 程序由不同的人独立设计,使用不同的方法,不同的设计语言,不同的开发环境和工具来实现。
第三讲计算机系统的可靠性与容错性 三、容错性 3.信息冗余:为检测或纠正信息在运算或传输中的错误而外加的一部分信息。在通信和计算机系统中 ,信息常以编码的形式出现。采用奇偶码、循环码等冗余码就可检错和纠错。
第三讲计算机系统的可靠性与容错性 三、容错性 4.时间冗余:例如检查点 (Check-Point)就属于时间冗余的一种,机器运行的某一时刻称作检查点,此时检查系统运行的状态被存储起来。一旦发现运行故障,就返回到最近一次正确的检查点重新运行。
第三讲计算机系统的可靠性与容错性 三、容错性 容错系统工作方式 1.自动侦测:运行中自动地通过专用的冗余侦测线路和软件判断系统运行情况,检测冗余系统各冗余单元是否存在故障。
第三讲计算机系统的可靠性与容错性 三、容错性 容错系统工作方式 2.自动切换:当确认某一主机出错时,正常主机除了保证自身原来的任务继续运行外,还接管预先设定的后备作业程序,进行后续程序及服务。
第三讲计算机系统的可靠性与容错性 三、容错性 容错系统工作方式 3.自动恢复:故障主机被替换后,进行故障隔离,离线故障修复。修复后通过冗余通信线与正常主机连线,继而将原来的工作程序和磁盘上的数据自动切换回修复完成的主机上。
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID:Redundant Array of Independent (或Inexpensive ) Disks,“独立(廉价)冗余磁盘阵列”。是由加州大学伯克利分校Patterson在1988年提出。RAID——将一组磁盘驱动器逻辑上联系起来,作为一个磁盘驱动器来使用。
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 磁盘阵列有两种方法可以实现:软件阵列与硬件阵列。 1、软件阵列是指通过网络操作系统自身提供的磁盘管理功能将连接的普通SCSI卡上的多块硬盘配置成逻辑盘,组成阵列。软件阵列可以提供数据冗余功能,但是磁盘子系统的性能会有所降低。目前WINDOWS NT和NET WARE两种操作系统都可以提供软件阵列功能。
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 2、硬件阵列是使用专门的磁盘阵列卡来实现的。现在的非入门级服务器几乎都提供磁盘阵列卡,不管是集成在主板上或非集成的都能轻松实现阵列功能。硬件阵列能够提供在线扩容、动态修改阵列级别、自动数据恢复、驱动器漫游、超高速缓冲等功能。磁盘阵列卡拥有一个专门的处理器,一般是Intel的I960芯片,还拥有专门的存贮器,用于高速缓冲数据。这样一来,服务器对磁盘的操作就直接通过磁盘阵列卡来进行处理,因此不需要大量的CPU及系统内存资源,不会降低磁盘子系统的性能。阵列卡专用的处理单元来进行操作,它的性能要远远高于常规非阵列硬盘,并且更安全更稳定。
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 作为一种数据保存手段,RAID提供了专用服务器中接入多个磁盘(专指硬盘)时,以磁盘阵列方式组成一个超大容量、响应速度快、可靠性高的存储子系统。以冗余技术增加其可靠性,以多个低成本磁盘构成磁盘子系统,提供比单一硬盘更完备的可靠性和高性能,RAID被广泛地应用在服务器体系中。
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID的优点 1.成本低,功耗小,传输速率高。在RAID中,可以让很多磁盘驱动器同时传输数据,远远超过单个磁盘驱动器。 2.提供容错功能,因而具有更高的安全性。 3. RAID与传统的大直径磁盘驱动器相比,价格要低
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 例如:RAID系统。部件级容错 IDE Integrated Device Electronics集成设备电路仅支持2个盘 增强型IDE接口可支持4个盘 EIDE 小型计算机系统接口可支持多个盘 7/15个盘 SCSI DAC磁盘阵列控制器可支持多分组多个磁盘 DAC
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID0:无冗余无校验的磁盘阵列 简单将数据分配到各个磁盘上,不提供真正容错性。至少需要2个硬盘,可支持8/16/32个磁盘。整个逻辑盘的数据是被分条(stripped)分布在多个物理磁盘上,可以并行读/写,速度最快,但无容错能力。
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID0:无冗余无校验的磁盘阵列 优点:更好地利用磁盘空间,延长磁盘寿命,多个硬盘并行工作,提高了读写性能。 缺点:不提供数据保护,任一磁盘失效,数据可能丢失,且不能自动恢复。
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID0 示意图 输入数据流 输入数据 磁盘阵列控制器 并行传输 HDD1 HDD2 HDD3 HDD4 HDD5
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 镜象磁盘阵列(RAID1) 每一组盘至少两台,数据同时以同样的方式写到两个盘上,两个盘互为镜象。磁盘镜象可以是分区镜象、全盘镜象。容错方式以空间换取,实施可以采用镜象或者双工技术。主要用在对数据安全性要求很高,而且要求能够快速恢复被损坏的数据的场合。
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID1 示意图 输入数据流 输入数据 磁盘阵列控制器 并行传输 工作盘 镜像盘 工作盘 镜像盘 HDD1 HDD2 HDD3 HDD4 第一组镜象 第二组镜象
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 镜象磁盘阵列(RAID1) 优点:具有最高可靠性,策略简单,恢复数据时不必停机。 缺点:有效容量只有总容量的1/2,利用率50%。由于磁盘冗余,成本较高。
四、磁盘阵列 循环奇偶校验阵列(RAID5) RAID5是无独立校验盘的奇偶校验磁盘阵列。校验数据不固定在一个磁盘上,而是循环地依次分布在不同的磁盘上。校验信息分布在各个磁盘驱动器上。RAID5对各种大小数据量的读写都有很好的性能,是目前采用最多、最流行的方式,至少需要3个硬盘。
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID5 示意图 输入数据流 输入数据 磁盘阵列控制器 奇偶校验 parity parity parity HDD1 HDD2 HDD3 HDD4 HDD5
四、磁盘阵列 循环奇偶校验阵列(RAID5) 优点: 校验分布在多个磁盘中,写操作可以同时处理。为读操作提供了最优的性能。一个磁盘失效,分布在其他盘上的信息足够完成数据重建。 缺点:数据重建会降低读性能;每次计算校验信息,写操作开销会增大,是一般存储操作时间的3倍。
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 其它形式的磁盘阵列(按照校验方式不同划分) RAID2:并行海明纠错阵列 RAID3:奇偶校验并行位交错阵列 RAID4:奇偶校验扇区交错阵列 RAID6:二维奇偶校验阵列 RAID7:优化的高速数据传送磁盘结构
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID2:并行海明纠错阵列 采用海明冗余纠错码、跨接技术和存储纠错数据方法,数据按位分布到磁盘上。磁盘台数由纠错码和数据盘数决定。磁盘驱动器中的第一个,第二个、第四个,第2n个磁盘驱动器是专门的校验盘,用于校验和纠错,其余的用于存放数据。使用的磁盘驱动器越多,校验盘在其中占的百分比越少。
第三讲计算机系统的可靠性与容错性 HCC HCC HCC HCC HCC HCC HCC HCC HCC 四、磁盘阵列 RAID2 示意图 输入数据流 输入数据 海明校验 磁盘阵列控制器 HDD1 HDD2 HDD3 HDD4 HDD5 HDD6 HDD7
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID3:奇偶校验并行交错阵列 结合跨接技术、存储纠错数据方式,采用数据校验和校正。它访问数据时一次处理一个带区,这样可以提高读取和写入速度。校验码在写入数据时产生并保存在另一个磁盘上。一个盘故障,可根据读出数据内容和奇偶校验位确定出错位置,对数据进行修正和重组,校验方式可采用位交错或字节交错。
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID3 示意图 输入数据流 输入数据 磁盘阵列控制器 奇偶校验 parity parity HDD1 HDD2 HDD3 HDD4 HDD5
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID3:奇偶校验并行交错阵列 优点:速度快,适合较大单位数据的读写。 缺点:不适合小单位数据的读写,校验磁盘没有冗余,若校验磁盘失效,数据很难恢复。
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID4:奇偶校验扇区交错阵列 与RAID3类似,但数据是以扇区交错方式存储于各台磁盘,采用单独奇偶校验盘. 优点:只读一个扇区,只需访问一个磁盘.写一个扇区,只访问一个数据盘和一个校验盘,各磁盘可独立工作,读写并行。 缺点:奇偶盘单独,出错后,数据很难恢复;校验写在一个磁盘上,产生写性能瓶颈.
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID4 示意图 输入数据流 输入数据 Secter交叉 磁盘阵列控制器 奇偶校验 parity parity parity HDD1 HDD2 HDD3 HDD4 HDD5
第三讲计算机系统的可靠性与容错性 四、磁盘阵列 RAID6:二维奇偶校验阵列 将整个磁盘阵列看成一个二维阵列,RAID5只在一组(行)上有奇偶校验盘,而RAID6在各组的同一位置的盘组成的列上也加上了奇偶校验盘。这两个奇偶校验盘形成二维阵列。
第三讲计算机系统的可靠性与容错性 四、磁盘阵列