1、灾难备份系统灾难备份系统的规划与设计第1章 灾备系统建设的基本考虑 11.1 灾备系统建设的重要性 11.2 如何规划灾备系统的建设 31.2.1 风险评估(RA) 31.2.2 业务影响分析(BIA) 41.2.3 恢复时间目标(RTO)和恢复点目标(RPO) 41.3 小结 5第2章 目前常用的灾备技术简介 62.1 数据的备份和恢复 62.2 基于磁盘阵列的数据远程复制 62.3 基于数据卷的数据远程复制 72.4 几种常用的远程数据复制技术特性比较 8第3章 高性能数据复制技术详解 103.1 EMC公司的SRDF磁盘阵列数据复制工具 103.1.1 产品概述 103.1.2 SRDF
2、工作原理 113.1.3 使用SRDF建立灾难备份中心的建议 153.2 VERITAS公司的VVR数据复制工具 163.2.1 产品概述 163.2.2 VVR工作原理 173.2.3 VVR系统建立灾难备份系统的考虑 203.3 两种数据复制技术的比较 20第4章 综述 22第1章 灾备系统建设的基本考虑1.1 灾备系统建设的重要性在当今的信息社会,企业信息系统持续可靠的运转面临着越来越严峻的挑战,恐怖事件、自然灾害和人为因素都可能导致系统瘫痪和关键数据的丢失。在企业对信息的依赖性越来越强的今天,数据已成为企业的生命源泉。建设灾备系统可以有效的保证企业信息系统的业务连续性,当然实现灾难备份
3、可以使用的技术多种多样、投资量差别很大,实现的灾备效果也千差万别,下面是国际标准SHARE 78 定义的容灾系统有七个层次:从最简单的仅在本地进行磁带备份,到将备份的磁带存储在异地,再到建立应用系统实时切换的异地备份系统,恢复时间也可以从几天到小时级到分钟级、秒级或零数据丢失等。1 Tier 0 被定义为没有信息存储的需求,没有建立备援硬件平台的需求,也没有发展应急计划的需求,数据仅在本地进行备份恢复,没有数据送往异地。这种方式是最为低成本的灾难恢复解决方案,但事实上这种灾难恢复并没有真正灾难恢复的能力,因为它的数据并没有被送往远离本地的地方,而数据的恢复也仅是利用本地的记录。2 Tier 1
4、 是灾难恢复方案需要设计一个应急方案,能够备份所需要的信息并将它存储在异地,然后根据灾难恢复的具体需求,有选择地建立备份平台,但事先并不提供数据处理的硬件平台。具体操作方法为数据在完成备份之后,备份介质将会被送到远离本地的地方,同时具备有数据恢复的程序。在灾难发生后,一整套安装需要在全新的计算机系统上重新完成。系统和数据将被恢复并重新与网络相连。这种灾难恢复方案相对来说成本较低(仅仅需要传输工具的消耗以及存储设备的消耗)。但同时有难于管理的问题,即很难知道什么样的数据在什么样的地方。一旦系统可以工作,标准的做法是首先恢复关键应用,其余的应用根据需要恢复。这样的情况下,恢复是可能的,但需要一定的
5、时间,这依赖于什么时候硬件平台能够被提供准备好。3 Tier 2相当于是tier1再加上具有热备份能力的SITE的灾难恢复。热备份SITE拥有足够的硬件和网络设备去支持关键应用的安装需求。对于十分关键的应用,在灾难发生的同时,必须在异地有正运行着的硬件提供支持。这种灾难恢复的方式依赖于用PTAM的方法去将日常数据放入仓库,当灾难发生的时候,数据再被移动到一个热备份的SITE。虽然移动数据到一个热备份SITE增加了成本,但却明显降低了灾难恢复的时间。4 Tier 3 是在Tier 2的基础上用电子链路取代了磁带运输来进行数据传送的灾难恢复。接收方的硬件必须与主SITE物理地相分离,在灾难发生后,
6、存储的数据用于灾难恢复。由于热备份SITE要保持持续运行,因此增加了成本。但确实是消除了传输工具的需要,提高了灾难恢复的速度。5 Tier 4 这种灾难恢复要求两个SITE同时处于活动状态并管理彼此的备援数据,允许备援行动在任何一个方向发生。接收方硬件必须保证与另一方平台物理地相分离,在这种情况下,工作负载可以在两个SITE之间被分担,SITE 1成为SITE 2 的备份,反之亦然。在两个SITE之间,彼此的在线关键数据的拷贝不停地相互传送着。在灾难发生时,需要的关键数据通过网络可迅速恢复,通过网络的切换,关键应用的恢复时间也可降低到了小时级或分钟级。6 Tier 5 在Tier 4的基础上在
7、镜像状态上管理着被选择的数据(根据单一commit范围,在本地和远程数据库中同时更新数据),也就是说,在更新请求被认为是满意之前,Tier 5需要应用SITE 与备援SITE的数据都被更新。我们可以想象这样一种情景,数据在两个SITE 之间相互映象,由远程two-phase commit来同步,因为关键应用使用了双重在线存储,所以在灾难发生时,仅仅传送中的数据被丢失,恢复的时间被降低到了分钟级。7 Tier 6 可以实现0数据丢失率,同时保证数据立即自动地被传输到备援SITE。Tier 6被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力。T
8、ier 6是灾难恢复中最昂贵的方式,但也是速度最快的恢复方式。近几年银行业数据和业务大集中的完成,建立灾备系统已经提上了许多银行的意识日程,某些先行者比如中国工商银行和兴业银行已经建成了Tire 4级的灾难备份系统,人民银行也明确要求实施了数据集中的银行必须建设相应的灾难备份中心,由此可见灾难备份系统必将大量的得到实施。1.2 如何规划灾备系统的建设目前国内的IT界往往存在一种认识的误区,好像一提到灾备系统就要是基于高档磁盘阵列、远程光纤连接的两个站点进行实时的数据传输系统等,需要很高的投资和大量的维护费用。根据share 78国际标准关于灾备系统的分级,我们知道实际上针对企业的类型、数据的重
9、要程度、数据的容量以及应用模式的特点来选择不同的方式来建设自己的灾备系统,这样既可以保证业务系统数据的安全,又可以减少盲目的不必要的投资和开销。用户在建立灾难备份系统之前可以采用下述方法来方案的制定和规划:1.2.1 风险评估(RA)风险评估的目的是针对当前核心业务流程,系统环境和所存在的潜在风险确定系统可恢复能力级别,确定当前业务环境中的客观存在的威胁和薄弱环节,提供在现有条件下,降低风险和改进薄弱环节的建议,提供改善可恢复能力级别的有效方案。一般来说,人们可将灾难分成下面几个类型:自然灾难(洪水、飓风、地震),外在事件(电力或通讯中断)、技术失灵(电脑宕机或网络受损)及设备受损(火灾)等,
10、由于商业系统会因为计算机系统和网络的紧密连接而受到很大影响,用户IT系统蒙受的冲击及财务损失可能如同灾难本身一样可怕。因而,无论导致网络瘫痪的原因是地震,还是磁盘失效,容灾都可以帮助人们将损失降低到最小。根据有关信息,目前发生过的灾害主要有停电、机房漏水、数据库崩溃,最可能的灾害主要有火灾和台风(沿海省份),地震(地震多发带,如云南)可能导致数据中心长时间瘫痪(一般必须进行容灾切换),其他导致业务停顿的常见故障有电源发生故障、软硬件故障、消防系统和空调系统等机房环境告警、以及一些人为因素误操作(一般在可忍受的时间内本地修复)。1.2.2 业务影响分析(BIA)BIA是用以确定当不可预见的故障或
11、灾害发生时,给经济上和业务操作上所造成的影响的完整分析方法和流程。业务影响的确定标准可分为定量(quantitative)的和定性的(qualitative)两种。定量的计算方法可以被表示成一个数字,一个公式例如ALE(年度化的损失公式),最简单的计算公式可以列成以下形式:B=f(Ee)-c其中, f代表灾难发生频率 E代表不加控制的灾难损失 e代表控制下的灾难损失 B代表受益 c代表维持控制的费用本公式仅表示出了最简单的一种计算方法,在实际的分析中可能会采用更复杂的计算方法。实际的业务影响还有很多是无法定量计算的,例如对投资人的投资兴趣影响、对客户忠诚度的影响,品牌形象的损失等等,这些多可以
12、归类给定性分析。1.2.3 恢复时间目标(RTO)和恢复点目标(RPO)作为风险分析的一部分,业务连续性项目组必须估计业务需要多久可以恢复,业务数据可以容忍怎样程度的损失。这其实就是恢复时间目标(Recovery Time Object 简称RTO)和恢复点目标(Recovery Point Object 简称RPO)。1.3 小结随着IT技术在国内各行各业使用的不断增加,用户对建立灾难备份系统的需求越来越强烈。用户在规划自己的灾难备份系统时,首先应当遵照share 78国际标准的定义,根据自身的实际情况确定究竟应当建立哪一个级别的灾难备份系统。同时根据自身的实际条件进行风险评估、业务影响分析
13、和恢复时间目标和恢复点目标的定义,除此之外还需要深入分析应用系统的特点确定需要建立灾难备份系统的规模和容量等。清晰明确的确定上述参数将有效的决定IT系统灾难备份系统的工作,因此在建立灾难备份系统不仅仅是信息管理部门的工作,而是整个企业共同参与的过程,这样才能够得到一个最佳的灾难备份系统。第2章 目前常用的灾备技术简介2.1 数据的备份和恢复对于一些中小型企业的IT应用系统或者RTO和RPO要求很低,业务连续性要求不高,投资规模较小的情况下采用备份和恢复来实现灾难备份是一个非常好的选择,能够达到第三级灾难备份要求。利用数据备份系统实现灾难备份需要包括数据备份系统、磁带库设备和离线磁带管理系统等部
14、分组成,工作原理是备份系统通过定期的数据备份将关键的数据备份到磁带库中,通过离线磁带管理系统将备份数据复制到另外的磁带中,然后把复制的磁带出库,离线的磁带通过卡车运送到企业预选建立的磁带存放地,所以对离线磁带的管理都通过独立的管理系统实现,通过这样一套系统就可以实现基本的企业数据灾难备份系统,比如经典的备份数据冗灾系统可以采用VERITAS公司的备份软件Netbackup和离线管理软件Vault再加上磁带库设备就可以实现。磁带备份方式最大的缺点是速度慢周期长,无法满足用户大数据量数据恢复及数据库连续性,实时性的要求。2.2 基于磁盘阵列的数据远程复制在RTO和RPO要求很高的情况下,一般要求用
15、户建立两个数据中心,主中心和备份中心。正常情况下,应用运行在主数据中心的计算机系统上,数据也存放在主中心的存储系统中,主中心的存储系统保存的数据通过通讯链路实时的复制到备份中心的存储系统中,保证主、备中心数据的实时一致性。当主中心无法正常工作时,备份中心可以立即接管业务,并且确保数据的最大完整性。实现这种灾难备份系统需要有一些条件:1 企业的数据集中存放在一个或少数几个高档磁盘阵列产品上。2 在主中心和备份中心需要配置规模相近的磁盘阵列产品。3 在主中心和备份中心之间为存储系统建立独占的高速通讯链路,一般需要采用一对独立的光纤或通过DWDM设备提供一对光波。采用这种数据复制方法一般要求用户具有
16、比较大型的数据中心和比较复杂的应用系统(比如大型数据库系统),这样用户对数据的依赖程度和能够忍受的数据丢失非常小,这样可以采用这种方式,目前国外和国内的很多大型信息系统的灾难备份系统都是基于这种结构实现的,比如在911事件中很多公司就是因为采用了基于这种灾备方式将损失减少到最小。目前在业界得到认可的这方面的产品包括EMC公司的SRDF和HDS公司的ShadowImage。2.3 基于数据卷的数据远程复制近几年服务器的处理速度得到了大大的提高,这样使基于卷的数据复制技术的性能得到很大的提升,从而使用户可以选择使用基于数据卷复制功能的灾难备份系统。数据卷复制的原理是利用运行于服务器上的卷管理软件收
17、集所有对卷的写入操作,卷管理软件通过IP网络将所有写入卷数据传输到备份中心数据服务器的卷管理软件,然后远端的卷管理软件将接受到的数据按照写入的顺序存入磁盘。通过卷复制方式同样可以实现快速的数据复制,而对生产系统不会产生很大的影响,同时由于数据传输依赖目前使用最多的IP网络,因此对灾备系统的建设和维护都非常方便并可以极大地降低在通信线路上的投资,因此在建设远距离灾备中心方面很有优势。建设这种灾备系统需要一些条件:1 进行数据备份的服务器的操作系统必须一致,Windows 2000操作系统和Solaris操作系统之间不能建立这种灾备系统。2 建立数据复制的服务器必须运行相同的卷管理软件。3 主中心
18、和灾难备份中心间必须有相对高速的IP网络互联,否则将影响数据复制的效果。采用这种数据复制方法比较适合于建立Tire 4灾难备份系统,主中心和备份中心都提供服务同时它们之间的数据又需要互为备份,这样两个中心都配置了相同品牌相近规格的服务器。另外两个中心都配备了系统维护人员,因此可以及时监控和维护数据复制中出现的各种问题,避免由于主机操作系统或卷管理软件的不稳定导致灾备系统失败。随着目前灾备系统的发展,越来越多的用户建设了Tire 4灾难备份系统,因此采用卷管理灾难备份方式可以有效地满足这种趋势。目前在业界使用比较多的卷管理数据复制方式的产品包括VERITAS公司的VVR和富士通公司的TDMF。2
19、.4 几种常用的远程数据复制技术特性比较对于上面介绍的远程数据复制技术,针对实际使用的特性列表比较见表 21:表 21几种数据复制技术对比对比项目备份/恢复存储阵列的远程复制工具数据卷的远程复制工具RTO、RPO的效果差好较好建设成本低高较高通信带宽要求无高较高与生产系统的兼容性好较好较差备份站点数据恢复速度慢快快灾难发生后损失的数据多少少对生产系统性能的影响少较少较多通过上面的表格,可以看出在利用上述数据复制技术来满足用户建立灾难备份系统时可以根据实际的使用情况来选择。对于小规模的应用,每天的数据量增长不大,可以选择比较便宜的备份/恢复方式;对于大型应用系统数据量和每天的数据增长量都非常大,
20、这些系统也往往配置了高性能的企业级磁盘阵列或卷管理软件,那么采用基于磁盘阵列或数据卷的数据远程复制技术是非常好的选择;对于那种所以数据均保存在数据库的应用系统,采用基于应用软件的数据远程复制工具来实现。这些技术中目前由于磁盘阵列或卷管理数据复制存在着数据复制的实时性好、应用系统适应性广泛等优点成为目前灾难备份系统建设的主力军,下面我们重点介绍一下这两种技术。第3章 高性能数据复制技术详解3.1 EMC公司的SRDF磁盘阵列数据复制工具3.1.1 产品概述SRDF(Symmetrix Remote Data Facility)是EMC公司提供的基于其高档磁盘阵列产品Symmetrix系列的一种数
21、据复制工具,能够在磁盘阵列间实现数据的远程复制。EMC SRDF是迄今为止业界唯一能够同时为大型机、UNIX、Windows NT和AS/400等系统提供完整的业务持续性能力的解决方案。自从其1994年问世以来,EMC存储管理软件已经帮助许多公司管理计划内的数据中心事件(如按计划维护,每日数据备份,数据迁移和应用测试),同时它也负责从突发故障(如数据灾难)中恢复数据。SRDF是一个在线的并且独立于主机的数据镜像信息存储解决方案。它可以将生产现场的数据复制到一个或多个物理上分离的Symmetrix目标系统上。这些系统可以跨越大楼,远至世界各地。1. 支持所有主流服务器,大机(Mainframe)
22、和开放系统能同时使用SRDF;2. 基于磁盘阵列自身功能,与操作系统、应用软件无关、对主机影响小;3. 同时支持同步、半同步、异步等数据传输模式;4. 通过网络系统的支持,SRDF镜像的距离可以到几千公里的距离;5. 与Symmetrix微码、TimeFinder进行良好配合,实现生产数据的灵活应用,例如:利用BCV卷实现生产数据备份、隔日数据查询、数据仓库等应用;6. 支持不同通信协议,包括ESCON、T1/E1、T3/E3、ATM、IP、DWDM,FC等;7. 配置灵活、实施简单、操作方便;正是上述这些优点以及十几年来建立在大量用户使用的经验上,SRDF系统已经成为目前最多的磁盘阵列数据复
23、制产品,下面详细介绍一下SRDF的技术实现和结构方面的内容。3.1.2 SRDF工作原理SRDF目前主要支持3种主要的工作方式:同步方式(Synchronous Mode)、半同步方式(Semi- Synchronous Mode)和异步方式(Asynchronous Mode或Adaptive Copy Mode),这三种工作方式的大致步骤见图 31所示:图 31 SRDF数据复制流程图同步工作方式如上面的图所示,SRDF的同步工作方式的流程是当本地(源)阵列要写一个I/O的时候,它首先会将数据发到远端的阵列,远端阵列接受到数据后向本地阵列发送确认信息,本地阵列再向主机发送写入成功的确认。通
24、过上面对同步方式工作流程的描述可以知道采用同步工作方式的最大优势是任何应用系统向本地磁盘阵列写入的数据都能够保证写入远端的磁盘阵列,这样可以保证远程复制数据的零丢失,在任何时间本地系统出现故障,在灾备中心保存的数据与生产中心完全一致。同步工作方式最大的好处是可以保证数据的零丢失,对于一些对数据安全要求非常高的用户比如银行、电信和军队等用户非常适合。当然采用同步方式也有一些问题,比如对业务系统的性能会造成影响,两个阵列间的通信线路或备份中心阵列发生故障都会导致整个业务系统的瘫痪,为用户带来巨大的损失。除此之外,为了保证将数据复制对业务系统性能的影响降到最低,同步数据复制要求的数据通信手段必须采用
25、FC通道或ESCON通道通过光纤直连,10KM以内一般采用裸光纤直联,10KM100KM之间一般采用FC或ESCON通道通过DWDM设备驱动可以满足需要,超过100KM则网络传输的延时将与系统读写的时间在同样的量级,用户显然是无法忍受的。在设计同步工作方式的灾难备份系统时,需要注意一些细节:1 用户需要根据EMC公司提供的计算方法计算保证业务系统数据复制所需要的通信线路带宽,由此决定实际需要在生产中心和备份中心之间需要的使用的光纤的数量。2 由于SRDF同步工作方式当通信链路发生故障时会导致生产系统瘫痪,因此必须考虑通信线路的容错问题,可以使用多条链路使用SAN交换机的链路容错或DWDM设备的
26、链路容错能力。3 充分考虑两个阵列设备的软件兼容性,只有EMC公开文档明确支持SRDF运行的微码版本才能发到两端的存储系统上运行,以确保SRDF运作的稳定性和可用性。4 同步方式虽然能够保证数据没有任何丢失,但是却不能保证这些数据对于应用的完整性,也就是说应用系统能否利用备份阵列上的数据立刻恢复正常工作。比如对于容量达到TB级的数据库,如果利用备份磁盘阵列的脏数据进行恢复可能需要很长的时间,显然不能满足RPO和RTO目标,因此对于重要性高、规模大的应用系统必须采用同步数据复制方案。同步工作方式由于存在着写入生产中心磁盘阵列的任何数据都实时的写入备份中心的磁盘阵列中,因此如果生产中心磁盘阵列如果
27、发生人为误操作将会影响备份中心数据的安全,因此在具体设计中往往需要在备份中心配置业务联系卷,定期获取完整数据,这样可以防止人为误操作对数据复制的影响,同步方式SRDF同步系统配置的情况见图 32所示:图 32 SRDF同步复制配置示意图半同步工作方式半同步工作方式实际上是对同步工作方式的一种变通。根据上面的介绍,同步工作方式存在的缺点是数据同步写入完成之前整个系统处于I/O等待的状态,这样会导致应用系统性能下降的问题。半同步方式可以在用户不需要严格保证数据有效性的情况下,很好的解决同步工作方式的缺点。异步工作方式随着灾难备份中心建设的蓬勃发展,用户越来越无法满足建立100公里距离以内灾备中心和
28、一对一灾难备份中心结构,大型企事业单位往往建立相距几千公里的多个数据中心,在这种情况下使用异步工作方式建立灾备中心显然是很好的选择。异步工作方式的工作流程:应用系统的I/O写入磁盘阵列后,本地磁盘阵列一旦接收到数据就向应用发回写入确认,接下来本地阵列将数据写入业务联系卷(BCV),最后业务联系卷再将数据通过通信线路复制到备份中心的磁盘阵列中。采用异步工作方式主要的优点是灾难备份对生产系统没有太大的影响,同时对通信线路带宽没有太大的要求,对生产中心和灾备中心的距离没有任何限制,因此非常适合于建立远程灾备中心时数据复制的工作。一般情况下利用SRDF异步工作方式建立数据复制的方法见图 33所示:图
29、33 SRDF异步方式配置示意图3.1.3 使用SRDF建立灾难备份中心的建议SRDF技术作为高性能数据复制工具中时间长、使用广泛的产品,在9.11事件中得到了很好的测试,EMC公司针对在这些灾难恢复事件中出现的问题和需求对SRDF技术进行了完善和升级。SRDF技术的第一项变更是加强了与业务连续卷(BCV)产品的结合,利用TimeFinder软件与各种关键应用系统(如Oracle数据库和Exchange Server邮件服务器软件)的结合,在进行数据复制时尽量保证业务数据的完整性,从而保证了进行灾难恢复时能够快速恢复业务系统,大大提升了灾备系统的性能,例如在SRDF同步方式的图例中可以看到EM
30、C公司推荐的结构中,仍然建议在备份中心的阵列中配置BCV卷,其目的是当应用系统能够和EMC公司的TimeFinder软件配合创建具有完整性的数据副本时,即使采用同步复制方式仍然建议使用BCV卷中的数据副本来恢复业务系统,从而保证在备份中心能够快速的恢复业务系统。SRDF技术另一个巨大的进步在于对异步复制技术的完善,随着用户对业务连续性要求的提高,创建超过1000公里的远程灾备中心的要求越来越多,而采用同步数据复制所要求的高带宽和低延时显然不能满足远程灾备中心的要求,因此SRDF异步方式可以有效地满足用户的要求。同时EMC公司建议用户采用多级灾难备份中心的方式,即在生产中心附近几十公里内的范围内
31、先创建一个灾备中心通过SRDF同步方式进行数据复制,然后以这个灾难备份中心作为源通过SRDF异步方式与远在几千公里外的远程灾难备份中心建立数据复制,这样可以做到不影响业务系统性能的前提下进一步增加数据可靠性。SRDF技术由于建立在高性能磁盘阵列的基础上,对数据传输的性能要求很高,早期的数据复制通道只能建立在ESCON、FICON和FC等高速存储通信上,这极大的限制了SRDF在上千公里的距离上工作的可能性,但随着近年宽带IP网络的发展,EMC公司发展了基于FCIP技术的千兆以太网接口模块作为SRDF的数据通道,这进一步加强了SRDF在建立远程数据容灾系统的实力。3.2 VERITAS公司的VVR
32、数据复制工具3.2.1 产品概述VERITAS公司的VVR(VERITAS Volume Replication)是一个数据复制软件,能够建立一个高效的灾难备份系统,支持用户在一个或多个地点为关键数据建立完整的拷贝。VVR的工作原理是将对本地主机对卷的写操作复制到远端主机,在一个VVR的环境中最大可以容纳32台主机。VVR的正常工作必须基于VERITAS Volume Manager,数据复制环境必须要求数据复制的两端采用相同操作系统平台的主机。VVR系统的工作原理见图 34所示:图 34VVR数据复制原理图3.2.2 VVR工作原理VVR包含一些保存配置信息的部件包括: Replicated Volume Group(RVG):有写入相关性的多个卷,
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1