恢复的7个层次.docx

资源描述

恢复的7个层次.docx

《恢复的7个层次.docx》由会员分享，可在线阅读，更多相关《恢复的7个层次.docx（10页珍藏版）》请在冰豆网上搜索。

恢复的7个层次.docx

恢复的7个层次

灾难保护计划的目的是，确保关键业务持续运行以及减少非计划宕机时间。

所有与容灾方案相关的计划都试图在方案本身、宕机时间和实施方案所需成本三者之间找到一个平衡点。

图1.三者的平衡关系

灾难恢复方案中的恢复时间与下列因素有关：

数据有效性的恢复

IT基础设施的恢复

可操作流程的修复

关键业务的修复

图2.灾难恢复的层次划分

细述7个层次

灾难恢复方案的7个层次提供了一个简单方法论--如何定义当前的服务水平、风险以及期望的服务水平和环境。

0层：

无异地备份数据（nooff-sitedata）

对于使用0层灾难恢复解决方案的业务，可称其为没有灾难恢复计划，主要表现为：

▪数据仅在本地进行备份恢复，没有任何数据信息和资料被送往异地，没有处理意外事故的计划。

▪恢复时间：

在此种情况下，恢复时间不可预测。

事实上也不可能恢复。

例如，目前我们通常在机房内所做的数据备份，备份介质保留在机房内，用于本地的数据恢复。

当灾难发生时，数据备份和设备有可能一同被毁，无法进行恢复。

1层：

有数据备份，无备用系统（databackupwithnohotsite）

使用1层灾难恢复解决方案的业务，通常将需要的数据备份到磁带上，然后将这些介质运送到其它较为安全的地方。

但在那里缺乏能恢复数据的系统，若数据备份的频率很高，则在恢复时丢失的数据就会少些。

此类业务应能忍受几天乃至几星期的数据丢失。

例如，PTAM（PickupTruckAccessMethod）是一种许多数据中心所采用的标准备份方式。

在完成所需的数据备份后，用适当的运输工具将它们送到远离本地的地方，同时备有数据恢复的程序。

灾难发生后，一整套系统安装需要在一台未开启的计算机上重新完成，系统和数据可以被恢复并重新与网络相连。

这种灾难恢复方案相对来说成本较低（仅仅需要运输工具的消耗以及存储设备的消耗）。

但恢复的时间长，且数据不够新。

2层：

有数据备份，有备用系统（DataBackupwithHotSite）

使用2层容灾解决方案的业务会定期将数据备份到磁带上，并将其运到安全的地点。

在备份中心有备用的系统，当灾难发生时，可以使用这些数据备份磁带来恢复系统。

虽然还需要数小时或几天的时间来恢复数据以使业务可用，但不可预测的恢复时间减少了。

2层相当于在1层上增加了备份中心的灾难恢复。

备份中心拥有足够的硬件和网络设备来维持关键应用的安装需求，这样的应用是十分的关键的，它必须在灾难发生的同时，在异地有正运行着的硬件提供支持。

这种灾难恢复的方式依赖于PTAM方法去将日常数据放入仓库，当灾难发生的时候，再将数据恢复到备份中心的系统上。

虽然备份中心的系统增加了成本，但明显降低了灾难恢复时间，系统可在几天内得以恢复。

3层：

电子链接（Electronicvaulting）

使用3层容灾解决方案的业务，是在2层解决方案的基础上，又使用了对关键数据的电子链接技术。

电子链接将磁带备份后更改的数据进行记录，并传到备用中心，使用此种方法会比使用传统的磁带备份更快地得到更新的数据。

所以，当灾难发生后，只有少量的数据需要重新恢复，恢复时间会缩短。

由于备用中心要保持持续运行，与生产中心间的通讯线路要保证畅通，增加了运营成本。

但消除了对运输工具的依赖，提高了灾难恢复速度。

例如，某企业在每天下班后，将当日的流水全部记录下来，通过网络传到备份中心；备份中心在备用系统上，重新将所有业务重做，保证与生产中心的一致性。

这一领域的产品可以分四层：

1）存储设备层：

IBM-ESS-PPRC、IBM-DS4000-RM、EMC-SRDF、HP-EVA-StorageWorksContinuousAccess、FALCONSTOR-IPSTOR、NETAPP等。

2）操作系统及系统软件层：

IBM-GEORM、VERITAS-StorageReplicator/VolumeReplicator、LEGATAL-RepliStor。

3）数据库层：

IBM-DB2-HADR、ORACLE-ORACLE-Replication等。

4）应用程序层：

应用程序开发时考虑到数据的复制。

4层：

使用快照技术拷贝数据（Point-in-timeCopies）

使用4层灾难恢复方案的业务，对数据的实时性和快速恢复性要求更高些。

1-3层的方案中较常使用磁带备份和传输，在4层方案中开始使用基于磁盘的解决方案。

此时仍然会出现几个小时的数据丢失，但同基于磁带的解决方案相比，通过加快备份频率，使用最近时间点的快照拷贝恢复数据会更快。

系统可在一天内恢复。

4层灾难恢复可有两个中心同时处于活动状态并管理彼此的备份数据，允许备份行动在任何一个方向发生。

接收方硬件必须保证与另一方平台在地理上分离，在这种情况下，工作负载可能在两个中心之间分享，中心1成为中心2的备份，反之亦然。

在两个中心之间，彼此的在线关键数据的拷贝不停地相互传送着。

在灾难发生时，需要的关键数据通过网络可迅速恢复，通过网络的切换，关键应用的恢复也可降低到小时级。

支持这种工作方式的产品包括IBM-HAGEO、VARITAS-GlobalClusterManager。

5层：

交易的完整性（TransactionIntegrity）

使用5层灾难恢复方案的业务，要求保证生产中心和数据备份中心的数据的一致性。

在此层方案中只允许少量甚至是无数据丢失，但是该功能的实现完全依赖于所运行的应用。

5层除了使用4层的技术外，还要维护数据的状态-要保证在本地和远端数据库中都要更新数据。

只有当两地的数据都更新完成后，才认为此次交易成功。

生产中心和备用中心是由高速的宽带连接的，关键数据和应用同时运行在两个地点。

当灾难发生时，只有正在进行的交易数据会丢失。

由于恢复数据的减少，恢复时间也大大缩短。

数据库的数据复制功能一般可以工作在这样的方式下：

IBM-DB2-HADR、ORACLE-ORACLE-Replication等。

6层：

少量或无数据丢失（Zeroorlittledataloss）

6层灾难恢复方案可以保证最高一级数据的实时性。

适用于那些几乎不允许数据丢失并要求能快速将数据恢复到应用中的业务。

此种解决方案提供数据的一致性，不依赖于应用而是靠大量的硬件技术和操作系统软件来实现的。

这一级别的要求很高，一般需要整个系统应用程序层到硬件层均采取相应措施。

1）应用程序层采用基于交易（TRANSACTION）的方法开发。

2）数据库可以采取数据复制。

IBM-DB2-HADR、ORACLE-ORACLE-Replication等。

3）操作系统使用集群软件、站点迁移软件、数据复制软件：

IBM-HACMP、VARITAS-GlobalClusterManager等。

4）硬件层使用同步的数据复制：

IBM-ESS-PPRC、IBM-DS4000-RM、EMC-SRDF

或使用带有CONSISTANCY-GROUP功能的异步数据复制IBM-ESS-PPRC、IBM-DS4000-RM。

7层：

解决方案与具体业务相结合，实现自主管理（HighlyAutomated,BussinessintegratedSolution）

7层灾难恢复方案在第6层的基础上，集成了自主管理的功能。

在保证数据一致性的同时，又增加了应用的自动恢复能力，使得系统和应用恢复的速度更快、更可靠（按照灾难恢复流程，手工操作也可实现整个恢复过程）。

7层可以实现0数据丢失率，同时保证数据立即自动地被传输到恢复中心。

7层被认为是灾难恢复的最高级别，在本地和远程的所有数据被更新的同时，利用了双重在线存储和完全的网络切换能力。

7层是灾难恢复中最昂贵的方式，但也是速度最快的恢复方式。

当一个工作中心发生灾难时，7层能够提供一定程度的跨站点动态负载平衡和自动系统故障切换功能。

现在已经证明，为实现有效的灾难恢复，无需人工介入的自动站点故障切换功能需要一个应该纳入考虑范围的重要事项。

在选择灾难恢复解决方案时，非常重要的一点是，解决方案所需的投资在IT商业价值中应占切实可行的部分，任何人都希望用较少的投资换取更多的利益--灾难恢复解决方案的投资一定要少于灾难本身带来的财政损失。

按照下述目标，为一个商业应用选择解决方案时，决定起来就会简单：

（按用户的投入、希望恢复的速度等目标来选择，灾难恢复越快所需的投入就越多）

*恢复时间目标（RTO–RecoveryTimeObjective）

没有应用系统，可以忍受多长时间？

*恢复时间点目标（RPO–RecoveryPointObjective）

系统恢复后，可以允许重新创建多少数据？

*降级操作目标（DOO–DegradedOperationsObjective）

数据中心减少了，会有什么负面影响？

*网络恢复目标（NRO–NetworkRecoveryobjective）

网络切换需要多长时间？

通常，构成应用业务连续可用性的因素只适用于同一机房内的环境。

机房本身就是一个单点故障。

为了抵抗灾难，我们必须选择一种比连续可用性考虑更多的恢复方案。

恢复方案一定是在全面衡量了实施费用、维护费用、灾难对财政的影响，并对业务影响进行了分析后而得出的一个综合方案。

四个关键目标

每一层灾难恢复方案的恢复时间通常是指恢复处理业务服务所需的安装时间。

然而在现实的灾难中，需要对其他更多的事项进行考虑。

例如，有些业务可以容忍较长时间的停机服务，但要求一旦业务开始就需要使用最多的实时数据；有些业务必须在尽可能短的时间内恢复服务，而不考虑数据的实时性；还有一些既需要最短的时间内恢复服务，也需要最多的实时数据。

通过评估具体场地的实际灾难恢复需求，为恢复计划开好头。

方案成本与业务停止带来的损失

灾难恢复方案的成本是根据以下两点得出的：

*客户需要在多快的时间内恢复数据

*不能继续业务处理将带来多少损失

恢复数据所需的时间越少，业务处理服务中断的时间就越短，所需的方案成本就越多。

另一方面，不能进行业务处理的时间越长，由此带来的损失就越大。

最优的方案就是，方案成本曲线和业务停止带来的损失的曲线的交集。

成本/时间窗口。

与系统体系结构的关系

为了灾难保护，需要建立一个可靠并经过验证的基础结构，系统的每一级部件都一定要有冗余，这是必须的。

存储设备级（storagedevicelevel）

存储设备级，是指存储的物理实体，如磁盘或磁带机。

为了实现设备级的可用性，使用嵌入在设备自身中的功能，这些冗余功能可通过在磁盘中使用备用磁道或在磁带机中使用特定的写机制来实现。

存储服务器（存储子系统）控制器级

存储控制器自身的接口用于连接SAN或服务器（servers）和存储设备。

存储控制器的内置功能负责所有与存储相关的执行操作。

*内置的拷贝功能，如point-in-time拷贝，远程镜像

*内置高可用性机制（冗余、接管failover）

SAN（StorageAreaNetwork）级

SAN级的冗余可通过冗余SAN的基本模块--SAN交换机或使用导向器（Director）来实现。

SAN交换机和导向器的主要区别在于可维护性和可用性。

导向器类的产品可以在不中断服务的同时，在线进行microcode/firmware的升级。

在出现硬件故障时，导向器通常只需更换一个部件。

操作系统中设备驱动程序级

设备驱动程序是存储设备，服务器的操作系统和主机适配卡之间沟通的桥梁，它负责实施与操作系统中所展示的全部硬件功能相关的操作，并负责与存储设备之间的通讯，如光纤通道环境中多路径和通道接管功能。

操作系统级

在操作系统级，通过使用群集技术可以实现操作系统级的高可用性，如HACMPforAIX，STEELEYEforLINUX和MicrosoftWindowsclustering。

可以考虑将群集技术作为灾难保护的一部分。

在灾难保护方案中群集本身不代表基础设施。

应用级

要想在应用级实现冗余，在很大程度上依赖于应用的类型。

如在三层的SAN环境中，通过使用多个应用服务器（multiapplicationserver），应用层可以做到高可用性。

如果任何服务器发生故障，加在其上的负载就会被重新分布到其他运行中的服务器上，业务可继续进行。

功能级

功能级是系统整体架构中最重要的一级，它依赖以下级的可用性：

*IT基础设施架构的可用性（操作系统+服务器+存储+网络）

*应用的可用性（应用+数据）+IT基础设施架构的可用性

*业务流程的可用性（应用的可用性+外部相关条件）

在规划灾难保护的功能级时必须包括所有外在因素，如不同企业间的相互协作等。

展开阅读全文