系统两地三中心方案.docx

资源描述

系统两地三中心方案.docx

《系统两地三中心方案.docx》由会员分享，可在线阅读，更多相关《系统两地三中心方案.docx（7页珍藏版）》请在冰豆网上搜索。

系统两地三中心方案.docx

系统两地三中心方案

系统两地三中心方案（总10页）

金融行业“两地三中心”数据备份与恢复方案设计

1.“两地三中心”设计背景

1.1.行业背景

中国有句俗话，“人无远虑，必有近忧”。

伴随信息化的不断深入，银行越来越依赖信息系统，在信息化给社会和银行带来巨大好处的同时，这也使得银行的组织更易遭受攻击，从而造成业务系统的中断、数据丢失等。

近年来，越来越多的银行发现，他们的IT系统意外地、不必要地中断——即便是临时性的，也会使银行业务活动立即中断，无法继续开展，数据的丢失或访问中断，不仅影响了系统运行，还给银行造成重大损失。

1.2.业务持续性需求

银行的服务日益全球化，经济的增长和国民财富的急剧增长，客户的需求日益多样化和复杂化，对银行的服务质量的期望值越来越高，使银行保持业务连续状态成为当务之急。

所谓业务连续，就是无论发生任何情况，关键系统和网络都持续可用。

传统意义上的备份和恢复计划无法继续满足需要。

当今的预防措施应该包括风险评估、中断影响分析以及避免中断策略，必须将这些因素充分考虑进综合业务持续性计划。

在信息时代，业务持续性不再是一项“可有可无”的工作，而是“势在必行”的重点规划。

1.3.“两地三中心”业务保障

影响业务持续性发展的因素很多，既有外部因素，如电力、通讯等；也有内部因素，如场地、人员、决策、IT技术等。

但从系统的观念看，可以说目前影响银行业务持续发展的最直接的威胁来自于信息系统的安全。

健全业务持续性风险的预防策略和措施，需要以下几点基于业务的需求：

实施数据集中保护。

随着数据日益成为银行的生命线，支持业务持续性的数据存储策略成为银行必须考虑的重点。

它的优势在于，总体存储的方式可使银行降低购置和维护的成本，最大限度地减少管理多个独立业务系统的复杂性，提高银行数据的整体安全性。

同时，存储容量也可得以优化，减少利用率偏低的现象。

a）采用冗余、集群、负载均衡能力等技术，消除单点故障，提高系统的高可用性，提高系统性能影响。

建立信息系统安全业务持续性保障体系，针对灾难性事件的预防目标，建议总、分行层面考虑建立异地容灾环境，建立异地备份机房，配备核心业务需要的基础设施、网络设备、通讯线路和计算机设备；建立数据服务器区，实现全行经营数据的集中保存。

构建生产中心、同城灾备中心、异地灾备中心的“两地三个中心”灾备体系。

2.“两地三中心”灾难恢复系统布局

2.1.布局原则

a）灾难备份中心设置在中华人民共和国境内；

b）灾难备份中心与生产中心之间距离合理，应避免灾难备份中心与生产中心同时遭受同类风险；

c）灾难备份中心的选址应服从国家战略安全要求，并综合考虑生产中心与灾难备份中心交通和电讯的便利性与多样性，以及灾难备份中心当地的业务与技术支持能力、电讯资源、地理地质环境、公共资源与服务配套能力等外部支持条件。

2.2.布局模式

根据成本风险平衡原则以及运行管理要求，采用“一主双备”布局模式，即一个生产中心，两个个备份中心，其中一个同城备份、一个异地备份。

对于同城数据备份中心，应与生产中心直线距离至少达到30公里，可以接管所有核心业务的运行；对于异地数据备份中心，应与生产中心直线距离至少达到100公里。

3.“两地三中心”灾难恢复系统设计

3.1.“两地三中心”框架设计

结合近年国内出现的大范围自然灾害，以同城双中心加异地灾备中心的“两地三中心”的灾备模式兼具高可用性和灾难备份的能力。

同城双中心是指在同城或邻近城市建立两个可独立承担关键系统运行的数据中心，双中心具备基本等同的业务处理能力并通过高速链路实时同步数据，日常情况下可同时分担业务及管理系统的运行，并可切换运行；灾难情况下可在基本不丢失数据的情况下进行灾备应急切换，保持业务连续运行。

与异地灾备模式相比较，同城双中心具有投资成本低、建设速度快、运维管理相对简单、可靠性更高等优点。

异地灾备中心是指在异地的城市建立一个备份的灾备中心，用于双中心的数据备份，当双中心出现自然灾害等原因而发生故障时，异地灾备中心可以用备份数据进行业务的恢复。

两地三中心”的灾备模式框架图如下图所示：

如图，同城双中心的应用切换，采用集群软件来实现，生产中心主机和灾备中心主机上都需要进行集群。

采用集群监测本地双机或集群状态，并通过组件在本地和远程的集群之间进行状态监测。

在网络层，同城双中心之间采用光纤连接，保证双中心之间较大的带宽，以响应实时的业务数据需求，同城异地之间采用专网或IP广域网即可实现，以节约成本。

同城双中心的光纤采用波分复用（WDM）技术进行建设，针对两地只有1条或2条光纤连接的场景，采用WDM方式，能够虚拟出多条FC或GE联络，满足两地之间对业务和数据多重链路的需求。

WDM技术能充分利用光纤的巨大带宽资源，大幅度提高系统传输容量，降低传输成本，因此在长途和骨干网的超大容量传输中得到了广泛的应用。

将WDM技术引入城域网、接入网，整个网络就会变成无缝连接的整体，为所有不同的业务提供支持和连接，因此城域网中WDM具有很大优越性。

在数据存储层，部署虚拟存磁盘阵列，通过存储的同步远程复制功能将数据同步复制到灾备站点。

确保生产中心和灾备中心的数据完全一致。

使用存储的异步复制功能，将数据通过广域网复制到远端的灾备站点，并且保证数据的完整性和可用性。

远端站点的作用主要是用来防止地理和自然灾难，当同城的双中心全部故障后，可以确保在异地有一份完整的数据拷贝，用于后续业务的恢复。

3.2.灾难恢复能力等级需求

3.2.1.国家标准要求灾难备份级别

根据国家标准《信息系统灾难恢复规范》（GB/T20988-2007）的定义：

灾难是指由于人为或自然的原因，造成信息系统严重故障或瘫痪，使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件。

灾难备份是指为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、专业技术支持能力和运行管理能力进行备份的过程；

而灾难恢复是指为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态，而设计的活动和流程。

灾备系统的建设包含七要素：

数据备份系统、备用数据处理系统、备用网络系统、备用基础设施、专业技术支持能力、运行维护管理能力、灾难恢复预案。

《信息系统灾难恢复规范》将灾难恢复能力划分为6级，灾难恢复能力等级越高，对信息系统的保护效果越好，但同时成本也会迅速上升。

灾备等级主要从RTO（恢复时间目标）和RPO（恢复点目标）来考虑，RPO（恢复点目标）是指发生灾难前最后一次备份的时间点距离当前时间差（数据丢失时间）；RTO（时间恢复目标）是指发生灾难后恢复物理系统环境的时间。

大部分的用户关注的是数据安全性，即RPO值（RPO越小，数据丢失越少），但是用户往往谈的更多的是RTO（RTO越小，恢复生产越快）。

3.2.2.金融行业标准要求灾难恢复级别

金融行业标准《银行业信息系统灾难恢复管理规范》（JR/T0044-2008）中指出金融单位应根据风险分析、业务功能分析和业务中断影响分析的结论，将信息系统按时间敏感性分成三类需求等级：

第一类：

短时间中断将严重影响单位关键业务功能并造成重大经济损失的系统；单位和用户对系统短时间中断不能容忍的系统。

第二类：

短时间中断将影响单位部分关键业务功能并造成较大经济损失的系统；单位和用户对系统短时间中断具有一定容忍度的系统。

第三类：

短时间中断将影响单位非关键业务功能并造成一定经济损失的系统；业务功能容许一段时间中断的系统。

根据信息系统的时间敏感性，确定信息系统灾难恢复目标的最低要求：

第一类：

RTO<6小时，RPO<15分钟；

第二类：

RTO<24小时，RPO<120分钟；

第三类：

RTO<7天。

结合信息系统灾难恢复目标的最低要求和《信息系统灾难恢复规范》将灾难恢复能力划分为6级要求，第一类信息系统达到5级灾难恢复能力；第二类达到3级灾难恢复能力；第三类达到2级灾难恢复能力。

3.3.“两地三中心”建设策略

依照中国金融行业IT战略规划和架构的要求，我们认为“两地三中心”的建设应按照如下策略进行：

“两地三中心”建设要满足业务的需求。

建设资金投入、功能、处理能力、管理方式等必须满足目前的业务需求，同时还要兼顾未来发展的要求。

“两地三中心”需要建立高可用性的架构。

其中灾备中心启用后，就开始做为生产中心提供服务。

因此灾备中心也应该与生产中心一样，对关键业务应用采用高可用性架构，以防止由于单点故障而引起宕机

“两地三中心”应该可以提供演习环境。

演习是保证业务永续运行计划有效性的重要手段，每年至少应该举行一次。

演习环境是为了保证在演习是正常的业务处理仍能继续而建立的。

“两地三中心”设备应该得到充分利用。

系统建设不仅要考率到紧急情况下的使用情况，还要考虑日常如何利用。

例如，为了在平时提供灾备中心设备的利用率，可以利用灾备中心的设备进行应用的开发和测试。

“两地三中心”建设以用先进、成熟的方法论做为指导，分阶段进行。

先进、成熟的方法论为灾备中心建设的成功提供了保障。

灾备中心与生产中心使用结构相同的IT基础架构和管理流程。

这样可以大大降低管理与运行维护的复杂度。

灾备中心的处理能力可以与生产中心不同，但是要满足业务需要。

建设的内容包括：

面向数据中心提供网络通讯设备、通讯线路、存储网络设备的全面容错和异地容灾；面向数据中心提供部分关键业务系统的容错和异地容灾。

4.“两地三中心”方案实现

4.1.系统实现

4.1.1.数据备份

同城双中心的数据采用同步复制，在同城灾备中心建立一个在线更新的数据副本。

当有数据下发到生产中心阵列时，阵列间的同步复制都会同时将数据复制一份到同城灾备中心。

同城灾备中心与异地灾备中心之间采用异步复制方式，定期将数据进行复制备份，异步复制支持增量复制方式，可以节省数据备份的带宽占用，缩短数据的备份时间。

4.1.2.灾难检测

通过对资源组状态的监控来判断资源的可用性，包括数据库资源组、网络资源组等。

资源组的状态分online/offline/fault三种，正常情况下生产中心在工作的时候资源组的状态都是online，而灾备中心的资源组是offline状态。

每个资源组在online和offline的时候均可以指定运行程序或脚本，程序或脚本执行完成后资源组即完成online或offline的过程。

当检测到生产中心有资源组出现fault状态时，同城内生产中心同灾备中心将进行切换，以保证业务的连续性。

4.1.3.容灾切换

基于应用容灾切换包括一系列的动作：

停止灾难节点的部件服务、切断数据复制链路、建立数据容灾基线、启动容灾节点的部件服务、通知前端设备进行业务网络切换。

具体动作可以结合实际情况，通过脚本来定制。

4.1.4.恢复回切

回切工作流程和切换流程原理是一样的，只是因为切换的时候是不确定触发的、可能导致业务受部分影响；而回切的时候通过人工确认，选择最小影响的情况下执行操作（比如业务流量非常小的情况下，甚至暂停业务情况下），因此回切推荐采用的是手动切换模式。

应用级容灾采用的是自动切换还是手动切换，用户可以在部署时通过修改主机集群软件的切换配置实现。

同城范围有效保证了数据的安全性和业务连续性；

异地复制数据根据灾难情形，尽可能降低数据丢失机率；

同城双中心为同步复制，数据实时同步，RPO=0；

异地无距离限制，保证数据一致性，保证了数据的有效保护；

异地容灾带宽要求低，先进的复制机制提高带宽利用率。

4.2.业务应用备份恢复实现

应用环境备份的目的是确保灾备中心能够快速重建数据中心应用系统环境，并实现备份业务系统对生产系统有效替代。

对应用环境备份的设计要点包括：

通过配置同步技术，实现数据中心应用环境的一致性。

灾备中心的应用环境在技术路线、设备部署方面应尽量保证与数据中心应用环境一致。

这样有利于提高灾备应用环境与生产应用环境

展开阅读全文