数据容灾备份解决方案.docx
《数据容灾备份解决方案.docx》由会员分享,可在线阅读,更多相关《数据容灾备份解决方案.docx(46页珍藏版)》请在冰豆网上搜索。
数据容灾备份解决方案
数据容灾备份解决方案
中国移动公司
IP网管系统
性数据容灾备份解决方案
VERITAS公司北京办事处
2021年8月11日
1系统需求分析
1.1系统建设目标
建设本系统的目的是为中国移动公司IP网管系统建立一个全面的、整体的容灾方案,最大限度地保证业务系统工作的连续性、可靠性。
常言道,“知己知彼,百战不殆”。
要实现容灾,首先要了解我们的“敌人”-灾难。
那么,哪些事件可以定义为灾难呢?
典型的灾难事件是自然灾难,如火灾、洪水、地震、飓风、龙卷风、台风等,还有其它如原先提供给业务运营所需的服务中断,如设备故障、软件错误、电信网络中断和电力故障等等。
此外,人为的因素往往也会酿成大祸,如操作员错误、破坏、植入有害代码和恐怖袭击。
现阶段,由于我国很多行业正处在高速发展的阶段,很多生产流程和制度仍不完善,加之缺乏经验,这方面的损失屡见不鲜。
事实上,我国2003年遭遇的“非典”,某种意义上也是灾难。
对此,我们认为需要做到两点:
一是建立切实可行的应急机制,这主要包含一套基于充分且清楚地将风险予以分类定义的业务持续计划,二是在危机突然降临时,此计划能被有效执行。
对于IT系统,除了上述的灾难之外,与系统相关的计划外宕机也可视作灾难。
对于IT系统而言,在技术层面上,容灾需要考虑:
*数据版本保护-建立容灾的多版本保护底线(BottomLine)
*实时数据保护-数据复制,近乎0的数据丢失,数据一致性
*应用系统恢复-恢复时间(包括数据库恢复)、应用版本的一致性(PTF)等
*网络系统恢复-数据访问点变化、建立新网络路径、动态路由(收敛时间/稳定性)
*容灾切换决策-及时发现灾难(容灾系统管理)、容灾切换的损失和补救办法
*容灾切换过程-变更管理
同时,无论任何时候,备份都是非常重要的,并要定期测试备份的可靠性。
一种技术只能减少或防止某些类型的灾难的影响。
除了简单或一成不变的应用,在没有特别要求的情况下,尽量不要采用操作系统层面以上的数据复制技术。
而没有文档化的流程就相当于没有流程,没有流程的系统能够在要求时间内恢复完全靠运气(通常不能)。
另外,在通常情况下,IT系统相关的灾难备份方案设计都必须考虑以下五大因素,
1,灾难类型
需要考虑哪些灾难?
怎样的灾难?
会使业务中断多久?
2,恢复速度
灾难发生后需要多久来启动及运行系统?
能否承受数天或数分钟的等待?
3,恢复程度
需要恢复每条记录和交易吗?
可以使用上星期或昨天的数据吗?
需要恢复一切吗?
有
不相关的文件吗?
什么是合法隐含的要求?
有少数的一组人输入交易吗?
他们可以重新输
入灾难期间丢失的交易吗?
这些交易十分重要而不容许丢失吗?
4,可用的技术
必须结合考虑所选技术在本地区的适用性、实现条件以及在实施时是否受某些现有条件的制约?
5,方案总体成本
实现灾难备份需要多少投资?
不实现灾难备份会损失多少钱?
据国际标准SHARE78的定义,灾难恢复解决方案可根据以下主要方面所达到的程度分为七级,即从低到高有七种不同层次的灾难恢复解决方案。
可以根据企业数据的重要性以及需要恢复的速度和程度,来设计选择并实现灾难恢复计划。
这取决于下列要求:
备份/恢复的范围
灾难恢复计划的状态
在应用中心与备份中心之间的距离
应用中心与备份中心之间是如何相互连接的
数据是怎样在两个中心之间传送的
有多少数据被丢失
怎样保证更新的数据在备份中心被更新
备份中心可以开始备份工作的能力
现已证明,为实现有效的灾难恢复,无需人工介入的自动站点故障切换功能是一个必须被纳入考虑范围的重要事项。
目前通用的异地远程恢复标准采用的是1992年Anaheim的SHARE78,M028会议的报告中所阐述的七个层次:
0层-没有异地数据(Nooff-siteData)
Tier0即没有任何异地备份或应急计划。
数据仅在本地进行备份恢复,没有数据送往异地。
事实上这一层并不具备真正灾难恢复的能力。
1层-PTAM卡车运送访问方式(PickupTruckAccessMethod)
Tier1的灾难恢复方案必须设计一个应急方案,能够备份所需要的信息并将它存储在异地。
PTAM指将本地备份的数据用交通工具送到远方。
这种方案相对来说成本较低,但难于管理。
2层-PTAM卡车运送访问方式+热备份中心(PTAM+HotCenter)
Tier2相当于Tier1再加上热备份中心能力的进一步的灾难恢复。
热备份中心拥有足够的硬件和网络设备去支持关键应用。
相比于Tier1,明显降低了灾难恢复时间。
3层-电子链接(ElectronicVaulting)
Tier3是在Tier2的基础上用电子链路取代了卡车进行数据的传送的进一步的灾难恢复。
由于热备份中心要保持持续运行,增加了成本,但提高了灾难恢复速度。
4层-活动状态的备份中心(ActiveSecondaryCenter)
Tier4指两个中心同时处于活动状态并同时互相备份,在这种情况下,工作负载可能在两个中心之间分享。
在灾难发生时,关键应用的恢复也可降低到小时级或分钟级。
5层–两个活动的数据中心,确保数据一致性的两阶段传输承诺(Two-SiteTwo-PhaseCommit)Tier5则提供了更好的数据完整性和一致性。
也就是说,Tier5需要两中心与中心的数据都被同时更新。
在灾难发生时,仅是传送中的数据被丢失,恢复时间被降低到分钟级。
6层-0数据丢失(ZeroDataLoss),自动系统故障切换
Tier6可以实现0数据丢失率,被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,当发生灾难时,能够提供跨站点动态负载平衡和自动系统故障切换功能。
1.2需求简析
对于IT系统的容灾指标,我们可以通过下列参数表示:
*以恢复点为目标(RPO--RecoveryPointObject)
––数据的完整性(无数据丢失)
––数据的一致性(数据正确且可用)
以恢复时间为目标(RTO---RecoveryTimeObject)
中国移动公司的网管系统结构图如下:
可以看到在移动IP网管系统中,包含着众多的功能子系统,根据每个子系统数据变化的频度以及在整个网管系统中所起到的作用,我们为每个子系统制定了符合各自特色的RPO和RTO。
在移动公司现有的业务系统中,仅考虑本地高可用性,即通过集群的双机系统(Cluster或HA)对业务应用提供保护,在一台服务器的软硬件发生故障时,将整个业务切换到后备服务器上。
该方法很大程度上避免了服务器的单点故障,提高了整个业务系统的可用性。
但是,随着业务系统的发展,随着竞争的不断加剧,在一些重要的系统中,客户已经不满足于简单的本地保护。
越来越多的客户提出了要求更高的系统可用性,要求实现真正的异地容灾保护。
因为一旦出现异常情况,如火灾、爆炸、地震、水灾、雷击或某个方向线路故障等自然原因以及电源机器故障、人为破坏等非自然原因引起的灾难,导致业务正常无法进行和重要数据的丢失、破坏,造成的损失将不可估量。
因此,要求业务系统可以在发生上述灾难时快速恢复,将损失降到最低点。
全面的异地容灾保护方案,意味着除了要实现本地的切换保护外,更要实现数据的实时异地复制和业务系统(包括数据库和应用软件)的实时远程切换。
2高可用容灾方案设计
设计原则
我们为移动公司综合结算提供的高可用容灾方案的设计原则如下:
●方案当前即可实施
●在满足要求的前提下尽量简单
●除特别必要,不需要增加另外超出本方案的软硬件
●如果一个软件产品可以实现需要的功能,我们不会再使用另外的产品实现重复的功能
●同一方案适合多种平台环境,降低安装、管理和维护的难度。
VERITAS的容灾方案是一个完整的方案,该方案包括5个功能:
主节点主机系统在异地的备份和恢复(即IT系统重构和业务接管)、主节点业务数据在异地的备份及恢复(即生产数据的备份和恢复)、主节点到灾备节点的数据远程实时复制、本地应用服务和数据复制服务的切换保护、应用远程容灾切换。
涉及的产品包括NetbackupEnterpriseServer、BareMetalRestore、VolumeManager+VolumeReplicator,VERITASClusterServer和GlobalClusterManager。
该方案涵盖了容灾恢复的7个层次,为整个业务系统提供全面的保护,其对应需求分析的系统和各子系统的RPO/RTO如下:
在该整体方案中中,上层依赖于它的下层,每一层的产品实现相应的功能。
图中涉及的软件产品将在下面论述。
2.2方案概述
针对IP网管系统及各子系统实际分析得出的RPO/RTO,我们分别采用不同的技术手段对其实现高可用保护。
1.IPNET流量管理服务器及NetCool汇总管理服务器
该系统属于核心业务系统,数据更新率极高,且要求在灾害发生时必须立即投入备份节点以维持业务的连续性,因此,我们在数据层采用VolumeReplicator进行实时的远程数据复制;在应用层采用ClusterServer和GlobalClusterServer进行实时业务级切换。
同时,为保证不可预见的意外事件不对业务系统造成不可恢复的影响,我们还建议利用NetbackupEnterpriseServer和BareMetalRestore技术,利用磁带和磁盘介质在容灾节点保留一份生产系统每天的原始数据。
2.NetCool网管服务器/PM服务器、业务网管服务器、Precision服务器
该系统属于业务管理系统,直接关系到管理人员能否顺利地进行网络日常的管理和维护,并关系到IP业务的正常运行,因此需要及时在容灾节点实现接管,但该业务子系统的数据更新率并不高,而且周期性比较强,因此没有必要花费高昂的代价进行实时的数据复制,可以采用主节点数据备份,容灾节点异地数据恢复的手段保证数据的完整性和一致性。
我们建议在应用层面上,本地节点利用ClusterServer实施主机高可用性,防止主机故障,容灾节点利用GlobalClusterServer实施远程应用切换。
在数据层面上,利用NetbackupEnterpriseServer和BareMetalRestore技术,在本地先形成一套主机系统和业务数据的磁盘备份,并每隔8小时在后台将本地备份数据复制到远程容灾节点(周期复制),异地节点恢复主节点数据,以实现主备节点的数据同步。
3.Visionary应用服务器、NetCool报表服务器、IPNET报表服务器
该系统属于整个网管系统的报表系统,数据变化量的频率相对较低,保留每天的数据即可,因此可以考虑底层数据备份,业务层手工或脚本切换的方式实现系统可用性,我们建议利用NetbackupEnterpriseServer和BareMetalRestore技术,利用磁带和磁盘介质在容灾节点保留一份生产系统每天的原始数据。
4.整个网管系统的历史数据
为了保证在任何不可预见的情况下都能正常维护整个IP业务网络,我们还建议在主节点和灾备节点利用NetbackupEnterpriseServer在磁带上至少保持6个月内的系统历史数据。
2.1.1IPNET流量管理服务器及NetCool汇总管理服务器“N+1”冗余备份方式
对于该子系统,VERITAS解决方案能够按照现业务系统的要求实现多种容灾模型。
即:
●“1+1”冗余备份方式
●“N+1”备份方式
●N节点循环备份方式(如果只要求N=2,即双地点互为备份)
第一种方式实际是第二种方式N=1时的特殊情况,以下不单独讨论。
2.1.2“N+1”冗余备份方式
为N个正在运行的移动公司IP业务系统建立一套远程容灾备份系统,称为“N+1”备份方式。
这种方式下,N个正在运行的业务系统中的任何数据的更改,包括静态数据更改与动态数据更改,都必须同步到备用系统中。
备用系统中存储着所有的N套正在运行的业务系统的数据总和。
正在运行的其中一个系统发生故障,则备用系统使用对应当前故障系统的用户数据和相应应用,来接管故障系统的业务。
若正在运行的N个业务系统中所有系统同时发生故障,则备用系统使用的所有对应故障系统的备份数据和相应应用,接管所有业务系统。
“N+1”备份方式的优点是建设成本比较低,可以使用一套备份系统为多个系统提供容灾备份的功能,平时设备利用率比较高。
“N+1”备份方式的缺点是当多个系统同时发生故障,如果只有一套备份系统为所有用户提供服务,可能导致服务质量的下降。
该方式建议备份系统使用较高的硬件配置。
“N+1”系统简单示意图如下图(图二):
数据传输方向
图二多对一备份
Site1
Siten
Siten+1
Site2
...
2.1.3N节点循环备份方式
由于只要求N=2,实为一对一互为备份。
SiteA运行本身业务系统的同时,还作为SiteB业务系统的备份系统;同理,SiteB运行本身业务系统的同时,还作为SiteA的备份系统。
正常情况下,SiteB拥有本身业务的应用、数据库进程和相关的数据,同时,SiteB系统中有相应的数据区存储从SiteA实时复制来的数据。
而且SiteB实时将数据复制到SiteA。
当SiteA发生灾难时,SiteB除了提供本身业务外,还要提供SiteA的相应服务。
反之同理。
N节点(N=2)循环备份系统简单示意图如下图(图三):
数据传输方向
图三相互备份
SiteA
SiteB
2.1.4软件安装
在两种情况下,每个地点的每台服务器上安装的软件相同,只是不同情况下配置方法不同,每台服务器的具体配置方法后面讨论。
每台服务器安装软件如下:
1)安装VERITASVolumeManager(VxVM)
2)安装VERITASFileSystem(VxFS)
3)安装VERITASVolumeReplicator(VVR)
4)安装VERITASClusterServer(VCS)、相应的数据库代理(Agent)和应用软件代理
5)安装VERITASGlobalClusterManager(GCM)
2.1.5NetCool网管服务器/PM服务器、业务网管服务器、Precision服务器容灾
该系统在远程的应用切换层面上和前述方案一样,不同的是在数据复制的方法上,我们利用了Netbackup实现数据的周期性复制
NetBackup是VERITAS公司的备份管理软件,它致力于解决网络上大、中、小型服务器和工作站系统上的数据备份、归档及灾难恢复问题,Veritas备份产品国际市场份额2000年为39.1%,2001年为40.8%,2002年为40.6%,下图为GarnerGroup统计的VERITAS备份产品2002年国际市场份额:
它的突出特点主要有:
管理简单
采用统一的Java或GUI图形界面,管理轻而易举,使用先进的人工管理界面工具,制定备份策略、介质管理策略,对各项备份作业进行监控。
Netbackup提供了远程分发式安装工具,当用户拥有众多的客户机,无需占用大量人力进行分散的安装,只需通过server进行远程分发软件安装。
裸金属恢复BMR(BareMetalRestore)
对于系统中的HP-UX,IBMAIX,MicrosoftWindowsNT/2000和SunSolaris等不同操作系统环境,我们通过VERITASBareMetalRestore(裸机恢复)功能,来简化服务器的恢复过程,以完成系统的快速灾难恢复。
这样,当系统数据完全丢失时,系统管理员可以仅仅通过一个启动命令就可以进行系统数据的完整恢复,不必进行通过光盘进行操作系统重新安装,硬盘重新分区,IP地址重新设置,以及备份软件重新安装等复杂的步骤。
数据恢复重定向
在数据恢复的过程中,我们可以通过授权,进一步让系统管理员选择数据恢复的目标客户机。
这样,我们可以灾备系统上恢复所需要的数据,保证数据的可操作性。
并行处理
NetBackup可以实现多磁带机并行操作,因此可以有效地增加带宽。
如果数据被并行定位(co-located)到多盘磁带上,执行选择性恢复的过程将会很快。
NetBackup可以通过策略共享实现多作业复用(Multiplex)磁带,从而大大加快了备份进度,减少了磁带操作过程的开销。
这一提高是显而易见的。
真正映象恢复(TrueImageRecovery)
使用全备份和增量备份后,恢复时根据映象(image)恢复,真正做到已删除文件无需恢复,大大减少恢复数据量.传统方式先恢复全备份文件,再进行增量恢复和文件删除。
磁带多重拷贝(InlineTapeCopy,Duplicate)
磁带在线复制InlineTapeCopy允许用户在执行备份期间,创建备份数据的多份拷贝。
复制允许备份完成后复制多份备份数据。
Netbackup可以一次备份或复制2-4份拷贝,管理多达同一备份的10份拷贝,并且每份拷贝有自己的保护周期
提供灾难恢复能力-VAULT
在多个地点保存备份或复制介质,保证当发生灾难时或多个的地点快速恢复关键的数据。
2.1.6功能配置说明
NetBackupServer:
备份系统的核心,该服务器既是主备份服务器可以对整个备份系统进行监控和管理,备份环境的核心数据应用库、备份策略和设备配置均存放在这台服务器上,又是介质服务器,可以直接连接并执行自动化管理磁带库及其介质。
由于生产和测试网在物理上是隔开的,所以需要分别安装两套备份服务器。
这样可以使生产和容灾的备份完全独立,但生产数据可以通过两台磁带库实现异地保留。
•NBUClient:
SNA服务器和测试网的服务器的备份方式采用网络备份的方式。
•BareMetalRestore:
所有服务器实现裸机恢复。
具备“一键”恢复系统的功能,减少数据恢复的复杂度和时间。
•可以采用Netbackup复制方式或者采用制定两个策略对应不同的磁带库进行备份实现本地、异地双备份。
Netbackup支持不同磁带库之间的数据复制,可以设置策略定时进行,相对于Client系统数据同时备份到两个磁带库的方法,该方法只复制备份后产生的Image文件,该作业由MasterSever调度,执行在磁带库之间的数据复制,节约原Client系统资源。
•利用光纤线路和远程磁带库实现了异地的数据备份保护,但在灾备点如果没有备份恢复服务器,即只保留了数据。
如果生产点的备份服务器损坏,则影响了正常的备份。
同时如果没有灾备点的备份恢复服务器,如果生产点出现场地问题,不能立刻在灾备点进行恢复。
此时可以利用测试网中的备份服务器重新导入生产网备份的CATALOG,近而恢复数据。
以上是为我们为业务系统提供的数据备份复方案,设计的目的是采用业界最先进的备份技术完成对系统数据在线、快速、有效的磁带备份保护。
同时本方案还提供裸机快速恢复和异地磁带级容灾技术,从技术上保证了数据中心的可靠性和快速恢复能力。
2.1.7利用磁盘缓冲实现周期数据复制
磁盘缓冲(DISKSTAGING)为NetBackup管理员提供了一种备份方法,首先在磁盘上创建备份镜像,然后将镜像转移到另一种介质上。
NetBackup软件的磁盘缓冲分三个步骤完成:
首先在磁盘上创建NetBackup备份镜像,然后在可以配置的稍后时间,将镜像转移到另外一个介质上。
此外,磁盘缓冲可以方便备份和恢复,NetBackup用户可以利用磁盘缓冲,为将数据传输到磁带提供便利,避免多路复用镜像的弊端。
磁盘缓冲的工作原理,磁盘缓冲的工作原理示例如下:
假定NetBackup客户生成的备份数据的容量如下:
星期一:
200MB
星期二:
300MB
星期三:
300MB
星期四:
200MB
星期五:
500MB
假定NetBackup客户每天都将数据备份到磁盘缓冲存储设备上,然后再将数据从磁盘缓冲存储设备转移到最后的存储设备上。
客户使用的磁盘缓冲存储设备的容量至少达到500MB,这样才能以容纳一天生成的最大数据容量。
如果NetBackup管理员只要在磁盘缓冲存储设备上保存一天的数据,那么500MB的磁盘缓冲存储设备就已经足够了,前提条件是能够成功完成重新定位,每天将数据转移到磁带上。
如果管理员想在磁盘上保存超过一天的数据,则应对磁盘空间进行调整。
磁盘缓冲分三个阶段完成:
第一阶段:
在磁盘缓冲存储设备上创建备份镜像;
第二阶段:
重新定位日程决定了将磁盘缓冲存储设备上的备份镜像重新定位到目的存储设备上的时间;
第三阶段:
磁盘上的备份镜像复制到目的存储设备上后,自动取消备份镜像。
NetBackup的磁盘缓冲(DISKSTAGING)流程示例
客户端
策略:
第一阶段日程
第一阶段:
NetBackup策略根据第一阶段策略日程,将客户端数据备份到磁盘缓冲存储设备上。
第一阶段
磁盘缓冲存储设备
策略:
第二阶段性重新定位日程
第二阶段:
磁盘缓冲存储设备(DSSU)日程根据重新定位日程,将数据重新定向到最后的存储设备上
目的存储设备
第二阶段
第三阶段:
NetBackup软件将备份镜像复制到目的存储设备上,然后自动将它从磁盘上删除。
为进行此操作,NetBackup软件要使磁盘镜像失效,将目的存储设备上的备份镜像成为主副本。
在备份的第一阶段,按策略对客户端进行备份,该策略将磁盘缓冲存储设备作为目的存储设备。
应为每个专用磁盘分区/文件系统提供一个磁盘缓冲存储设备。
第一阶段日程的配置方法与其他备份相似。
在磁盘缓冲的第二阶段,将镜像从磁盘缓冲存储设备重新定向到目的存储设备。
在磁盘缓冲存储设备的设置过程中,根据配置的重新定位日程来重新定位镜像。
这是通过点击磁盘缓冲日程按钮来完成的。
只有选择磁盘缓冲存储设备作为存储设备类型时,才能使用该按钮。
第三阶段是自动使磁盘镜像失效,使目的存储设备上的镜像成为数据的主副本。
这样用户就能释放磁盘空间,以备将来使用。
2.1.8Visionary应用服务器、NetCool报表服务器、IPNET报表服务器容灾
在开放系统中,许多产品都能执行备份和恢复功能。
然而,能处理现今数据中心的海量数据的产品则凤毛麟角。
以往数据中心曾是大型机一统天下,现在则是以大型UNIX、Windows服务器以及集群为基础,企业在此之上构建并运行和管理关键业务应用。
VERITASNetBackup独有的核心三层架构,结合先进的介质管理功能,以及卓越的高性能,可以满足最大规模数据中心的需求。
NetBackup主备份服务器(MasterServer)是架构的第一层。
主备份服务器是所有数据保护活动(包括作业日程安排和追踪客户端备份、管理磁带介质和文件编录)的“智能中心”。
主备份服务器拥有一个或多个附带的存储设备,可为多台客户端服务器提供数据备份,主备份服务器也可以构成集群以实现高可用性。
如果企业在几个地点都有数据或数据密集型应用,比如数据仓库,则可安装介质服务器(MediaServer)--即架构的第二层。
这样,企业就可以在各个地点,通过部署介质服务器直接在本地备份大型应用,同时还可以通过网络备份其它客户端系统。
介质服务器既可与主备份服务器或另一台介质服务器共享磁带库,也可使用自己的磁带设备。
如果某台介质服务器因故障或其