中小银行数据整合与灾备建设技术方案.docx
《中小银行数据整合与灾备建设技术方案.docx》由会员分享,可在线阅读,更多相关《中小银行数据整合与灾备建设技术方案.docx(36页珍藏版)》请在冰豆网上搜索。
![中小银行数据整合与灾备建设技术方案.docx](https://file1.bdocx.com/fileroot1/2022-12/31/3208b212-13f9-420f-b39c-4ba5627747e5/3208b212-13f9-420f-b39c-4ba5627747e51.gif)
中小银行数据整合与灾备建设技术方案
中小银行信息中心
数据整合与容灾分析报告
北京xxxx公司
2009年3月
前言
自“9.11”之后,全球各企业均认识到灾难防范保护的重要性。
某些大型金融机构之所以能够在两天内恢复营业,其主要原因是它们不仅像一般公司那样在内部进行数据备份,而且在数英里外的数据备份中心也保留着数据备份。
这些备份都是通过数据备份软件和数据复制软件进行的。
采取了这种措施后,一旦工作现场发生意外,企业就可以立即使用另一套数据。
华尔街的金融机构重新对灾难恢复的步骤做了评估,并认识到灾难恢复只是技术手段之一,它们开始强调BusinessContinuity(业务连续性),而不仅仅是DisasterRecovery("灾难"恢复)。
因为过去的“灾难”恢复计划并没有强调全局性及对整个市场的影响,而如何维持业务的连续运作将成为企业运营风险评估中至关重要的一环。
事实证明,只有对数据存储备份制定完备、持续且可执行的容灾计划,特别是业务连续计划,才能为人们提供万无一失的数据安全保护。
灾难恢复是业务连续性计划的一部分,其中还包括业务恢复计划。
灾难基本上可以说是无法预测的,其造成的损失也很难精确的估计,但是有一点可以肯定,灾难的发生对于企业来讲往往是致命的,因此,企业必须有所准备。
企业实施灾难恢复的计划首先对其应用系统进行评估,分清哪些是关键的系统,并对其运行环境进行评估,判断发生灾难的可能性有多少。
若发生,关键系统中断运行的时间有多长?
中断后对企业的影响有多大?
有多少?
哪些资料会丢失,有没有解决的办法和措施等。
北京XXXX电子技术有限公司的专业服务可以为您提供这些评估服务,这些咨询服务是根据企业的关键系统、数据量、交易量、网络和数据保护情况等因素做出对业务影响分析报告,进而做出解决方案,从而保证当灾难发生后对您业务和应用的影响降至最低。
容灾需求分析
灾备的发展
2005年4月,国务院信息化办公室出台了《重要信息系统灾难恢复规划指南》,指导信息系统使用和管理单位的灾难恢复规划工作,促使银行业灾难备份建设步伐逐步加快。
人民银行在无锡建立了灾难应急备份中心,计划在上海建设支付系统数据备份中心。
国家开发银行在央行无锡灾备中心完成了异地数据备份存放,并在年内筹建北京同城灾备中心。
工商银行已建立了南北两大数据中心。
农业银行数据集中尚未完成,部分省分行的数据中心建立了同城异地灾难备份中心。
中国银行灾备中心正在建设之中。
建设银行的部分重要系统也做到了同城异地备份。
可见很多大型股份制商业银行基本完成了灾备中心建设。
总体上看,我国银行业灾难备份建设已有很大进展,但灾难恢复体系基础仍很薄弱,存在一些亟待解决的问题。
如对灾难恢复工作的重要性、紧迫性认识不足,许多重要应用系统还没有采取基本的数据级灾难备份措施,重要应用系统灾难备份的法规和标准不完善,灾难备份建设缺乏统一的规划和部署,中小银行灾难备份中心建设存在资源、费用困难等。
可以说城市商业银行和信用社灾备进程已明显落后,在系统灾难备份方面几乎是空白。
按照国际上的share78容灾标准,大多数城市商业银行还处于很低的水平。
国际标准share78定义的容灾系统有七个层次,即Tier0(没有异地数据)至Tier6(零数据丢失,远程磁盘镜像与自动切换)。
而目前大多数城市商业银行的灾备能力也就处在Tier0级,就是说数据仅在本地进行备份恢复,没有把数据送往异地。
这种方式是最为低成本的灾难备份解决方案,但事实上这种灾难备份并没有真正灾难恢复的能力。
当然,很多商行、农信已意识到这一点,开始提前进行灾备系统建设,但目前商行、农信已实现的灾备系统主要采用本地数据复制,异地定时磁带备份的方式,而更高级别的Tier5级以上的数据保护,如异地数据实时灾备系统是其发展的必然趋势。
中小银行数据现状
当前国内各中小银行业务近年来发展得很快,业务数据不断加速增长。
这些数据是现代银行运作的核心,必须有完善的保护措施。
在业界当前的趋势下数据的可用性和安全性对企业的影响越来越大,关键数据的丢失,可能给企业造成巨大的经济和信誉损失。
甚至可以说数据直接影响到一个企业的生存。
综合来看,中小银行已采取的防护措施包括:
Ø主机集群软件可以有效的实现系统数据的本地双机实时复制
Ø磁盘阵列采用RAID机制保护了单硬盘损坏下的数据安全
Ø采用内置等磁带机手工备份数据
Ø结构简单技术含量低
以上数据安全保护级别虽然可以在很大程度上避免软件故障,人为误操作等事件对数据的损坏.但还不足以承担重大局部突发事件特别是莫些不可抗事件对数据安全的影响.我们设想几种情况:
●当发生火灾或类似于9-11事件的灾难时会直接导致所有业务服务器包括本地备份介质的损坏.而这种损坏甚至是可能无法恢复数据!
●阵列的多硬盘损坏造成数据丢失,而这时才发现手工备份的数据也不可用或根本未及时更新
生于忧患、死于安乐!
当我们的商行农信用户大力发展信息系统建设时,其实我们对电子信息数据的依存度也达到了100%。
侥幸的心理往往使我们忽略一点:
也许我们永远不会有灾难,但一次严重的不可恢复的数据丢失将使业务彻底崩溃。
实际上很多的用户还没有意识到灾备的重要性,这与西方国家强烈的灾备意识差距很大。
因此为提高农信关键业务数据的安全性必须设计一种更高级别的数据保护方式:
基于硬件级别的实时数据灾难备份。
容灾技术分析
容灾技术选择
RTO和RPO
在详细讨论容灾的技术前,首先要明确的是灾难复原的目的不是仅仅得到相同的数据拷贝,而是如何在灾难发生后如何复原应用的运行,重要的是如何保证灾难发生后备份的数据可用。
恢复时间目标(RecoveryTimeObjective,简称RTO):
RTO表示了从灾难发生直到业务流程再次运行(即被恢复)的时间。
RTO有两个组成部分,明确灾难发生后指示恢复流程开始的决策时间(DecisionTime)和进行灾难恢复流程的实施时间(DeploymentTime)。
一般来说,恢复时间(RTO)越短,那么灾难恢复方案的成本就越高,但是由于灾难造成的业务损失就越小;反之,恢复时间(RTO)越长,灾难恢复方案的成本较低,但是由于灾难造成的业务损失就较大;
恢复点目标(RecoveryPointObjective,简称RPO):
RPO是灾难发生后业务能够容忍的数据丢失量,或者说灾难发生造成的数据丢失量。
一般来说,RPO越高(即,丢失的数据越少),容灾的成本越高,但是由于灾难造成的业务损失就越小;反之,RPO越低(即,丢失的数据较多),容灾的成本越低,但灾难造成的业务损失也越大。
容灾的7个层次
据国际标准SHARE78的定义,灾难恢复解决方案可根据以下主要方面所达到的程度分为七级,即从低到高有七种不同层次的灾难恢复解决方案。
可以根据企业数据的重要性以及您需要恢复的速度和程度,来设计选择并实现您的灾难恢复计划(参见图3)。
这取决于下列要求:
●备份/恢复的范围
●灾难恢复计划的状态
●在应用中心与备份中心之间的距离
●应用中心与备份中心之间是如何相互连接的
●数据是怎样在两个中心之间传送的
●有多少数据被丢失
●怎样保证更新的数据在备份中心被更新
●备份中心可以开始备份工作的能力
现已证明,为实现有效的灾难恢复,无需人工介入的自动站点故障切换功能是一个必须被纳入考虑范围的重要事项。
目前通用的异地远程恢复标准采用的是1992年Anaheim的SHARE78,M028会议的报告中所阐述的七个层次:
图16容灾系统的7个层次
0层-没有异地数据(Nooff-siteData)
Tier0即没有任何异地备份或应急计划。
数据仅在本地进行备份恢复,没有数据送往异地。
事实上这一层并不具备真正灾难恢复的能力。
1层-PTAM卡车运送访问方式(PickupTruckAccessMethod)
Tier1的灾难恢复方案必须设计一个应急方案,能够备份所需要的信息并将它存储在异地。
PTAM指将本地备份的数据用交通工具送到远方。
这种方案相对来说成本较低,但难于管理。
2层-PTAM卡车运送访问方式+热备份中心(PTAM+HotSite)
Tier2相当于Tier1再加上热备份中心能力的进一步的灾难恢复。
热备份中心拥有足够的硬件和网络设备去支持关键应用。
相比于Tier1,明显降低了灾难恢复时间。
3层-电子链接(ElectronicVaulting)
Tier3是在Tier2的基础上用电子链路取代了卡车进行数据的传送的进一步的灾难恢复。
由于热备份中心要保持持续运行,增加了成本,但提高了灾难恢复速度。
4层-活动状态的备份中心(ActiveSecondaryCenter)
Tier4指两个中心同时处于活动状态并同时互相备份,在这种情况下,工作负载可能在两个中心之间分享。
在灾难发生时,关键应用的恢复也可降低到小时级或分钟级。
5层–两个活动的数据中心,确保数据一致性的两阶段传输承诺(Two-SiteTwo-PhaseCommit)
Tier5则提供了更好的数据完整性和一致性。
也就是说,Tier5需要两中心与中心的数据都被同时更新。
在灾难发生时,仅是传送中的数据被丢失,恢复时间被降低到分钟级。
6层-0数据丢失(ZeroDataLoss),自动系统故障切换
Tier6可以实现0数据丢失率,被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,当发生灾难时,能够提供跨站点动态负载平衡和自动系统故障切换功能。
远程容灾技术选择
图17远程容灾层次
1、基于备份软件与磁带库的解决方案
●定时备份,成本低,易于实现
●RPO长,数据丢失量大
2、基于应用程序容灾解决方案
●应用程序在本地、远端双写I/O
●复杂、麻烦、不稳定、效率低
3、基于数据库复制的远程容灾解决方案
●数据库本身的远程复制(OracleDBGuard)
●不稳定、只能复制数据库文件
4、基于主机的远程数据复制软件容灾解决方案
●复制软件在卷管理器层面截获I/O,远程复制
●低效率、占用主机资源、价格昂贵
5、基于存储的远程数据复制容灾解决方案
●智能存储远程数据复制
●安全、成熟、简单、高效、节省资源
定时备份的容灾分析:
以上技术中,基于备份软件和磁带库的定时备份虽然RPO较长,但投资小,易于实施,可以快速部署,因此是快速建设灾难备份系统的选择,可以做为建设中小银行容灾系统的第一步。
实时复制的容灾分析:
实现最小数据丢失的实时容灾是金融用户的最终目标,而目前的手段主要基于应用、操作系统和存储设备,其中,应用和操作系统级别的复制技术都有一定局限性,用于异地容灾上需谨慎考虑。
而基于存储的远程数据复制技术是属于我们上面提到的SHARE78第五层以上容灾,具有RPO和RTO短的优势,同时安全、成熟、稳定,当前的大型容灾项目基本上都基于这种技术,这也是我们重点向中小银行推荐的远程容灾技术。
当前各存储厂家都推出了各自的数据复制系统,经对比分析,从异步复制技术上主要分为2个技术阵营,其中IBM的PPRC和EMC的SRDF采用数据集合周期性发送同步的方式,而HDS、HP、SUN为统一产品(HP、SUN为OEMHDS的存储),其异步复制采用时间戳、顺序号、一致性组的按I/O发送的方式,见下表:
同步数据复制
异步数据复制
IBM
PPRC
PPRC-A,按一致性组周期发送
EMC
SDRF
SDRF/A,按数据集周期发送
HDS
TrueCopy
TrueCopy-A,按I/O实时发送
HP
CA
CA,同上
SUN
同上
后面我们将重点介绍IBM和HDS的方案并分析对比。
采用备份软件的定时备份
一个完整的存储备份解决方案需要有统一的管理策略,建立起安全和存储管理体制,将日常数据的安全管理与灾难恢复系统的建设结合起来。
要实现以上目标,有必要在数据管理上做到自动化存储管理,实现无忧化管理,并能实现高效简单的灾难恢复。
IBM、VERITAS等厂商都提供对主机和网络优秀的管理解决方案。
针对中小银行备份管理需要和目前IT环境,XXXX定时灾难备份系统首先建议利用IBMTivoliStorageManager(TSM)企业备份软件,配合主备中心的设备和磁带库,实现对数据备份的方案。
下图显示了在TSM灾难备份方案中数据在备份和恢复时的传输方式:
XXXX定时备份方案采用独具特色的ServertoServer的数据远程复制技术,实现本地备份中心和异地备份中心的数据复制,在本地备份中心和异地备份中心都会部署备份管理服务器,每个生产节点的数据保管到本地的备份管理服务器后,本地的服务器会与异地备份中心的管理服务器进行数据复制。
生产系统的数据会不停的保存到TSM中,复制的过程也可以同时在进行。
此复制的过程是采用独具特色的ServertoServer的数据远程复制技术,将保存在本地TSM存储池里的备份数据复制到远端的异地备份中心TSM相对应的存储池里。
如下图所示:
在数据复制前,本地TSM服务器会对异地备份中心的TSM服务器作一致性检查确保异地备份中心的TSM服务器中保存的数据与上一次本地TSM服务器发送过去的数据一致。
这是一种数据完整性的重要保证。
消除了由于人为错误和传输失误造成的备份中心数据不完整。
TSM灾备方案中,数据的完整性,安全性通过以下措施得到保障:
TSM对每次保管的数据都会把数据的属性(大小,存放在磁带的位置等)记录在TSM自带的DB数据库和交易记录LOG里面。
TSM的引擎是一个关系数据库。
迄今没有任何一家其他存储管理软件是采用关系型数据库作核心的。
关系数据库的处理能力,搜索速度和对数据管理的可靠性是TSM性能超越其他采用索引文件作为引擎的备份软件的主要原因。
TSM完善的介质管理能力也得益于这个数据库引擎。
TSM的DB和LOG都支持镜像的功能。
在本地与异地备份中心的TSM服务器都会在设置时对DB于LOG做镜像,使TSM服务器上的数据的完整性由于硬件出故障而造成损害的可能性降到最低。
在实际的生产环境中每次本地TSM服务器与异地备份中心的TSM服务器之间复制数据之前,会做一致性的检测。
确保两端保管的数据完好和属性没发生意外的损坏。
这是保证数据准确性的重要依据。
IBM存储的实时数据复制
本节介绍的基于磁盘系统的PPRC(Peer-to-PeerRemoteCopy)数据级容灾解决方案,目前业界有两种基本的基于磁盘系统的远程拷贝形式:
同步PPRC远程拷贝(synchronouswrites):
来自主机的数据被写往本地连接的磁盘系统,该系统将数据转发给远地点连接的磁盘系统。
只有当两个系统都拥有数据的拷贝以后,本地系统才会向主机返回一个I/O完成指示。
同步远程拷贝能够在远地点提供最新的数据,但应用程序会因等待写I/O操作的完成而被延迟。
由于距离的限制这种方式也叫做“同城镜像(MetroMirror)”
异步PPRC远程拷贝(AsynchronousWrite):
来自主机的数据被写往本地连接的磁盘系统,该系统立即向主机返回一个I/O完成指示。
数据在很短的一段时间(在实际中通常在数秒钟到一分钟左右)以后被送往一个远程磁盘系统。
异步远程拷贝对应用程序性能的影响最小,但远程磁盘系统在数据的更新程度上与本地系统相比会有一个延迟。
单纯的异步拷贝由于线路距离较远等原因,本地磁盘和远地磁盘可能会有逻辑卷读写顺序上的差异。
这种方式也叫做“全局拷贝(GlobalCopy)”
在全局拷贝(GlobalCopy)的情况下,比如本地磁盘系统提供给主机5个逻辑卷,某一时刻主机对这些逻辑卷发起了A,B,C,D,E,5个写盘请求,本地的磁盘系统的写顺序是A,B,C,D,E。
但是由于线路等原因,远地的磁盘系统在接收写请求时,收到的顺序可能是A,C,B,D,E。
写盘的顺序也是A,C,B,D,E。
我们假设灾难发生在这5个写操作D,B的中间部分,那么这时远地的数据C很有可能是没有意义的,甚至是无理的。
为了解决本地磁盘和远地磁盘可能存在的逻辑卷读写顺序的差异,有的磁盘系统提供带有一致性组的异步远程数据拷贝。
在这种方式下,远地的磁盘系统会将先收到的写请求缓存起来(比如上面的数据C),等到它前面的数据(A,B)到达后,再按照顺序写盘。
这种方式也叫做“全局镜像(GlobalMirror)”。
见下图:
IBM异步PPRC远程拷贝提供带有一致性组的异步远程数据拷贝。
IBM同步数据复制技术
IBM的PPRC提供了实现灾难备份的方案基础。
PPRC全称Peer-to-PeerRemoteCopy,是以存储为基础的实时且与应用程序无关的数据远程镜像功能。
PPRC的实现较为简单,是无数据丢失且具有完全恢复功能的灾难恢复解决方案。
PPRC基于IBMESS企业级存储服务器,以逻辑卷为基本单位,通过光纤通道将本地ESS上的数据同步镜像到远端的ESS上。
为了在保证数据的即时性、完整性和系统性能之间达到平衡,PPRC提供了多种工作方式。
同步方式下:
点对点远程拷贝(PPRC)是一种同步远程镜像的工具,可用于相隔距离达103公里的两个ESS系统中指定的逻辑卷。
这一距离可以通过第三方提供的通道扩展器加以延长,ESS可以为所有连接的主机支持PPRC功能。
PPRC将确保如果备份卷不能被更新,那么即使源卷更新成功,整个写操作也会返回失败---保证源卷和目的卷的数据彻底一致。
同步方式可以保证数据不会丢失,更重要的是数据的一致性在这种方式下能够得到很好的保证---数据的不一致意味着相关数据的丢失,此时数据库的数据安全机制无法保证数据的安全,严重时有可能造成数据库无法启动。
PPRC的同步实现机制如下图所示:
PPRC同步工作过程为:
1、应用程序将数据写入磁盘--在生产系统中的应用程序将数据写到生产系统的磁盘。
2、生产系统中的磁盘数据传输到备份磁盘--对每一个在生产系统的写操作都要将这个写操作送到备份磁盘。
3、备份机磁盘数据复制--备份磁盘复制生产系统的数据。
4、将写完的操作信息返给生产磁盘--当生产系统收到备份系统传回的已写信息之后,生产机的磁盘系统通知主机该写操作已完毕,在此之后生产系统的应用将继续执行。
在同步PPRC的建立过程中,卷具有不同的状态,以保证数据的完整性。
IBM异步复制技术
IBMPPRC磁盘级数据复制功能包括异步的GlobalMirror方式,即全球镜像模式(PPRC-GlobalMirror),它采用异步方式工作,并且采用一些机制保证数据一致性,解决了数据保护/距离/性能之间的矛盾。
1、异步PPRC(GlobalMirror)的技术环节如图(其中绿色为生产站点磁盘,橙色和蓝色为容灾站点磁盘):
2、绿色(A盘)和橙色磁盘(B盘)之间进行PPRC-XD异步操作
3、绿色磁盘(A盘)组根据预先设置的时间,生成“一致性组”(ConsistencyGroup),并记录状态
4、采用PPRC-XD异步操作方式,将且只将“一致性组”记录下来的数据传递从绿色磁盘组传递到橙色磁盘组
5、完成后,立刻将橙色磁盘组数据FlashCopy到蓝色磁盘组(C盘),进行一致性数据保留
6、完成后,回到步骤1
一旦出现灾难,丢失的是两次生成“一致性组”间隔之间的数据。
采用PPRC的IBM存储能够按分钟级别生成一次“一致性组”,意味着如采用异步方式,有可能丢失的数据按分钟级计算。
一般的异步方式,客户会丢失几个小时以上的数据,并且操作十分繁琐。
所以对于IBM的实时灾备方案设计来说,首先需要A、B、C三个卷,即PPRC-XDA->B,FlashCopyB->C,但全球镜象在对A卷进行保护时,B卷和C卷都是不能被服务器访问的。
因此,应考虑同时使用一个D卷(测试卷)。
D卷是不同于B卷和C卷的另外一个卷,类似C卷,是具有数据一致性的快照卷。
用于平时进行容灾测试、复制质量测试、备份、数据挖掘和应用测试等。
因此为方便验证和测试,我们需要规划A、B、C、D四个卷,即需要考虑设计灾备存储容量为本地核心存储容量3倍。
HDS存储的实时数据复制
HDS同步数据复制技术
HDSTrueCopy/Sync数据同步复制容灾解决方案是HDS公司在全面分析各种操作系统、各种容灾技术、仔细研究客户对容灾的需求和理念之后,结合HDS高端智能磁盘存储系统的特点推出的数据同步复制容灾解决方案;彻底解决长期困绕用户的、难于进行容灾方案的真实演练、真实数据测试的问题,最大限度的减少数据丢失问题;TrueCopy/Sync是基于磁盘存储系统运行的软件包,不依赖任何的主机操作系统和其他第三方厂商软件,为用户提供了最安全、最开放、最经济、最实用的远程容灾解决方案。
在使用TrueCopy/Sync同步数据复制软件进行数据复制时,备份端的数据拷贝与生产端的数据拷贝或生产数据永远保持一致,备份端拷贝永远是生产端数据盘的“镜像”。
此时作为备份磁盘存储系统总是与生产磁盘存储系统数据同步,生产端磁盘存储系统与备份端磁盘存储系统同步进行相同的I/O更新,备份端磁盘存储系统在更新时总是与生产端磁盘存储系统保持完全一致的顺序,以保证数据的一致性和完整性。
当生产系统发生灾难时,不会出现数据丢失。
图:
HDSTrueCopy/Sync复制技术
TrueCopy/Sync的最大一个优势在于不依赖于主机系统、文件系统、数据库系统,只是基于磁盘存储系统的工作机制,利用磁盘存储系统控制器的控制台来启动、监控、控制远程数据备份的操作。
节省主机系统的CPU资源,为提供用户开放的高可用性。
HDS异步复制技术
解决由于远程同步镜像方式给生产应用系统性能造成的巨大冲击和系统的压力,解决异地长距离的场地部署问题,以异步方式实现可靠的、经济的、可实施的容灾解决方案
在TrueCopy的远程容灾异步方式下,通过时间戳、分组号可以保证数据的一致性和完整性,并在灾难发生时的数据丢失最少,恢复时间短,极大的提升了用户的投资回报率。
而其它厂商的远程容灾异步方式为了完全保证数据的一致性和完整性,需要额外的投资(更多的磁盘盘组或更高的CPU)才能实现。
在异步方式下,生产系统所发出的I/O操作至本地存储系统,本地存储系统处理结束后即通知主机本次I/O结束。
然后,本地生产存储系统将多个累计的写I/O异步(几乎实时发送)的,不一定按顺序的传送到备份中心的存储系统中,因此在异步方式下,对应用系统的性能没有任何影响
由于I/O操作不是同步的传送到备份中心,在异步方式下,就存在数据的传送顺序与实际的数据的操作顺序不一致问题。
为了解决这一问题,HDS容灾软件对每个写入生产中心存储系统的I/O都打上一个时间戳(TimeStamp)并进行一致性分组(ConsistencyGroup),在数据传输至备份中心时,备份中心存储系统严格按照此时间戳的时间顺序重新排列并写入相应的逻辑卷中,从而保证了备份数据的逻辑一致性与完整性。
目前,HDS的TrueCopy软件其独有的时间戳(Timestamp)和一致性组(ConsistencyGroup)技术,是目前存储业界唯一可行且安全的存储系统之间的异步数据备份方案并被广大用户采用
由于数据异步远程更新,应用程序不必等待远程更新的完成,因此远程数据备份的性能的影响通常较小,并且备份磁盘的距离和生产磁盘间的距离理论上没有限制。
只有在当传送中的数据在生产磁盘控制器或在TCA中还没有形成数据一致组时生产中心发