XX数据应用容灾系统项目建议可行性方案.docx
《XX数据应用容灾系统项目建议可行性方案.docx》由会员分享,可在线阅读,更多相关《XX数据应用容灾系统项目建议可行性方案.docx(25页珍藏版)》请在冰豆网上搜索。
XX数据应用容灾系统项目建议可行性方案
XX数据应用容灾系统项目建议可行性方案
1.用户需求及针对本需求的容灾系统设计综述
xxxxxxx当前的应用系统类别较多,包括了办公及业务等多个方面。
在平台上包括Windows及当前主流的多种UNIX,在存储体系上也具有多种型号的存储产品。
因此,整个系统的复杂程度较大。
同时,由于应用系统一经处于比较完善的程度,因此,任何的调整都将带来很大的影响。
为此,为了确保数据的安全性,在早期用户实施了数据的磁带备份,但对于关键数据来说,这种磁带备份还不能够完全满足系统抵御各种灾难的能力。
为此,用户考虑对数据实施灾备计划。
数据的容灾保护提供最基本的容灾底线保证,确保在任何预计之外的灾难发生后,业务系统都可以在允许损失极少量数据(或无损失)的情况下,在一定的时间内恢复,数据容灾同时也是应用逻辑错误和数据库软件bug的容灾应对出发点;可以通过一定的方式来恢复到这种故障之前的可用的状态。
1.1应用数据安全级别的分级考虑
鉴于当前存在的大量数据,在安全性的要求上建议分出不同的优先级别,建立不同安全级别的保护措施。
这样不仅在成本上会带来优势,同时也可以确保最关键数据的不丢失。
这种分级保护一般根据可以承受的数据丢失量(如半小时,或一天)来考虑。
我们不妨把不允许有任何数据丢失的应用定义为安全级别最高,要求进行实时的同步的数据远程传输,对于相对来讲数据安全级别稍低者可以把数据传输的优先级别作相对较低的配置,从而确保在同一时间优先发送最为关键的应用数据。
而对于数据安全要求一般的数据来说,建议采用本地的磁带备份即可,而不必纳入到灾备的体系中来。
这样不仅可以合理使用资金,同时也可以确保关键数据的最高级别保护。
1.2用户需求分析:
用户资料采集:
xxxxxxx当前SAN环境(图)
用户需求分析:
1)数据的实时远程复制
针对关键业务系统数据实现数据的实时的远程复制,从而保障数据在本地发生各种故障之后首先可以保障数据的完整性,并可以通过一定的途径快速得以恢复,或者根据情况在远程直接启动应用。
2)灾备数据的可处理性,包括对数据的读写操作。
所谓的读操作,是指灾备数据可以为其它的某些临时的应用提供便利,支持对这些数据的读操作。
从而可以方便地验证灾备体系的工作是否正常,或者在必要的时候利用这些数据进行诸如员工培训、软件调试、相关系统的引用等多种处理。
所谓的数据读写操作,是考虑利用灾备数据提供诸如员工培训、系统应用测试、后续软件调试或其他临时应用的可能。
这样,可以为上述应用带来最大的便利性。
但是,为了保持和原始数据的一致性,系统应该支持上述写入操作的Reset(重置)操作,使得在上述任务结束后,可以方便地把数据恢复到没有进行写入操作之前的状态,维持灾备数据和源数据的严格一致。
另外一个方面,数据的读写支持,也可以很方便地验证灾备体系的工作是否正常。
当然,这种读写操作必须要对数据的远程复制和本地的应用不产生任何影响。
2)(远期)应用的可切换支持。
灾备中心不应该作为纯粹的备用系统,在提供诸如数据查询等应用的同时,还要提供自动的应用切换等支持,一旦在生产中心发生故障后,灾备中心的关键系统可以自动接管生产系统,提供持续的应用保障。
这种规划建议作为远期的目标之一,当前建议只以数据的远程复制为主,但当前的方案必须要考虑到本要素。
1.3本项目中需要注意的几个要点
通过在对用户的具体环境和需求作了细致的分析之后,我们认为用户对该数据容灾系统给以了充分的重视,所提出的观点和要求是十分详细和具体的,在此,从我们方案提供商的角度,对此作如下的概括,便于整体方案的分析。
✓方案的通用性。
这种通用性体现在两个方面:
一是异构平台、存储设备的支持性,二是对不同应用类型数据的适用性,只有这样的方案才可以较好地保障用户当前投资,达到与应用类型无关、与平台无关以及与磁盘阵列等存储设备无关的适用性最广的解决方案。
在当前,数据主要以Oracle、DB2、SQL2000类型为主,但是随着应用类型的增加,产生不同类型数据的可能性还是很有可能的。
如果现在选用了仅仅支持如Oracle数据的解决方案,那末临时性的其他数据将无法得到及时的复制,或者今后的应用扩展将受到很大的制约。
✓实时的数据复制解决方案。
我们认为最终用户已经对不同应用数据的安全性要求做出了很好的分析和划分,其中关键数据要求不丢失,或尽量少地丢失。
因此,我们认为必须要采用真正的实时的数据复制解决方案才可以满足这种要求。
在条件具备的情况下,应该做到无延迟数据复制。
而建议采用非实时或准实时复制方案。
✓灾备数据的可用性
分为两个方面,一是数据的实时复制的可靠性,要求复制数据要和源数据保持严格一致,严格按照源数据的写入顺序进行复制,使得灾备数据具有可用性。
二是在需要的时候可以很便利地对灾备数据进行读写操作,但是,这种读写操作不应该对数据的实时复制产生影响。
还有,在对灾备数据进行修改(如进行员工培训、软件测试等操作时对数据的采集或调整测试)后可以恢复到原有状况,从而确保数据的一致性和安全性。
✓扩展的便利性
包括对当前和今后其他应用类型数据的实时复制的扩展,复制距离的扩展以及复制节点数量的扩展等多个方面,在当前选择方案的时候面对未来的需求进行全面考虑。
✓数据的丢失量
对于关键应用要求数据不丢失,因此,不建议采用诸如当前在主机上开辟一定的缓存(Buffer)空间,用来存放待复制的数据,利用异步的方式发送到远程。
这样的产品无疑会因为各种原因导致数据的丢失率较大,如当主机资源意外掉电或宕机时,上述Buffer(缓存)中的数据必然会被丢失。
我们推荐在主机产生写入操作的同时数据被发送出去,这样,数据始终保持和本地的写入同步,这样的方案才可以真正做到数据的无丢失。
✓数据的可回滚性(最新数据不可用情况下的数据恢复支持)
不可避免地会在某些情况下,最新复制的数据不可用的情况下,尤其对于Oracle数据库,很可能在管理员发现故障时,其内部已经在几分钟之前就已经出现了问题,那末,被复制过去的数据肯定也是不能够被使用的。
此时,我们必须要具有数据的回滚性支持,比如可以往前回滚30秒、1分钟或2分钟,并利用这些数据获得可用数据同时数据的丢失量最小化。
✓灾备自身系统实施及恢复的便利(简易)性
灾备系统的实施不应该对现有的应用系统作任何调整,尤其是对当前运行较稳定的系统。
当然,即使需要一定的调整。
那末。
这种调整夜必须是系统管理员可以理解并接受的。
同样,对于灾备系统自身而言,发生问题后的解决或全面的恢复也要简易化,要支持如WEB管理,图形化管理,而不应该需要较复杂的配置。
否则,今后如果需要作系统调整,那末,系统管理员将无法面对这种配置和管理,甚至导致日常的维护也不敢动手的现状。
✓对系统的影响最小化
由于当前应用系统的完善性和稳定性,不建议为了本灾备系统而对当前的应用系统做任何方面的调整。
主机资源不能够因为灾备系统的实施而显得紧张,包括内存、CPU等资源的占用应力求最小化。
当然这种影响我们认为同样包括实施时候对系统、对数据库、对应用的调整合对存储空间的调整等多个方面。
✓灾备方案要支持策略化配置
便于不同的应用数据具有不同的复制优先级别,以确保关键数据不丢失。
✓灾备系统的管理简易性
为了确保灾备系统的正常运行,在日常的管理中必须要进行一定的演练,以保障需要时候的迅捷相应和确认灾备系统可用性。
那末,这种日常的演练活动必须要简单,也就是灾备系统自身必须要具有简易的人性化的管理,同时,在对灾备数据作验证时不应当对生产系统产生任何影响。
还有,系统自身故障后应该具有很便利的方式直接来恢复,而不需要重新配置。
✓灾备数据具有不影响复制的读写支持,同时支持写入操作后的Reset(数据重置)
为了充分利用灾备数据,方案必须要支持对灾备数据的读写,同时,该读写的过程不应该影响数据的继续复制。
这样,我们可以利用灾备数据进行诸如软件调试、员工培训、系统测试、灾备系统测试、演练等多种操作。
但是,一旦在这种练习结束后,必须要要保证灾备数据恢复原样,保持和实际数据一致。
✓相关故障的自恢复故障报警功能
系统涉及到大量的专业设备或技术,因此,灾备系统必须要具有很强的相关故障自恢复功能。
如WAN故障、主机故障、应用系统故障等相关因素在恢复正常后,灾备系统也应该自动恢复运行,保持数据的实时复制。
另外,灾备系统自身应该具有完善的日志和报警机制,减轻管理员的负担。
✓灾备系统具有较强的数据传输性能(如高度的压缩等能力)
由于系统基于IP链路设计,因此,必须要具有很高的数据传输能力,才可以保障在有限的带宽资源环境下提高数据的复制性能。
这种性能的提高很大程度上是靠较高的压缩率来时实现的,我们建议灾备系统要具有超过10倍的压缩率。
2.数据容灾系统的详细设计
2.1系统设计原则
在基于当前的先进技术及产品的情况下,结合整体造价,提供最高性价比的整体解决方案是我们这次规划的主要原则。
同时在遵循用户提出的设计原则的前提下,我们还充分考虑了如下的设计理念:
✓最高的性价比。
根据用户应用的实际需求,提供适宜的解决方案,在有限的资金许可范围内,提供符合上述需求的方案,并降低后续的维护成本,从而提高系统的整体性价比。
✓实时的数据复制,数据丢失率最小化。
✓策略化的数据复制,保障关键应用和一般应用数据的优先级别策略化,确保关键数据不丢失。
✓严格的数据一致性。
✓灾备数据的可读写支持,在进行读写的同时不影响正常的数据复制,灾备数据在被操作后致支持重置,确保与原数据一致。
✓基于WEB、GUI(图形管理)及CLI(命令行)多种管理方式。
✓对应用系统影响最小化;自身故障对应用系统无影响。
✓实施便利,无须对应用作任何调整。
✓广泛的适用性,数据复制和应用类型、数据类型没有任何关系,支持异构的平台和存储设备。
✓高性能的数据传输,具有高度的数据压缩率(高于10倍),提高数据复制性能。
2.2系统的产品选择
我们选用业界最领先的美国EMC公司的RECOVERPOINT产品作为本系统数据的实时复制(容灾)产品。
EMC公司总部在美国加利福尼亚州,在美国纽约、圣何塞(硅谷)及以色列具有研发基地,专门致力于数据安全解决方案的技术研发。
在数据容灾日益成为大家关注的话题的同时,EMC推出了新一代的数据复制解决方案。
大体来说,美国EMC产品具有如下的基本特点:
Ø提供实时的数据复制保障,确保在各种故障发生的情况下数据的完整性。
便于实现应用的远程容灾。
Ø支持异构存储和异构服务器平台。
这种功能的实现便于用户提供对当前及未来存储设备投资的保障,最大程度地适应存储设备的多样性,避免在今后磁盘阵列的扩展成为被限制的一个方面。
相反,目前大多的数据容灾解决方案均是以磁盘阵列为基础进行复制,要求本地和远程具有相同的磁盘阵列类型。
Ø基于标准IP网络进行数据复制,同时采用智能化带宽缩减技术来实现对带宽需求的空前降低。
目前的数据复制方案均要求在本地和远程之间通过专线连接,这样无疑会带来巨大的成本要求。
而EMC的解决方案可以基于IP网络,同时具有带宽约减技术(较高的数据压缩率),策略化地实现数据和应用对当前带宽的适应性。
Ø策略化的数据复制解决方案,支持全面的数据保护服务级别。
不同的应用数据具有不同的安全级别,因此,在数据复制的同时也可以按照不同的应用给以不同的策略设置,确保关键数据的安全。
如用户可以定义关于延迟、带宽等方面的策略,使得用户可以在性能、安全和成本之间均衡考虑。
Ø同步、异步以及时间点多种模式的数据复制方式动态全面支持。
RECOVERPOINT提供了无数据丢失的保护措施。
一台主机应用每次进行到本地磁盘子系统的写处理时,会并行处理写操作到本地的EMC设备。
EMC应用这种同步连接,并利用独特的缓冲(Buffer)来移交最新的数据保护级别,达到无数据丢失的保护。
EMC的缓冲被内置在设备内,可以被置于远远超过光纤所能达到的距离之外。
Ø利用快照历史可以允许恢复到任一时间点的数据状态。
除了可以保持始终一致的数据复制之外,EMC还提供了独特的回滚能力:
“小径快照”提供频繁的基于几秒间隔的快照能力,这样可以实现到任何时间点(point-in-time)的数据恢复。
在最新数据被破坏的情况下,可以从快照历史库中选择最近的一次完好可用的快照数据快速恢复到刚刚故障之前的状态。
这一极有价值的能力非常引人注目地减少了数据丢失以及对数据崩溃的保护。
在一定的程度上EMC提供的该功能可以代替数据备份技术,甚至远远超过了后者。
Ø企业级高可用及可扩展性支持
在每个节点通过放置两台RECOVERPOINT产品,可以达到自动化的冗余设计,实现数据复制应用的高可用。
Ø唯一的真正“out-of-band”技术的采用使得实施简单易行,同时对应用的影响最小化。
EMC基于智能化out-of-band的一种设备,可以连接到SAN和IP结构中。
也就是说,这种数据复制的过程是在数据路径之外的,以一种非入侵的方式进行。
因此,EMC的实施出人意料的简单易行,另外,与in-band产品相比,EMC的out-of-band解决方案提供了无限制的扩展能力,同时对应用无任何潜在的影响。
Ø远程数据的可用性支持
EMC提供的复制解决方案支持远程数据的可操作性,包括读写。
这样某些特定的操作如生产数据的模拟化联系,软件的调整测试、系统开发测试、新软件的升级测试等等都可以在这些基础上进行首先测试,确保没有问题之后再于生产系统之上进行实施。
Ø远程管理的支持
EMC的RECOVERPOINT设备支持远程的管理与维护,可以配置Email地址,并选择某一类型的信息发送到该地址。
同时,经过用户开放许可,在北京的技术服务中心和美国EMC公司的服务人员都可以随时提供远程支持。
以最快的速度解决问题。
Ø便捷的配置恢复
在RECOVERPOINT自身发生故障,甚至需要更换时,可以便捷地从原来的配置信息中恢复其配置。
该信息被保存在磁盘阵列中,并且该空间只有EMC软件可以支配,从而保障其安全可靠性。
Ø灵活的扩展支持
EMC的解决方案支持双向的数据复制,支持异构的平台和存储设备,便于扩展。
Ø任何应用类型的适应性(方案的通用性)
由于EMC的独特数据复制方式,决定了该方案可以适应任何的应用类型。
这样便为用户提供了灵活便利的应用扩展余地。
可以方便地把今后的应用纳入到本书据复制体系中来。
综上,我们认为采用EMC的数据容灾解决方案是最合适的选择。
3.3灾备中心的组建
根据当前的用户应用环境和今后发展的考虑,我们建议在远程灾备点组建SAN的存储架构用于省数据中心和今后其它生产点数据的集中灾备中心。
基本的架构如下图示意。
针对这种架构,我们建议在产品的选择上作如下的基本要求:
1)在经费许可的情况下配置双交换机,配置必要的服务器(但是对于RECOVERPOINT的解决方案来说,并不需要在灾备中心配置服务器,我们建议配置服务器的目的仅在于对数据的验证和某些必要的操作)。
初期可以配置单台光纤交换机。
2)磁盘阵列的选择建议采用FC-SATA的磁盘。
作为数据的灾备系统,日常并不涉及到应用,因此,建议采用价格相对低廉的FC-SATA磁盘阵列。
3)关键产品配置冗余部件,提高安全性。
磁带库可作为备选设备供远期扩容之用。
2.4数据容灾系统的基本结构
基于美国EMC公司的产品,我们提供了如下图的数据安全保障体系架构。
从下图可以看出,系统的配置简单,结构清晰。
在本方案中我们不需要在数据中心的各服务器上安装软件,唯一需要的是在需要做数据复制的系统上安装RECOVERPOINT的驱动程序,而不需要在服务器上作任何其他方面的调试。
该结构的主要配置如下:
在数据中心和灾备中心分别配置两台RECOVERPOINT,分别连接到光纤存储交换机和以太网络,每个点的RECOVERPOINT之间可以自动冗余,保障数据容灾系统的不间断运行。
在各服务器上只需要安装RECOVERPOINT的驱动程序,不需要安装其他的任何软件。
具体请参考如下示意图。
2.5数据的远程复制流程
EMC提供了完整的独立于应用系统之外的数据容灾体系。
这样对应用系统的影响被降低到最低。
具体的数据复制过程如下所述:
在需要作数据复制的应用服务器上安装RECOVERPOINT的驱动软件。
在应用数据进行写操作时,这些驱动程序会截取这些写入操作,并把该写入操作在继续其正常写入的同时并行地复制到本地的RECOVERPOINT设备上。
数据中心的RECOVERPOINT设备在接收到上述数据之后通过诸如压缩等方面的处理,根据策略设置把相关数据传递到远程(灾备中心)的RECOVERPOINT设备上。
远程(灾备中心)的RECOVERPOINT设备把上述数据按照严格的写入顺序写入到远程(灾备中心)的磁盘存储系统,实现数据的一致性远程保存。
另外的一种方式,EMC安装在本地服务器上面的驱动在接收到远程磁盘阵列的写入反馈(ACK)应答之后才继续进行下一个写入操作,这样的方式是100%同步的方式,可以保障数据100%的完整和可用性。
还有,EMC的复制支持某一个时间点的复制方式,可以每隔几秒钟自动产生一次快照,并在远程保存这些快照,这样,快照历史库可以便利地恢复历史库中某一个时间的数据。
便于在最新数据被破坏的情况下,可用数据的恢复。
上述几种方式的利用可以由RECOVERPOINT自动优化选择,无需人工调整或设置。
因此,从该方面来讲,EMC的解决方案不仅仅可以恢复最新的应用数据,同时也可以恢复某一个时间点的数据。
基于上述数据复制原理,EMC适应任何类型的应用数据,同时无需单独购买诸如针对Oracle、Informix等等不同应用的选件。
这一方面也为用户今后的扩展提供了方便。
这种数据复制可以基于一定的策略设置,针对不同的应用采用不同的诸如延迟、带宽占用等方面的策略设置,确保关键数据的可靠性复制。
由于数据在正常写入的同时被传递到本地RECOVERPOINT设备上,因此,这种数据丢失的可能性被降低到最低的程度,在某种程度上EMC提供了无数居丢失的安全保障。
在本地配置两台RECOVERPOINT设备,可以保障其中一台故障的情况下,保证数据实时复制的继续性,起到冗余的作用。
这种切换是自动的,无需人工调整。
2.6数据的远程恢复流程
在本地数据出现故障的情况下,可以通过RECOVERPOINT的图形界面方便地把数据恢复过来。
完整数据的恢复流程仅仅需要调整原来的数据复制方向,由本地到远程调整为由远程到本地,那末,远程的数据将会作为源数据被复制到本地,从而实现数据的恢复。
这种恢复是最新数据并且是最完整的恢复。
在某些情况下,被复制到远程的数据可能因为在复制的同时本地数据已经被破坏等原因导致最新数据不可用的情况。
此时,我们完全可以通过可用的最新数据快照恢复可用的数据。
由于EMC提供了数据快照历史库的原因,我们可以根据需要把数据恢复到原来的某一个时刻,在一定程度上取代利用磁带所作的数据备份的功能。
当然这种取代是在一定程度上的,并不能完全代替历史数据的备份。
在某些情况下需要对部分文件进行恢复时,可以把灾备中心的数据复制卷加载上来,随意恢复任何一个文件。
4.6RECOVERPOINT的管理与维护
RECOVERPOINT支持基于WEB的全局管理,用户可以便利地实现远程监控,并可以通过email来定制一定类型的活全部的系统信息,包括故障、警告等,从而在最短的时间内获得系统得异常信息。
下面是RECOVERPOINT的管理界面示意图:
从上图可以看到,系统中的SAN组件,WAN及主机均可以动态体现出来,无论是其中的任何一个发生故障,那末,都会在该图形上直接显示,一旦故障解决,系统可以自动恢复,无须人工处理。
这位系统整体的管理带来了直观性和便利性。
系统的远程维护:
RECOVERPOINT支持其远程管理,在用户许可并对管理员开放用户名和密码后,可以通过互联网络直接登录到RECOVERPOINT,从而进行一定的分析与处理。
4.7基本的策略设置
系统可以根据应用的不同、安全级别要求的不同、线路的利用要求等多方面进行策略设置,这些策略包括:
优先级别的设置,不同的复制组可以设置相对的优先级别,从而保障关键应用数据的不丢失,体现出不同应用数据不同的安全要求。
带宽利用率的设置,如果用户的带宽比较紧张,那末可以限制数据复制所占用的带宽,从而,全面保障应用带宽,保障应用性能。
高压缩率的设置,系统提供可6-10倍的压缩率,对于数据库应用甚至可以高达15倍的压缩,从而为数据的传输性能带来保障。
高级策略设置:
数据复制系统(RECOVERPOINT)故障后是否保持应用系统的继续运行,否则,一旦RECOVERPOINT故障,可以在同一时间终止应用系统的写入,从而保障应用系统数据和灾备数据保持完整地一致。
缺省情况下,RECOVERPOINT的故障对应用系统没有任何影响。
在WAN故障情况下,是否允许应用系统得继续运行。
等等。
4.8整体的成本降低
从发展的角度来看,我们推荐的RECOVERPOINT方案可以在如下的几个方面为用户带来附加的费用降低,从而带来整体的投资降低:
1)对不同磁盘阵列的支持:
本地和远程的磁盘阵列可以不同,为今后的扩展带来便利。
灾备点的磁盘阵列可以根据情况来选用中端或低端的产品。
2)对不同应用类型的支持,避免了今后不同的应用需要需要采用另外的方案来实现容灾的目的。
3)低带宽的要求,带来后续带宽成本的降低。
4)维护成本大大降低,由于涉及内容较少,和磁盘阵列、SAN、应用等多个方面都没有较大的关系,因此,维护的工作量大大降低,同时远程的维护支持带来了7*24维护的可能,代表着整体的维护成本的降低。
5)后续扩展的成本,KBX支持多对一的复制,也支持双向的复制,因此,对于今后的节点加入和扩展带来了保障,无须另外的方案解决。
2.7本容灾系统的结构特点
从上面的配置介绍及示意图,我们可以清楚看到本子系统的主要特点:
Ø充分降低数据安全体系对系统的影响;
Ø真正实时的数据远程复制;
Ø数据的完整恢复(零数据丢失)保障;
Ø和应用无关;支持任何应用类型;
Ø实施维护便利;
Ø扩展便利;距离无限制,服务器增加或应用增加不需要重新购买相关软件;
Ø支持异构服务器和存储环境(不同厂家的磁盘阵列);
Ø100%的数据一致性恢复,确保数据的可用性。
Ø自身具备高可用支持,保障了容灾自身体系的不间段运行。
Ø对现有的存储系统及应用系统无须调整,确保当前应用系统的稳定性。
Ø持续的数据保护,可以把数据恢复到任意的时间点。
2.8数据容灾系统扩展
可以从三个方面来讨论本问题:
1)应用类型的扩展,不可避免地会存在多种类型数据(应用)的远程复制(容灾)要求,这样,就要求当前的容灾设计必须要适用这种多种类型数据共存的需求。
我们提供的解决方案和应用类型没有任何关系,因此,无论是何种应用类型产生的数据或任何的数据类型都能够被本容灾系统复制到远程。
2)应用服务器的扩展,我们提供的方案支持异构的平台和磁盘阵列,因此,面向未来的发展,无论是服务器的增加还是其他厂家(或型号)的磁盘阵列的加入,都可以被轻松地纳入到本容灾体系中。
还有我们提供的方案在造价上和应用服务器的数量和类型没有关系,便于随时扩展服务器。
3)基于应用级容灾需求的扩展。
由于我们提供的方案保障了远程数据的可用性,因此,可以便利地利用其他高可用软件来实现应用的远程切换。
4)今后其他点的加入:
如果有其他地点的数据需要作容灾