XXX信息系统灾难备份系统建设方案.docx

上传人:b****4 文档编号:4907438 上传时间:2022-12-11 格式:DOCX 页数:11 大小:377.84KB
下载 相关 举报
XXX信息系统灾难备份系统建设方案.docx_第1页
第1页 / 共11页
XXX信息系统灾难备份系统建设方案.docx_第2页
第2页 / 共11页
XXX信息系统灾难备份系统建设方案.docx_第3页
第3页 / 共11页
XXX信息系统灾难备份系统建设方案.docx_第4页
第4页 / 共11页
XXX信息系统灾难备份系统建设方案.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

XXX信息系统灾难备份系统建设方案.docx

《XXX信息系统灾难备份系统建设方案.docx》由会员分享,可在线阅读,更多相关《XXX信息系统灾难备份系统建设方案.docx(11页珍藏版)》请在冰豆网上搜索。

XXX信息系统灾难备份系统建设方案.docx

XXX信息系统灾难备份系统建设方案

 

XXXX灾难备份系统建设方案

 

XXXXXXXXXXXX

2012-2-24

目录

1、客户简介3

2、用户需求4

3、容灾建设方案6

3.1数据容灾设计6

3.2网络容灾设计7

3.3应用容灾设计8

3.4应用容灾方案特点10

3.5容灾流程设计11

4、容灾建设中建议产品介绍12

4.1商业级别的存储需求12

4.2存储管理技术14

4.3集群管理系统的特点15

4.3.1可扩展的结构15

4.3.2设置的灵活性15

4.3.3灾难恢复15

4.3.4并行处理15

4.3.5使用简便16

4.3.6出色的监控能力16

1、客户简介

 

2、用户需求

1)完整业务恢复

当生产点的业务数据无法访问时,容灾备份点保存有生产点业务数据的副本,这一数据副本能够支持业务继续在容灾备份点恢复运行,但是二者之间通常是有差异的,这个差异被称作RPO(以时间度量)。

RPO为零,说明生产点和容灾备份点之间的状态时刻保持完全一致,RPO为两小时,说明容灾备份点的状态是生产点两小时前的状态,此时如果生产点发生灾难,则容灾点将"丢失"灾难发生前两小时的数据。

虽然能根据对业务支持系统的全面分析,从业务系统的"外围"系统中恢复数据,但是这种"补充"恢复的手段通常会牵涉人工确认干预,不但耗费大量的人力,而且还需要很长的时间,这样长的时间是用户不可接受的。

由于XXXX每天均有不间断的业务进行,因此,要求XXXX的容灾点的业务状态和生产点必须保持足够一致,如果用术语RTO来描述,就是RPO为0,即要做到业务状态的完整恢复。

2)快速、多向灾难切换:

业务支撑系统要跟其子系统配合,才能够支持整个业务系统的完整流程。

因此,在业务支撑系统的容灾设计当中,需要考虑和业务支撑系统相关的所有其他外部子系统,当灾难切换发生时,和容灾点系统的配合问题,包括需要连接的服务器网络地址的更改和相应的存储管理软件设置调整等。

考虑灾难切换,容灾备份建设牵涉到数据复制模式、网络连接方式、本地I/O性能、复制方向改变、复制端数据复用、复制端数据恢复时延、难易程度等问题。

由于在同步数据复制模式下,复制端的数据和生产端能保持完全一致。

当操作切换到容灾点时,业务状态和灾难发生时生产点的状态完全一致,不再需要人工干预进行数据"补充"操作。

信息系统部的技术力量可以完全从繁琐的"数据"补充操作中解脱出来,将更多的精力投入故障分析、排除和生产点恢复的工作中。

另外,在一定的应用环境和网络条件下,数据复制操作造成的写I/O延迟增加很小,只占系统响应时间的很小部分,从总体考虑,同步操作对应用响应时间造成的增加几乎可以忽略不计。

所以,我们建议XXXX在容灾系统中选用同步数据复制模式。

基于主机的复制软件通常仅支持IP网络,而基于存储的复制软件通常支持多种网络技术,包括裸光纤(或称黑光纤DarkFiber)、DWDM、ATM、IP等。

网络连接方式不同,提供的带宽不同,网络自身造成的性能损耗也不同。

对黑光纤而言,没有协议损耗;而且理论上讲黑光纤自身的带宽极高,其限制在于上层的传输手段。

而IP技术,其软件协议的特性会造成很大的网络性能损耗。

从这一点上考虑,我们建议XXXX的容灾系统建设采用基于存储的复制软件。

当灾难发生后,容灾点接替生产点恢复业务。

当生产点故障排除后,通常需要将生产系统恢复回(FailBack)原生产点,而容灾点继续承担容灾的角色。

在这一过程中,需要改变通常的数据复制方向,即将容灾点的数据复制回生产点,这些数据是在容灾点运行业务时新增的数据。

这种反向复制并非只在真正的灾难发生时使用,XXXX平时的容灾演习过程中,这一功能也是必不可少的。

除此之外,数据复制技术和应用系统的界面要清晰,也就是说在功能上,数据复制技术能灵活满足各种应用系统,但不需要现有的和今后的应用系统为数据复制功能实现做出改动;在性能上,它不干扰应用系统的运行,占用主机系统资源。

3、容灾建设方案

3.1数据容灾设计

数据容灾的设计目标有三个,分别是数据的一致性、数据的完整性和数据的可用性。

按照常规分类方法,XXXX信息系统中的数据类型可以分为静态数据、准静态数据和交换数据三种。

静态数据是应用程序、操作系统的程序文件,这些数据在数据生存周期中几乎没有任何变化,只有很少的程序版本更新才会造成数据变化,这些数据的容灾设计需要与容灾系统管理流程结合,在进行程序调整的时候,同步更新容灾的程序数据;

准静态数据通常是各种应用程序的配置参数文件和用户信息等数据,这些数据的变化周期比较长,造成变化的操作很明显,一般是由系统、程序管理员手工操作完成,在本项目中,可以与静态数据归为一类,用同样的方法进行数据容灾;

交换数据是实时发生变化的数据,每一次操作都可能造成交换数据的变化,因此是数据容灾中最需要通过技术解决的问题。

由于同时要最大限度保证完整性、一致性、可用性与投资、管理、性能之间的平衡,对于不同类型的交易数据需要采用不同的技术。

在本设计中对于核心应用系统的数据库数据使用了数据同步软件进行数据的复制,其它数据利用备份软件(例如:

HBU)功能实现。

概括来说,数据容灾的初步方法如下:

􀂃静态数据采用磁带备份,配合变更管理流程;

􀂃准静态数据采用手工备份,纸介质备份,参数文档结合管理的方式;

􀂃交换数据通过数据同步软件进行复制。

3.2网络容灾设计

网络系统是核心业务的核心组件之一,随着核心业务系统的全面上线运行,网络系统的地位越发重要。

网络系统容灾能力要求一个韧性的网络架构,包括自配置、自诊断、自优化、自保护的能力。

具体来说,网络系统应当能够动态调整网络结构以适合新设备的加入;能够对网络故障进行识别、定位、报警,通知网络管理员;能够对网络所受到的冲击进行积极处理,避免网络完全中断;能够对网络线路进行优化,实现负载均衡和断路保护。

上图是XXXX信息系统的网络,为适合容灾的网络建设目标,根据地税网络环境特点,先要完成/使用以下几种改造方案以适合容灾的需要。

􀂃动态入口访问地址

在灾难发生的时候,由于进行了容灾切换,访问入口设备切换到容灾中心,其地址将发生变化,为了保证网络客户依然可以访问服务器,各客户机必须采用动态的方式进行入口地址解析,同时网络中各个地址索引也必须以域名方式,动态指引访问地址,而不能绑定固定IP;

􀂃冗余核心网络路径

连接生产中心与容灾中心的广域网络线路之间应当能够互相备份,因此在核心网络中要能实现动态路由技术,对冗余路径提供负载均衡传输。

(例如可以采用HSRP,OSPF相结合,提供网络上的动态路径支持)

􀂃网络端到端通信正常监视

由于网络存在部分故障的情况,此时会引起网络上部分用户无法访问,所以需要在网络设计中提供端到端访问监视的功能,以确认网络全路径正常。

监视方法可以采用在关键点安置简单的ping或网络扫描、模拟业务访问的方法;(例如:

F5的BigIP)

3.3应用容灾设计

应用容灾主要涉及的内容是在进行容灾切换后,重新初始化应用程序。

应用程序可以分为两类,一类应用程序负责网络连接或者流程处理,没有复杂的数据结构,重新启动后,无需作任何操作,直接可以投入生产;另一类应用程序进行数据处理,例如数据库,如果异常故障,将导致磁盘数据混乱,重新启动后,需要通过内部机制进行磁盘数据恢复,通常这个恢复过程很长,可能需要几十分钟到几小时。

为了提高容灾RTO,在设计中使用双活的数据库方式,容灾数据库一直处于启动状态,切换后无需恢复工作,这样大大减少了数据库恢复的时间,接管生产时间可以控制在几分钟之内。

但是,热备份状态下的数据库不能直接利用生产中心的数据,需要通过第三方软件进行数据抽取工作,另外,为了防止容灾中心的数据被误写,造成数据不一致,容灾中心的应用程序需要控制数据写入操作,在切换的时候再进行解锁,而当生产中心恢复的时候还要考虑数据的反向同步。

容灾拓扑示意图

容灾中心建设示意图

如果采用传统的阵列容灾方式,用户不得不为每一个品牌的阵列独立构建与其配套的容灾系统,这就意味着社保系统需要建设多套独立的容灾系统,也就意味着互相之间的资源无法彼此利用,势必造成大量的重复投资。

我们提供的虚拟化容灾解决方案却可以从根本上解决这个问题。

它通过虚拟化技术将不同品牌的磁盘阵列进行融合,并统一实现容灾。

也就是说在容灾中心只需部署一套同样的虚拟化设备及一套磁盘阵列即可实现生产中心多套磁盘阵列的容灾,有效地降低了TCO(总体拥有成本)。

更为重要的是,虚拟化容灾解决方案可以简化了容灾系统的架构,有效地降低了数据中心的管理压力。

如图所示,在该方案中,利用网络层的复制技术,实现了基于I/O级的数据复制与恢复,通过专业的软件与生产中心数据库紧密结合,有效地保证了灾备中心数据的一致性和可用性。

对于需要实现应用级容灾的应用,可在灾备中心部署相应的主机、集群软件和备用网络,即可实现生产中心关键应用的手动/自动切换,有效保证了关键业务系统的抗灾能力,满足了《信息系统灾难恢复规范》中的五级或六级的容灾标准。

数据容灾方案中采用的数据复制管理系统作基于主机的容灾。

数据复制管理系统用于帮助客户实现远距离异地数据复制的功能模块。

数据复制管理系统的复制基于卷(逻辑磁盘)进行,复制的数据可以是数据库中的数据(文件方式或裸设备方式)和关键业务系统中的文件。

数据复制管理系统通过基于Volume和Log的复制技术,保证在任何时刻本地系统发生不可预料的灾难时,异地容灾站点的数据仍然是可用的。

由于数据复制管理系统仅仅将Volume上每次I/O变化的实际数据实时复制到远程节点,所以在网络线路上传输的数据量较少,对带宽的需求也较低。

3.4应用容灾方案特点

●任意距离的复制

数据复制管理系统支持通过IP网络进行同步或者异步数据复制,可以在不影响性能或者数据一致性的情况下从任何距离提供灾难恢复功能。

●独立于存储设备的复制

数据复制管理系统基于主机卷的复制功能,提供了几乎适用于任何SAN相连存储设备的可靠数据复制解决方案,数据复制管理系统支持所有主流厂商存储应用平台之间的数据复制,从而消除了厂商特定的存储限制。

●可扩展性能满足任何环境的要求

数据复制管理系统能扩展到任何数量的应用和服务器,而不受复制应用大小或者活动的影响,即使在要求最为苛刻的处理环境中,它也能提供快速高效的复制。

●集中管理和报告

用户可以通过单一界面在多个数据集和操作系统上配置、监控和管理数据复制管理系统,这种功能可缩短最初进行复制配置和部署所用时间,同时提高大量复制应用的后期管理效率。

●数据以及数据库一致性保护

通过使用基于磁盘的持续性复制日志,数据复制管理系统可在同步和异步复制模式下确保主数据集和备用数据集之间的数据一致性,甚至可以在暂时或者长时间网络中断期间保持数据的一致性。

●高效的带宽使用

数据复制管理系统只复制实际变化的数据,而不是复制任何数据块或者磁盘轨道,可最大限度减少WAN流量。

并可以通过异步复制来提高现有带宽的使用效率,同时数据复制管理系统还具有对每个应用的带宽管理控制功能,可减少应用对有限资源的争夺,并确保关键应用能获得必要的网络资源。

●自动灾难恢复

数据复制管理系统要和群集服务器全面集成,提供目前市场最为强大的灾难恢复自动化解决方案,使企业能够在多个站点监控所有的应用及相关复制,并自动完成站点间的故障切换。

除此之外,还支持平滑的灾难演习功能,在不必让生产系统停机的情况下进行灾难恢复测试

3.5容灾流程设计

容灾流程是提高系统容灾能力的根本方法,尽管各种技术手段能够提供自动、高效的容灾能力,但是技术不能解决所有问题。

技术设计的前提是一些假设,只有在这些假设范围之内发生的故障、灾难才能由技术手段解决。

实际上现实中有许多假设范围之外的事件发生,往往技术手段不能解决,或者解决过程本身容易因此导致更多的问题,在这种情况下,就显示出了容灾流程的作用。

由于流程设计涉及到系统上线运行的具体操作,因此在设计初期无法给出具体操作步骤。

4、容灾建设中建议产品介绍

现在,保持系统和数据持续可用的需求更胜以往,同时,IT部门只能利用更有限资源管理日益复杂的环境,如何充分利用对硬件的投资也给我们带来了更大的压力。

随着更多业务关键商业应用系统的商品化,以及向开放平台(特别是UNIX,MicrosoftWindows和它们的派生产品)的迁移,这些系统的处理能力和I/O性能之间的不平衡越来越明显。

因此有必要增强拥有硬件阵列的开放系统的I/O性能,加强基于主机的存储管理。

另外,有效管理关键业务开放系统中的文件和目录结构要求提高恢复速度,改善传统UNIX文件系统的I/O性能。

虽然可靠性和性能的增强减少了计划外停机,增强了开放系统的I/O性能(profile),但是并不能充分地改善系统和数据访问的可用性。

系统管理人员的调查表明,在实际的开放系统中,绝大多数的停机(通常表现为无法访问系统、软件和数据)并不是无法预料的灾难恢复,而是定期的维护,如数据的恢复、转移和备份。

为了简化系统管理员执行的任务,也有必要安排停机,以便在最短的停机时间内完成这些管理任务。

4.1商业级别的存储需求

大多数典型关键业务数据管理系统(DBMS)都是大型在线数据库,管理员要保证这些数据库和在线事务处理(OLTP)系统中的数据的高可用性,或者接近99.999%可用,并且还要保证高性能的数据存取能力。

计划内的停机主要是日常管理任务造成的,而计划外的停机是由于硬件和软件的故障造成的,因此必须尽量排除。

依靠管理资源来满足数据可用性的需求是不可能的,只有采用连贯且完整的在线存储管理程序才能解决这个问题。

因为DBMS和OLTP软件需要一个默认的操作系统环境,所以无论是运行/管理环境上还是性能上的强化,都需要在应用系统和中间件以上的层面表现出来。

无论怎样,存储管理程序都可以提高DBMS/OLTP环境的性能特征。

使用该程序可以达到以下几个目的:

●增加可用性

⏹通过提供冗余,在存储介质出现故障时保持可用性;

⏹由于它允许在线稳定备份,在线文件系统磁盘碎片整理,在线数据恢复、转移和相关的任务,因此减少了日常系统维修,增强了可用性;

⏹通过加速恢复过程,可以在系统出现故障或重起后增强可用性。

●提高性能

⏹通过磁盘池的负载均衡增强性能;

⏹通过使用监控和在线的重新配置优化性能和有效性;

⏹通过智能缓冲算法增强性能。

●提高管理效率

在复杂的、多产商的环境下,通过一个通用的界面来简化管理任务,提高生产效力。

●与DBMS/OLTP软件的集成

⏹在不影响裸磁盘性能的条件下,扩展了DBMS存储的文件系统管理性能;

⏹增强DBMS的恢复功能;

⏹可以通过Oracle磁盘管理器(ODM)之类的应用程序界面(API)进行高级的集成。

另外,在线的存储管理方案还可以为未来的需求提供支持,如集群、高可用性的程序管理、用于灾难恢复的远程在线冗余,多媒体存储和多操作系统的整合。

通常情况下,只有某些具备单一功能的产品分别满足这些存储管理需求的细节。

IT部门迫切需要一种用来管理服务器存储的综合性软件,来满足当前和未来的存储需求。

4.2存储管理技术

存储管理系统要提供异构环境下的磁盘和文件解决方案,它用来满足商业级别的存储需求。

存储管理系统要由卷管理器(VolumeManager)和文件系统(FileSystem)两部分组成。

卷管理器(VolumeManager)是一个磁盘管理产品,使用它可以避免磁盘分区。

它实现了主机级别的存储,让操作系统跨越了磁盘空间、性能和可靠性上的局限,它结合RAID0(条化),RAID1(镜像),RAID0+1(条化镜像),RAID1+0(镜像条化)和RAID5(奇偶分布式条化)等多种方式。

卷管理器(VolumeManager)可以用于在线空间分配和结构管理,错误处理,技术性能分析和操作追踪,让管理员能够确保存储资源的应用达到最优化。

卷管理器(VolumeManager)还可以用来增强文件系统服务的功能,包括网络文件系统(NFS)和在线DBMS引擎(包括Oracle,Sybase和Informix)。

它是一个整合物,类似于一对可承载的设备驱动程序、一个库或一个应用程序集,不需要替换任何标准的操作系统组件。

文件系统(FileSystem)是一个基于范围(extent-based)的日志式文件系统。

它的日志或有目的的日志可以加速系统故障的恢复,并增强NFS和DBMS应用程序的性能。

该文件系统的存储规划采用了连续分配的块集或范围(extent)。

通过优化应用程序对物理I/O的读写请求,并减少访问数据所需要的索引的数量,这种规划改善了性能。

另外,它整合了在线应用程序的功能,允许执行常见的管理任务,如时间点备份、碎片整理和恢复,并且不会降低数据的可用性。

还要有一个由文件系统提供的机制的合并体。

它可以在保证性能的条件下,让DBMS应用程序在文件系统上运行,同时通过文件系统命名空间来简化管理任务。

它是一个可安装的文件系统,采用了标准的虚拟文件系统接口和命令替换机制,可以提供所有标准的文件系统而不用替换标准的软件。

它还包含了几个在其他文件系统中找不到的应用程序类型,以便管理范围(extent)规划并提供在线的管理功能。

4.3集群管理系统的特点

集群管理系统是一个功能强大的企业级集群管理软件,它为UNIX、Windows以及LINUX环境提供了完整的业务系统容灾保护机制,具有保护企业中从工作组到企业级服务器的所有的业务顺利运行的能力。

管理员能够通过直观的用户图形界面来管理和维护集群中的各方面事物,制定企业统一的切换策略。

4.3.1可扩展的结构

集群管理系统采用灵活的层次结构,集中管理,适应多种应用结构。

第一级由全球集群管理器(GCM:

GLOBALCLUSTERMANAGER)组成,它的作用相当于“大脑”,管理制定全网(全球范围)的切换策略和跟踪集群的情况,能够管理一个或多个集群。

第二级由CLUSTERSERVER(VCS)组成。

VCS服务器通过LAN、INTERNET或光纤、专线等介质与其它VCS服务器相连组成一个集群。

4.3.2设置的灵活性

集群管理系统的安装和实现相当简单。

实际上,集群管理系统在Windows2000上的版本提供了Wizard安装和配置程序。

管理员可以用美观的图形界面来定义切换的策略,该策略可以灵活定义切换的方式、条件。

最后,管理员能够给切换策略描述确定名称,用来跟踪和报告集群运行的情况。

4.3.3灾难恢复

灾难发生时,可能小到磁盘阵列坏掉,大到机房被洪水冲毁,此时要求能够将业务系统切换至在完好的集群节点上保障业务系统的连续运行。

这个节点既可以是本地节点,也可以是异地节点。

集群管理系统的管理体现在:

V集群管理系统可以自动选择可用节点,无须人工干预。

4.3.4并行处理

集群管理系统可以实现多服务器并行操作,取消了传统双机要占用单独备机(STANDBY)的限制,因此可以有效地提高了客户的投资利用率。

4.3.5使用简便

使用与维护的方便与否对于不同的人有不同的解释。

某些系统管理员喜欢用命令行方式,而有些则喜欢用100%图形界面方式管理容灾系统,集群管理系统要考虑到所有这些方面。

集群管理系统在管理方面提供了多项选择,如命令行、Motif、Java方式以及NTExplore风格的接口。

4.3.6出色的监控能力

集群管理系统提供强大的监控能力,切换进度显示条监视切换进度,报表工具可以报告资源利用情况和服务器配置等。

详细的日志信息,便于对出现的问题进行诊断。

容灾系统的诊断信息可以通过Mad邮件等方式传递给系统管理员或在主控台显示。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1