一种容灾模式的研究与实践Word格式.docx

上传人:b****5 文档编号:19418901 上传时间:2023-01-06 格式:DOCX 页数:7 大小:22.29KB
下载 相关 举报
一种容灾模式的研究与实践Word格式.docx_第1页
第1页 / 共7页
一种容灾模式的研究与实践Word格式.docx_第2页
第2页 / 共7页
一种容灾模式的研究与实践Word格式.docx_第3页
第3页 / 共7页
一种容灾模式的研究与实践Word格式.docx_第4页
第4页 / 共7页
一种容灾模式的研究与实践Word格式.docx_第5页
第5页 / 共7页
点击查看更多>>
下载资源
资源描述

一种容灾模式的研究与实践Word格式.docx

《一种容灾模式的研究与实践Word格式.docx》由会员分享,可在线阅读,更多相关《一种容灾模式的研究与实践Word格式.docx(7页珍藏版)》请在冰豆网上搜索。

一种容灾模式的研究与实践Word格式.docx

  

(1)信息系统的小范围风险假设原则:

本项目建设的目标主要是为应对公司信息系统(特别是核心业务应用的信息系统)基础架构本身存在的风险。

  

(2)面向业务连续管理的快速响应原则:

当核心业务应用架构出现服务短期不可恢复的故障时,其支撑的服务能快速切换到应急备用平台,为公司所属的100多个单位提供应急服务功能。

  (3)投资节约原则:

尽可能节约投资、降低后期维护成本,立足于本单位自身资源建立应急管理体系、应急预案,开展应急演练及后期运维等工作。

  (4)一体化设计的原则:

基于一体化设计的思路,统一进行设计研究,统一技术标准,统一组织实施,研发资源整合、响应高效的核心业务信息系统应急备用平台。

  在公司人力资源匮乏、资源投入有限的条件下,项目着眼于应对小面积信息系统灾难性故障,尽可能做到缩减投资而不失效果。

应急备用平台区别于一般意义上的应用级容灾中心,主要体现在几个方面。

  

(1)应急备用平台以提升高业务连续可用能力为目标,扩大了灾备架构的响应范围,核心业务信息系统基础架构本身或因为其他原因发生的任何短期不可用故障,都可以作为应急备用平台信息服务启动的条件。

  

(2)应急备用平台相对容灾中心而言,以应对核心业务系统自身架构风险为着眼点,就不用单独建设机房动力环境等基础设施,更不用选择在异地建设,也无须考虑信息系统同时发生故障的情况以及核心网络不可用的情况,可以大比例地进行资源整合利用,投资较小。

  (3)应急备用平台不着重于应对自然或人为的极端灾难场景,可以选择合理、简化的管理体系、应急预案、恢复流程以及维护策略。

  3技术路线

  3.1需求简介

  通过多年的建设,公司信息系统数量庞大,达100多套,服务器设备达到700多台,评估业务系统的重要性,合理确定应急备用系统建设的范围,能有效降低建设成本、提高投资回报率。

项目组通过周密的调研和分析,最终确定应急备用平台主要为营销管理、生产管理、人财物管理及协同办公等核心业务提供信息系统的应急备用功能,应用范围覆盖公司系统100多个单位。

应急备用的功能主要包含:

1)新装增容及变更用电、供用电合同管理、抄表管理、核算管理、电费收缴及账务、用电检查、资产管理、计量点管理、计量体系管理、电能信息采集、市场管理、线损管理、能效管理、有序用电管理、客户关系管理、客户联络、稽查及工作质量、客户档案资料管理等营销管理功能域;

2)输、变、配等电力生产业务及大修技改、状态检修辅助决策、标准化作业等电力生产管理功能域;

3)人力资源管理、财务管理、物资管理、项目管理、设备管理等企业资源管理(ERP)功能域;

4)办公自动化、任务协作、知识管理、档案应用等协同办公功能域。

  各核心业务系统生产环境平台现使用PC服务器27台,小型机服务器8台,存储容量需求为64T(按未来3年进行规划)。

  3.2技术路线

  3.2.1建设地点

  项目建设的目标主要是为应对公司信息系统(特别是核心业务应用的信息系统)基础架构本身存在的风险,备用平台不再另行新建机房设施及动力环境,建设地点设在公司的第二信息机房(核心业务系统生产环境运行在第一信息机房),距离第一信息机房不足1000米,与第一信息机房分属两幢不同的大楼,可对第一信息机房设施及其机房动力环境等构成一定的冗余效果。

  3.2.2技术指标

  衡量灾难恢复的主要技术指标有RPO(RecoveryPointObject,恢复点目标)和RTO(RecoverTimeobject,恢复时间目标),RPO与RTO二者没有必然的关联性。

通过业务系统的数据重要性及可容忍停机时长进行分析,确定两个技术指标的目标为:

1)数据恢复点目标RPO达到秒级;

2)系统恢复时间目标RTO<

=2小时。

  3.2.3复制技术

  采用HPCA的磁盘阵列复制技术进行实时数据备份。

实现信息系统灾难恢复或应急备用首要的任务就是要实现生产系统数据的复制备份,由于核心应用均为基于数据库的联机事务处理(OLTP)业务系统,所以业务数据复制的关键就是要确保数据库数据的完整性、连续性、实时性和可恢复性。

采用HPCA与别的复制技术方式的区别如表1所示。

  3.2.4资源池技术

  采用资源池技术进行资源整合。

在传统的“烟囱式IT”基础架构中,应用和专门的资源捆绑在一起,为了应对少量的峰值负载,往往会过度配置计算资源,导致资源利用率低下,据统计,在传统的数据中心里,IT资源的平均利用率不到20%。

信息系统软硬件资源池技术打破了传统的以业务应用为竖井的资源配给模式,规范业务应用对软硬件资源的需求,为业务应用提供资源虚拟、弹性伸缩、稳定可靠、管理高效的一体化运行环境,这正是应急备用平台采用一体化设计所需要采用的技术实现方式。

  4设计及实施

  4.1总体设计

  项目开展了信息系统小范围灾难性故障容灾构建模式的研究,采用高端存储、负载均衡、小型机及若干PC服务器,综合应用存储数据复制、云计算虚拟化资源池[4]、基于负载均衡的信息服务转移等技术,组成计算资源可动态分配、支撑信息系统可扩展的企业级信息系统一体化应急备用平台,并在该平台上部署了本单位的营销业务应用、生产管理、ERP及协同办公等核心业务系统的应急备用功能,系统的数据与生产系统保持同步、业务功能与生产系统保持一致,当以上任意信息系统发生短期不可恢复服务停止故障时,应急备用平台可以快速(<

2小时)接管故障信息系统对公司所属的100多个单位提供业务功能应急服务。

  项目的主要技术内容及其原理有几个方面。

  

(1)信息系统应急备用平台通过实时复制生产系统的数据,使应急备用平台与生产系统的数据实时保持一致,同时,平台软件及业务应用软件也与生产系统保持一致,当生产系统发生短期不可恢复故障时,启用备用平台的应用服务快速(<

2小时)接管生产系统对外提供服务,当生产系统故障排除、恢复正常后,再将备用平台的更新数据反向复制回生产系统,并重新启用生产系统接管备用平台对外提供应用服务。

  

(2)一体化的设计思路以及计算资源整合利用的技术。

由于云计算资源池技术可以为业务应用提供资源虚拟、弹性伸缩、稳定可靠、管理高效的一体化运行环境,是建设资源节约型一体化信息系统应急备用平台的不二选择。

云计算资源池技术通过硬件虚拟化、安全隔离、集中管理和弹性资源调度等技术,将原本静态分配的IT基础设施抽象为可管理、易于调度、按需分配的资源池。

因此,资源池的构建对平台基础架构的实现十分关键,只有构建了合理的资源池,才能实现传统“烟囱式IT”到平台级基础架构的飞跃。

项目通过构建X86服务器虚拟池、X86服务器物理池、小型机池、存储资源池,将应急备用平台的IT基础设施作为服务,为应急备用平台提供了服务的灵活扩展和回收功能,使平台具备可伸缩和动态扩展的特征,可以根据实际业务的变化增加或者减少平台所支撑的应用服务。

  (3)平台以提升业务连续可用能力为目标,因此,应急响应要快、接管服务要快。

应急响应快就是需要面向公司建立高效的应急管理体系,制订操作性强的应急预案,构建公司统一的协同监管模式,形成基于公司自身技术力量的后期运维队伍以及常态演练的机制。

接管服务快关键是备用服务启动和接管的速度要快,为此,在应急备用平台的研发过程中,对服务的快速切换、数据库的智能启动、各业务应用备用服务的构建和快速启动都进行了大量的研究,总结了一整套可行的技术和方法。

  4.2实施情况

  通过努力,项目组已完成了平台的设计、安装、测试、上线工作。

应急备用平台部署于第二信息机房,核心业务的生产系统位于第一信息机房,总体拓扑结构,如图1所示,数据从第一信息机房实时复制到第二信息机房的应急备用平台,当某生产系统发生故障后,先中断复制进程(其他系统的数据复制仍在进行,不受影响),再启动应急备用平台的相应应用服务。

应急备用平台服务启用后,对业务应用服务的访问将切换至应急备用平台。

当生产系统故障排除具备接管服务的能力时,再将应急备用平台的数据反向复制回生产系统,数据复制完成后,断开反向复制进程,重新启用生产系统接管服务。

  项目构建了X86服务器虚拟池、X86服务器物理池、小型机池、存储资源池,将应急备用平台的IT基础设施作为服务,通过硬件虚拟化、安全隔离、集中管理和弹性资源调度等技术,将原本静态分配的IT基础设施抽象为可管理、易于调度、按需分配的虚拟化资源池,如图2所示,为应急备用平台提供了服务的灵活扩展和回收功能,可以根据实际业务的变化增加或者减少平台所支撑的应用服务。

  虚拟化资源池所使用的设备资源包括HPXP24000存储一台(有效容量66TB),HP和IBM小型机各1台,X86物理机6台,负载均衡器1台,SAN交换网1套,以太交换网1套,较生产环境所使用的资源大幅度缩减。

  权威机构测试结果表明:

备用功能启用、退出到投入运行、对外提供服务能够在预定时长(小于2小时)内完成,同时丢失数据为零,系统在接管服务运行一段时间后,数据能正确反向复制回生产环境,并能使生产环境重新正常接管服务。

  5关键技术及创新点

  5.1云计算资源池技术

  

(1)通过对生产系统、营销系统、协同办公系统、ERP系统生产环境架构模式的分析,核心业务应急备用系统部署和运行所需的硬件资源有三大类:

X86服务器、存储、小型机。

经过对生产系统所有设备的型号、是否适合入池等进行分析,项目构建了X86服务器虚拟池、X86服务器物理池、小型机池以及存储资源池。

  

(2)虚拟化比率是指单台物理服务器上可以承载多少台虚拟机,虚拟化比率和应用类型、物理机配置、虚拟机规格都有关系,因此不同应用、不同物理机配置、不同虚拟机规格的情况下,其虚拟化比率是不同的。

应急备用系统按照生产系统的50%左右配置计算能力,但这些计算能力正常情况下只作为备用资源不参与有效计算。

通过虚拟化的模式可以使得若干系统的应急备用系统与生产系统使用同样的(虚拟化)服务器集群,只在需要接管生产系统(接管的业务系统一般只有一个)对外提供应用服务的情况下,才需要扩充资源以满足业务应用的要求。

项目按照生产系统的50%左右配置应急备用平台的计算能力,汇总出来的X86计算资源需求是108C、192G,可以被虚拟化的资源需求总和为84C、672G内存,虚拟化比率按3:

1进行测算,需物理资源28个CPU,224G。

  5.2实时数据复制技术

  

(1)实时数据复制的技术核心是利用存储阵列自身的盘阵对盘阵的数据块复制技术实现生产数据和备用数据的双向拷贝,有同步和异步两种复制方式。

采用同步方式可以完全不丢失数据,但对通信链路的要求较高,有距离限制,另外数据在网络中的传输延迟会影响主节点的应用性能。

项目虽然是近距离复制,但选择采用异步CA(日志卷)方式,减小对链路的依赖,同时采用日志卷方式减小Cache的占用,减少因复制对存储性能的影响。

因此,应急备用系统架构对生产系统的性能完全没有影响。

  

(2)复制的实现:

应急备用平台所在的第二信息机房与生产系统所在的第一信息机房距离相对较短(<

1000m),在二机房配置1台HPXP24000存储阵列作为一机房两台HPXP24000的镜像阵列。

由于距离非常短,采用异步方式数据复制延迟达到秒级,几乎达到同步复制无数据丢失的效果。

  5.3服务转移技术

  应急备用平台与生产中心同属一个大的子网,为满足生产中心应用服务发生短期不可恢复故障时快速进行服务转移的应用需求,项目通过在应急备用平台和生产中心架设负载均衡器,采用基于负载均衡的DNS切换技术来实现应急备用平台与生产中心之间服务的快速切换转移。

各应用服务DNS域名分别解析为生产中心和应急备用平台应用服务的负载均衡服务虚地址。

  5.4应用服务构建技术

  接管服务快关键是备用服务启动和接管的速度要快,为此,在应急备用平台的研发过程中,对服务的快速切换、数据库的智能启动、各业务系统的构建和快速启动都进行了大量的分析和研究,总结了一整套可行的方法和策略:

备用系统的构建与快速启动。

  生产管理、营销业务应用、协同办公、ERP系统均总结了方法,单独形成操作手册。

其中,ERP系统的快速构建方法技术关键点为:

1)通过对SAPERP文件系统结构的分析,结合存储复制技术,总结了SAPERP系统数据库构建方法;

2)解决了生产系统与备用系统主机名不一致对数据库监听的影响;

3)XI系统设立双通道,保证服务切换时,系统的外部集成关系能得以快速的切换。

数据库智能启动方法的关键技术要点为:

1)提前完成操作系统层的磁盘扫描、权限设置、逻辑卷初始化等工作;

2)以智能方式实现环境变量设置、数据库监听启动、数据库实例启动等过程,并辅以全过程的跟踪,实现了数据库的“一键启动”,使数据库的切换时间由之前(人工方式)的1个小时缩短到5~10分钟。

  6成果效益

  应急备用平台容灾架构的研究和实践,有着重大的社会及经济效益。

  

(1)提高了信息系统的安全保障水平,降低了灾难带给公司的风险和损失。

核心业务系统的业务覆盖范围广、使用的机构多、用户基数非常庞大,其中任何一个信息系统由于故障而中断运行都会给公司造成无法估量的经济损失,甚至造成较大的社会影响,核心业务系统应急备用平台的建设能够缩短业务服务中断的时间,从而间接产生巨大的经济和社会效益。

  

(2)应急备用平台通过因地制宜的资源优化架构,节约了建设期的巨额投资,也降低了后期运维的成本。

  (3)提升了企业的核心竞争力。

应急备用平台的建立,将进一步完善公司业务连续性管理体系的管理制度、应急体系与安全架构,提升公司的制度层竞争力;

电力信息系统是电网企业的业务支撑平台,建立核心业务应急备用平台最终将有助于提升企业的核心竞争力。

  7结束语

  应急备用平台作为应用级容灾的一种模式,基于信息系统备用系统一体化设计的思路,统一进行设计研究,统一技术标准,统一组织实施,实现了应用、中间件、数据库、存储设备资源的灵活分配与回收功能,具备可伸缩、可扩展的特征,根据实际情况可以增减部署在其上的备用信息服务。

应急备用平台的设计和实现避免了一般小规模备用系统资源不足、无法扩展、重复建设、接管服务慢且不可靠、形同摆设的问题,为当前技术条件下开展备用系统的设计研究提供了一个创造性的完整的思路和方法,具备较高的参考价值。

  在中小企业技术资源匮乏、资源投入有限的条件下,应急备用平台因地制宜地设定应对小面积信息系统灾难性故障的设计研究目标,尽可能做到缩减投资而不失效果,后期维护可依靠省公司自身现有的技术力量和人力资源,不需要组建专门的队伍,归避了传统容灾项目建设时间长、资金人员投入大、见效慢、切换投入慢等问题,是远程异地容灾工程的延伸和有益补充,是对信息系统容灾设计研究的一次卓有成效的积极探索。

  参考文献

  [1]陈鹏,杨频,赵奎,李雯,吕若楠,仲慧慧.远程容灾系统的设计与实现[J].计算机工程与设计,2011,32(10):

3247-3250.

  [2]祝晓东,郁松年,易松.对象存储系统的镜像快速复制研究[J].计算机工程与设计,2011,32(7):

2365-2369.

  [3]刘永金,黄科.运营商业务平台云计算资源池建设方案探讨[J].电信科学,2013,29(9):

201-206,211.

  [4]樊华,沈锐,王戟.虚拟计算环境中基于资源池的资源聚合机制[J].计算机工程与科学,2009,31(3):

122-127.

  [5]项菲,刘川意,方滨兴,王春露,钟睿明.新的基于云计算环境的数据容灾策略[J].通信学报,2013,34(6):

92-101.

  [6]文莎,罗宇,陈琛.一种基于存储虚拟化的动态容灾系统[J].计算机工程,2013,39(7):

63-66.

  [7]王意洁,孙伟东,周松,裴晓强,李小勇.云计算环境下的分布存储关键技术[J].软件学报,2012,23(4):

962-986.

  作者简介:

  李彦武(1973-),男,汉族,湖南长沙人,本科生,高级工程师;

主要研究方向和关注领域:

电力信息化。

  赵俊(1983-),男,汉族,湖南长沙人,研究生,工程师;

  朱帆(1979-),男,汉族,湖南长沙人,研究生,工程师;

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 机械仪表

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1