AutoSwitch灾备切换自动化方案白皮书.docx

上传人:b****5 文档编号:3565541 上传时间:2022-11-23 格式:DOCX 页数:27 大小:3.42MB
下载 相关 举报
AutoSwitch灾备切换自动化方案白皮书.docx_第1页
第1页 / 共27页
AutoSwitch灾备切换自动化方案白皮书.docx_第2页
第2页 / 共27页
AutoSwitch灾备切换自动化方案白皮书.docx_第3页
第3页 / 共27页
AutoSwitch灾备切换自动化方案白皮书.docx_第4页
第4页 / 共27页
AutoSwitch灾备切换自动化方案白皮书.docx_第5页
第5页 / 共27页
点击查看更多>>
下载资源
资源描述

AutoSwitch灾备切换自动化方案白皮书.docx

《AutoSwitch灾备切换自动化方案白皮书.docx》由会员分享,可在线阅读,更多相关《AutoSwitch灾备切换自动化方案白皮书.docx(27页珍藏版)》请在冰豆网上搜索。

AutoSwitch灾备切换自动化方案白皮书.docx

AutoSwitch灾备切换自动化方案白皮书

AutoSwitch灾备切换自动化方案

白皮书

 

二零一六年八月

 

第一章综述

1.1手工灾备切换的问题

灾备中心建设投入了大量人力、物力,但灾备切换往往还停留在手工进行灾备切换的阶段,灾难来临时灾备中心能否在规定的时间内完成切换、及时恢复生产、发挥应有保障作用,还有很大的隐忧。

主要原因有如下几个方面:

1)手工切换时间过长、难以达到RTO目标

由于灾备切换流程的繁琐、复杂,导致手工进行灾备切换至少需要很长时间才能完成灾,往往不能在规定的RTO内完成切换,实现保障业务连续性的目标。

2)手工切换人为因素过多、切换经常失败

灾备切换流程繁琐、复杂,手工执行起来往往比较吃力,切换时需要操作的命令多、时间紧,操作员精神压力大导致手忙脚乱,人为出错的几率也就增大,实际操作中由于这样那样的原因往往导致切换失败,无法保证一次切换成功。

3)缺乏演练、关键时刻不能发挥作用

由于业务发展的需要、应用经常升级,有关配置、系统环境也随之需要做相应变化,受限于保障生产的要求,无法及时进行灾备切换演练,导致不能尽快发现问题、灾备中心关键时刻能否发挥作用存在很大隐忧。

总之,灾备切换依靠手工完成,不仅效率低,而且切换时间长,由于人为因素过多导致切换的成功率无法保证;公司的IT运维水平和故障应急处理能力难以提升、难以保障IT服务的持续性和主动规避不可预见的风险。

1.2AutoSwitch的价值

1)减少人为因素、保证切换成功率

灾备切换流程繁琐、复杂、冗长,以往操作员手工执行起来比较吃力,命令多、

时间紧、操作员精神压力大,人为出错的几率也随之增大,一次切换的成功率无法保证。

通过灾备自动切换系统替代人工操作,避免人为出错的概率,保证切换的成功率,原则上只要系统环境正常,切换就会成功;达到即切即用的要求、保证业务的连续性。

2)缩短切换时间、大大提高切换效率

通过灾备自动切换系统替代人工操作,既减少了人工输入的时间、同时无依赖关系的多台系统可以并发处理,减少了不必要的等待,大大缩短了切换时间。

第二章AutoSwitch灾备切换自动化系统

灾备系统切换控制的范围涵盖企业的每个重要业务系统,包括主机、存储、数据库、中间件、DNS系统等等;切换过程涉及企业的众多部门,需要多部门、多岗位、多人配合协调才能完成;同时手工切换过程转换成自动化流程并不是简单将手工操作命令写成批处理命令,而是根据业务需要将切换流程固定下来,进行合理的优化,从而实现灾备切换的自动化;在执行自动化切换的过程中,如果出现某个步骤异常,还需要有处理特殊故障的解决办法。

要将灾备系统切换自动化完成,会面临上述的诸多挑战。

由于灾备切换系统需要管理的各种资源关系复杂,应用系统之间依存性高,利用AutoSwitch灾备切换管理软件的流程管理可以清晰定义以上各种关系,简单友好的界面让用户对流程等一目了然,通过使用AutoSwitch灾备自动切换系统有力帮助用户保证灾备系统的服务质量、提高应对突发事件的能力。

2.1AutoSwitch技术特点

Ø一键式灾备切换:

一是按应用设计灾备切换流程,将切换时要做的工作先分阶段定义好,再在每个阶段中将要执行的命令统一写成脚本;

二是灾备切换作业调度完全自动化,在灾备切换时、能够从单一Web入口进入灾备自动切换控制台,只需一键启动灾备切换、所有命令自动执行,在命令执行过程中无需人工操作;通过将传统手工流程转变为全自动化操作流程,缩短了切换时间、提高了切换效率、降低了人工成本。

Ø直观展示切换进度:

灾备切换开始后,AutoSwitch展示切换进度和执行状态,操作员可以清楚地看到流程各个步骤是否执行完毕,实时监控切换进度。

一旦发生故障可以快速定位,并为操作员提供可操作的手工处理方案。

Ø支持人工干预、处理:

切换出现故障或者需要人工干预时,灾备切换暂时停止,Web页面提供人工操作控制的交互入口,等待人工处理后再继续自动处理后续流程。

Ø自动生成灾备操作手册(Runbook):

AutoSwitch能够自动生成灾备操作手册,当业务流程发生变化需要修改相关切换流程时,在AutoSwitch系统里修改好相关的流程、命令,即可同步生成相对应的灾备操作手册,极大地方便了运维管理人员备案和实际操作人员理解灾备切换流程。

Ø支持演练环境:

AutoSwitch支持演练环境,当应用系统升级或其它系统配置发生变化以后,可以在不影响生产的情况下及时演练、发现问题、保证灾备系统的可用性。

Ø内置常用管理脚本:

Autoswitch系统内置了windows/unix/linux操作系统、Oracle/Infomix等数据库、Weblogic/Websphere等中间件的常用操作脚本,可以在灾备切换的命令中直接调用。

Ø内置常用检查脚本:

灾备切换过程中需要执行很多命令,如何判断这个命令执行是否成功,需要做相应的检查。

比如,数据库启动后,究竟数据库是否能正常工作,需要做相应的检查,否则数据库启动过程中由于某种原因没有正常启动,执行过启动命令后,继续执行其它切换中的操作命令将会造成整个灾备切换的不成功,有可能给造成无法挽回的损失。

Ø系统成熟、可靠、稳定:

整个灾备自动化系统由两台服务器组成主、备“灾备切换服务器”,可以保证7乘24小时随时能够进行切换操作,保证切换的成功率。

AutoSwitch产品从08年中航信使用AutoSwitch1.0保障灾备切换起到14年国家电网全国灾备中心使用AutoSwitch3.0,经过客户多年使用反馈和不断优化,产品已经为多个用户成功保障灾备切换和日常灾备演练,经过实践证明,产品非常成熟可靠稳定。

 

2.2AutoSwitch功能架构

详细功能一览表:

功能名称

说明

流程管理

切换流程的创建和修改:

支持图形可视化创建及修改流程。

可按模板进行流程创建,提供版本管理、发布管理功能。

支持批量创建流程、支持模板创建流程。

切换流程的执行:

支持并发执行流程,可同时启动后台多个自动流程执行。

支持灵活的流程执行模式,在同一流程中提供正常执行(按预定义)、全自动执行(人工转自动)及人工执行(自动转人工)三种模式,能灵活根据实际要求在多种模式之间进行自然切换。

对执行过程中产生的反馈信息进行及时的显示和记录,以便进行实时跟踪以及事后回溯分析。

支持流程执行的定时设置功能,可根据需要在指定的时间点发起相应流程完成目标要求。

支持基于流程级别的角色权限控制,可保证多角色下的流程安全操作。

切换流程的人工交互:

支持人工交互操作,切换中如果发生故障,可以在人工处理后继续自动处理后续流程。

切换流程的故障处理:

当流程执行过程中产生异常时,提供声音或图形界面报警,及时提醒人员在相应故障发送位置进行排障处理。

架构支持

软件支持中、英文,具备中英文的界面,帮助,文档。

界面布局清晰合理。

支持多平台/多厂商环境。

所管理的切换受控端可以分布于所有主流操作系统平台。

支持以下操作系统(包括且不仅限于AIX、HP-UX、Solaris、Linux和WindowsServer等)。

采用纯B/S(浏览器/服务器)架构,可随时通过浏览器远程管理。

所管理的切换受控端支持代理Agent和非代理Agentless两种方式对业务主机、存储管理、DNS设备进行交互操作。

所管理的切换受控端支持安装在WebLogic、Tomcat等各种Web和应用服务器上。

支持手动或自动对部署在生产和灾备业务主机上的代理程序或脚本进行远程更新。

报表功能

提供内容包括但不局限于流程执行、用户信息、故障信息等的报表系统,并具有报表导出功能,能够以网页或EXCEL等文件方式将报表导出并保存。

审计功能

所有的操作有详细的审计记录(包括命令行和图形的操作记录及作业记录)。

能够显示各主要模块的运行状态,具有系统日志审计功能。

演练功能

支持在不影响生产的情况下及时演练、发现问题、保证灾备系统的可用性,能够根据演练中的问题进行分析,不断优化演练技术流程。

扩展性

通过界面配置即可完成新功能扩展。

对于新开发的功能脚本,提供良好自定义支持,对灾备端环境配置信息的变更可以自动探测。

具备灵活的横向扩展,从技术上来说,主控端可以无限制支持增加的受控端。

可靠性

1)支持本地高可用方式部署。

2)软件本身具备数据同步功能,当一方发生灾难时,另一方能立即在线进行接管控制,保证了平台7*24正常运行。

易用性

采用单一用户数据库权限系统,用户无需多次登录;能够从单一Web入口进入灾备自动切换控制台,无需人工逐一登录各主机进行操作。

软件对失败或超时的流程提供异常原因分析,告知操作人员流程异常的原因,方便操作人员采取应对措施,故障处理与反馈提示均要友好且准确。

展示界面

1)提供良好的人机界面,方便定义切换和管理流程;

2)通过图形界面方式实时展示切换信息,直观展示流程中各步骤的顺序关系;

3)以图标的颜色标示分步步骤的运行状态,流程图上能直观地反应流程上各节点的执行时间。

4)流程图能够定制流程间的依赖关系和多种制约关系,以满足灾备系统操作人员使用需求。

状态监控

支持对所有Agent进行状态监控,保证流程可顺利执行。

支持对系统登录状态进行记录,支持监控和管理工作负载异常,通过操作控制台创建生产运行时报告,帮助分析。

能在流程执行界面中嵌入滚动日志,直观显示流程执行状态。

人工处理

支持人工处理环节,对于必须人工执行或判断的环节,由人工做出判断后,决定流程是否继续执行或终止;

在自动切换过程中,如果某一个步骤的执行发生了故障,或者需要既定人工处理,操作人员可以根据图标颜色变化准确定位故障或人工处理的发生位置,并根据图标链接页面查询到该步骤的人工处理方案。

授权与访问控制

支持对系统用户按角色或者角色组进行授权;支持对系统功能提供角色级别的权限控制。

2.3AutoSwitch系统原理

AutoSwitch服务器和应用服务器的交互主要有下面三种方式:

Ø在应用服务器上以root身份安装Agent

AutoSwitch服务器通过Agent完成操作。

Ø在应用服务器上以普通用户身份安装Agent

AutoSwitch服务器通过SSH登录到应用服务器完成操作。

Ø在应用服务器上不安装Agent

AutoSwitch服务器通过SSH登录到应用服务器完成操作。

2.4典型灾备系统切换过程

2.4.1准备工作

开始切换前,应确认当前环境满足切换要求。

网络检查

切换工作网络与所有服务器的网络联通,执行人可以登陆到每一台服务器;

切换系统服务器*.*.*.14到其他服务器的网络联通。

切换系统检查

主机

主机身份

切换系统进程检查

*.*.*.14

Server

切换服务进程正常启动

*.*.*.7

Agent

切换代理进程正常启动

*.*.*.11

Agent

切换代理进程正常启动

*.*.*.12

Agent

切换代理进程正常启动

*.*.*.13

Agent

切换代理进程正常启动

*.*.*.68

Agent

切换代理进程正常启动

*.*.*.36

Agent

切换代理进程正常启动

应用程序检查(切换方向云南:

北京)

云南部分程序检查:

主机

登陆用户

检查

*.*.*.16

administrator

有23个bat窗口启动

*.*.*.7

root

ps-ef|grep-i"com.zy.calc.CarMap"|grep-vgrep

检查:

主应用进程正在运行

*.*.*.11

root

ps-ef|grep-i"gateway"|grep-vgrep

检查:

存在3个网关进程

*.*.*.12

root

ps-ef|grep-i"gateway"|grep-vgrep

检查:

存在3个网关进程

*.*.*.13

root

ps-ef|grep-i"gateway"|grep-vgrep

检查:

存在3个网关进程

北京部分程序检查:

主机

登陆用户

检查

*.*.*.68

root

ps-ef|grep-i"com.zy.calc.MapCountControl|com.zy.calc.CarMap|AppSrv01"|grep-vgrep

检查:

主应用进程不在运行

192.168.6.36

root

ps-ef|grep-i"gateway5555"|grep-vgrep

检查:

不存在网关进程

GoldenGate同步检查:

网关数据库和应用数据库状态正常:

主机

登陆用户

检查

*.*.*.68

oracle

shtjyh_oracle_check_aix_10G.sh

数据库人员检查输出结果

*.*.*.36

oracle

shtjyh_oracle_check_linux_11g.sh

数据库人员检查输出结果

*.*.*.8

db2inst1

sh/home/db2inst1/db2_check.sh

数据库人员检查输出结果

*.*.*.12

db2inst1

sh/home/db2inst1/db2_check.sh

数据库人员检查输出结果

网关数据库和应用数据库的复制方向为:

云南北京

主机

登陆用户

检查

*.*.*.12

ogg

shgateway_yn_extract_status.sh

数据库人员检查输出结果

*.*.*.36

ogg

shgateway_bj_replicat_status.sh

数据库人员检查输出结果

*.*.*.8

ogg

shztdb_yn_extract_status.sh

数据库人员检查输出结果

*.*.*.68

ogg

shztdb_bj_replicat_status.sh

数据库人员检查输出结果

2.4.2开始切换:

云南北京方向

将云南网关服务器上的定时任务关闭

主机

登陆用户

检查

*.*.*.11

root

crontab-e将gateway相关定时任务注释

*.*.*.12

root

crontab-e将gateway相关定时任务注释

*.*.*.13

root

crontab-e将gateway相关定时任务注释

登陆自动化切换系统开始切换

地址:

*.*.*.14

用户名/密码:

admin/admin

在左侧目录中选择“自动化作业流”

进入流程自动调度页面

点击右上方的箭头图标,选择“执行作业流”

在弹出窗口中选择要执行的切换流程,勾选后点击右上角的“确认”

在提示信息窗口中点击“是”,开始切换

可以看到刚才勾选的切换流程已经开始执行了

点击作业流程图图标,进入流程图

作业流程图各步骤颜色标示的说明:

灰色:

未执行;

蓝色:

正在执行(见向后两页图例)

绿色:

已经执行并成功;

红色:

需要人工处理。

当前流程图中红色标示的人工处理步骤,需要以administrator登陆云南应用服务器*.*.*.16,关闭正在运行的23个窗口;在所有操作执行通过后,在人工步骤上点击右键,在菜单中选择“继续作业流程”

该步骤将被修改为绿色完成状态

系统将自动执行后续操作

其中,蓝色为正在执行的步骤

云南网关程序停止并检查通过后,按顺序来到数据库及网络转向步骤

其中:

为人工步骤,需依照《ogg中烟云南对北京切换化方案20150330.docx》执行相应操作。

在所有操作执行通过后,在人工步骤上点击右键,在菜单中选择“继续作业流程”

该步骤将被修改为绿色完成状态

系统将自动继续执行后续操作

直至流程执行结束。

 

2.4.3自动切换流程中的错误处理

在自动化切换流程中,如果自动执行过程中遇到异常情况,某一检查步骤不满足预定的期望条件,该步骤将转为红色标示,需要人工处理。

例:

处理方法如下:

在该步骤上点击右键,在菜单中选择“作业执行详细情况”,将打开该步骤作业执行详细情况的页面

在页面右上方选择标签“运行日志”,可以看到该步骤的执行结果,可作为判断并解决异常的参考信息。

如有需要,也可在其他任意步骤上打开作业执行详细情况的页面作为参考。

在参照结果判断异常并解决后,将所有“作业执行详细情况”页面关闭。

在人工步骤上点击右键,在菜单中选择“继续作业流程”

系统将把出错步骤修改为完成状态,并自动继续执行后续操作。

 

第三章AutoSwitch部署架构和成功案例

3.1部署架构

3.2配置要求:

ØCPU64核、主频2.0GHz或以上

ØMEM128GB或以上

Ø本地磁盘、建议两块容量300GB设置成RAID1

Ø两块千兆以太网卡设置绑定成一个

Ø操作系统1RedHatEnterpriseLinux6.3X64orlater

3.3

成功案例

国家电网:

规模:

管理全国各省电网的服务器向北京、上海、西安三个数据中心的灾备切换,2千多台服务器、存储等设备。

操作系统:

包括Unix、Linux和Windows。

数据库和中间件:

Oracle和Weblogic、Tuxedo。

切换时间:

30分钟(切换是按省来执行的,单个省的切换时间)。

中烟:

规模:

10多台服务器、存储等设备。

操作系统:

包括Unix、Linux。

数据库和中间件:

Oracle、DB2和Weblogic。

切换时间:

100分钟(DB2由于业务管理的原因,很多操作需要手工执行)。

南京银行:

规模:

30多台服务器、存储等设备。

操作系统:

包括Unix、Linux。

数据库和中间件:

Oracle和Weblogic。

切换时间:

10分钟。

社保部:

规模:

20多台服务器、存储等设备。

操作系统:

包括Unix、Linux和Windows。

数据库和中间件:

Oracle和Weblogic。

切换时间:

10分钟。

中航信:

规模:

100多台服务器、存储等设备。

操作系统:

包括Unix、Linux和Windows。

数据库和中间件:

Oracle和Weblogic。

切换时间:

30分钟。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 解决方案

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1