专题四RASYS双机倒换原理及常见问题处理专题.docx
《专题四RASYS双机倒换原理及常见问题处理专题.docx》由会员分享,可在线阅读,更多相关《专题四RASYS双机倒换原理及常见问题处理专题.docx(15页珍藏版)》请在冰豆网上搜索。
专题四RASYS双机倒换原理及常见问题处理专题
专题四:
RASYS双机倒换原理及常见问题处理专题
本文档对RASYS双机系统的原理及系统备份实现机制进行了介绍,并对双机系统倒换的相关操作给予详细指导,同时给出了相关的典型案例,供参考。
一、双机系统概述
1、总体概述
⏹ 背景
RACBAM在RAC系统担负着重要的角色,能够向客户提供操作维护通道、用户数据保存和主机加载等服务功能。
在单机情况下,如果BAM发生故障,RAC前台主机将处于不可维护状态,影响到系统的稳定性。
⏹ 设计
为保障RACBAM能够正常运行,华为公司特别将BAM由原来的单服务器工作方式改为既支持单服务器工作方式,又支持双机工作方式(一个服务器,一个应急工作站)。
对于双机工作方式,即系统运行在主备模式下,一旦服务器因硬件故障或者不可恢复的软件故障导致服务器宕机,应急工作站能够在最短时间内切换到主运行模式,继续向用户和前台主机提供服务。
系统结构如图所示:
⏹ 功能
相对于单机系统,不对称的双机系统具有成本低、系统稳定性高的特点,可以支撑后台管理系统更加安全地运行,大大克服了单机系统一旦宕机后,后台管理系统就无法使用的缺点,有效地保护了用户数据。
通过故障检测、主动切换、数据同步、硬件告警捕获等多种手段,双机系统能够提供更加安全可靠的系统运行环境。
建议:
少部分局点因为电源等一些原因,常常将应急工作站关闭,这样的单机系统一旦服务器宕机后,后台管理系统就无法使用;建议客户确保双机系统(特别是应急工作站)工作正常,有利于提高RASYS系统的稳定性;
2、基本概念
1、数据同步机制
⑴、数据同步的基本原理
数据同步的主要功能是将主用服务器上的BAM、Alarm、Hdb及Perf数据库相关内容(是预先设定好的数据库,不一定是全部数据库)同步复制到备用服务器上。
数据同步通过SQLServer2000提供的复制机制实现。
RAC单机版本不配置SQLServer的数据同步功能。
⑵、数据同步实现的两个步骤
A、数据同步建立:
在主用服务器和备用服务器之间建立一个数据同步的通道,这个过程需耗时约30到60分钟。
如果建立同步失败,在执行主备倒换时,备用服务器将会拒绝倒换。
B、数据传送:
这个动作是基于SQLServer的事务复制类型,只要在主用服务器上的数据发生了增加、删除或修改中的任何一种改变,数据都将被迅速地复制到备用服务器上。
2、SQL数据库提供的复制机制
⑴、复制模型
Microsoft?
SQLServer?
2000的复制,是在数据库之间对数据和数据库对象进行复制和分发,并进行同步以确保其一致性的一组技术。
Microsoft?
SQLServer?
2000的复制使用发布工业术语来表示拓扑中的组件和进程。
该模型由下列对象组成:
发布服务器、分发服务器、订阅服务器、发布、项目和订阅。
下面逐一简述。
A、项目
项目是指定要复制的数据表、数据分区或数据库对象。
B、发布
发布是一个数据库中的一个或多个项目的集合。
这种多个项目的分组使得指定逻辑相关的一组数据和数据库对象一起复制变得更容易。
C、订阅
订阅是对数据或数据库对象的复本的请求。
D、发布服务器
发布服务器是提供数据以便复制到其他服务器的服务器。
E、分发服务器
分发服务器是作为分发数据库宿主并存储历史数据和事务以及源数据的服务器。
F、订阅服务器
订阅服务器是接收复制数据的服务器。
复制模型图(示例)
⑵、复制类型
MicrosoftSQLServer2000提供以下可用于分布式应用程序的复制类型:
快照复制、事务复制、合并复制。
A、快照复制
快照复制将数据以特定时刻的当时状态分发,不监视对数据的更新。
对于复制不经常更改的数据,或不要求保持数据最新值(低滞后时间)的情况,快照复制是一种最好的数据复制方法。
B、事务复制
通过事务复制,在订阅服务器上应用数据的初始快照,当发布服务器上发生数据修改时,捕获个别的事务并传播到订阅服务器。
C、合并复制
合并复制是从发布服务器向订阅服务器分发数据的过程,该复制类型使发布服务器和订阅服务器得以在连接或未连接时更新数据,然后在连接时合并所有站点的更新。
合并复制使许多不同的站点得以自主工作,然后在晚一些时候再将更新合并成一个统一的结果。
⑶、物理模型
数据同步物理模型如下图所示:
数据同步物理模型
该模型中分发服务器不和发布服务器在同一服务器上,而是与订阅服务器在同一服务器上,尽管使用单独的分发服务器会增加网络总流量,但是该方案将减少发布服务器上的本地处理工作和磁盘使用量,使主用服务器因为数据复制消耗的性能降低到最低限度。
3、虚拟IP和实际IP的区别
⑴、实际IP地址:
即我们通常意义上理解的IP,仅限于BAM双机系统内部通讯使用。
该IP地址可以通过点击"网卡->TCP/IP协议"进行配置和观察。
实际IP用于BAM服务器和应急工作站之间的数据同步。
BAM服务器和应急工作站上分别设置内网实际IP地址和外网实际IP地址。
在BAM服务器和应急工作站中,实际IP地址在网卡上直接设置。
⑵、虚拟IP地址:
为了实现对外屏蔽主备系统的差异,使得内网或者外网的客户端访问BAM时能够使用各自网段内唯一的地址,双机系统在内网和外网分别提供了一个虚拟IP地址,共有两个虚拟IP:
内网虚拟IP和外网虚拟IP。
虚拟IP是双机对外部的接口,内网虚拟IP是提供给主机的接口,外网虚拟IP是提供给客户端的接口。
双机系统在启动的时候主用服务器会自动设定到绑定虚拟IP的网卡上。
主机的单板通过内网虚拟IP(一般是10.12.3.128)访问BAM,而LMT或M2000通过外网虚拟IP访登录BAM。
对于双机来说,虚拟IP是由双机自行动态分配:
如果服务器对外提供BAM服务,则虚拟IP对应分配给服务器;如果应急工作站对外提供BAM服务,则虚拟IP应分配给应急工作站。
这样,对于外部的客户端和主机来说,它们就可以不理会双机的内部,而只需要连接这两个虚拟IP。
因此,在进行维护系统网络设置时,服务器和应急工作站上的虚拟IP设置相同。
3、双机系统的基本状态
双机系统正常运行后,主用服务器是Active状态,备用服务器是Deactive状态。
二、双机系统特性
双机系统需要实现的功能包括:
✍ 使应急工作站能保持与BAM数据库内容一致
✍ BAM故障后,应急工作站能检测到故障并自动升级为主用
✍ 命令方式手动进行应急工作站到服务器的单向切换
✍ 获取双机状态
✍ 任何时刻只能有一个主用服务器运行
✍ 监控BAM系统的软件运行异常
✍ 监控BAM系统的硬件异常
华为RAC6610双机系统拥有以下特性,能够实现上述功能:
1、定时状态检测
通过该功能,当BAM故障后,应急工作站能检测到故障并自动变为主用。
2、主备决策
通过该功能,双机系统能自动根据内部状态选择进行主备间的切换,保证BAM系统继续正常运行。
3、故障切换
通过该功能,双机系统能自动进行主备切换,以尽快消除因为内部故障导致的服务中断带来的影响。
4、人工倒换
支持用户通过命令的方式,进行主备BAM之间的数据和状态的切换。
5、双机状态查询
当用户从远端的客户端连接到BAM进行操作时,在特殊情况下需要了解当前系统运行为主用的是BAM服务器还是应急工作站,以决定特定的操作;因此,提供本功能支持用户通过客户端下发MML命令查询当前连接的主用BAM的物理配置是服务器还是应急工作站。
用户通过客户端输入MML命令“DSPDUALSTAT”(无参命令)查询当前BAM的双机状态,以获得当前BAM是服务器或者应急工作站、以及两者之间的链路状态等信息。
查询结果示例如下:
+++XX-RASYS2005-12-0616:
22:
16
O&M#338958
%%DSPDUALSTAT:
;%%
RETCODE=0执行成功
主用BAM=服务器(racbam)
备用BAM=应急工作站(racstaion)
内网连接状态=连接正常
外网连接状态=连接正常
数据同步建立状态=成功
数据传送状态=空闲
是否可以自动故障倒换=是
6、同活避免
提供双机自我保护功能,避免因为竞争导致的主备同为主用的情况。
7、数据同步复制
RACBAM的数据库记录了配置数据、性能数据和告警数据等,这些需要用户动态配置的数据信息在运行过程会发生改变,要求BAM切换后数据不丢失;因此,要求服务器上这些数据信息发生改变后能够实时传送到应急工作站,发生切换后,应急工作站才能真正代替服务器的工作。
数据同步复制能够满足这一要求。
8、告警上报
建立与BAM告警台之间的通讯,及时上报双机系统运行过程中发生的故障,方便及时定位系统故障。
9、硬件监控
使用硬件厂商提供的监控接口,对BAM系统运行的硬件平台进行监控,以便及时发现并排除隐患。
三、双机软件系统组网和基本设置
㈠、双机组网规划:
环境要求:
Win2000Server+SP4、SQLServer2000+SP4
服务器的机器名:
RACBAM
应急工作站的机器名:
RACStation
假定我们确定的IP如下:
说明:
在双机的使用中,主备两台计算机总共使用了6个IP地址:
1)虚拟内网IP地址用于和主机通信。
从备用服务器或客户端上不能ping通这个地址,只有从主用服务器上才能ping通这个地址。
2)虚拟外网IP地址用于和客户端通信。
对于客户端来说,它看到的Bam,仅仅是这个IP,连接时,连接的也是这个IP。
因此,规划的时候需要考虑如果设置了这个IP后,要求从客户端可以ping通这个地址。
即客户端和虚拟外网IP在同一网段,或者如果不在同一网段时,中间需要存在相应的路由使其可以访问虚拟外网IP。
3)服务器和应急工作站的内网IP地址和外网IP地址用于双机之间的心跳联络和数据备份。
规划时需要保证服务器和应急工作站的内网IP在同一网段,外网IP在同一网段,并且内网IP和虚拟内网IP必须不在同一网段,而且内网和外网最好不在同一网段。
双机基本组网图
可以看出,上面的规划中只有三个网段:
10.12.3.0、10.12.4.0和192.168.10.0,分别用于内网实际、内网虚拟和外网。
注意,这时系统中RACCMUX单板的IP地址将会是10.12.3.×(×代表框号)。
因此,上面的内网的IP地址规划为128、130、131,都大于127,保证不占用CMUX单板的IP地址。
㈡、IP地址配置
IP地址配置有两种情况:
1、安装OMC软件时进行设置:
BAM系统采用双机工作方式,在安装OMC软件过程中选择“安装双机主用服务器”项,界面中的填写项改变成可填写状态,如图所示。
选择安装双机系统
在如图界面中,对本机(即主用服务器)进行内外网的网卡、虚拟IP地址和掩码设置。
内网的虚拟IP地址为10.12.3.128,掩码255.25.255.0;外网虚拟IP地址根据实际网络环境确定。
设置对端信息界面
在该界面中,填入应急工作站或BAM服务器的机器名称和内外网实际IP地址值。
注意:
请确定网卡选择的正确性,可以通过查询网络连接的属性来确认网卡的硬件编号;同时需要确保对端计算机名称准确无误。
2、在系统运行中进行修改:
停止Bam管理器和BAMService服务,并使用D:
\Rasys\Services\DualCFG.exe将BAM服务器双机设置打开。
在界面中将SystemType修改为Dual,修改相应的IP地址设置,内外网的网卡、虚拟IP地址和掩码设置,并点击Reset按钮,之后点击Apply按钮应用修改,见图中红色处。
(同样需要确保对端计算机名称准确无误)
四、双机系统管理
V200R001C02B017版本提供的双机系统管理命令如下:
命令名称
说明
DSP DUALSTAT
用于查询双机系统状态,包括:
运行在主用的物理设备;主备机之间的链路的状态;数据同步建立的状态;数据传送的状态;是否能够自动故障倒换。
SWPDATA
如果要实现双机系统实时数据传送,必须首先建立数据同步。
如果是服务器运行在主用模式,系统正常启动后会自动建立数据同步。
否则需要执行SWPDATA命令来建立数据同步。
当使用DSPDUALSTAT命令查询到双机系统的数据同步建立状态为“未建立”或“未知”时,可以执行此命令手动建立数据同步。
在数据同步状态为“失败”、“正在建立”或者“成功”时,可以通过选择该命令的“是否强制启动”选项为“是”来重新建立数据同步。
SWPBAM
此命令用于手动进行双机系统的主备倒换。
如果执行成功,原来运行在主用的机器将运行在备用,原来运行在备用的机器将运行在主用。
此命令影响较大,执行此命令前,最好使用DSPDUALSTAT命令查询双机状态。
如果链路状态不是正常或者数据同步建立状态不是成功,双机倒换将无法正常执行;如果链路状态是正常并且数据同步建立状态是成功,但是数据传送状态不为空闲,执行此命令仍然可能会失败;如果数据传送状态为空闲,执行此命令会有较高的成功率。
五、双机系统故障和案例
1、数据库版本问题导致双机同步建立失败
【故障现象描述】:
查询双机同步状态时,提示:
主用BAM=服务器(racbam)
备用BAM=应急工作站(racstation)
内网连接状态=连接正常
外网连接状态=连接正常
数据同步建立状态=失败
数据传送状态=-
是否可以自动故障倒换=-
【故障定位排除】:
1、双机同步失败,主要是双机设置的问题导致;
2、数据库版本或OMC版本问题。
【处理过程】:
1、先检查双机配置,BAM和应急工作站都没有问题;
2、通过SQL访问对端数据库,也是正常的;
3、查看BAM及应急工作站的双机日志,BAM的日志中存在以下提示:
LEVEL:
1TIME:
2005-07-2515:
06:
59:
167MODULE:
DualFILE:
DbSyncInstaller.cppLINE:
1046.
ErrorCode:
0x80045274,ErrorInfo:
CannotaddHdbpublicationtocontainer!
[Microsoft][ODBCSQLServerDriver][SQLServer]此版本的SQLServer不支持事务发布;
4、检查SQL SERVER的版本及补丁情况,发现SQL安装的是个人版,而不是标准版本;(查询SQL版本方法:
在企业管理器中右键点击本地数据库查看属性。
)
5、重新安装SQL数据库后,问题解决。
2、RASYS双机系统OMC软件安装中对端信息填写错误,造成双机不能倒换,数据同步失败
【故障现象描述】:
某RASYS局点在进行双机倒换时出现故障,先是从BAM倒换到应急工作站可以,然而当从应急工作站倒换到BAM时SWPBAM命令不能执行,提示备用BAM拒绝倒换,之前在应急工作站进行数据同步时,同步到5%时隔了很长时间没有反应,重新执行数据同步命令时同步失败,试了多次依然是数据同步失败。
【故障定位排除】:
1、双机网络通信故障;
2、与双机系统相关的配置信息配置有误。
【处理过程】:
1、检查双机系统的物理网络连接,没有发现问题,在BAM上ping内外网的实际IP和虚拟IP都可以ping通,在应急工作站上ping内外网的实际IP和虚拟IP也都可以ping通,这样可以排除双机网络通信故障的可能性;
2、检查与双机系统相关的配置信息,发现在安装BAM的OMC软件时,对端信息填的是"workstation",而从应急工作站上查到的计算机名称是"racstation",最后把对端信息改成"racstation"再进行数据同步,同步成功,但是执行双机倒换时还是失败,最后多执行几次双机倒换命令才倒换成功,BAM成为主用状态。
【建议与总结】:
在安装OMC软件时,一定要把安装中填写的内容详细记录下来,正确填写对端信息,并仔细检查。
3、双机系统心跳线内外网IP地址错误导致双机同步不成功
【故障现象描述】:
某在进行双机系统数据同步时总是同步失败,执行数据同步命令显示失败。
【故障定位排除】:
1、双机网络通信故障;
2、与双机系统相关的配置信息配置有误。
【处理过程】:
对照V200R001的软件安装指导书,检查内外网网卡IP地址设置,发现与指导书一致,但是通过在cmd窗口中运行ipconfig,发现内外网的虚拟IP与实际IP对应反了,最后通过调整网线和重新设定网卡实际IP地址解决故障。
4、应急工作站系统路由没有设置导致双机倒换后操作维护不可
【故障现象描述】:
某局在进行双机倒换后,应急工作站上的操作维护不可用,OMC上显示所有基站全部为中断,但是基站的业务正常。
【故障定位排除】:
通过拨测,发现基站的业务正常,只是操作维护链路中断,判断由于双机倒换后应急工作站配置问题导致。
【处理过程】:
1、使用SWPBAM命令将应急工作站倒换到BAM上后,RAC及基站的操作维护恢复正常。
2、进入应急工作站的DOS状态,使用routeprint命令查看基站的路由配置,发现没有配置应急工作站到RAC及基站的对应路由。
3、增加应急工作站路由后,通过从BAM倒换到应急工作站测试,RAC及基站的操作维护恢复正常,问题解决。
【建议与总结】:
在双机倒换前一定要注意检查应急工作站的系统路由设置,否则发生双机倒换后,应急工作站的操作维护不正常。