集群系统故障测试报告.docx
《集群系统故障测试报告.docx》由会员分享,可在线阅读,更多相关《集群系统故障测试报告.docx(21页珍藏版)》请在冰豆网上搜索。
集群系统故障测试报告
*******
物资集群系统故障测试报告
**********
二零零九年十月
*******物资集群系统故障测试报告
一、测试准备
二、测试方案审核记录:
三、项目测试项目大纲
根据验收标准,用户方*******和乙方**********将共同对以下项目进行测试:
项目编号
测试项目
测试编码
测试分项目
00
主机故障测试
0001
ncst01故障
0002
ncst02故障
01
单节点单存储故障测试
0101
ncst01、存储A故障
0102
ncst01、存储B故障
0103
ncst02、存储B故障
0104
ncst02、存储A故障
双节点单存储设备运行是单节点单存储故障测试流程中的一个必经过程,所以没有被列入测试项目中。
根据测试目标,绘制了如下测试流程图:
四、测试过程
1.测试项目0001(模拟主机ncst01故障)
Ø预置条件:
RAC正常运行、强制关闭ncst01主机节点
Ø操作方法:
执行命令ncst01#halt–q
Ø状态查看:
数据库运行状态:
#crs_stat–t
NameTypeTargetStateHost
-----------------------------------------------------------------------------------------------
ora....SM1.asmapplicationONLINEOFFLINE
ora....01.lsnrapplicationONLINEOFFLINE
ora.ncst01.gsdapplicationONLINEOFFLINE
ora.ncst01.onsapplicationONLINEOFFLINE
ora.ncst01.vipapplicationONLINEONLINEncst02
ora....SM2.asmapplicationONLINEONLINEncst02
ora....02.lsnrapplicationONLINEONLINEncst02
ora.ncst02.gsdapplicationONLINEONLINEncst02
ora.ncst02.onsapplicationONLINEONLINEncst02
ora.ncst02.vipapplicationONLINEONLINEncst02
ora.wuzi.dbapplicationONLINEONLINEncst02
ora....i1.instapplicationONLINEOFFLINE
ora....i2.instapplicationONLINEONLINEncst02
Ø测试结果:
在强制关闭ncst01主机节点的情况下,RAC数据库集群不受影响,ncst02主机节点数据库运行正常。
Ø恢复步骤:
开启ncst01主机节点,启动HA服务,CRS服务将自动启动,RAC数据库集群恢复正常。
2.测试项目0002(模拟主机ncst02故障)
Ø预置条件:
RAC正常运行、强制关闭ncst02主机节点
Ø操作方法:
执行命令ncst02#halt–q
Ø状态查看:
数据库运行状态:
#crs_stat–t
NameTypeTargetStateHost
---------------------------------------------------------------------------------------------
ora....SM1.asmapplicationONLINEONLINEncst01
ora....01.lsnrapplicationONLINEONLINEncst01
ora.ncst01.gsdapplicationONLINEONLINEncst01
ora.ncst01.onsapplicationONLINEONLINEncst01
ora.ncst01.vipapplicationONLINEONLINEncst01
ora....SM2.asmapplicationONLINEOFFLINE
ora....02.lsnrapplicationONLINEOFFLINE
ora.ncst02.gsdapplicationONLINEOFFLINE
ora.ncst02.onsapplicationONLINEOFFLINE
ora.ncst02.vipapplicationONLINEONLINEncst01
ora.wuzi.dbapplicationONLINEONLINEncst01
ora....i1.instapplicationONLINEONLINEncst01
ora....i2.instapplicationONLINEOFFLINE
Ø测试结果:
在强制关闭ncst02主机节点的情况下,RAC数据库集群不受影响,ncst01主机节点数据库运行正常。
Ø恢复步骤:
开启ncst02主机节点,启动HA服务,CRS服务将自动启动,RAC数据库集群恢复正常。
3.测试项目0101(模拟主机ncst01、存储A故障同时故障)
Ø预置条件:
RAC正常运行、强制关闭ncst01主机节点和存储A
Ø操作方法:
-执行命令ncst01#halt–q关闭主机
-断开存储A至SAN光纤交换机的连接线
Ø状态查看:
数据库运行状态:
$crs_stat-t
NameTypeTargetStateHost
----------------------------------------------------------------------------------------------
ora....SM1.asmapplicationONLINEOFFLINE
ora....01.lsnrapplicationONLINEOFFLINE
ora.ncst01.gsdapplicationONLINEOFFLINE
ora.ncst01.onsapplicationONLINEOFFLINE
ora.ncst01.vipapplicationONLINEONLINEncst02
ora....SM2.asmapplicationONLINEONLINEncst02
ora....02.lsnrapplicationONLINEONLINEncst02
ora.ncst02.gsdapplicationONLINEONLINEncst02
ora.ncst02.onsapplicationONLINEONLINEncst02
ora.ncst02.vipapplicationONLINEONLINEncst02
ora.wuzi.dbapplicationONLINEONLINEncst02
ora....i1.instapplicationONLINEOFFLINE
ora....i2.instapplicationONLINEONLINEncst02
CRS的ocr磁盘状态:
#ocrcheck
StatusofOracleClusterRegistryisasfollows:
Version:
2
Totalspace(kbytes):
1048300
Usedspace(kbytes):
3844
Availablespace(kbytes):
1044456
ID:
630524357
Device/FileName:
/dev/rocrlv01
Device/Fileintegritychecksucceeded
Device/FileName:
/dev/rocrlv02
Device/Fileintegritychecksucceeded
Clusterregistryintegritychecksucceeded
CRS的vot磁盘状态:
#crsctlquerycssvotedisk
0.0/dev/rvotlv01
1.0/dev/rvotlv03
2.0/dev/rvotlv02
located3votedisk(s).
Ø测试结果:
通过测试发现当主机ncst01和存储A同时关机时,数据库状态查看都正常,但此时数据库无法正常使用(HUNG)。
需要重新启动主机ncst02以恢复数据库正常运行。
Ø恢复步骤:
1)正常停止RAC集群服务
#crsctlstopcrs
Stoppingresources.Thiscouldtakeseveralminutes.
SuccessfullystoppedCRSresources.
StoppingCSSD.
ShuttingdownCSSdaemon.
Shutdownrequestsuccessfullyissued.
2)正常停止HA集群服务
#smittyclstop
3)重启主机ncst02系统
#shutdown–Fr
4)启动系统后查看磁盘状态
#lspv
hdisk000cef9a4c0cf0ae0rootvgactive
hdisk100cef9a433f4f46drootvgactive
hdisk18noneNone
hdisk19noneNone
hdisk20noneNone
hdisk21noneNone
hdisk22noneNone
hdisk23noneNone
hdisk24noneNone
hdisk25noneNone
hdisk26noneNone
hdisk27noneNone
hdisk28noneNone
hdisk29noneNone
hdisk30noneNone
hdisk31noneNone
hdisk32noneNone
hdisk3400cef92447945c42crsvg
5)启动HA集群服务
#smittyclstart
6)再次查看磁盘状态
#lspv
hdisk000cef9a4c0cf0ae0rootvgactive
hdisk100cef9a433f4f46drootvgactive
hdisk18noneNone
hdisk19noneNone
hdisk20noneNone
hdisk21noneNone
hdisk22noneNone
hdisk23noneNone
hdisk24noneNone
hdisk25noneNone
hdisk26noneNone
hdisk27noneNone
hdisk28noneNone
hdisk29noneNone
hdisk30noneNone
hdisk31noneNone
hdisk32noneNone
hdisk3400cef92447945c42crsvgconcurrent
7)查看crs进程
#ps-ef|grepcrs
root1271781013:
11:
21-0:
00/bin/sh/etc/init.crsdrun
oracle13519674074013:
17:
42-0:
00/oracle/crs/bin/evmlogger.bin-o/oracle/crs/evm/log/evmlogger.info-l/oracle/crs/evm/log/evmlogger.log
oracle213190115276013:
17:
29-0:
00/oracle/crs/bin/ocssd.bin
oracle7407478292013:
17:
25-0:
00/oracle/crs/bin/evmd.bin
oracle119146152560013:
18:
35-0:
00/oracle/crs/opmn/bin/ons-d
root19291878542013:
18:
57pts/00:
00grepcrs
root82640127178113:
17:
25-0:
01/oracle/crs/bin/crsd.binreboot
oracle115276209420013:
17:
28-0:
00/bin/sh-culimit-cunlimited;cd/oracle/crs/log/ncst02/cssd;/oracle/crs/bin/ocssd||exit$?
oracle99118156518013:
17:
27-0:
00/oracle/crs/bin/oclsomon.bin
oracle1525601013:
18:
35-0:
00/oracle/crs/opmn/bin/ons-d
oracle15651882772013:
17:
27-0:
00/bin/sh-ccd/oracle/crs/log/ncst02/cssd/oclsomon;ulimit-cunlimited;/oracle/crs/bin/oclsomon||exit$?
8)切换到ORACLE用户
#su–oracle
9)查看数据库状态
$crs_stat-t
NameTypeTargetStateHost
-----------------------------------------------------------------------------------------------
ora....SM1.asmapplicationONLINEOFFLINE
ora....01.lsnrapplicationONLINEOFFLINE
ora.ncst01.gsdapplicationONLINEOFFLINE
ora.ncst01.onsapplicationONLINEOFFLINE
ora.ncst01.vipapplicationONLINEONLINEncst02
ora....SM2.asmapplicationONLINEONLINEncst02
ora....02.lsnrapplicationONLINEONLINEncst02
ora.ncst02.gsdapplicationONLINEONLINEncst02
ora.ncst02.onsapplicationONLINEONLINEncst02
ora.ncst02.vipapplicationONLINEONLINEncst02
ora.wuzi.dbapplicationONLINEONLINEncst02
ora....i1.instapplicationONLINEOFFLINE
ora....i2.instapplicationONLINEONLINEncst02
Ø恢复小结:
在主机ncst01和存储A关机的状态下,进行RAC的正常恢复主要经历以下几步:
1)正常停止主机ncst02的CRS服务和HA服务;
2)重启主机ncst02;
3)启动ncst02节点的HA服务,此时CRS进程将自动启动,服务器ncst02节点的数据库也将自动启动。
4.测试项目0102(模拟主机ncst01、存储B同时故障)
Ø预置条件:
RAC正常运行,在测试项目0101的基础上将存储A恢复,待存储A恢复完成后关闭存储B
-环境部署:
恢复存储A至SAN交换机的连接,依次关闭数据库、CRS、HA服务,重启主机ncst02并且保持主机ncst01关机。
-命令如下:
1)关闭数据库:
$srvctlstopdatabase–dwuzi
2)切换用户:
$su
3)关闭CRS:
#crsctlstopcrs
4)关闭HA:
#smittyclstop
5)重启服务器:
#shutdown-Fr
6)系统重启完成后启动HA服务:
#smittyclstart
7)切换用户:
#su-oracle
8)查看数据库状态:
$crs_stat–t
9)输出环境变量:
$exportORACLE_SID=+ASM2
10)连接ASM实例:
$sqlplus“/assysdba”
11)恢复失败的磁盘组
SQL>ALTERDISKGROUPWUZIGROUPADDFAILGROUPfg1
DISK'/dev/rhdisk2'FORCE,'/dev/rhdisk3'FORCE,'/dev/rhdisk4'
FORCE,'/dev/rhdisk5'FORCE,'/dev/rhdisk6'FORCE;
SQL>exit
12)切换用户:
#su
13)查看CRS的ocr、vot磁盘状态
#ocrcheck
StatusofOracleClusterRegistryisasfollows:
Version:
2
Totalspace(kbytes):
1048300
Usedspace(kbytes):
3844
Availablespace(kbytes):
1044456
ID:
630524357
Device/FileName:
/dev/rocrlv01
Device/Fileintegritychecksucceeded
Device/FileName:
/dev/rocrlv02
Device/Fileintegritychecksucceeded
Clusterregistryintegritychecksucceeded
#crsctlquerycssvotedisk
0.0/dev/rvotlv01
1.0/dev/rvotlv03
2.0/dev/rvotlv02
located3votedisk(s).
注:
一定要确保OCR磁盘状态为“Clusterregistryintegritychecksucceeded”。
Ø操作方法:
断开存储B至SAN交换机的连接线。
Ø状态查看:
数据库运行状态:
$crs_stat–t
NameTypeTargetStateHost
----------------------------------------------------------------------------------------------
ora....SM1.asmapplicationONLINEOFFLINE
ora....01.lsnrapplicationONLINEOFFLINE
ora.ncst01.gsdapplicationONLINEOFFLINE
ora.ncst01.onsapplicationONLINEOFFLINE
ora.ncst01.vipapplicationONLINEONLINEncst02
ora....SM2.asmapplicationONLINEONLINEncst02
ora....02.lsnrapplicationONLINEONLINEncst02
ora.ncst02.gsdapplicationONLINEONLINEncst02
ora.ncst02.onsapplicationONLINEONLINEncst02
ora.ncst02.vipapplicationONLINEONLINEncst02
ora.wuzi.dbapplicationONLINEONLINEncst02
ora....i1.instapplicationONLINEOFFLINE
ora....i2.instapplicationONLINEONLINEncst02
CRS的ocr磁盘状态:
#ocrcheck
StatusofOracleClusterRegistryisasfollows:
Version:
2
Totalspace(kbytes):
1048300
Usedspace(kbytes):
3844
Availablespace(kbytes):
1044456
ID:
630524357
Device/FileName:
/dev/rocrlv01
Device/Fileintegritychecksucceeded
Device/FileName:
/dev/rocrlv02
Device/Fileintegritychecksucceeded
Clusterregistryintegritychecksucceeded
CRS的vot磁盘状态:
#crsctlquerycssvotedisk
#crsctlquerycssvotedisk
0.0/dev/rvotlv01
1.0/dev/rvotlv03
2.0/dev/rvotlv02
located3votedisk(s).
Ø测试结果:
通过测试发现当主机ncst01和存储B同时关机时,数据库状态查看都正常,但此时数据库无法正常使用(HUNG)。
需要重新启动主机ncst02以恢复数据库正常运行。
Ø恢复步骤:
1)正常停止RAC集群服务
#crsctlstopcrs
Stoppingresources.