集群系统故障测试报告.docx

资源描述

集群系统故障测试报告.docx

《集群系统故障测试报告.docx》由会员分享，可在线阅读，更多相关《集群系统故障测试报告.docx（21页珍藏版）》请在冰豆网上搜索。

集群系统故障测试报告.docx

集群系统故障测试报告

*******

物资集群系统故障测试报告

**********

二零零九年十月

*******物资集群系统故障测试报告

一、测试准备

二、测试方案审核记录：

三、项目测试项目大纲

根据验收标准，用户方*******和乙方**********将共同对以下项目进行测试：

项目编号

测试项目

测试编码

测试分项目

主机故障测试

0001

ncst01故障

0002

ncst02故障

单节点单存储故障测试

0101

ncst01、存储A故障

0102

ncst01、存储B故障

0103

ncst02、存储B故障

0104

ncst02、存储A故障

双节点单存储设备运行是单节点单存储故障测试流程中的一个必经过程，所以没有被列入测试项目中。

根据测试目标，绘制了如下测试流程图：

四、测试过程

1.测试项目0001（模拟主机ncst01故障）

Ø预置条件：

RAC正常运行、强制关闭ncst01主机节点

Ø操作方法：

执行命令ncst01#halt–q

Ø状态查看：

数据库运行状态：

#crs_stat–t

NameTypeTargetStateHost

-----------------------------------------------------------------------------------------------

ora....SM1.asmapplicationONLINEOFFLINE

ora....01.lsnrapplicationONLINEOFFLINE

ora.ncst01.gsdapplicationONLINEOFFLINE

ora.ncst01.onsapplicationONLINEOFFLINE

ora.ncst01.vipapplicationONLINEONLINEncst02

ora....SM2.asmapplicationONLINEONLINEncst02

ora....02.lsnrapplicationONLINEONLINEncst02

ora.ncst02.gsdapplicationONLINEONLINEncst02

ora.ncst02.onsapplicationONLINEONLINEncst02

ora.ncst02.vipapplicationONLINEONLINEncst02

ora.wuzi.dbapplicationONLINEONLINEncst02

ora....i1.instapplicationONLINEOFFLINE

ora....i2.instapplicationONLINEONLINEncst02

Ø测试结果：

在强制关闭ncst01主机节点的情况下，RAC数据库集群不受影响，ncst02主机节点数据库运行正常。

Ø恢复步骤：

开启ncst01主机节点，启动HA服务，CRS服务将自动启动，RAC数据库集群恢复正常。

2.测试项目0002（模拟主机ncst02故障）

Ø预置条件：

RAC正常运行、强制关闭ncst02主机节点

Ø操作方法：

执行命令ncst02#halt–q

Ø状态查看：

数据库运行状态：

#crs_stat–t

NameTypeTargetStateHost

---------------------------------------------------------------------------------------------

ora....SM1.asmapplicationONLINEONLINEncst01

ora....01.lsnrapplicationONLINEONLINEncst01

ora.ncst01.gsdapplicationONLINEONLINEncst01

ora.ncst01.onsapplicationONLINEONLINEncst01

ora.ncst01.vipapplicationONLINEONLINEncst01

ora....SM2.asmapplicationONLINEOFFLINE

ora....02.lsnrapplicationONLINEOFFLINE

ora.ncst02.gsdapplicationONLINEOFFLINE

ora.ncst02.onsapplicationONLINEOFFLINE

ora.ncst02.vipapplicationONLINEONLINEncst01

ora.wuzi.dbapplicationONLINEONLINEncst01

ora....i1.instapplicationONLINEONLINEncst01

ora....i2.instapplicationONLINEOFFLINE

Ø测试结果：

在强制关闭ncst02主机节点的情况下，RAC数据库集群不受影响，ncst01主机节点数据库运行正常。

Ø恢复步骤：

开启ncst02主机节点，启动HA服务，CRS服务将自动启动，RAC数据库集群恢复正常。

3.测试项目0101（模拟主机ncst01、存储A故障同时故障）

Ø预置条件：

RAC正常运行、强制关闭ncst01主机节点和存储A

Ø操作方法：

-执行命令ncst01#halt–q关闭主机

-断开存储A至SAN光纤交换机的连接线

Ø状态查看：

数据库运行状态：

$crs_stat-t

NameTypeTargetStateHost

----------------------------------------------------------------------------------------------

ora....SM1.asmapplicationONLINEOFFLINE

ora....01.lsnrapplicationONLINEOFFLINE

ora.ncst01.gsdapplicationONLINEOFFLINE

ora.ncst01.onsapplicationONLINEOFFLINE

ora.ncst01.vipapplicationONLINEONLINEncst02

ora....SM2.asmapplicationONLINEONLINEncst02

ora....02.lsnrapplicationONLINEONLINEncst02

ora.ncst02.gsdapplicationONLINEONLINEncst02

ora.ncst02.onsapplicationONLINEONLINEncst02

ora.ncst02.vipapplicationONLINEONLINEncst02

ora.wuzi.dbapplicationONLINEONLINEncst02

ora....i1.instapplicationONLINEOFFLINE

ora....i2.instapplicationONLINEONLINEncst02

CRS的ocr磁盘状态：

#ocrcheck

StatusofOracleClusterRegistryisasfollows:

Version:

Totalspace（kbytes）:

1048300

Usedspace（kbytes）:

3844

Availablespace（kbytes）:

1044456

ID:

630524357

Device/FileName:

/dev/rocrlv01

Device/Fileintegritychecksucceeded

Device/FileName:

/dev/rocrlv02

Device/Fileintegritychecksucceeded

Clusterregistryintegritychecksucceeded

CRS的vot磁盘状态：

#crsctlquerycssvotedisk

0.0/dev/rvotlv01

1.0/dev/rvotlv03

2.0/dev/rvotlv02

located3votedisk（s）.

Ø测试结果：

通过测试发现当主机ncst01和存储A同时关机时，数据库状态查看都正常，但此时数据库无法正常使用（HUNG）。

需要重新启动主机ncst02以恢复数据库正常运行。

Ø恢复步骤：

1）正常停止RAC集群服务

#crsctlstopcrs

Stoppingresources.Thiscouldtakeseveralminutes.

SuccessfullystoppedCRSresources.

StoppingCSSD.

ShuttingdownCSSdaemon.

Shutdownrequestsuccessfullyissued.

2）正常停止HA集群服务

#smittyclstop

3）重启主机ncst02系统

#shutdown–Fr

4）启动系统后查看磁盘状态

#lspv

hdisk000cef9a4c0cf0ae0rootvgactive

hdisk100cef9a433f4f46drootvgactive

hdisk18noneNone

hdisk19noneNone

hdisk20noneNone

hdisk21noneNone

hdisk22noneNone

hdisk23noneNone

hdisk24noneNone

hdisk25noneNone

hdisk26noneNone

hdisk27noneNone

hdisk28noneNone

hdisk29noneNone

hdisk30noneNone

hdisk31noneNone

hdisk32noneNone

hdisk3400cef92447945c42crsvg

5）启动HA集群服务

#smittyclstart

6）再次查看磁盘状态

#lspv

hdisk000cef9a4c0cf0ae0rootvgactive

hdisk100cef9a433f4f46drootvgactive

hdisk18noneNone

hdisk19noneNone

hdisk20noneNone

hdisk21noneNone

hdisk22noneNone

hdisk23noneNone

hdisk24noneNone

hdisk25noneNone

hdisk26noneNone

hdisk27noneNone

hdisk28noneNone

hdisk29noneNone

hdisk30noneNone

hdisk31noneNone

hdisk32noneNone

hdisk3400cef92447945c42crsvgconcurrent

7）查看crs进程

#ps-ef|grepcrs

root1271781013:

11:

21-0:

00/bin/sh/etc/init.crsdrun

oracle13519674074013:

17:

42-0:

00/oracle/crs/bin/evmlogger.bin-o/oracle/crs/evm/log/evmlogger.info-l/oracle/crs/evm/log/evmlogger.log

oracle213190115276013:

17:

29-0:

00/oracle/crs/bin/ocssd.bin

oracle7407478292013:

17:

25-0:

00/oracle/crs/bin/evmd.bin

oracle119146152560013:

18:

35-0:

00/oracle/crs/opmn/bin/ons-d

root19291878542013:

18:

57pts/00:

00grepcrs

root82640127178113:

17:

25-0:

01/oracle/crs/bin/crsd.binreboot

oracle115276209420013:

17:

28-0:

00/bin/sh-culimit-cunlimited;cd/oracle/crs/log/ncst02/cssd;/oracle/crs/bin/ocssd||exit$?

oracle99118156518013:

17:

27-0:

00/oracle/crs/bin/oclsomon.bin

oracle1525601013:

18:

35-0:

00/oracle/crs/opmn/bin/ons-d

oracle15651882772013:

17:

27-0:

00/bin/sh-ccd/oracle/crs/log/ncst02/cssd/oclsomon;ulimit-cunlimited;/oracle/crs/bin/oclsomon||exit$?

8）切换到ORACLE用户

#su–oracle

9）查看数据库状态

$crs_stat-t

NameTypeTargetStateHost

-----------------------------------------------------------------------------------------------

ora....SM1.asmapplicationONLINEOFFLINE

ora....01.lsnrapplicationONLINEOFFLINE

ora.ncst01.gsdapplicationONLINEOFFLINE

ora.ncst01.onsapplicationONLINEOFFLINE

ora.ncst01.vipapplicationONLINEONLINEncst02

ora....SM2.asmapplicationONLINEONLINEncst02

ora....02.lsnrapplicationONLINEONLINEncst02

ora.ncst02.gsdapplicationONLINEONLINEncst02

ora.ncst02.onsapplicationONLINEONLINEncst02

ora.ncst02.vipapplicationONLINEONLINEncst02

ora.wuzi.dbapplicationONLINEONLINEncst02

ora....i1.instapplicationONLINEOFFLINE

ora....i2.instapplicationONLINEONLINEncst02

Ø恢复小结：

在主机ncst01和存储A关机的状态下，进行RAC的正常恢复主要经历以下几步：

1）正常停止主机ncst02的CRS服务和HA服务；

2）重启主机ncst02；

3）启动ncst02节点的HA服务，此时CRS进程将自动启动，服务器ncst02节点的数据库也将自动启动。

4.测试项目0102（模拟主机ncst01、存储B同时故障）

Ø预置条件：

RAC正常运行，在测试项目0101的基础上将存储A恢复，待存储A恢复完成后关闭存储B

-环境部署：

恢复存储A至SAN交换机的连接，依次关闭数据库、CRS、HA服务，重启主机ncst02并且保持主机ncst01关机。

-命令如下：

1）关闭数据库：

$srvctlstopdatabase–dwuzi

2）切换用户：

$su

3）关闭CRS：

#crsctlstopcrs

4）关闭HA：

#smittyclstop

5）重启服务器：

#shutdown-Fr

6）系统重启完成后启动HA服务：

#smittyclstart

7）切换用户：

#su-oracle

8）查看数据库状态：

$crs_stat–t

9）输出环境变量：

$exportORACLE_SID=+ASM2

10）连接ASM实例：

$sqlplus“/assysdba”

11）恢复失败的磁盘组

SQL>ALTERDISKGROUPWUZIGROUPADDFAILGROUPfg1

DISK'/dev/rhdisk2'FORCE,'/dev/rhdisk3'FORCE,'/dev/rhdisk4'

FORCE,'/dev/rhdisk5'FORCE,'/dev/rhdisk6'FORCE;

SQL>exit

12）切换用户：

#su

13）查看CRS的ocr、vot磁盘状态

#ocrcheck

StatusofOracleClusterRegistryisasfollows:

Version:

Totalspace（kbytes）:

1048300

Usedspace（kbytes）:

3844

Availablespace（kbytes）:

1044456

ID:

630524357

Device/FileName:

/dev/rocrlv01

Device/Fileintegritychecksucceeded

Device/FileName:

/dev/rocrlv02

Device/Fileintegritychecksucceeded

Clusterregistryintegritychecksucceeded

#crsctlquerycssvotedisk

0.0/dev/rvotlv01

1.0/dev/rvotlv03

2.0/dev/rvotlv02

located3votedisk（s）.

注：

一定要确保OCR磁盘状态为“Clusterregistryintegritychecksucceeded”。

Ø操作方法：

断开存储B至SAN交换机的连接线。

Ø状态查看：

数据库运行状态：

$crs_stat–t

NameTypeTargetStateHost

----------------------------------------------------------------------------------------------

ora....SM1.asmapplicationONLINEOFFLINE

ora....01.lsnrapplicationONLINEOFFLINE

ora.ncst01.gsdapplicationONLINEOFFLINE

ora.ncst01.onsapplicationONLINEOFFLINE

ora.ncst01.vipapplicationONLINEONLINEncst02

ora....SM2.asmapplicationONLINEONLINEncst02

ora....02.lsnrapplicationONLINEONLINEncst02

ora.ncst02.gsdapplicationONLINEONLINEncst02

ora.ncst02.onsapplicationONLINEONLINEncst02

ora.ncst02.vipapplicationONLINEONLINEncst02

ora.wuzi.dbapplicationONLINEONLINEncst02

ora....i1.instapplicationONLINEOFFLINE

ora....i2.instapplicationONLINEONLINEncst02

CRS的ocr磁盘状态：

#ocrcheck

StatusofOracleClusterRegistryisasfollows:

Version:

Totalspace（kbytes）:

1048300

Usedspace（kbytes）:

3844

Availablespace（kbytes）:

1044456

ID:

630524357

Device/FileName:

/dev/rocrlv01

Device/Fileintegritychecksucceeded

Device/FileName:

/dev/rocrlv02

Device/Fileintegritychecksucceeded

Clusterregistryintegritychecksucceeded

CRS的vot磁盘状态：

#crsctlquerycssvotedisk

0.0/dev/rvotlv01

1.0/dev/rvotlv03

2.0/dev/rvotlv02

located3votedisk（s）.

Ø测试结果：

通过测试发现当主机ncst01和存储B同时关机时，数据库状态查看都正常，但此时数据库无法正常使用（HUNG）。

需要重新启动主机ncst02以恢复数据库正常运行。

Ø恢复步骤：

1）正常停止RAC集群服务

#crsctlstopcrs

Stoppingresources.

展开阅读全文