HACMP 第 4 部分集群的验证和测试Word文件下载.docx
《HACMP 第 4 部分集群的验证和测试Word文件下载.docx》由会员分享,可在线阅读,更多相关《HACMP 第 4 部分集群的验证和测试Word文件下载.docx(34页珍藏版)》请在冰豆网上搜索。
操作系统设置
∙验证操作系统,并确保您已安装操作系统或应用程序所需的最新PTF。
∙验证用户数量、每用户允许的最大进程数量、最大文件数量、单个文件的最大大小、堆栈大小等等。
∙验证HighWaterMark和LowWaterMark。
在开始测试时,您可以分别为这两个属性分配值33和24。
最佳设置取决于系统配置、应用程序需求、I/O操作量等等。
您将必须监视系统性能一段时间,然后相应地调整这些参数
∙Syncdfrequency.缺省值是60。
应该将其更改为10,并开始监视集群性能,然后尝试确定能达到满意集群性能的最小值。
∙验证您有足够的分页空间。
∙验证转存(Dump)设备已正确设置。
∙对于频繁使用的文件系统,可能需要单独的jfslog。
确保其名称对所有逻辑卷、文件系统和jfslog来说是唯一的。
如果对jfslog使用系统自动命名,您应该小心。
∙验证/etc/filesystem中的每个节(stanza)已正确定义。
∙验证/、/var和/tmp中有足够的空间。
∙验证/etc/services文件。
∙确保时钟设置在所有节点上完全相同(日期、时区和NTP设置——如果使用的话)。
∙如果使用DNS,请确保正确定义DNS服务器,并拥有在DNS变得可用时的退回计划。
集群环境
∙验证PVID在所有节点上保持一致。
∙验证每个卷组的quorum和auto-varyon参数已正确设置。
∙确保名称对整个集群中的所有逻辑卷、文件系统和jfslog来说是唯一的。
∙验证所有本地文件系统已装入。
∙验证应用程序所有者的UserID和GroupID在所有节点上完全相同。
∙确保应用程序使用的变量和用户配置文件在所有集群节点上保持一致。
∙验证crontab以及您是否拥有与某个资源组或应用程序相关并且需要与该资源组或应用程序一起进行故障转移的脚本。
有关更多信息,请参阅HACMPforAIX5LV5.1AdminstrationandTroubleshootingGuide,SC23-4862-02。
∙验证您的应用程序仅由HACMP启动。
对/etc/inittab的检查始终是有用的。
∙测试您的应用程序启动/停止和监视脚本(用于自定义监视器),并确保它们能够在无人参与的情况下运行并提供有用的日志记录信息。
∙对每个资源组执行手动接管,并记下有关CPU和磁盘使用、接管时间等的任何恰当信息。
在自定义应用程序监视和资源组行为时可以进一步使用此信息。
回页首
集群启动
在验证系统组件之后,就可以启动集群了。
下面几个部分将详细介绍几个有关如何验证启动的示例。
验证集群服务
在启动集群服务之前,应该验证clcomd守护进程已添加到/etc/inittab并且已由init在集群中的所有节点上启动。
可以使用SMIT快速路径smittyclstart来启动集群服务。
然后,您可以选择希望在其上启动集群服务的节点。
可以选择是否希望启动集群锁服务或集群信息守护进程。
取决于集群配置,您还可能需要启动集群锁服务(用于并发RG)。
示例1演示了如何启动集群服务。
示例1启动集群服务(smittyclstart)
StartClusterServices
Typeorselectvaluesinentryfields.
PressEnterAFTERmakingalldesiredchanges.
[EntryFields]
*Startnow,onsystemrestartorbothnow+
StartClusterServicesonthesenodes[p630n01]+
BROADCASTmessageatstartup?
false+
StartupClusterLockServices?
StartupClusterInformationDaemon?
true+
Reacquireresourcesafterforceddown?
F1=HelpF2=RefreshF3=CancelF4=List
F5=ResetF6=CommandF7=EditF8=Image
F9=ShellF10=ExitEnter=Do
可以使用命令lssrc-gcluster来验证集群服务的状态。
取决于集群配置,启动的服务数量可能有所不同;
但是,集群管理守护进程(clstrmgrES)、ClusterSMUXPeer守护进程(clsmuxpd)和集群拓扑服务守护进程(topsvcsd)应该在运行。
可以使用诸如lssrc-gtopsvcs和lssrc-gemsvcs等命令来列出不同集群子系统的当前状态。
还可以定义别名来简化验证过程;
在我们的场景中,我们使用以下命令创建了一个名为lsha的别名:
aliaslsha='
lssrc-a|egrep"
svcs|ES"
,
然后使用lsha来列出所有与集群相关的子系统的状态。
示例2演示了如何验证与集群相关的服务的状态。
示例2验证集群服务的状态
[p630n02][/]>
lssrc-gcluster
SubsystemGroupPIDStatus
clstrmgrEScluster49830active
clsmuxpdEScluster54738active
clinfoEScluster45002active
lssrc-gtopsvcs
topsvcstopsvcs53870active
lssrc-gemsvcs
emsvcsemsvcs53638active
emaixosemsvcs53042active
lsha
clcomdESclcomdES11404active
grpsvcsgrpsvcs49074active
grpglsmgrpsvcsinoperative
IP验证
要验证IP地址,可以执行以下操作:
∙使用命令netstat–in来验证所有IP地址都已配置完毕。
∙使用命令netstat–rn来验证路由表。
∙如果使用NFS,则使用命令lssrc-gnfs来验证NFS服务已启动。
资源验证
要验证资源,可以执行以下操作:
∙使用命令lsvg–o来验证卷组已启用。
∙使用命令lsvg-lyour_volume_group来验证逻辑卷已打开和同步。
∙使用命令mount来验证文件系统已装入。
∙如果有要导出的文件系统,可以使用命令showmount–e来验证它们。
应用程序验证
要验证应用程序,可以执行以下操作:
∙使用命令ps-ef|grepapplication_process来验证应用程序在正常运行。
∙验证客户端能够连接。
在/tmp/hacmp.outlog文件中,查找node_up和node_up_complete事件。
示例3显示了一个示例node_up事件。
示例3Node_up事件
:
node_up[455]exit0
Jun3015:
07:
19EVENTCOMPLETED:
node_upp630n01
HACMPEventSummary
Event:
Starttime:
WedJun3015:
072004
Endtime:
212004
Action:
Resource:
ScriptName:
Acquiringresourcegroup:
rg01process_resources
Searchon:
Wed.Jun.30.15:
10.EDT.2004.process_resources.rg01.ref
Acquiringresource:
All_service_addrsacquire_service_addr
12.EDT.2004.acquire_service_addr.All_service_addrs.rg01.ref
Resourceonline:
All_nonerror_service_addrsacquire_service_addr
16.EDT.2004.acquire_service_addr.All_nonerror_service_addrs.rg01.ref
示例4显示了一个示例node_up_complete事件。
示例4Node_up_complete事件
node_up_complete[314]exit0
24EVENTCOMPLETED:
node_up_completep630n01
252004
Resourcegrouponline:
22:
00.EDT.2004.process_resources.rg01.ref
如果遇到任何与集群服务启动相关的问题,或者希望全面了解集群启动和所涉及到的进程,请参阅HACMPforAIX5LV5.1AdminstrationandTroubleshootingGuide,SC23-4862-02中的第7章“StartingandStoppingClusterServices”。
监视集群状态
应该始终监视集群状态,无论是监视集群的整体状态(启动、停止或不稳定),还是监视单独的节点状态(启动、停止、加入、离开或重新配置)。
使用clstat
可以使用命令/usr/sbin/cluster/clstat来获得有关集群的各个信息片段,包括集群状态、节点数量、节点的名称和状态、资源组的名称和状态,以及接口的名称和状态。
要使用此命令,您应该已经启动了clinfo守护进程。
示例5显示了此命令的输出。
示例5示例clstat输出
clstat-HACMPClusterStatusMonitor
Cluster:
bubu(1088583415)
21:
25EDT2004
State:
UPNodes:
6
SubState:
STABLE
Node:
p630n01State:
UP
Interface:
gp01(0)Address:
10.1.1.1
n01bt1
(1)Address:
172.16.100.31
p630n01
(1)Address:
192.168.100.31
n01a1
(1)Address:
192.168.11.131
ResourceGroup:
rg01State:
Online
p630n02State:
gp02(0)Address:
10.1.1.2
n01bt2
(1)Address:
172.16.100.32
p630n02
(1)Address:
192.168.100.32
n02a1
(1)Address:
192.168.11.132
rg02State:
p630n03State:
gp03(0)Address:
10.1.1.3
n01bt3
(1)Address:
172.16.100.33
p630n03
(1)Address:
192.168.100.33
**********************f/forward,b/back,r/refresh,q/quit***********************
如果集群节点具有图形功能,可以使用/usr/sbin/cluster/clstat来显示一个描述集群和节点状态的图形窗口。
在执行此操作之前,请确保将DISPLAY变量导出到X服务器地址并允许X客户端访问。
该命令的结果应该与图1所示的结果类似。
图1clstat的图形显示
使用snmpinfo
如果打算使用基于SNMP的监视,务必记住HACMP使用V1代理。
AIX5L5.2缺省使用V3,因此您必须使用命令/usr/sbin/snmpv3_ssw-1来更改版本。
使用Tivoli
若要将集群与TivoliMonitoring集成,您需要安装TivoliMonitoring组件。
有关操作原理和更多信息,请参阅红皮书ExploitingHACMPV4.4:
EnhancingtheCapabilitiesofClusterMulti-Processing,SG25979。
集群停止
可以使用smittyclstop来停止集群服务。
可以选择您希望在其上停止集群服务的所有节点,以及停止类型:
graceful、takeover或forced。
示例6演示了如何停止集群服务。
示例6停止集群服务(smittyclstop)
在一个节点上成功关闭集群服务以后,命令lssrc-gcluster的输出应该不包含任何内容。
还可以使用别名命令lsha来验证所有与集群相关的进程的状态。
示例7演示了如何验证与集群相关的服务的状态。
示例7验证集群停止
[p630n01][/]>
SubsystemGroupPIDStatus
topsvcstopsvcsinoperative
emsvcsemsvcsinoperative
emaixosemsvcsinoperative
lsha
clcomdESclcomdES14896active
topsvcstopsvcsinoperative
grpsvcsgrpsvcsinoperative
grpglsmgrpsvcsinoperative
请注意,clcomd守护进程在集群服务停止以后仍在运行。
一个节点上的关闭类型将决定该节点在成功停止集群服务以后获取的资源组将来的行为。
在文件/tmp/hacmp.out中,查找node_down和node_down_complete事件。
示例8显示了一个示例node_down事件。
示例8Node_down事件
node_down[306]exit0
Jun3016:
14:
40EVENTCOMPLETED:
node_downp630n01graceful
WedJun3016:
282004
432004
Releasingresourcegroup:
Wed.Jun.30.16:
30.EDT.2004.process_resources.rg01.ref
Releasingresource:
All_service_addrsrelease_service_addr
32.EDT.2004.release_service_addr.All_service_addrs.rg01.ref
Resourceoffline:
All_nonerror_service_addrsrelease_service_addr
35.EDT.2004.release_service_addr.All_nonerror_service_addrs.rg01.ref
Resourcegroupoffline:
37.EDT.2004.process_resources.rg01.ref
示例9显示了一个示例node_down_complete事件。
示例9Node_down_complete事件
node_down_complete[352]exit0
48EVENTCOMPLETED:
node_down_completep630n01graceful
482004
45.EDT.2004.process_resources.rg01.ref
应该尽可能避免使用kill-9命令来停止集群管理器守护进程。
在这样的情况下,SRC将检测到clstrmgr守护进程异常退出,并将调用/usr/es/sbin/cluster/utilities/clexit.rc。
这样会中止系统,并且可能破坏位于共享存储上的数据。
其余节点将根据资源组策略启动接管。
如果遇到任何与集群服务停止相关的问题,或者希望全面了解集群停止进程,请参阅HACMPforAIX5LV5.1AdminstrationandTroubleshootingGuide,SC23-4862-02中的第7章“StartingandStoppingClusterServices”。
Graceful
当您指定了此参数时,节点拥有的资源组将被释放,但是不会由其他节点获取。
Gracefulwithtakeover
当您指定了此参数时,该节点拥有的资源组将被释放,并根据资源组类型由其他节点获取。
Forced
当您指定了此参数时,集群服务将停止,但是资源组不会被释放。
注意:
建议不要一次在多个节点上强制关闭集群服务。
若要更好地了解这些选项,请参阅HACMPforAI