ImageVerifierCode 换一换
格式:DOCX , 页数:33 ,大小:186.67KB ,
资源ID:3989670      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/3989670.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(HACMP 认证学习系列第 4 部分集群的验证和测试.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

HACMP 认证学习系列第 4 部分集群的验证和测试.docx

1、HACMP 认证学习系列第 4 部分集群的验证和测试超经典 HPUX AIX cisco 华为 毕业论文 学习资料 尽管 HACMP 是一个功能强大的组件,如果没有正确的测试,在实现后也会成为一场灾难。在本文中,我们将详细介绍一些基本的测试过程。您可以通过访问“IBM AIX 认证专题”来了解其它的相关认证文章: IBM AIX 认证专题 验证和测试是可靠的配置的精髓,并且是成功实现的基础之一。大多数系统管理员都记得他们的上一个 HACMP 实现,其原因要么是该实现的压力极大,要么是因为一切都按预期顺利进行。HACMP 集群的优劣由您对其所做的设计、实现和测试工作决定。尽管 HACMP 是一个

2、功能强大的组件,如果没有正确的测试,在实现后也会成为一场灾难。未经计划的接管、不完善的脚本、莫名中止的节点以及一般的停机时间都可能是未经测试的集群配置的副作用。尽量列出尽可能多的故障场景,创建测试计划,验证所有故障情况下的集群行为,然后仔细检查集群规划,并确保消除了任何单点故障。在本章中,我们将详细介绍一些基本的测试过程。务必记住,高可用性不仅包括 HACMP 软件,而且还包括适当的硬件、可靠的软件、具有详细文档记录的设计、高级的自定义、管理和变更管理。它有效吗?设计和安装 HACMP 是一回事,让它按您的预期工作完全是另外一回事。只有一种方法可以确定 HACMP 是否按预期工作:测试、检验和

3、验证。务必记住,一旦集群已经运行,生产环境的变更就更难实现(如果可能的话)。测试和验证可能随所选择的集群解决方案而异;然而,我们必须一再强调的是,测试可能是整个实现中最重要的组成部分,因为测试做得越多,结果就越好。尽量模拟能够想象的每种事故;配置的优劣将由您对其所做的测试决定。我们已不胜其烦地强调了我们认为对于检验和验证配置来说非常重要的一些要点;然而,由于每个配置都是不同的,应该将这些要点用作一般指导原则。硬件和许可证先决条件请考虑以下要点: 验证您有冗余的电源、排风机、控制器等等。 验证 sysplanar、适配器、磁盘等的微码级别是最新的。 验证所使用的每个网络接口与实际交换机端口所报告

4、的速度匹配。 验证您有足够的软件许可证。有些软件许可证基于处理器 ID 和处理器数量。如果一个节点发生故障,另一个节点应该能够接管。 操作系统设置请考虑以下要点: 验证操作系统,并确保您已安装操作系统或应用程序所需的最新 PTF。 验证用户数量、每用户允许的最大进程数量、最大文件数量、单个文件的最大大小、堆栈大小等等。 验证 High Water Mark 和 Low Water Mark。在开始测试时,您可以分别为这两个属性分配值 33 和 24。最佳设置取决于系统配置、应用程序需求、I/O 操作量等等。您将必须监视系统性能一段时间,然后相应地调整这些参数 Syncd frequency.缺

5、省值是 60。应该将其更改为 10,并开始监视集群性能,然后尝试确定能达到满意集群性能的最小值。 验证您有足够的分页空间。 验证转存(Dump)设备已正确设置。 对于频繁使用的文件系统,可能需要单独的 jfslog。确保其名称对所有逻辑卷、文件系统和 jfslog 来说是唯一的。如果对 jfslog 使用系统自动命名,您应该小心。 验证 /etc/filesystem 中的每个节 (stanza ) 已正确定义。 验证 /、/var 和 /tmp 中有足够的空间。 验证 /etc/services 文件。 确保时钟设置在所有节点上完全相同(日期、时区和 NTP 设置如果使用的话)。 如果使用

6、DNS,请确保正确定义 DNS 服务器,并拥有在 DNS 变得可用时的退回计划。 集群环境请考虑以下要点: 验证 PVID 在所有节点上保持一致。 验证每个卷组的 quorum 和 auto-varyon 参数已正确设置。 确保名称对整个集群中的所有逻辑卷、文件系统和 jfslog 来说是唯一的。如果对 jfslog 使用系统自动命名,您应该小心。 验证所有本地文件系统已装入。 验证应用程序所有者的 User ID 和 Group ID 在所有节点上完全相同。 确保应用程序使用的变量和用户配置文件在所有集群节点上保持一致。 验证 crontab 以及您是否拥有与某个资源组或应用程序相关并且需要

7、与该资源组或应用程序一起进行故障转移的脚本。有关更多信息,请参阅 HACMP for AIX 5L V5.1 Adminstration and Troubleshooting Guide, SC23-4862-02。 验证您的应用程序仅由 HACMP 启动。对 /etc/inittab 的检查始终是有用的。 测试您的应用程序启动/停止和监视脚本(用于自定义监视器),并确保它们能够在无人参与的情况下运行并提供有用的日志记录信息。 对每个资源组执行手动接管,并记下有关 CPU 和磁盘使用、接管时间等的任何恰当信息。 在自定义应用程序监视和资源组行为时可以进一步使用此信息。回页首集群启动在验证系统

8、组件之后,就可以启动集群了。下面几个部分将详细介绍几个有关如何验证启动的示例。验证集群服务在启动集群服务之前,应该验证 clcomd 守护进程已添加到 /etc/inittab 并且已由 init 在集群中的所有节点上启动。可以使用 SMIT 快速路径 smitty clstart 来启动集群服务。然后,您可以选择希望在其上启动集群服务的节点。可以选择是否希望启动集群锁服务或集群信息守护进程。取决于集群配置,您还可能需要启动集群锁服务(用于并发 RG)。示例 1 演示了如何启动集群服务。示例 1 启动集群服务 (smitty clstart)Start Cluster ServicesType

9、 or select values in entry fields.Press Enter AFTER making all desired changes.Entry Fields* Start now, on system restart or both now +Start Cluster Services on these nodes p630n01 +BROADCAST message at startup? false +Startup Cluster Lock Services? false +Startup Cluster Information Daemon? true +R

10、eacquire resources after forced down ? false +F1=Help F2=Refresh F3=Cancel F4=ListF5=Reset F6=Command F7=Edit F8=ImageF9=Shell F10=Exit Enter=Do可以使用命令 lssrc -g cluster 来验证集群服务的状态。取决于集群配置,启动的服务数量可能有所不同;但是,集群管理守护进程 (clstrmgrES)、Cluster SMUX Peer 守护进程 (clsmuxpd) 和集群拓扑服务守护进程 (topsvcsd) 应该在运行。可以使用诸如 lssr

11、c -g topsvcs 和 lssrc -g emsvcs 等命令来列出不同集群子系统的当前状态。还可以定义别名来简化验证过程;在我们的场景中,我们使用以下命令创建了一个名为 lsha 的别名:alias lsha=lssrc -a|egrep svcs|ES,然后使用 lsha 来列出所有与集群相关的子系统的状态。示例 2 演示了如何验证与集群相关的服务的状态。示例 2 验证集群服务的状态p630n02/ lssrc -g clusterSubsystem Group PID StatusclstrmgrES cluster 49830 activeclsmuxpdES cluster 5

12、4738 activeclinfoES cluster 45002 activep630n02/ lssrc -g topsvcsSubsystem Group PID Statustopsvcs topsvcs 53870 activep630n02/ lssrc -g emsvcsSubsystem Group PID Statusemsvcs emsvcs 53638 activeemaixos emsvcs 53042 activep630n02/ lshaclcomdES clcomdES 11404 activetopsvcs topsvcs 53870 activegrpsvcs

13、 grpsvcs 49074 activeemsvcs emsvcs 53638 activeemaixos emsvcs 53042 activeclstrmgrES cluster 49830 activeclsmuxpdES cluster 54738 activeclinfoES cluster 45002 activegrpglsm grpsvcs inoperativeIP 验证要验证 IP 地址,可以执行以下操作: 使用命令 netstat in 来验证所有 IP 地址都已配置完毕。 使用命令 netstat rn 来验证路由表。 如果使用 NFS,则使用命令 lssrc -g

14、nfs 来验证 NFS 服务已启动。 资源验证要验证资源,可以执行以下操作: 使用命令 lsvg o 来验证卷组已启用。 使用命令 lsvg -l your_volume_group 来验证逻辑卷已打开和同步。 使用命令 mount 来验证文件系统已装入。 如果有要导出的文件系统,可以使用命令 showmount e 来验证它们。 应用程序验证要验证应用程序,可以执行以下操作: 使用命令 ps -ef|grep application_process 来验证应用程序在正常运行。 验证客户端能够连接。 在 /tmp/hacmp.out log 文件中,查找 node_up 和 node_up_c

15、omplete 事件。示例 3 显示了一个示例 node_up 事件。示例 3 Node_up 事件:node_up455 exit 0Jun 30 15:07:19 EVENT COMPLETED:node_up p630n01HACMP Event SummaryEvent:node_up p630n01Start time:Wed Jun 30 15:07:07 2004End time:Wed Jun 30 15:07:21 2004Action:Resource:Script Name:Acquiring resource group:rg01 process_resourcesSe

16、arch on:Wed.Jun.30.15:07:10.EDT.2004.process_resources.rg01.refAcquiring resource:All_service_addrs acquire_service_addrSearch on:Wed.Jun.30.15:07:12.EDT.2004.acquire_service_addr.All_service_addrs.rg01.refResource online:All_nonerror_service_addrs acquire_service_addrSearch on:Wed.Jun.30.15:07:16.E

17、DT.2004.acquire_service_addr.All_nonerror_service_addrs.rg01.ref示例 4 显示了一个示例 node_up_complete 事件。示例 4 Node_up_complete 事件:node_up_complete314 exit 0Jun 30 15:07:24 EVENT COMPLETED:node_up_complete p630n01HACMP Event SummaryEvent:node_up_complete p630n01Start time:Wed Jun 30 15:07:21 2004End time:Wed

18、 Jun 30 15:07:25 2004Action:Resource:Script Name:Resource group online:rg01 process_resourcesSearch on:Wed.Jun.30.15:07:22:00.EDT.2004.process_resources.rg01.ref如果遇到任何与集群服务启动相关的问题,或者希望全面了解集群启动和所涉及到的进程,请参阅 HACMP for AIX 5L V5.1 Adminstration and Troubleshooting Guide, SC23-4862-02 中的第 7 章“Starting an

19、d Stopping Cluster Services”。回页首监视集群状态应该始终监视集群状态,无论是监视集群的整体状态(启动、停止或不稳定),还是监视单独的节点状态(启动、停止、加入、离开或重新配置)。使用 clstat可以使用命令 /usr/sbin/cluster/clstat 来获得有关集群的各个信息片段,包括集群状态、节点数量、节点的名称和状态、资源组的名称和状态,以及接口的名称和状态。要使用此命令,您应该已经启动了 clinfo 守护进程。示例 5 显示了此命令的输出。示例 5 示例 clstat 输出clstat - HACMP Cluster Status MonitorCl

20、uster:bubu (1088583415)Wed Jun 30 15:21:25 EDT 2004State:UP Nodes: 6SubState:STABLENode:p630n01 State:UPInterface:gp01 (0) Address: 10.1.1.1State:UPInterface:n01bt1 (1) Address: 172.16.100.31State:UPInterface:p630n01 (1) Address: 192.168.100.31State:UPInterface:n01a1 (1) Address: 192.168.11.131State

21、:UPResource Group:rg01 State:On lineNode:p630n02 State:UPInterface:gp02 (0) Address: 10.1.1.2State:UPInterface:n01bt2 (1) Address: 172.16.100.32State:UPInterface:p630n02 (1) Address: 192.168.100.32State:UPInterface:n02a1 (1) Address: 192.168.11.132State:UPResource Group:rg02 State:On lineNode:p630n0

22、3 State:UPInterface:gp03 (0) Address: 10.1.1.3State:UPInterface:n01bt3 (1) Address: 172.16.100.33State:UPInterface:p630n03 (1) Address: 192.168.100.33State:UP* f/forward, b/back, r/refresh, q/quit *如果集群节点具有图形功能,可以使用 /usr/sbin/cluster/clstat 来显示一个描述集群和节点状态的图形窗口。在执行此操作之前,请确保将 DISPLAY 变量导出到 X 服务器地址并允许

23、X 客户端访问。该命令的结果应该与图 1 所示的结果类似。图 1 clstat 的图形显示使用 snmpinfo如果打算使用基于 SNMP 的监视,务必记住 HACMP 使用 V1 代理。AIX 5L 5.2 缺省使用 V3,因此您必须使用命令 /usr/sbin/snmpv3_ssw -1 来更改版本。使用 Tivoli若要将集群与 Tivoli Monitoring 集成,您需要安装 Tivoli Monitoring 组件。有关操作原理和更多信息,请参阅红皮书 Exploiting HACMP V4.4: Enhancing the Capabilities of Cluster Mul

24、ti-Processing, SG25979。回页首集群停止可以使用 smitty clstop 来停止集群服务。可以选择您希望在其上停止集群服务的所有节点,以及停止类型:graceful、takeover 或 forced。示例 6 演示了如何停止集群服务。示例 6 停止集群服务 (smitty clstop)在一个节点上成功关闭集群服务以后,命令 lssrc -g cluster 的输出应该不包含任何内容。还可以使用别名命令 lsha 来验证所有与集群相关的进程的状态。示例 7 演示了如何验证与集群相关的服务的状态。示例 7 验证集群停止p630n01/ lssrc -g clusterS

25、ubsystem Group PID Statusp630n01/ lssrc -g topsvcsSubsystem Group PID Status topsvcs topsvcs inoperativep630n01/ lssrc -g emsvcsSubsystem Group PID Status emsvcs emsvcs inoperative emaixos emsvcs inoperativep630n01/ lsha clcomdES clcomdES 14896 active topsvcs topsvcs inoperative grpsvcs grpsvcs inop

26、erative grpglsm grpsvcs inoperative emsvcs emsvcs inoperative emaixos emsvcs inoperative请注意,clcomd 守护进程在集群服务停止以后仍在运行。一个节点上的关闭类型将决定该节点在成功停止集群服务以后获取的资源组将来的行为。在文件 /tmp/hacmp.out 中,查找 node_down 和 node_down_complete 事件。示例 8 显示了一个示例 node_down 事件。示例 8 Node_down 事件:node_down306 exit 0Jun 30 16:14:40 EVENT C

27、OMPLETED:node_down p630n01 gracefulHACMP Event SummaryEvent:node_down p630n01 gracefulStart time:Wed Jun 30 16:14:28 2004End time:Wed Jun 30 16:14:43 2004Action:Resource:Script Name:Releasing resource group:rg01 process_resourcesSearch on:Wed.Jun.30.16:14:30.EDT.2004.process_resources.rg01.refReleas

28、ing resource:All_service_addrs release_service_addrSearch on:Wed.Jun.30.16:14:32.EDT.2004.release_service_addr.All_service_addrs.rg01.refResource offline:All_nonerror_service_addrs release_service_addrSearch on:Wed.Jun.30.16:14:35.EDT.2004.release_service_addr.All_nonerror_service_addrs.rg01.refReso

29、urce group offline:rg01 process_resourcesSearch on:Wed.Jun.30.16:14:37.EDT.2004.process_resources.rg01.ref示例 9 显示了一个示例 node_down_complete 事件。示例 9 Node_down_complete 事件:node_down_complete352 exit 0Jun 30 16:14:48 EVENT COMPLETED:node_down_complete p630n01 gracefulHACMP Event SummaryEvent:node_down_co

30、mplete p630n01 gracefulStart time:Wed Jun 30 16:14:43 2004End time:Wed Jun 30 16:14:48 2004Action:Resource:Script Name:Resource group offline:rg01 process_resourcesSearch on:Wed.Jun.30.16:14:45.EDT.2004.process_resources.rg01.ref应该尽可能避免使用 kill -9 命令来停止集群管理器守护进程。在这样的情况下,SRC 将检测到 clstrmgr 守护进程异常退出,并将调用 /usr/es/sbin/cluster/utilities/clexit.rc。这样会中止系统,并且可能破坏位于共享存储上的数据。其余节点将根据资源组策略启动接管。如果遇到任何与集群服务停止相关的问题,或者希望全面了解集群停止进程,请参阅 HACMP for AIX 5L V5.1 Adminstration and Troubleshooting Guide, SC23-4862-02 中的第

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1