HACMP维护手册PPT格式课件下载.ppt
《HACMP维护手册PPT格式课件下载.ppt》由会员分享,可在线阅读,更多相关《HACMP维护手册PPT格式课件下载.ppt(30页珍藏版)》请在冰豆网上搜索。
,高可用性系统VS容错系统容错系统:
它是提供冗余的设计为不间断操作。
这样的系统中所有的组件都是双份的(不管硬件还是软件),CPU、内存、磁盘都有特殊的设计来提供不间断服务。
这样的系统是非常昂贵和非常专业的。
只有在要求0宕机的环境中,容错系统设备和方案才有需求。
高可用性系统:
配置为高可用性的系统是一组软件、硬件的组合,可以保证系统失效后在可接受的宕机时间内恢复。
在这种系统中,软件负责监测到环境故障后将应用交给另一个机器实现队员机器的接管。
因此,在这种环境下重要的是消除SPOF。
例如,如果只有一个网络连接,就需要提供第二块网卡以备主网卡失效后接管。
另一点就是通过将数据放在所有节点都可以访问的共享磁盘上并实现镜像。
HACMP相关概念1、群集拓扑:
包含基本的群集组件节点、网络、通讯接口、通讯设备、通讯适配器。
2、群集资源:
被设为高可用性的实体(例如文件系统、裸设备、服务IP标签、应用等)。
所有资源被组织成资源组(RG),HACMP保持唯一实体资源组的高可用性。
资源组可以被一个节点访问或者在并发应用中同时被多个节点访问。
3、Fallover:
在活动节点出现故障时,将资源组从活动节点转移到备份节点的动作。
4、Fallback:
原来的活动节点恢复时,将资源组切换回原节点的动作。
这是将失效节点重新集成到集群的标准动作。
HACMP相关术语要理解HACMP的正确功能并利用它,就必须知道一些术语:
1、群集(Cluster):
为共享资源和相互通讯而通过网络连接在一起的独立主机(节点)。
HACMP负责定义在协同的系统中哪个节点提供服务哪个节点不提供服务。
所有节点共同负责维护应用的功能可用。
2、节点(Node):
在群集中所有运行AIX系统和HACMP软件的IBMp系列服务器都是节点。
每个节点都有一个资源集(磁盘、文件系统、IP地址、应用)在该节点失效时可以被群集中其他节点接管。
3、资源(Resource):
是在群集配置中可以从一个节点转移到其他节点的逻辑组件。
所有必须提供高可用性应用的资源被构成资源组(RG)。
当节点失效时,资源组中的组件被一同从一个节点移动到另一个节点。
一个群集可以有多个RG,从而提高节点的效率(也就是HACMP中的Multi-Processing)。
HACMP相关术语4、接管:
在群集内部节点之间传送资源的操作称为接管。
如果一个节点发生硬件故障或AIX故障,它的资源应用会被移到另一个节点。
5、客户:
客户就是可以通过局域网访问群集节点应用的一个系统。
客户通过运行客户端程序连接到应用所在的服务器上。
HACMP的实现(此处略去),安装配置HACMP共分三步:
1、准备AIX:
在AIX中配置硬件、软件。
2、安装HACMP软件3、配置HACMP群集,AIX中需要配置网络、共享磁盘、LVM组件等,配置IP配置串行网络配置共享磁盘定义LVM组件编辑文件/.rhosts,串行网络,每个运行ClusterManager进程软件的节点会通过HACMP中配置的所有网卡持续送出Keep-alive包(心跳信号)到Cluster的其它各个节点。
HACMP就是通过检测节点间keep-alive包的中断来检测网络事件。
Keep-alive包通常在同一网络上的服务网卡间和备份网卡间双向传输。
传输中的任何中断都会激活故障检测过程,此时,Keepalive向所有网卡上传送。
通过简单的“淘汰过程”,故障原因被很快发现,然后群集可采取正确的事件处理脚本处理故障。
由于服务网卡和备份网卡都是采用TCP/IP进行通讯的,如果某节点的TCP/IP子系统发生故障或者网络拥塞,就会造成Keep-alive包无法正常传输。
此时因为所有的心跳停止了,其它节点将错误地认为该节点故障,导致其它节点试图接管资源,群集及其资源将处于不稳定状态。
因此HACMP中必须配置一条串行网络,当LAN故障时,可以提供另外的Keepalive路由。
由于串行网络不用TCP/IP协议,所以TCP/IP子系统的故障并不意味着HACMP故障,使得群集可以分清网络故障和节点故障,避免出现孤立节点,串行网络,HACMP日常系统管理维护,日常日志1:
日常日志主要是记录平时事件的启动,从中可以了解HACMP的动作,例如主机standby网卡故障,有fail_standby事件发生,系统管理员可从日志中得知何时出的故障,及有没有解决。
主要日志文件有:
(查找文件命令find/-name“文件名”)/var/hacmp/log/hacmp.out.1-7:
存放由HACMP脚本产生的带时间戳信息,包括执行的命令及其输出。
脚本中的每一命令及其参数占一行。
此文件一天刷新一次,保留七天;
/var/hacmp/adm/cluster.log:
存放由HACMP脚本和daemon产生的带时间戳的信息。
每个事件在记录文件中有两行一行在开始时写入,一行在结束时写入。
日常日志2:
/tmp/cm.log:
(未找到)保存HACMP中clstrmgr进程产生信息的时间;
HACMP技术人员在clstrmgr处于debug模式下排错需要参考此文件内容。
重启集群服务,这个文件就会被重写,因此需要做好备份。
(/var/hacmp/log中有参考日志文件)/var/hacmp/adm/history/cluster.mmddyyyy:
HACMP的历史记录文件,不同日期发生的集群事件记录在不同的文件中。
mm-月dd-日yyyy-年,HACMP日常系统管理维护,启动和关闭HACMP启动群集是指在一个或几个节点上启动ClusterManager,并使客户机能够访问群集的资源。
HACMP可以配置为自动启动或手动启动,自动启动是通过在文件/etc/inittab中的一条命令来实现的,但是配置为自动启动后,故障节点返回群集时可能发生资源的接管,造成不必要的停机。
因此,建议配置为手动启动。
启动关闭HA必须有root权限!
启动命令:
#smitclstart选项按缺省,建议在一个节点完全启动后再启动另一个节点,并在启动过程中监视事件脚本的输出(tailf/var/hacmp/log/hacmp.out.7)。
HACMP日常系统管理维护,关闭命令:
#smitclstop该命令中尤其要注意第四个选项SelectanActiononResourceGroups:
指停止HACMP后,其上的资源如何处理:
三种选择1、BringResourceGroupsOffline:
释放资源,但其它节点不接管2、MoveResourceGroups:
释放资源,其它节点接管资源3、UnmanageResourceGroups:
停止进程,但不释放资源(不处理)我们的配置中默认是其他节点接管资源。
注意:
我们不推荐在同一时间在多个节点上使用第三个选项来停止群集服务。
HACMP日常系统管理维护,无论何时,都应该避免用kill-9命令停止群集管理后台进程。
在这种情况下(使用kill-9命令),系统资源控制器(SRC)会检测到clstrmgr后台进程异常退出。
这会造成系统停止并有可能造成共享存储数据的破坏。
依照资源组策略,其他节点会初始化接管。
当出现主、备机在关电后,再次启动时,备机正常,主机不能启动,要按指定步骤操作:
在备机上执行#smithacmp选择SystemManagement(C-SPOC)-ResourceGroupandApplications-MoveaResourceGrouptoAnotherNode/Site-MoveResourceGroupstoAnotherNode-选择需要移动的资源组,选择备机节点进行接管。
退出命令行,启动HACMP,这时备机接管主机资源。
HACMP日常系统管理维护,查看HACMP状态在HACMP中,它启动一个进程来监控各节点。
用#psef|grepclinfo命令查看clinfo进程是否启动。
若未启动,有两种方法启动此进程:
1、执行#/usr/sbin/cluster/clinfo2、启动HACMP时,#smitclstart中StartupClusterInformationDaemon(后台守护程序)改为true用/usr/sbin/cluster/clstat命令查看各节点状态,因现使用的是字符终端,出现的将是字符界面。
须注意的是群集的substate属性,正常为Stable(稳定的;
坚定的;
牢固的),不是Stable时,HACMP可能有动作或者是不正常。
HACMP日常系统管理维护,HACMP日常系统管理维护,获取集群状态
(一)检查集群服务daemon状态:
lssrc-gcluster;
lssrc-glock检查集群和网络接口状态:
/usr/sbin/cluster/clstat(在smithacmp中用问题诊断工具查看更好)查看集群记录文件:
tail-f/var/hacmp/log/hacmp.out.1-7more/var/hacmp/adm/history/cluster.mmddyyyytail-f/var/hacmp/adm/cluster.log检查节点名的正确性:
odmgetHACMPcluster,获取集群状态
(二)检验集群配置:
/usr/sbin/cluster/diag/clconfig-v-tr/一般慎用显示集群配置:
/usr/sbin/cluster/utilities/cllscf显示clstrmgr版本:
snmpinfo-mdump-o/usr/sbin/cluster/hacmp.defsclstrmgr,HACMP日常系统管理维护,校验HACMP执行#/usr/es/sbin/cluster/diag/clverify,将会出现一个交互式界面,可以检验HACMP软件(bos)和拓扑结构(topology),管理员可按提示操作。
HACMP日常系统管理维护,在磁盘阵列上添加逻辑卷、扩大卷组:
首先把主、备机的HACMP停下。
在主机上:
#varyonvgsharevg;
扩大卷组或增加逻辑卷(在AIX中已讲)#varyoffvgsharevg;
在备机上:
#exportvgsharevg;
#smitimportvg将sharevg重新import进来;
#smitchvg将sharevg在下次启动时不自动激活;
#varyoffvgsharevg。
HACMP日常系统管理维护,增加文件系统、新的卷组,并要接管首先把主、备机的HACMP停下。
#varyonvgsharevg;
增加文件系统、新的卷组;
(AIX中讲述)#varyoffvgsharevg;
#exportvgsharevg;
#smitchvg将sharevg在下次启动时不自动激活;
#smi