IBM小型机及存储巡检手册.docx

资源描述

IBM小型机及存储巡检手册.docx

《IBM小型机及存储巡检手册.docx》由会员分享，可在线阅读，更多相关《IBM小型机及存储巡检手册.docx（21页珍藏版）》请在冰豆网上搜索。

IBM小型机及存储巡检手册.docx

IBM小型机及存储巡检手册

第一章硬件部分日常维护操作（耗时共20分钟左右）

一.1检查机房环境（5分钟）

•温度：

室内温度应保持在24±2℃

•湿度：

相对湿度应保持在50±5%

•电源：

根据不同机型使用的电源有：

200~240V交流单相；380~415V交流三相；-

48V±5%直流，实测电压不应超出允许的范围。

机器必须有良好的接地保护，地线的接地电阻要求小于1欧姆。

零线与地线的电压差要小于1V，实测时应同时测量零线与电源地线、零线与机柜金属外壳、零线与机房地板的金属框架之间的电压，所得数值应一致。

•洁净度：

机房应保持清洁，不能有太多的灰尘，如机房太脏应提醒客户注意。

•维护空间：

机柜旁不宜摆放杂物，要根据各机型的规定留有足够的散热空间和维护空间。

•电话线：

机房应该配备电话线（用于紧急拨号维护或及时电话支持）。

一.2检查系统硬件情况（5分钟）

•先从外观上检查硬件情况，检查设备故障灯是否有亮。

各种设备上都有故障指示灯，通常为橘红色并有!

标记。

同时注意主机和磁盘阵列的LCD面板，设备发生故障时通常伴有出错代码，必须把所有故障代码记录下来。

P5系列小型机指示灯如下图：

注意CPU风扇和电源风扇等的出风是否顺畅，是否有异物遮挡，影响散热效果。

注意机器是否有异常的声响，特别是风扇，电源，和硬盘部分。

检查IO板卡插槽是否有板卡的指示灯不正常或不亮。

检查是否有松脱、曲折甚至破损的线缆和线缆插头。

温馨提醒：

机柜间、机柜顶或者地板上有金属物体（螺丝，铁片）等，请注意收

好，以免维护或者碰撞时跌入机柜内或地板线槽，造成不必要的损失。

温馨提醒：

做好每一台主机和阵列的标签（包括型号，序列号，主机名及本机

IP），做好线缆两头的标签，方便紧急维护时，能快速及时判断机器及报修；也为了在进行维护时，能再次准确确认机器的身份，以免出错。

一.3检查硬件错误报告（5分钟）

使用“errpt–dH”命令检查硬件错误报告。

如有，则应使用“errpt–ajerr_id|more”命令检查详细的日志。

为了准确判断故障，可对硬件设备运行故障诊断程序，如运行“diag-edhdisk1”。

诊断程序可对故障记录中的SENSEDATA进行分析并给出SRN,FRU等。

注意：

如果故障记录太多，应将故障报告取回作进一步分析。

可用命令：

“snap–r;snap–ac”“mail”命令查看有否发给root用户的错误报告。

用“alog–otboot”命令和“alog–otconsole”命令检查系统的启动记录和主控台的出错信息。

如果允许停机，则应shutdown主机，进入服务处理器（ServiceProcessor）菜单检查故障记录。

对于Power5主机，可以在线登陆到ASMI管理界面，选择“SystemServiceAids”->“Error/EventLogs”检查故障记录。

对于有HMC管理的机器，应在HMC的“ServiceFocalPoint”菜单中检查故障记录，并采取相关的维护措施。

errpt命令的使用：

用errpt查看系统的错误记录（errorlog），errorlog由系统的errdemon进程记录，errdemon进程在系统启动时就自动运行，记录包括硬件、软件及其他操作信息，故障记录文件为/var/adm/ras/errlog。

可备份下来或拷贝到其他机子上进行分析。

errpt命令的使用（普通用户权限也可以使用）

#errpt|more列出简短出错信息

ERROR_IDTIMESTAMPTCRESOURCE_NAMEERROR_DESCRIPTION

192AC0710723100314T0errdemonErrorloggingturnedoff

0E017ED10720131014PHmem2Memoryfailure

9DBCFDEE0701000014T0errdemonErrorloggingturnedon

038F25800624131014UHscdisk0UNDETERMINEDERRORAA8AB2410405130914TOOPERATOROPERATORNOTIFICATION

以上信息中的标题栏中：

ERROR_ID：

错误识别号，用于检查详细错误信息

TIMESTAMP：

时间标签，格式为MMDDHHMMYY（月日时分年）

T（Type类型）：

P永久（永久性的错误应引起重视；T临时；U未知

C（Class分类）：

H硬件（引起重视；S软件；O（errlogger命令信息）；U未知RESOURCE_NAME：

为错误来源

DESCRIPTION：

为错误描述

常用法如下：

#errpt|more列出所有错误的简短信息

#errpt-dH|more列出所有硬件错的简短信息

#errpt-dS|more列出所有软件错的简短信息

#errpt-aj列出某条错的详细信息

注意：

对于硬件错误，硬件更换或修复后，应该对此设备做一个RepairAction的动作，因为系统会定期对errorlog进行分析，发现有问题没解决的时候，部分错误会不停向终端发送信息的，并且会影响DIAG的检测结果。

所以一定要做RepairAction或者把errorlog清掉。

更换电源后，要把crontab里面的定时报错项清掉。

mail命令的使用：

AIX系统会周期性的对系统进行检测。

并会把检测到的硬件或其他错误以邮件的方式发给用户。

要获得完整的系统检测信息，必须用root用户登陆。

#mail进入当前用户邮箱，用数字来选择不同的邮件以便浏览，最后按“q“退出

#mail-f可以浏览以往的邮件。

diag命令的使用：

diag命令用于启动故障诊断程序（Diagnostics），对系统硬件进行检查和诊断。

当发现有硬件故障时应立即使用diag，帮助确认和分析。

#diag

->选高级诊断（AdvanceDiagnostic）

->选问题诊断（ProblemDetermination）或

->选系统检查（SystemVerification）

选ProblemDetermination会对系统错误记录进行分析。

diag运行后会给出SRN代码，故障设备名称及百分比，地址代码等。

多数的设备都可以在线诊断，除了某些

SCSI设备，例如内置的SCSI硬盘。

在运行在线诊断的时候几点注意事项：

•当系统在运行繁重应用的时候，不要应用在线诊断。

•在应用正在读写硬盘时，不要对该硬盘进行磁盘表面的全扫描。

•如果一个内置的SCSI硬盘属于rootvg，那么只能用诊断光盘启动对其进行诊断。

•在线运行诊断有一定风险，在某些极端情况下可能会触发某些操作系统bug而导致业务中断，所以非不得已建议不要在线运行。

一.4机器清洁（3分钟）

根据实际需要清洁机器各部件。

某些机型有空气过滤网，如7040，长期使用可能需要清洗或更换，请根据实际情况决定是否更换。

7040的过滤网在CEC柜正中垂直位置上，一共有2块，9119的过滤网在机柜前门，一共有3块。

抽出滤网可以检查是否有

破损或者堵塞。

如果过滤网堵塞会导致机器因散热问题而宕机。

可以检查出风口的温度和气流，如气流较弱温度较高则非常可能是滤网堵塞了。

7040ServiceGuide建议过滤网必须每半年检查一次。

一.5逻辑卷/硬盘检查（1分钟）

用“lsvg–o|lsvg–il|grepstale”检查是否有stale状态的逻辑卷。

通常stale的逻辑卷是由于硬盘故障引起的。

如有硬盘故障应立即修复，并重新同步逻辑卷。

一.6磁带机是否需要清洗（1分钟）

磁带机/磁带库是重要的数据备份设备，应定期清洗。

不同的磁带机/磁带库有不同的清洗间隔，长期不清洗或太频繁的清洗都会对磁头造成伤害，请查阅相关磁带机说明手册。

某些磁带机可用"/usr/lpp/diagnostics/bin/utape-cdrmt0-n"命令查看磁带机使用时数。

一.7CPU检查（1分钟）

用“bindprocessor–q”命令检查是否有CPU被disable。

用“lsattr–Elsys0”命令检查CPUGUARD是否设置正确。

AIX5.2以前的版本CPUGUARD默认是disable的。

通常系统/分区CPU数目≥3的就应该enableCPUGUARD（如果操作系统为AIX5.2或以上则CPU≥2时就应该enableCPUGUARD）

一.8通信（5分钟）

检查网卡状态、IP地址是否正常。

通常不建议使用自适应速率（千兆以太网除外），网卡的设置应与交换机端口的设置匹配。

•用ping命令检查网卡通信是否正常，如是否丢包，速度是否正常等。

用netstat–in命令检查网卡IP地址是否正确。

•用netstat–rn命令检查系统路由表是否正确。

•用netstat–na命令检查TCPIP端口连接，帧听是否正常。

用hostiplable命令检查域名解释是否正常。

•用lssrc–gtcpip命令检查通讯子系统进程是否正常。

一.9磁盘阵列RAID盘的状态（2分钟）

磁盘阵列通常采用RAID1/RAID5/RAID10等数据保护方式。

不建议客户使用RAID0的方式，在RAID0方式下数据没有任何保护。

检查磁盘阵列中的RAID盘是否有坏盘，是否有degrade的状况。

检查磁盘阵列的cache是否打开。

热备盘（hotspare）盘可以提高磁盘阵列的可靠性，强烈建议设置热备盘。

对于SAN存储服务器，请参照相关SAN存储服务器维护文档进行检查。

第二章软件部分日产维护操作（耗时共20分钟左右）

二.1软件错误报告（5分钟）

用“errpt–dS”命令检查系统的软件出错报告。

如果故障记录太多，应将故障报告取回，作进一步分析。

用“mail”命令查看有否发给root用户的错误报告。

用“alog–otboot”命令和“alog–otconsole”命令检查系统的启动纪录和主控台的出错信息。

检查HACMP、TSM等软件的LOG看有否不正常的地方。

二.2检查文件系统（2分钟）

查看有没有“满”的文件系统。

文件系统满可导致系统不能正常工作，尤其是AIX的基本文件系统。

如/（根文件系统）满则会导致用户不能登录。

关键文件系统的使用率不应该超过80%（/usr除外），且剩余空间最好大于100MB。

如果有“满”的文件系统则应删除不用的文件以释放空间，或扩展文件系统。

如果系统有关于文件系统错误的报告则应用“fsck”命令对文件系统进行检查修复。

JFSLOG的大小与文件系统的比例应为：

1个PP的LOG管理512个PP的文件系统。

如果JFSLOG不够大则应扩大，但JFSLOG不应超过256MB。

如果太多的文件系统使用同一个LOG则会影响性能，应考虑不同的文件系统使用不通的JFSLOG。

二.3内存交换区（2分钟）

新版本的AIX（AIX4.3.3以后）对内存交换区的使用机制与旧版本已经不一样。

内存交换区的大小与物理内存的大小并没有一定的比例关系或计算的公式。

客户应进行压力测试以确定内存交换区的大小，若内存交换区使用率超过70%，则需要扩大。

某些数据库厂家或应用开发商可能对内存交换区有特殊要求，请咨询相关厂商或开发商。

增加内存交换区并不会提高性能，内存交换区使用偏高通常是因为物理内存不足造成的，所以升级物理内存才是解决之道。

交换区不应设置在rootvg以外的卷组。

从性能上考虑，每个硬盘上应该只有一个内存交换区，并且所有内存交换区的大小应该一致。

如果rootvg是采用镜像保护的，则内存交换区也必须镜像。

二.4系统性能（5分钟）

用vmstat、topas等命令进行简单的性能分析，检查是否有性能瓶颈。

二.5数据备份（2分钟）

数据备份对于保障系统数据的安全至关重要。

数据备份包括操作系统备份和用户数据备份。

操作系统备份是指ROOTVG的备份。

系统备份要及时，它应能恢复操作系统崩溃前的正常工作状态。

因此每当系统改变设置，安装PTF，调整应用程序等的前后都应做好系统备份。

系统备份建议至少每季度做一次，手头至少保留两份系统备份带。

注意：

操作系统备份仅备份ROOTVG中mount起的文件系统，用户逻辑卷中的

数据并不会备份。

一般不建议在ROOTVG上建立裸设备存放用户数据。

对于

ROOTVG中用户建立的裸设备，请使用其他方法备份。

用户数据备份包括数据库备份、应用程序代码备份、用户文件系统备份、TSM数据库备份等。

用户数据备份建议每天做一次。

检查用户数据备份是否能满足硬盘数据丢失后的恢复要求。

检查用户备份介质是否标签明确、保存妥善。

二.6数据是否已作保护（1分钟）

为保证系统高可用性，建议ROOTVG采用镜像保护方式。

用“lsvg–lrootvg”检查是否ROOTVG上所有的逻辑卷已镜像。

用“lslv–llvname”命令检查逻辑卷的两份拷贝是否在不同的物理硬盘上。

用户数据也应采取适当的保护方式，如RAID1/5/10、逻辑卷镜像和逻辑卷0+1等。

如果客户采用逻辑卷镜像或逻辑卷0+1的方式，则应检查其新建的逻辑卷是否设置正确。

二.7系统DUMP设置（1分钟）

系统DUMP设备应该有足够大的空间，可用“sysdumpdev–e”命令估计系统DUMP的大小以检验DUMP设备是否足够大。

对于内存较大的机器，建议建立专用的DUMP设备（如果系统内存大于4GB，则AIX5L会自动建立专用的DUMP设备：

/dev/lg_dumplv）。

检查DUMP的拷贝目录（文件系统）是否有足够的空间。

如果要改变DUMP的拷贝目录（文件系统）则必须保证其建立在ROOTVG上。

为确保系统挂机时可以做强制DUMP，请把“alwaysallowdump”设成“TURE”。

二.8用户登录记录检查（2分钟）

•运行“lastusername”命令检查用户登录记录，看是否有不正常的登录。

•运行“who/var/adm/sulog”检查用户切换记录，看是否有不正常的切换。

•运行“who/etc/security/failedlogin”检查是否有非法侵入某个帐户的企图。

•检查smit.log文件，看有没有非法的操作。

•检查root用户密码是否有定期更改。

二.9HACMP测试（5分钟）

HACMP的测试在于检查系统在出现DOWN机情况时业务系统能否正常地进行接管切换。

由于生产环境的一些参数设置的改变，有可能导致生产系统和备份系统出现不一致的情况，从而导致在真正发生故障时业务系统不能正常接管。

因此HACMP的测试非常重要。

ClusterVerification可在线进行，可检查节点间是否有不同步的情况。

检查HACMP相关的参数设置：

•系统I/Opacing:

high/lowwatermark设为33/24

•修改/sbin/rc.boot文件确保sync每10秒运行一次，而不是默认的60秒

•建议把HACMP的“failuredetectrate”设为“slow”

•检查/etc/inittab文件，确认powermanagement程序关闭

•建议调整minfree/maxfree（minfree=CPU#x120；maxfree=CPU#x120+32或

maxfree=CPU#x128，但maxfree-minfree不要大于100）

•建议网卡设为固定速率，同时交换机上相应的端口也应采用相同的设置。

除千兆以太网外，不要使用自适应设置，这样可能带来不可预知的问题。

•如果共享存储设备为第三方设备，如HDS或EMC的存储服务器，则必须确保在

HACMP的配置中包含相关的“CustomDiskMethods”。

接管测试

警告：

接管测试会导致客户应用中断，请与客户协商。

接管测试会导致应用中断，请与客户协商是否测试。

用命令“smittyclstop”然后选择“takeover”进行测试。

二.10补丁程序（PTF）和微码（Microcode）检查（1分钟）

检查的范围包括操作系统补丁、HACMP补丁、TSM补丁等。

检查系统补丁是否满足稳定运行的要求。

对于下列情形,建议进行有关的微码/补丁升级：

•IBM规定的Mandatory的微码ECA和补丁

•等级为HIPER/SPE（高风险/特别注意）的微码和补丁

•配置升级（MES）所要求的微码/补丁

•为解决客户现有问题所必需安装的微码/补丁

注：

为保证系统运行的稳定性，所采用的微码和补丁建议至少是已发布一个月以

上的版本。

微码/补丁升级与否由客户最终决定。

微码和补丁的更新信息可查阅IBM

定期发布的fixesletter。

二.11归档VPD信息（3分钟）

运行“snap-r;snap–gLc”，取回/tmp/ibmsupt/snap.tar.Z或/tmp/ibmsupt/snap.pax.Z文件存档。

收集LVM信息（主要是LVMAPING信息）有助于日后系统出问题时数据恢复。

注意：

检查/tmp文件系统剩余空间最好不要小于50M

第三章IBMHACMP检查（耗时共15分钟左右）

HACMP的安装调试并不是一劳永逸的。

即使在安装完成后做了最完整的测试，如果不定时对HACMP的配置进行检查的话，仍然有可能出现在故障时无法切换的情况。

要排除这种情况的发生，必须定时对HACMP的配置进行检查。

如果系统出现了重大的变化，如增加需要保护的应用或新的存储等情况时，除检查HACMP配置外，还需要进行新的HACMP测试。

和HACMP的测试不同，HACMP的检查工作通常不需要停机，因此进行检查的时间相对灵活。

检查工作中发现的问题，要及时解决。

在实际修改前，必须作snapshot,即对HACMP的配置进行备份。

如修改出现问题，保证能将HACMP恢复到snapshot时的一致点。

在修改完成，并通过相关测试后，需要做一份新的snapshot,新的snapshot名字应和旧的不同。

对HACMP修改参数后，原则上应该做verify和sync。

修改后的参数，部分在sync后立即生效，部分需要重新启动clustermanager后才生效，甚至有部分参数需要关闭clustermanager后才能修改。

以上的修改限制条件在不同的HACMP版本中的规定也不相同。

详细的情况可查询HACMP相关手册。

如果你无法判断修改的参数属于以上列举的那种情况，建议在关闭clustermanager之后修改，同步。

在通常的情况下，参数修改后要进行新的测试，因此此种较谨慎的做法并不会过多增加系统停机时间。

本文档的编写基于HACMP5.1，如您当前使用的是其他的HACMP版本，则菜单和输出上会有所不同。

三.1HACMP检查简表（5分钟）

表格含HACMP常见的检查步骤，具体的检查方法会在后续的章节中陆续介绍。

检查内容

完成情况

注释

检查HACMPPATCH版本

客户有否对events进行过客户化

对HACMP现有配置作verify

有warning，不影响生产

检查共享文件系统和逻辑卷是否同

步

snmpd版本

和hacmp误切有关的参数

检查网络参数

检查用户是否同步

检查域名解析是否同步

第三方存储HACMP环境

三.2HACMP检查内容（2分钟）

检查HACMPpatch版本：

在HACMP节点上分别运行：

#lslpp–l“cluster.es.server.rte”（对hacmpv5和hacmpv4es）FilesetLevelStateDescription

-----------------------------------------------------------------------------------------------Path:

/usr/lib/objrepos

cluster.es.server.rte5.2.0.3COMMITTEDESBaseServerRuntime

Path:

/etc/objrepos

cluster.es.server.rte5.2.0.3COMMITTEDESBaseServerRuntime

或

#lslpp–l“cluster.base.server.rte”（对hacmpv4classic）

FilesetLevelStateDescription

-----------------------------------------------------------------------------------------------Path:

/usr/lib/objrepos

cluster.base.server.rte4.5.0.8COMMITTEDBaseServerRuntime

Path:

/etc/objrepos

cluster.base.server.rte4.5.0.8COMMITTEDBaseServerRuntime

更详细的信息可以参考以下地址：

推荐客户安装最新的HACMPPATCH,但由于安装PATCH需要停止业务，建议和

HACMP的测试安排在一起进行。

三.3HACMPpatch安装原理和注意要点（2分钟）

hacmppatch的安装原理和AIX的patch安装原理是相似的，即用patch中的文件覆盖相应软件包中的文件。

客户对AIX中的event作客户化的时候，应使用pre-event,post-event或notifyeventscript,而避免直接修改event本身。

因华为采购的设备通常都做过较大的客户化，如果没有特殊原因，在华为的设备上不要轻易安装patch,即使要安装patch也要和华为的技术人员取得沟通。

验证客户是否对hacmpevent脚本做过客户化。

#lppchk-ccluster.es

展开阅读全文