ImageVerifierCode 换一换
格式:DOCX , 页数:21 ,大小:998.20KB ,
资源ID:10750285      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/10750285.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(IBM小型机及存储巡检手册.docx)为本站会员(b****8)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

IBM小型机及存储巡检手册.docx

1、IBM小型机及存储巡检手册IBM小型机及存储巡检手册 第一章硬件部分日常维护操作(耗时共20分钟左右)一.1检查机房环境(5分钟) 温度:室内温度应保持在 242 湿度:相对湿度应保持在 505% 电源:根据不同机型使用的电源有:200240V 交流单相;380415V 交流三相;-48V5% 直流,实测电压不应超出允许的范围。机器必须有良好的接地保护,地 线的接地电阻要求小于 1 欧姆。零线与地线的电压差要小于 1V,实测时应同时测 量零线与电源地线、零线与机柜金属外壳、零线与机房地板的金属框架之间的电 压,所得数值应一致。 洁净度:机房应保持清洁,不能有太多的灰尘,如机房太脏应提醒客户注意

2、。 维护空间:机柜旁不宜摆放杂物,要根据各机型的规定留有足够的散热空间和维 护空间。 电话线:机房应该配备电话线(用于紧急拨号维护或及时电话支持)。一.2检查系统硬件情况(5分钟) 先从外观上检查硬件情况,检查设备故障灯是否有亮。各种设备上都有故障指示 灯,通常为橘红色并有!标记。同时注意主机和磁盘阵列的 LCD 面板,设备发 生故障时通常伴有出错代码,必须把所有故障代码记录下来。!P5 系列小型机指示灯如下图:注意 CPU 风扇和电源风扇等的出风是否顺畅,是否有异物遮挡,影响散热效果。注意机器是否有异常的声响,特别是风扇,电源,和硬盘部分。检查 IO 板卡插槽是否有板卡的指示灯不正常或不亮。

3、检查是否有松脱、曲折甚至 破损的线缆和线缆插头。温馨提醒:机柜间、机柜顶或者地板上有金属物体(螺丝,铁片)等,请注意收好,以免维护或者碰撞时跌入机柜内或地板线槽,造成不必要的损失。温馨提醒:做好每一台主机和阵列的标签(包括型号,序列号,主机名及本机IP),做好线缆两头的标签,方便紧急维护时,能快速及时判断机器及报修;也为了 在进行维护时,能再次准确确认机器的身份,以免出错。一.3检查硬件错误报告 (5分钟)使用“errpt d H”命令检查硬件错误报告。如有,则应使用“errpt aj err_id |more”命 令检查详细的日志。为了准确判断故障,可对硬件设备运行故障诊断程序,如运行 “d

4、iag -ed hdisk1”。诊断程序可对故障记录中的 SENSE DATA 进行分析并给出 SRN, FRU 等。注意:如果故障记录太多,应将故障报告取回作进一步分析。可用命令:“snap r; snap ac”“mail”命令查看有否发给 root 用户的错误报告。用“alog ot boot”命令和“alog ot console”命令检查系统的启动记录和主控台的出 错信息。如果允许停机,则应 shutdown 主机,进入服务处理器(Service Processor) 菜单检查故障记录。对于 Power5 主机,可以在线登陆到 ASMI 管理界面,选择 “System Service

5、 Aids” - “Error/Event Logs”检查故障记录。对于有 HMC 管理的机器,应在 HMC 的“Service Focal Point”菜单中检查故障记 录,并采取相关的维护措施。errpt 命令的使用:用 errpt 查看系统的错误记录(errorlog),errorlog 由系统的 errdemon 进程记 录,errdemon 进程在系统启动时就自动运行,记录包括硬件、软件及其他操作信息, 故障记录文件为/var/adm/ras/errlog。可备份下来或拷贝到其他机子上进行分析。 errpt 命令的使用(普通用户权限也可以使用)#errpt |more 列出简短出错信

6、息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100314 T 0 errdemon Error logging turned off0E017ED1 0720131014 P H mem2 Memory failure9DBCFDEE 0701000014 T 0 errdemon Error logging turned on038F2580 0624131014 U H scdisk0 UNDETERMINED ERROR AA8AB241 0405130914 T O OPERATOR OPERA

7、TOR NOTIFICATION以上信息中的标题栏中:ERROR_ID: 错误识别号,用于检查详细错误信息 TIMESTAMP: 时间标签,格式为 MMDDHHMMYY (月日时分年) T(Type 类型): P 永久(永久性的错误应引起重视;T 临时;U 未知C(Class 分类):H 硬件(引起重视;S 软件;O (errlogger 命令信息);U 未知 RESOURCE_NAME:为错误来源DESCRIPTION:为错误描述 常用法如下:#errpt |more 列出所有错误的简短信息#errpt -dH|more 列出所有硬件错的简短信息#errpt -dS|more 列出所有软件错

8、的简短信息#errpt -aj 列出某条错的详细信息注意:对于硬件错误,硬件更换或修复后,应该对此设备做一个 Repair Action的动作,因为系统会定期对 errorlog 进行分析,发现有问题没解决的时候,部分错 误会不停向终端发送信息的,并且会影响 DIAG 的检测结果。所以一定要做 Repair Action 或者把 errorlog 清掉。更换电源后,要把 crontab 里面的定时报错项清掉。mail 命令的使用:AIX 系统会周期性的对系统进行检测。并会把检测到的硬件或其他错误以邮件的方式 发给用户。要获得完整的系统检测信息,必须用 root 用户登陆。#mail 进入当前用

9、户邮箱,用数字来选择不同的邮件以便浏览,最后按“q“退出#mail -f 可以浏览以往的邮件。diag 命令的使用:diag 命令用于启动故障诊断程序(Diagnostics),对系统硬件进行检查和诊断。当发 现有硬件故障时应立即使用 diag ,帮助确认和分析。#diag- 选高级诊断(Advance Diagnostic)- 选问题诊断(Problem Determination) 或- 选系统检查(System Verification)选 Problem Determination 会对系统错误记录进行分析。diag 运行后会给出 SRN 代 码,故障设备名称及百分比,地址代码等。 多

10、数的设备都可以在线诊断,除了某些SCSI 设备,例如内置的 SCSI 硬盘。在运行在线诊断的时候 几点注意事项: 当系统在运行繁重应用的时候,不要应用在线诊断。 在应用正在读写硬盘时,不要对该硬盘进行磁盘表面的全扫描。 如果一个内置的 SCSI 硬盘属于 rootvg,那么只能用诊断光盘启动对其进行诊断。 在线运行诊断有一定风险,在某些极端情况下可能会触发某些操作系统 bug 而导 致业务中断,所以非不得已建议不要在线运行。一.4机器清洁(3分钟)根据实际需要清洁机器各部件。某些机型有空气过滤网,如 7040,长期使用可能需要 清洗或更换,请根据实际情况决定是否更换。7040 的过滤网在 CE

11、C 柜正中垂直位置 上,一共有 2 块,9119 的过滤网在机柜前门,一共有 3 块。抽出滤网可以检查是否有破损或者堵塞。 如果过滤网堵塞会导致机器因散热问题而宕机。可以检查出风 口的温度和气流,如气流较弱温度较高则非常可能是滤网堵塞了。7040 Service Guide 建议过滤网必须每半年检查一次。一.5逻辑卷/硬盘检查(1分钟)用“lsvg o|lsvg il |grep stale”检查是否有 stale 状态的逻辑卷。通常 stale 的逻辑卷是 由于硬盘故障引起的。如有硬盘故障应立即修复,并重新同步逻辑卷。一.6磁带机是否需要清洗(1分钟)磁带机/磁带库是重要的数据备份设备,应定

12、期清洗。不同的磁带机/磁带库有不同的 清洗间隔,长期不清洗或太频繁的清洗都会对磁头造成伤害,请查阅相关磁带机说明 手册。某些磁带机可用/usr/lpp/diagnostics/bin/utape -cd rmt0 -n命令查看磁带机使用 时数。一.7CPU 检查(1分钟)用“bindprocessor q”命令检查是否有 CPU 被 disable。用“lsattr El sys0”命令检查 CPU GUARD 是否设置正确。AIX 5.2 以前的版本 CPU GUARD 默认是 disable 的。通 常系统/分区 CPU 数目3 的就应该 enable CPU GUARD(如果操作系统为

13、AIX 5.2 或 以上则 CPU2 时就应该 enable CPU GUARD)一.8通信(5分钟)检查网卡状态、IP 地址是否正常。通常不建议使用自适应速率(千兆以太网除外), 网卡的设置应与交换机端口的设置匹配。 用 ping 命令检查网卡通信是否正常,如是否丢包,速度是否正常等。 用 netstat in 命令检查网卡 IP 地址是否正确。 用 netstat rn 命令检查系统路由表是否正确。 用 netstat na 命令检查 TCPIP 端口连接,帧听是否正常。 用 host iplable 命令检查域名解释是否正常。 用 lssrc g tcpip 命令检查通讯子系统进程是否正

14、常。一.9磁盘阵列 RAID 盘的状态(2分钟)磁盘阵列通常采用 RAID1/RAID5/RAID10 等数据保护方式。不建议客户使用 RAID0 的方式,在 RAID0 方式下数据没有任何保护。检查磁盘阵列中的 RAID 盘是否有坏 盘,是否有 degrade 的状况。检查磁盘阵列的 cache 是否打开。热备盘(hotspare)盘 可以提高磁盘阵列的可靠性,强烈建议设置热备盘。对于 SAN 存储服务器,请参照 相关 SAN 存储服务器维护文档进行检查。第二章软件部分日产维护操作(耗时共20分钟左右)二.1软件错误报告(5分钟)用“errpt d S”命令检查系统的软件出错报告。如果故障记

15、录太多,应将故障报告取 回,作进一步分析。用“mail”命令查看有否发给 root 用户的错误报告。用“alog ot boot”命令和“alog ot console”命令检查系统的启动纪录和主控台的出错信息。检查 HACMP、TSM 等软件的 LOG 看有否不正常的地方。二.2 检查文件系统(2分钟)查看有没有“ 满” 的文件系统。 文件系统满可导致系统不能正常工作,尤其是 AIX 的基本文件系统。如/ (根文件系统)满则会导致用户不能登录。关键文件系统的使 用率不应该超过 80%(/usr 除外),且剩余空间最好大于 100MB。如果有“满”的文件 系统则应删除不用的文件以释放空间,或扩

16、展文件系统。 如果系统有关于文件系统错 误的报告则应用“fsck”命令对文件系统进行检查修复。JFSLOG 的大小与文件系统的比例应为:1 个 PP 的 LOG 管理 512 个 PP 的文件系统。 如果 JFSLOG 不够大则应扩大,但 JFSLOG 不应超过 256MB。如果太多的文件系统使 用同一个 LOG 则会影响性能,应考虑不同的文件系统使用不通的 JFSLOG。二.3内存交换区(2分钟)新版本的 AIX(AIX4.3.3 以后)对内存交换区的使用机制与旧版本已经不一样。内存 交换区的大小与物理内存的大小并没有一定的比例关系或计算的公式。客户应进行压 力测试以确定内存交换区的大小,若

17、内存交换区使用率超过 70%,则需要扩大。某些 数据库厂家或应用开发商可能对内存交换区有特殊要求,请咨询相关厂商或开发商。 增加内存交换区并不会提高性能,内存交换区使用偏高通常是因为物理内存不足造成 的,所以升级物理内存才是解决之道。交换区不应设置在 rootvg 以外的卷组。从性能上考虑,每个硬盘上应该只有一个内存 交换区,并且所有内存交换区的大小应该一致。如果 rootvg 是采用镜像保护的,则内 存交换区也必须镜像。二.4系统性能(5分钟)用 vmstat、topas 等命令进行简单的性能分析,检查是否有性能瓶颈。二.5数据备份(2分钟)数据备份对于保障系统数据的安全至关重要。数据备份包

18、括操作系统备份和用户数据 备份。操作系统备份是指 ROOTVG 的备份。系统备份要及时,它应能恢复操作系统 崩溃前的正常工作状态。因此每当系统改变设置,安装 PTF,调整应用程序等的前后 都应做好系统备份。系统备份建议至少每季度做一次,手头至少保留两份系统备份 带。注意:操作系统备份仅备份 ROOTVG 中 mount 起的文件系统,用户逻辑卷中的数据并不会 备份。一般 不建议在 ROOTVG 上建立裸设备 存放用户数 据。对于 ROOTVG 中用户建立的裸设备,请使用其他方法备份。用户数据备份包括数据库备份、应用程序代码备份、用户文件系统备份、TSM 数据库 备份等。用户数据备份建议每天做一

19、次。检查用户数据备份是否能满足硬盘数据丢失 后的恢复要求。检查用户备份介质是否标签明确、保存妥善。二.6数据是否已作保护(1分钟)为保证系统高可用性,建议 ROOTVG 采用镜像保护方式。用“lsvg l rootvg”检查是 否 ROOTVG 上所有的逻辑卷已镜像。用“lslv l lvname”命令检查逻辑卷的两份拷贝 是否在不同的物理硬盘上。用户数据也应采取适当的保护方式,如 RAID1/5/10、逻辑卷镜像和逻辑卷 0+1 等。如 果客户采用逻辑卷镜像或逻辑卷 0+1 的方式,则应检查其新建的逻辑卷是否设置正确。二.7 系统 DUMP 设置(1分钟)系统 DUMP 设备应该有足够大的空

20、间,可用“sysdumpdev e”命令估计系统 DUMP 的大小以检验 DUMP 设备是否足够大。对于内存较大的机器,建议建立专用的 DUMP 设备(如果系统内存大于 4GB,则 AIX5L 会自动建立专用的 DUMP 设备:/dev/lg_dumplv)。检查 DUMP 的拷贝目录(文件系统)是否有足够的空间。如果要改变 DUMP 的拷贝 目录(文件系统)则必须保证其建立在 ROOTVG 上。为确保系统挂机时可以做强制 DUMP,请把“always allow dump”设成“TURE”。二.8用户登录记录检查(2分钟) 运行“last username”命令检查用户登录记录,看是否有不正

21、常的登录。 运行“who /var/adm/sulog”检查用户切换记录,看是否有不正常的切换。 运行“who /etc/security/failedlogin”检查是否有非法侵入某个帐户的企图。 检查 smit.log 文件,看有没有非法的操作。 检查 root 用户密码是否有定期更改。二.9 HACMP 测试(5分钟)HACMP 的测试在于检查系统在出现 DOWN 机情况时业务系统能否正常地进行接管切 换。由于生产环境的一些参数设置的改变,有可能导致生产系统和备份系统出现不一 致的情况,从而导致在真正发生故障时业务系统不能正常接管。因此 HACMP 的测试 非常重要。Cluster Ve

22、rification 可在线进行,可检查节点间是否有不同步的情况。检查 HACMP 相关的参数设置: 系统 I/O pacing: high/low watermark 设为 33/24 修改/sbin/rc.boot 文件确保 sync 每 10 秒运行一次,而不是默认的 60 秒 建议把 HACMP 的“failure detect rate”设为“slow” 检查/etc/inittab 文件,确认 power management 程序关闭 建议调整 minfree/maxfree(minfree=CPU#x120;maxfree=CPU#x120+32 或maxfree=CPU#x1

23、28,但 maxfree-minfree 不要大于 100) 建议网卡设为固定速率,同时交换机上相应的端口也应采用相同的设置。除千兆 以太网外,不要使用自适应设置,这样可能带来不可预知的问题。 如果共享存储设备为第三方设备,如 HDS 或 EMC 的存储服务器,则必须确保在HACMP 的配置中包含相关的“Custom Disk Methods”。接管测试警告:接管测试会导致客户应用中断,请与客户协商。接管测试会导致应用中断,请与客户协商是否测试。用命令“smitty clstop”然后选择 “takeover”进行测试。二.10补丁程序(PTF)和微码(Microcode)检查(1分钟)检查的

24、范围包括操作系统补丁、HACMP 补丁、TSM 补丁等。检查系统补丁是否满足 稳定运行的要求。对于下列情形, 建议进行有关的微码/补丁升级: IBM 规定的 Mandatory 的微码 ECA 和补丁 等级为 HIPER/SPE(高风险/特别注意)的微码和补丁 配置升级(MES)所要求的微码/补丁 为解决客户现有问题所必需安装的微码/补丁注:为保证系统运行的稳定性,所采用的微码和补丁建议至少是已发布一个月以上的版本。微码/补丁升级与否由客户最终决定。微码和补丁的更新信息可查阅 IBM定期发布的 fixes letter。二.11 归档 VPD 信息(3分钟)运行“snap-r;snap gLc

25、”,取回/tmp/ibmsupt/snap.tar.Z 或/tmp/ibmsupt/snap.pax.Z 文件 存档。收集 LVM 信息(主要是 LV MAPING 信息)有助于日后系统出问题时数据恢 复。注意:检查/tmp 文件系统剩余空间最好不要小于 50M第三章IBM HACMP 检查(耗时共15分钟左右)HACMP 的安装调试并不是一劳永逸的。即使在安装完成后做了最完整的测试,如果 不定时对 HACMP 的配置进行检查的话,仍然有可能出现在故障时无法切换的情况。 要排除这种情况的发生,必须定时对 HACMP 的配置进行检查。如果系统出现了重大 的变化,如增加需要保护的应用或新的存储等情

26、况时,除检查 HACMP 配置外,还需 要进行新的 HACMP 测试。和 HACMP 的测试不同,HACMP 的检查工作通常不需要停机,因此进行检查的时间 相对灵活。检查工作中发现的问题,要及时解决。在实际修改前,必须作 snapshot,即对 HACMP 的配置进行备份。如修改出现问题,保 证能将 HACMP 恢复到 snapshot 时的一致点。在修改完成,并通过相关测试后,需要 做一份新的 snapshot,新的 snapshot 名字应和旧的不同。对 HACMP 修改参数后,原则上应该做 verify 和 sync。修改后的参数,部分在 sync 后 立即生效,部分需要重新启动 clu

27、ster manager 后才生效,甚至有部分参数需要关闭 cluster manager 后才能修改。 以上的修改限制条件在不同的 HACMP 版本中的规定也 不相同。详细的情况可查询 HACMP 相关手册。如果你无法判断修改的参数属于以上列举的那种情况,建议在关闭 cluster manager 之 后修改,同步。在通常的情况下,参数修改后要进行新的测试,因此此种较谨慎的做 法并不会过多增加系统停机时间。本文档的编写基于 HACMP 5.1,如您当前使用的是其他的 HACMP 版本,则菜单和输 出上会有所不同。三.1HACMP 检查简表(5分钟)表格含 HACMP 常见的检查步骤,具体的检

28、查方法会在后续的章节中陆续介绍。检查内容完成情况注释检查HACMP PATCH 版本客户有否对events进行过客户化对HACMP现有配置作verify有warning,不影响生产检查共享文件系统和逻辑卷是否同步snmpd 版本和hacmp误切有关的参数检查网络参数检查用户是否同步检查域名解析是否同步第三方存储HACMP环境三.2 HACMP 检查内容(2分钟)检查 HACMP patch 版本:在 HACMP 节点上分别运行:# lslpp l “cluster.es.server.rte” (对 hacmp v5 和 hacmp v4 es) Fileset Level State Des

29、cription- Path: /usr/lib/objreposcluster.es.server.rte 5.2.0.3 COMMITTED ES Base Server RuntimePath: /etc/objreposcluster.es.server.rte 5.2.0.3 COMMITTED ES Base Server Runtime或#lslpp l “cluster.base.server.rte” (对 hacmp v4 classic)Fileset Level State Description- Path: /usr/lib/objreposcluster.base

30、.server.rte 4.5.0.8 COMMITTED Base Server RuntimePath: /etc/objreposcluster.base.server.rte 4.5.0.8 COMMITTED Base Server Runtime更详细的信息可以参考以下地址:推荐客户安装最新的 HACMP PATCH,但由于安装 PATCH 需要停止业务,建议和HACMP 的测试安排在一起进行。三.3HACMPpatch 安装原理和注意要点(2分钟)hacmp patch 的安装原理和 AIX 的 patch 安装原理是相似的,即用 patch 中的文件覆盖 相应软件包中的文件。客户对 AIX 中的 event 作客户化的时候,应使用 pre-event, post-event 或 notify event script,而避免直接修改 event 本身。因华为采购的设备通常都做过较大的客户化,如果没有特殊原因,在华为的设备上 不要轻易安装 patch,即使要安装 patch 也要和华为的技术人员取得沟通。验证客户是否对 hacmp event 脚本做过客户化。# lppchk -c cluster.es

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1