1、IBM小型机故障处理指导书10424B资料编码产品名称IBM小型机使用对象产品线产品版本编写部门集成产品部资料版本V1.0IBM小型机故障处理指导书拟 制:日 期:审 核:日 期:审 核:日 期:批 准:日 期:华 为 技 术 有 限 公 司版权所有 XX修订记录日期修订版本描述作者2005-3-28V1.0整合HACMP故障处理到文档中李静2006-4-11V1.11、 修改错误的命令示例;2、 调整文档格式。胡建锋目 录第1章 故障的定义 1第2章 故障信息的收集 12.1 收集故障信息对于判断诊断故障原因修复系统非常重要 12.2 系统故障记录(errorlog) 12.3 控制面板上的
2、LED 代码 32.4 SMS (System Management Service) 故障记录 42.5 MAIL 42.6 运行故障诊断程序(Diagnostic) 对系统硬件进行检查和诊断 42.7 其他用于收集系统信息的命令 4第3章 硬件故障定位方法 73.1 IPL 流程 73.2 系统的启动顺序: 73.3 系统不能启动 83.4 系统停在551555或557 83.5 CDE图形界面挂死 93.6 系统dump 10第4章 7133-D40SSA磁盘柜的故障定位 12第5章 软件故障定位方法 125.1 文件系统空间不够 125.2 检查文件系统的完整性 135.3 查看卷组信
3、息(lsvg-lvg_name) 135.4 检查内存交换区(pagingspace)使用率(lsps-s) 135.5 小型机内存泄漏问题 13第6章 常用的系统状态查询命令 15第7章 网络故障定位方法 167.1 网络不通的诊断过程 167.2 网络配置的基本方法 16第8章 HACMP环境下的排错 178.1 了解问题的存在 178.2 判断问题的出处 17第9章 附常用命令列表 19关键词:故障处理 IBM AIX HACMP摘 要:缩略语清单:参考资料清单:内容简介IBM小型机故障处理指导书主要包括以下内容:故障的定义、故障信息的收集、硬件故障定位方法、7133-D40 SSA磁盘
4、柜的故障定位、软件故障定位方法、常用的系统状态查询命令、网络故障定位方法、HACMP环境下的排错、附常用命令列表。故障的定义根据以下这些方面来考虑故障定位:弄清楚系统发生了什么问题系统现在能做什么不能做什么故障什么时候发生的有没有做平时不同的操作故障有没有规律定时还是不定时发生的频率有多高是一台机器出现故障还是多台机器故障故障现象是否相同最近有没有做改动如安装了新的硬件软件改变了系统的一些设置故障信息的收集收集故障信息对于判断诊断故障原因修复系统非常重要系统故障记录(errorlog)errdemonerrdemon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var
5、/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more (列出简短出错信息)ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 062
6、4131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视C 分类: H 硬件; S 软件; O 用户; U未知#errpt -d H (列出所有硬件出错信息)#errpt -d S (列出所有软件出错信息)#errpt -aj ERROR_ID (列出详细出错信息)# errpt -aj 0502f666 - ERROR_ID用大小写均可例LABE
7、L: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: 选高级诊断Advance Diagnostic) 选问题诊断Problem Determination) 或选系统检查System Verification)(选PD 会对系统错误记录
8、进行分析)diag运行后会给出SRN 代码故障设备名称及百分比地址代码等对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 45 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 45 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息
9、#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabyte
10、s)LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/Alv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 77102e01 devices.pci.77102e01.diag 5.2.0.0 C F 1000 Base-TX PCI-X iSCSI TOE devices.pci.77102e01.rte 5.2.0.0 C F PCI-X 1000 Base-TX iSCSI TOE看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本lsattr 查看设备参数设置#
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1