IBM 小型机故障定位.docx
《IBM 小型机故障定位.docx》由会员分享,可在线阅读,更多相关《IBM 小型机故障定位.docx(18页珍藏版)》请在冰豆网上搜索。
IBM小型机故障定位
一故障的定义
.弄清楚系统发生了什么问题
.系统现在能做什么?
不能做什么?
.故障什么时候发生的?
.有没有做平时不同的操作?
.故障有没有规律?
定时还是不定时?
发生的频率有多高?
.是一台机器出现故障还是多台机器故障?
故障现象是否相同?
.最近有没有做改动?
如安装了新的硬件、软件,改变了系统的一些设置。
二故障信息的收集
1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。
2)系统故障记录(errorlog)
errdemon进程在系统启动时自动运行
记录包括硬件、软件及其他操作信息
故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析
errpt命令的使用(普通用户权限也可使用)
#errpt|more列出简短出错信息
ERROR_IDTIMESTAMPTCRESOURCE_NAMEERROR_DESCRIPTION
192AC0710723100300T0errdemonErrorloggingturnedoff
0E017ED10720131000PHmem2Memoryfailure
9DBCFDEE0701000000T0errdemonErrorloggingturnedon
038F25800624131000UHscdisk0UNDETERMINEDERROR
AA8AB2410405130900TOOPERATOROPERATORNOTIFICATION
TIMESTAMP:
MMDDHHMMYY(月日时分年)
T(类型):
P永久;T临时;U未知(永久性的错误应引起重视)
C(分类):
H硬件;S软件;O用户;U未知
#errpt-dH列出所有硬件出错信息
#errpt-dS列出所有软件出错信息
#errpt-ajERROR_ID列出详细出错信息
#errpt-aj0502f666<---ERROR_ID用大小写均可
例:
LABEL:
SCSI_ERR1
ID:
0502F666
Date/Time:
Jun1922:
29:
51
SequenceNumber:
95
MachineID:
123456789012
NodeID:
host1
Class:
H
Type:
PERM
ResourceName:
scsi0
ResourceClass:
adapter
ResourceType:
hscsi
Location:
00-08
VPD:
<---VirtalProductData
DeviceDriverLevel.........00
DiagnosticLevel............00
DisplayableMessage.........SCSI
ECLevel....................C25928
FRUNumber..................30F8834
Manufacturer................IBM97F
PartNumber.................59F4566
SerialNumber...............00002849
ROSLevelandID............24
Read/WriteRegisterPtr.....0120
Description
ADAPTERERROR
ProbableCauses
ADAPTERHARDWARECABLE
CABLETERMINATORDEVICE
FailureCauses
ADAPTER
CABLELOOSEORDEFECTIVE
RecommendedActions
PERFORMPROBLEMDETERMINATIONPROCEDURES
CHECKCABLEANDITSCONNECTIONS
DetailData
SENSEDATA
000000000000000000000000000000000000000000000000
3)控制面板上的LED代码
.8位代码,通常系统故障灯会同时亮起。
某些机型还会同时显示故障设备位置代码。
.4位代码,通常是Exxx。
.3位代码,通常为0yyy,只看后3位。
.8位和4位代码可查看系统服务手册(ServiceGuide)。
3位代码可查看系统诊断手册(DiagnosticInformationforMultipleBusSystem)。
.闪动的888,系统崩溃,硬件或软件原因造成。
按reset键会显示更多内容。
888-102一般为软件故障(888-102-207例外)
系统会产生一个dump。
888-102-xxx-0C9系统正在做dump,请等待。
888-102-xxx-0C0系统dump完成,可关电重启。
888-103或105
硬件故障,一般有SRN代码及位置代码。
4)SMS(SystemManagementService)故障记录
如何进入SMS菜单
当主控台出现键盘图标后(LED显示E1F1时)按1键。
选择"Utilities"
选择"ErrorLog",抄下8位故障代码
(在SMS中还可以更改系统启动顺序表)
5)MAIL
#mail
系统会向root用户发mail报告出错信息。
通常系统出现故障后没有进行检查修复,系统会定时提醒root。
6)运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。
当发现有硬件故障时应立即使用diag
#diag
>选高级诊断(AdvanceDiagnostic)
>选问题诊断(ProblemDetermination)或
选系统检查(SystemVerification)
(选PD会对系统错误记录进行分析)
diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等。
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。
7)其他用于收集系统信息的命令
lsdev-C系统设备信息
#lsdev-Ccdisk
hdisk0Available00-06-00-2,04.5GB16BitSCSIDiskDrive
hdisk1Available00-06-00-1,04.5GB16BitSCSIDiskDrive
hdisk2Defined00-06-00-4,016BitSCSIDiskDrive
lspv查看物理卷信息
#lspv
hdisk00007821160af3d76rootvg
hdisk1000782117f571294rootvg
hdisk20000000045c45bdedatavg
lsvg查看卷组信息
#lsvgdatavg
VOLUMEGROUP:
datavgVGIDENTIFIER:
0000000055e2458b
VGSTATE:
activePPSIZE:
4megabyte(s)
VGPERMISSION:
read/writeTOTALPPs:
2169(8676megabyt
MAXLVs:
256FREEPPs:
1(4megabytes)
LVs:
3USEDPPs:
2168(8672megabyt
OPENLVs:
2QUORUM:
2
TOTALPVs:
1VGDESCRIPTORS:
2
STALEPVs:
0STALEPPs:
0
ACTIVEPVs:
1AUTOON:
yes
MAXPPsperPV:
2032MAXPVs:
16
#lsvg-lrootvg
rootvg:
LVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINT
hd5boot111closed/syncdN/A
...
lv00jfs511021closed/stale/ibmcxx
lv01jfs111open/syncd/cics_regions
lv02jfs441open/syncd/var/mqm
lslpp查看文件组信息
#lslpp-L|grep23100020
....
devices.pci.23100020.rte4.3.2.7CIBMPCI10/100EthernetAdapt
看某个文件组是否已安装,如以太网卡驱动。
也用于查询补丁程序的版本。
lsattr查看设备参数设置
#lsattr-Elent2
busio0x7fffc00BusI/OaddressFalse
busintr9BusinterruptlevelFalse
intr_priority3InterruptpriorityFalse
tx_que_size512TRANSMITqueuesizeTrue
rx_que_size256RECEIVEqueuesizeTrue
rxbuf_pool_size384RECEIVEbufferpoolsizeTrue
media_speed10_Half_DuplexMediaSpeedTrue
use_alt_addrnoEnableALTERNATEETHERNETaddressTrue
alt_addr0x000000000000ALTERNATEETHERNETaddressTrue
ip_gap96Inter-PacketGapTrue
lscfg查看VPD信息(VirtualProductData)
#lscfg-vlssa1
DEVICELOCATIONDESCRIPTION
ssa130-68IBMSSAEnhancedRAIDAdapter
(14104500)
PartNumber.................097H0645
FRUNumber..................097H0645<--备件号
SerialNumber...............C8217227
ECLevel....................0000F20825
Manufacturer................IBM053
ROSLevelandID............7201<--微码版本
LoadableMicrocodeLevel....04
DeviceDriverLevel.........00
DisplayableMessage.........SSA-ADAPTER
DeviceSpecific.(Z0)........DRAM=032
DeviceSpecific.(Z1)........CACHE=0
DeviceSpecific.(Z2)........000000062955dab2
DeviceSpecific.(YL)........P2-I7<--槽号
不同的硬件设备有不同的VPD,所含的格式和信息都不一样。
通常备件号和微码
版本最有参考价值。
注:
FRU(FieldReplaceUnit)才是真正的备件号。
三硬件故障定位方法
IBM小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,ErrorCode和SRNs。
Checkpoints检查点是系统加电CMOS初始化程序(initialprogramload(IPL))运行后显示在I/O柜的显示面板上一系列信息。
IPL流程
当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:
.Phase1:
ServiceProcessor的初始化
Phase1开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。
在这个步骤会显示8xxx或9xxxcheckpoints代码。
.Phase2:
由ServiceProcessor引导的硬件初始化
Phase2开始于按下I/O柜上的白色电源开关。
在这个步骤会显示9xxxcheckpoints。
91FF是最后的代码标志着第三步骤的开始
.Phase3:
系统固件的初始化
在Phase3,一个系统处理器接管控制并继续初始化系统资源,在这个步骤会显示Exxx。
E105是最后的代码标志着第四步骤AIX启动的开始。
在这个过程中还会显示各种位置码(位置码代表着系统的每一个部分)
.Phase4:
AIX启动
当AIX开始启动时,显示面板上的代码为0xxx,同时位置码会出现在第二行。
当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。
ErrorCode当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。
SRNs(Servicerequestnumbers,服务请求码)当系统运行有错误发现时,SRNs码会以xxx-xxx的形式显示在显示面板上,同时在AIX的errorlog中也会有记载。
以上所有代码都会有相应的步骤解决。
由于代码繁多,请在出现问题后记录下代码,并致电IBM服务热线。
系统的启动顺序:
.系统不能启动
系统停在Stage1,可能为电源、系统板、CPU、内存等硬件故障。
记录故障代码通知IBM工程师。
系统停在Stage2,可能是启动顺序表(bootlist)损坏或I/O子系统故障。
可尝试进入SMS菜单检查启动顺序表,并修改。
若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。
若根本没有SCSI设备可选则链路有问题。
系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。
.系统停在551,555或557
发生在系统启动的第三阶段(Stage3),可能是:
文件系统损坏
文件系统日志(jfslog)损坏
rootvg中有坏硬盘
修复方法
用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致)
启动后选择选项3
"StartMaintenanceModeforSystemRecovery"
>"AccessaRootVolumeGroup"
>"Accessthisvolumegroupandstartashell
beforemountingthefilesystems"
格式化文件系统日志(jfslog)
#/usr/sbin/logform/dev/hd8
检查修复文件系统
#fsck-y/dev/hd1(/home文件系统)
#fsck-y/dev/hd2(/usr文件系统)
#fsck-y/dev/hd3(/tmp文件系统)
#fsck-y/dev/hd4(/文件系统)
#fsck-y/dev/hd9var(/var文件系统)
......
用exit命令退出,文件系统会自动mount起来。
重建bootimage
#lslv-mhd5找出bootimage所在的硬盘,如hdisk0
#bosboot-ad/dev/hdisk0
#bootlist-mnormal/dev/hdisk0重建启动顺序表。
重启动系统
#shutdown-Fr
如上述步骤不奏效
用系统备份带恢复系统。
如备份带不能恢复,用诊断光盘(DiagnosticCDROM)检查是否坏硬盘。
.CDE图形界面挂死
CDE运行时不要更改网络参数(如:
主机名和IP地址)
更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。
如CDE已经挂死
远程telnet登录
找出所有dt有关的进程用kill命令杀掉
#ps-ef|grepdt
......
#killPID
检查当前主机名
#hostname
tscf50
查看主机名是否对应有效的IP地址
#netstat-i|greptscf50
tr0*15009.185.40tscf5050604902824700
更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。
#smittytcpip
重新启动CDE界面
#/etc/rc.dt
HACMP环境下可把主机名alias到127.0.0.1上
#cat/etc/hosts
127.0.0.1loopbacklocalhosttscf50#loopback(lo0)name/addressbvg
.系统dump
发生在系统崩溃时,AIX会做dump(系统内存的快照)。
此时机器会显示闪动的888102xxx0cx代码:
0c9系统dump进行中。
0c9状态可能会维持超过2分钟,
不要关电和按reset,等待dump做完。
0c0dump成功完成,这时可以断电重起。
0c2手动启动dump功能
0c4dump设备空间不足,只有部分信息保存下来
0c5不明原因导致dump失败
一般dump是由于软件出错引起(888-102-207除外),机器通常可以重启。
重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。
dump的有关设置
估算系统dump的大小,在系统最繁忙时(内存使用最多)
#sysdumpdev-e
0453-041Estimateddumpsizeinbytes:
53477376
#lsps-a
PageSpacePhysicalVolumeVolumeGroupSize%UsedActive
paging00hdisk0rootvg480MB1yes
hd6hdisk1rootvg544MB1yes
当前的设置
#sysdumpdev-l
primary/dev/hd6<--dump的主设备
secondary/dev/sysdumpnull
copydirectory/var/adm/ras<--dump拷贝的目录
forcedcopyflagTRUE
alwaysallowdumpTRUE
hd6应比估算值稍大。
/var/adm/ras是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump文件。
否则机器重起时会提示用户插入磁带。
dump文件名为vmcore.#
对PCI机型如要手动做dump,须把"alwaysallowdump"先设成true。
#sysdumpdev-K
dump打包
#snap-a-o/dev/rmt#或
#snap-a-c把/tmp/ibmsupt目录做成一个压缩文件
snap.tar.Z如果/tmp文件系统空间不够,
可用-ddirectory参数指定别的目录代替/tmp/ibmsupt
四7133-D40SSA磁盘柜的故障定位
当SSA磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的errorlog中也会有记载错误信息,如:
DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等。
请在出现问题后记录下代码,并致电IBM服务热线。
五软件故障定位方法
软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。
1)文件系统空间不够。
查看有没有“满”的文件系统。
特别是/、/var、/tmp,不要超过90%。
文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。
如/(根文件系统)满则会导致用户不能登录。
用df–k查看。
#df-k(查看AIX的基本文件系统)
Filesystem1024-blocksFree%UsedIused%IusedMountedon
/dev/hd424576145295%259922%/
/dev/hd26144002806896%2296715%/usr
/dev/hd9var8192454045%64932%/var
/dev/hd31679361579686%891%/tmp
/dev/hd116384533268%140235%/home
除/usr文件系统,其他文件系统都不应太满,一般不超过80%。
处理方法1:
删除垃圾文件
#du-sk*|sort-rn|head
查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。
(要区分哪些目录是文件系统的mountpoint,哪些是文件系统的子目录)删除文件,释放空间。
有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。
只有当这个程序停止后空间才释放,有时甚至需要重起系统。
处理方法2:
增加文件系统大小
#smittychjfs
文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。
2)检查文件系统的完整性
#umountfilesystem_name
#fsck-yfilesystem_name
注意:
文件系统必须先umount,再做检查和修复,否则可导致未
知的后果。
3)查看卷组信息(lsvg-lvg_name):
有没有"stale"状态的逻辑卷。
若有,用syncvg命令修复"stale"逻辑卷。
4)检查内存交换区(pagingspace)使用率(lsps-s):
使用率是否超过70%,若有则用chps–sXpgname增加X个PP或用mkps–a–n–sXmyvg在myvg上增加一个PP数为X的内存交换区。
5)小型机内存泄漏问题
小型机出现内存泄漏,即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少。
如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程,就会造成系统瘫痪。
通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势。
(a)ps
#psgv|head-n1;psgv|egrep-v"RSS"|sort+6b-7-n-r|head-n5
PIDTTYSTATTIMEPGINSI