AIX简单故障维护手册共10页.docx

上传人:b****2 文档编号:705542 上传时间:2022-10-12 格式:DOCX 页数:8 大小:20.04KB
下载 相关 举报
AIX简单故障维护手册共10页.docx_第1页
第1页 / 共8页
AIX简单故障维护手册共10页.docx_第2页
第2页 / 共8页
AIX简单故障维护手册共10页.docx_第3页
第3页 / 共8页
AIX简单故障维护手册共10页.docx_第4页
第4页 / 共8页
AIX简单故障维护手册共10页.docx_第5页
第5页 / 共8页
点击查看更多>>
下载资源
资源描述

AIX简单故障维护手册共10页.docx

《AIX简单故障维护手册共10页.docx》由会员分享,可在线阅读,更多相关《AIX简单故障维护手册共10页.docx(8页珍藏版)》请在冰豆网上搜索。

AIX简单故障维护手册共10页.docx

AIX简单故障维护手册共10页

AIX简单故障维护手册

1.查看机器各种指示灯状态

机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。

当指示灯的状态不正常时,需要引起注意。

比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。

2.查看系统故障记录收集信息

errdemon进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息。

故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析。

也可以使用errpt命令来查看(普通用户权限也可使用)

#errpt|more列出简短出错信息

ERROR_IDTIMESTAMPTCRESOURCE_NAMEERROR_DESCRIPTION

192AC0710723100300T0errdemonErrorloggingturnedoff

0E017ED10720131000PHmem2Memoryfailure

9DBCFDEE0701000000T0errdemonErrorloggingturnedon

038F25800624131000UHscdisk0UNDETERMINEDERROR

AA8AB2410405130900TOOPERATOROPERATORNOTIFICATION

TIMESTAMP:

MMDDHHMMYY(月日时分年)

T(类型):

P永久;T临时;U未知(永久性的错误应引起重视)

C(分类):

H硬件;S软件;O用户;U未知

#errpt-dH列出所有硬件出错信息

#errpt-dS列出所有软件出错信息

#errpt-ajERROR_ID列出详细出错信息

#errpt-aj0502f666<---ERROR_ID用大小写均可

3.控制面板上的LED代码

.一般为8位代码,通常系统故障灯会同时亮起。

某些机型还会同时显示故障设备位置代码。

.4位代码,通常是Exxx。

.3位代码,通常为0yyy,只看后3位。

.8位和4位代码可查看系统服务手册(ServiceGuide)。

3位代码可查看系统诊断手册(DiagnosticInformationforMultipleBusSystem)。

.闪动的888,系统崩溃,硬件或软件原因造成。

按reset键会显示更多内容。

888-102一般为软件故障(888-102-207例外)

系统会产生一个dump。

888-102-xxx-0C9系统正在做dump,请等待。

888-102-xxx-0C0系统dump完成,可关电重启。

888-103或105

硬件故障,一般有SRN代码及位置代码。

4.SMS(SystemManagementService)故障记录

当主控台出现键盘图标后(LED显示E1F1时)按1键。

进入SMS菜单

选择"Utilities"

选择"ErrorLog",抄下8位故障代码

(在SMS中还可以更改系统启动顺序表)

5.MAIL

#mail

系统会向root用户发mail报告出错信息。

通常系统出现故障后没有进行检查修复,系统会定时提醒root。

6.运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。

当发现有硬件故障时应立即使用diag

#diag

>;选高级诊断(AdvanceDiagnostic)

>;选问题诊断(ProblemDetermination)或

选系统检查(SystemVerification)

(选PD会对系统错误记录进行分析)

diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等。

对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。

7.查看系统重要记录日志

在某些情况下,系统的错误日志无法记录一些错误信息,这时,就需要查看相关的系统日志。

这些日志包括系统启动日志,smit日志,HACMP切换日志等等,以下对这些日志进行说明

a.系统启动日志

系统启动日志记录系统在启动过程中的详细信息,包括设备识别,内核加载,文件系统装载,后台进程的启动等信息。

这些信息在错误日志没有完整的记录,但是通过查看启动日志,可以得到详细的信息。

查看系统启动日志的命令为

alog-o-tboot

b.smit.log

smit.log记录了通过smit菜单执行命令的过程和结果信息。

通过查看smit.log可以知道在系统上进行操作的历史信息,查看这些命令执行的结果是否正常,从而判断是否存在隐患或故障。

Smit.log在系统根目录下,通过cat命令就可以查看。

c.HACMP.OUT

Hacmp.out文件记录HACMP发生切换时候的详细过程和结果信息。

查看hacmp.out文件可以知道系统出现什么原因而引起切换,从而判断是否有故障发生。

二.判断故障类别

1.硬件故障

通常将硬件故障分为以下几个类别

IBM小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,ErrorCode和SRN。

Checkpoints检查点是系统加电CMOS初始化程序(initialprogramload(IPL))运行后显示在I/O柜的显示面板上一系列信息。

IPL流程

当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:

.Phase1:

ServiceProcessor的初始化

Phase1开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。

在这个步骤会显示8xxx或9xxxcheckpoints代码。

.Phase2:

由ServiceProcessor引导的硬件初始化

Phase2开始于按下I/O柜上的白色电源开关。

在这个步骤会显示9xxxcheckpoints。

91FF是最后的代码标志着第三步骤的开始

.Phase3:

系统固件的初始化

在Phase3,一个系统处理器接管控制并继续初始化系统资源,在这个步骤会显示Exxx。

E105是最后的代码标志着第四步骤AIX启动的开始。

在这个过程中还会显示各种位置码(位置码代表着系统的每一个部分)

.Phase4:

AIX启动

当AIX开始启动时,显示面板上的代码为0xxx,同时位置码会出现在第二行。

当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。

ErrorCode当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。

SRNs(Servicerequestnumbers,服务请求码)当系统运行有错误发现时,SRNs码会以xxx-xxx的形式显示在显示面板上,同时在AIX的errorlog中也会有记载。

用diag命令进行检测,diag步骤如下:

#diag

>;选高级诊断(AdvanceDiagnostic)

>;选问题诊断(ProblemDetermination)或

选系统检查(SystemVerification)

(选PD会对系统错误记录进行分析)

diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等

2.操作系统故障

系统无法正常操作,命令无法正常执行,或者系统频繁的报系统问题,都有可能是操作系统故障造成的。

软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。

1)文件系统空间不够。

查看有没有“满”的文件系统。

特别是/、/var、/tmp,不要超过90%。

文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。

如/(根文件系统)满则会导致用户不能登录。

用df–k查看。

#df-k(查看AIX的基本文件系统)

Filesystem1024-blocksFree%UsedIused%IusedMountedon

/dev/hd424576145295%259922%/

/dev/hd26144002806896%2296715%/usr

/dev/hd9var8192454045%64932%/var

/dev/hd31679361579686%891%/tmp

/dev/hd116384533268%140235%/home

除/usr文件系统,其他文件系统都不应太满,一般不超过80%。

处理方法1:

删除垃圾文件

#du-sk*|sort-rn|head

查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。

(要区分哪些目录是文件系统的mountpoint,哪些是文件系统的子目录)删除文件,释放空间。

有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。

只有当这个程序停止后空间才释放,有时甚至需要重起系统。

处理方法2:

增加文件系统大小

#smittychjfs

文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。

2)检查文件系统的完整性

#umountfilesystem_name

#fsck-yfilesystem_name

注意:

文件系统必须先umount,再做检查和修复,否则可导致未

知的后果。

3)查看卷组信息(lsvg-lvg_name):

有没有"stale"状态的逻辑卷。

若有,用syncvg命令修复"stale"逻辑卷。

4)检查内存交换区(pagingspace)使用率(lsps-s):

使用率是否超过70%,若有则用chps–sXpgname增加X个PP或用mkps–a–n–sXmyvg在myvg上增加一个PP数为X的内存交换区。

外连设备故障

与RS6000机器相连的其他设备发生故障时,会对主机造成影响,从而引发故障。

比如网络交换机故障,外置存储故障等等。

常见故障记录汇总

2.机器电源故障

故障:

查看IBM服务器如果前面板上有黄色报警灯亮起,并且在服务器电源处电源灯亮黄色报警灯或者有不正常闪烁。

在在AIX系统中用#errpt–aj|more命令查看到有描述为“powererror”级别显示为“H”类型显示为“P”。

分析:

按照该ERRPT报错信息与服务器面板及其电源外部报警灯显示情况,可以确定服务器电源出现硬件故障,必须进行更换。

按照服务器的不同机器类型可以采取停机更换电源和不停机更换电源的方法。

解决:

更换该出现故障的电源。

3.机器环境故障

故障:

在AIX系统中用#errpt–a|more命令查看到有描述为“TEMPERATUREUNACCEPTABLE”级别显示为“H”类型显示为“P”。

分析:

按照该ERRPT报错信息可以确定服务器运行的环境不在健康的环境中,机房温度过高,不符合在20摄氏度的环境中。

解决:

使服务器所在的机房环境达到20摄氏度恒温状态。

4.文件系统故障

故障:

在AIX系统中用#errpt–a|more命令查看到有描述为“FILESYSTEMCHECKREQUIED”级别显示为“H”类型显示为“P”。

并且说明某个文件系统需要用fsck命令进行check。

分析:

按照该ERRPT报错信息可以确定该文件系统存在故障,需要人工对其文件系统进行fsck操作,从而确保数据的安全性、可靠性和可用性。

解决:

停应用后进行fsck该文件系统。

5.内置硬盘故障

故障:

发现

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1