ImageVerifierCode 换一换
格式:DOCX , 页数:20 ,大小:43.33KB ,
资源ID:7354517      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/7354517.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(IBM小型机常见故障的基本定位.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

IBM小型机常见故障的基本定位.docx

1、IBM小型机常见故障的基本定位故障的定义. 弄清楚系统发生了什么问题. 系统现在能做什么?不能做什么?. 故障什么时候发生的?. 有没有做平时不同的操作?. 故障有没有规律?定时还是不定时?发生的频率有多高?. 是一台机器出现故障还是多台机器故障?故障现象是否相同?. 最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。2故障信息的收集1) 收集故障信息对于判断、诊断故障原因,修复系统非常重要。2) 系统故障记录 (errorlog) errdemon 进程在系统启动时自动运行 记录包括硬件、软件及其他操作信息 故障记录文件为 /var/adm/ras/errlog ,可备份下来或

2、拷贝到别的机器上分析 errpt 命令的使用 ( 普通用户权限也可使用 )#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION 192AC00 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure 9DBCFDEE 0701000000 T 0 errdemon Error logging turned on 038F2580 0624131000 U H scdisk0 UNDETERMI

3、NED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMIMY日时寸分年)T (类型):P永久;T临时;U未知(永久性的错误应引起重视)C (分类):H硬件;S软件;O用户;U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 - ERROR_ID 用大小写均可例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19

4、 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: 选高级诊断( Advance Diagnostic)选问题诊断( Problem Determination) 或选系统检查( System Verification)(选PD会对系统错误记录进行分析)diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等

5、。对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分 析。7)其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 0007821160af3d76

6、 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavg VOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458b VG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt MAX LVs: 256 FREE PPs: 1 (4 megabytes) LVs: 3 USED PPs: 2168

7、(8672 megabyt OPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2 STALE PVs: 0 STALE PPs: 0 ACTIVE PVs: 1 AUTO ON: yes MAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvg rootvg: LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT hd5 boot 1 1 1 closed/syncd N/Alv00 jfs 51 102 1 closed/stale /ibmcxx lv01 jfs

8、1 1 1 open/syncd /cics_regions lv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息 # lslpp -L |grep 23100020devices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt 看某个文件组是否已安装,如以太网卡驱动。也用于查询补丁程序的版本。lsattr 查看设备参数设置# lsattr -El ent2 busio 0x7fffc00 Bus I/O address False busintr 9 Bus interrupt lev

9、el False intr_priority 3 Interrupt priority False tx_que_size 512 TRANSMIT queue size True rx_que_size 256 RECEIVE queue size True rxbuf_pool_size 384 RECEIVE buffer pool size True media_speed 10_Half_Duplex Media Speed True use_alt_addr no Enable ALTERNATE ETHERNET address True alt_addr 0x0 ALTERNA

10、TE ETHERNET address True ip_gap 96 Inter-Packet Gap TrueIscfg 查看 VPD言息(Virtual Product Data)# lscfg -vl ssa1DEVICE LOCATION DESCRIPTION ssa1 30-68 IBM SSA Enhanced RAID Adapter (14104500)Part Number 097H0645FRU Number 097H0645 - 备件号Serial Number C8217227EC Level 0000F20825Manufacturer IBM053ROS Leve

11、l and ID 7201 - 微码版本Loadable Microcode Level 04Device Driver Level 00Displayable Message SSA-ADAPTERDevice Specific.(Z0) DRAM=032Device Specific.(Z1) CACHE=0Device Specific.(Z2) 5dab2Device Specific.(YL) P2-I7 Access a Root Volume GroupAccess this volume group and start a shellbefore mounting the 格式

12、化文件系统日志 (jfslog)# /usr/sbin/logform /dev/hd8# fsck -y /dev/hd3 ( /tmp 文件系统)# fsck -y /dev/hd4 ( / 文件系统)# fsck -y /dev/hd9var ( /var 文件系统)用 exit 命令退出,文件系统会自动 mount 起来。重建 bootimage# lslv -m hd5 找出 bootimage 所在的硬盘,如 hdisk0# bosboot -ad /dev/hdisk0# bootlist -m normal /dev/hdisk0 重建启动顺序表。 重启动系统# shutdow

13、n -Fr如上述步骤不奏效 用系统备份带恢复系统。如备份带不能恢复,用诊断光盘(Diag no Stic CDROM)检查是否坏硬盘。.CDE图形界面挂死CDE运行时不要更改网络参数(如:主机名和 IP地址)更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改 如CDE已经挂死远程 telnet 登录找出所有 dt 有关的进程用 kill 命令杀掉#pS -ef |grep dt#kill PID检查当前主机名#hoStnametScf50查看主机名是否对应有效的 IP 地址#netStat -i |grep tScf50tr0* 1500 9.185.40 tScf50

14、 506049 0 28247 0 0更改主机名或 IP 地址,使主机名与当前有效的 IP 地址存在对应关系。#Smitty tcpip重新启动CDE界面#/etc/rc.dtHACM环境下可把主机名 alias到127.0.0.1 上#cat /etc/hoStS127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvg. 系统 dump发生在系统崩溃时,AIX会做dump係统内存的快照)。此时机器会显示闪动的 888 102 xxx 0cx 代码:0c9 系统 dump 进行中。 0c9 状态可能会维持超过 2分

15、钟,不要关电和按reset,等待dump故完。0c0 dump 成功完成,这时可以断电重起。0c2 手动启动 dump 功能0c4 dump 设备空间不足,只有部分信息保存下来0c5 不明原因导致 dump 失败一般dump是由于软件出错引起(888-102-207除外),机器通常可以重启。重启时可能提 示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。dump的有关设置估算系统dump的大小,在系统最繁忙时(内存使用最多)#sysdumpdev -e0453-041 Estimated dump size in bytes: 53477376#lsps -aPage S

16、pace Physical Volume Volume Group Size %Used Active paging00 hdisk0 rootvg 480MB 1 yes hd6 hdisk1 rootvg 544MB 1 yes当前的设置#sysdumpdev -lprimary /dev/hd6 - dump 的主设备secondary /dev/sysdumpnullcopy directory /var/adm/ras - dump 拷贝的目录forced copy flag TRUE always allow dump TRUEhd6应比估算值稍大。/var/adm/ras 是默认

17、的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空 间拷贝dump文件。否则机器重起时会提示用户插入磁带。dump文件名为 vmcore.#对PCI机型如要手动做 dump须把always allow dump 先设成true 。#sysdumpdev -K dump打包#snap -a -o /dev/rmt# 或#snap -a -c 把/tmp/ibmsupt目录做成一个压缩文件snap.tar.Z 如果/tmp文件系统空间不够, 可用 -d directory 参数指定别的目录代替 /tmp/ibmsupt47133-D40 SSA 磁盘柜的故障定位当SSA磁盘柜出现故

18、障时,在磁盘柜前面板的液晶显示屏上会显示相应的 SRNs同时黄色的显示灯会闪动,在 AIX的error log 中也会有记载错误信息,如:DISK_ERR,,DISK_ERR4 SSA_ARRAY_ERROR请在出现问题后记录下代码,并致电 IBM服务热线。5软件故障定位方法 软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。1) 文件系统空间不够。查看有没有“满”的文件系统。特别是 / 、/var 、 /tmp ,不要超过 90%。文件系统满可导致 系统不能正常工作,尤其是 AIX 的基本文件系统。如 / ( 根文件系统 )满则会导致用户不能 登录。用df - k查看。#df -k

19、( 查看 AIX 的基本文件系统 )1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95% 2599 22% / /dev/hd2 614400 28068 96% 22967 15% /usr /dev/hd9var 8192 4540 45% 649 32% /var /dev/hd3 167936 157968 6% 89 1% /tmp /dev/hd1 16384 5332 68% 1402 35% /home 除 /usr 文件系统,其他文件系统都不应太满,一般不超过 80%。处理方法 1:删除垃

20、圾文件#du -sk * |sort -rn |head 查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分 哪些目录是文件系统的 mount point ,哪些是文件系统的子目录)删除文件,释放空间。 有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这 个程序停止后空间才释放,有时甚至需要重起系统。处理方法 2:增加文件系统大小#smitty chjfs文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。2) 检查文件系统的完整性#umount# fsck -y注意:文件系统必须先umou nt,再做检查和修复,否则可导致未 知

21、的后果。3) 查看卷组信息 (lsvg -l vg_name) :有没有 stale 状态的逻辑卷。 若有,用 syncvg 命令修复 stale 逻辑卷。4) 检查内存交换区(paging space)使用率(Isps -s):使用率是否超过 70%,若有则用chps - sX pgname增加X个PP或用mkps - a - n - sX myvg在myvg上增加一个PP数为X的内存交换区。5) 小型机内存泄漏问题 小型机出现内存泄漏,即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法 FORK子进程,就会造成系统瘫痪。通常我

22、们可以用ps和sar命令来查看小型机内存和 CPU占用率的大概情况以及各进程的 内存和CPU占用率的发展趋势。(a)ps# ps gv|head -n 1; ps gv|egrep -v RSS | sort +6b -7 -n -r |head -n 5 PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND 15674 pts/11 A 0:01 0 36108 36172 32768 5 24 0.6 24.0 ./tctestp 22742 pts/11 A 0:00 0 20748 20812 32768 5 24

23、 0.0 14.0 ./backups 10256 pts/1 A 0:00 0 15628 15692 32768 5 24 0.0 11.0 ./tctestp 2064 - A 2:13 5 64 6448 xx 0 6392 0.0 4.0 kproc 1806 - A 0:20 0 16 6408 xx 0 6392 0.0 4.0 kproc SIZE virtual size (in the pagingspace), in kilobytes,RSS real-memory (resident set) size in kilobytes of the process.通过不同时间输出的比较,就能观察出内存和 C

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1