ImageVerifierCode 换一换
格式:DOCX , 页数:18 ,大小:33.49KB ,
资源ID:8679783      下载积分:12 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/8679783.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(IBM小机故障解决步骤.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

IBM小机故障解决步骤.docx

1、IBM小机故障解决步骤RS/6000小型机故障的基本定位方法一 故障的定义 .弄清楚系统发生了什么问题 .系统现在能做什么?不能做什么? .故障什么时候发生的? .有没有做平时不同的操作? .故障有没有规律?定时还是不定时?发生的频率有多高? .是一台机器出现故障还是多台机器故障?故障现象是否相同? .最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。 二 故障信息的收集 1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。 2)系统故障记录(errorlog) errdemon 进程在系统启动时自动运行 记录包括硬件、软件及其他操作信息 故障记录文件为/var/adm/r

2、as/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用) #errpt |more 列出简短出错信息 ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION 192AC071 0723100300 T 0 errdemon Error logging turned off 0E017ED1 0720131000 P H mem2 Memory failure 9DBCFDEE 0701000000 T 0 errdemon Error logging turned on 038F2580 0624

3、131000 U H scdisk0 UNDETERMINED ERROR AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION TIMESTAMP: MMDDHHMMYY (月日时分年) T(类型): P 永久; T 临时; U 未知 (永久性的错误应引起重视) C(分类): H 硬件; S 软件; O 用户; U未知 #errpt -d H 列出所有硬件出错信息 #errpt -d S 列出所有软件出错信息 #errpt -aj ERROR_ID 列出详细出错信息 # errpt -aj 0502f666 - ERROR_ID用大小写

4、均可 例: LABEL: SCSI_ERR1 ID: 0502F666 Date/Time: Jun 19 22:29:51 Sequence Number: 95 Machine ID: 123456789012 Node ID: host1 Class: H Type: PERM Resource Name: scsi0 Resource Class: adapter Resource Type: hscsi Location: 00-08 VPD: 选高级诊断(Advance Diagnostic) 选问题诊断(Problem Determination) 或 选系统检查(System

5、Verification) (选PD 会对系统错误记录进行分析) diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。 对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。 7)其他用于收集系统信息的命令 lsdev -C 系统设备信息 #lsdev -Cc disk hdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drive hdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive hdisk2 Defined 00-0

6、6-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息 #lspv hdisk0 0007821160af3d76 rootvg hdisk1 000782117f571294 rootvg hdisk2 0000000045c45bde datavg lsvg 查看卷组信息 #lsvg datavg VOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458b VG STATE: active PP SIZE: 4 megabyte(s) VG PERMISSION: read/write TOTAL PPs: 2

7、169 (8676 megabyt MAX LVs: 256 FREE PPs: 1 (4 megabytes) LVs: 3 USED PPs: 2168 (8672 megabyt OPEN LVs: 2 QUORUM: 2 TOTAL PVs: 1 VG DESCRIPTORS: 2 STALE PVs: 0 STALE PPs: 0 ACTIVE PVs: 1 AUTO ON: yes MAX PPs per PV: 2032 MAX PVs: 16 #lsvg -l rootvg rootvg: LV NAME TYPE LPs PPs PVs LV STATE MOUNT POIN

8、T hd5 boot 1 1 1 closed/syncd N/A . lv00 jfs 51 102 1 closed/stale /ibmcxx lv01 jfs 1 1 1 open/syncd /cics_regions lv02 jfs 4 4 1 open/syncd /var/mqm lslpp 查看文件组信息 # lslpp -L |grep 23100020 . devices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt 看某个文件组是否已安装,如以太网卡驱动。也用于查询补丁程序的版本。 lsattr 查看

9、设备参数设置 # lsattr -El ent2 busio 0x7fffc00 Bus I/O address False busintr 9 Bus interrupt level False intr_priority 3 Interrupt priority False tx_que_size 512 TRANSMIT queue size True rx_que_size 256 RECEIVE queue size True rxbuf_pool_size 384 RECEIVE buffer pool size True media_speed 10_Half_Duplex Me

10、dia Speed True use_alt_addr no Enable ALTERNATE ETHERNET address True alt_addr 0x000000000000 ALTERNATE ETHERNET address True ip_gap 96 Inter-Packet Gap True lscfg 查看VPD信息(Virtual Product Data) # lscfg -vl ssa1 DEVICE LOCATION DESCRIPTION ssa1 30-68 IBM SSA Enhanced RAID Adapter (14104500) Part Numb

11、er.097H0645 FRU Number.097H0645 - 备件号 Serial Number.C8217227 EC Level.0000F20825 Manufacturer.IBM053 ROS Level and ID.7201 - 微码版本 Loadable Microcode Level.04 Device Driver Level.00 Displayable Message.SSA-ADAPTER Device Specific.(Z0).DRAM=032 Device Specific.(Z1).CACHE=0 Device Specific.(Z2).0000000

12、62955dab2 Device Specific.(YL).P2-I7 Access a Root Volume Group Access this volume group and start a shell before mounting the file systems 格式化文件系统日志(jfslog) # /usr/sbin/logform /dev/hd8 检查修复文件系统 # fsck -y /dev/hd1 (/home 文件系统) # fsck -y /dev/hd2 (/usr 文件系统) # fsck -y /dev/hd3 (/tmp 文件系统) # fsck -y

13、/dev/hd4 (/ 文件系统) # fsck -y /dev/hd9var (/var 文件系统) . . 用 exit 命令退出,文件系统会自动 mount 起来。 重建bootimage # lslv -m hd5 找出bootimage所在的硬盘,如hdisk0 # bosboot -ad /dev/hdisk0 # bootlist -m normal /dev/hdisk0 重建启动顺序表。 重启动系统 # shutdown -Fr 如上述步骤不奏效 用系统备份带恢复系统。 如备份带不能恢复,用诊断光盘(Diagnostic CDROM)检查是否坏硬盘。 .CDE图形界面挂死 C

14、DE 运行时不要更改网络参数(如:主机名和IP 地址) 更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。 如CDE 已经挂死 远程 telnet 登录 找出所有dt有关的进程用kill命令杀掉 # ps -ef |grep dt . . # kill PID 检查当前主机名 # hostname tscf50 查看主机名是否对应有效的IP地址 # netstat -i |grep tscf50 tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0 更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。# smitty t

15、cpip 重新启动CDE界面 # /etc/rc.dt HACMP环境下可把主机名alias到127.0.0.1上 # cat /etc/hosts 127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvg .系统dump 发生在系统崩溃时,AIX会做dump(系统内存的快照)。 此时机器会显示闪动的888 102 xxx 0cx 代码: 0c9 系统dump 进行中。0c9状态可能会维持超过2分钟, 不要关电和按reset, 等待dump做完。 0c0 dump 成功完成,这时可以断电重起。 0c2 手动启动du

16、mp 功能 0c4 dump 设备空间不足,只有部分信息保存下来 0c5 不明原因导致dump 失败 一般dump是由于软件出错引起(888-102-207 除外),机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。 dump的有关设置 估算系统dump的大小,在系统最繁忙时(内存使用最多) # sysdumpdev -e 0453-041 Estimated dump size in bytes: 53477376 # lsps -a Page Space Physical Volume Volume Group Size %Used Ac

17、tive paging00 hdisk0 rootvg 480MB 1 yes hd6 hdisk1 rootvg 544MB 1 yes 当前的设置 #sysdumpdev -l primary /dev/hd6 - dump的主设备 secondary /dev/sysdumpnull copy directory /var/adm/ras - dump拷贝的目录 forced copy flag TRUE always allow dump TRUE hd6应比估算值稍大。 /var/adm/ras 是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump文

18、件。否则机器重起时会提示用户插入磁带。 dump文件名为vmcore.# 对PCI机型如要手动做dump,须把 always allow dump 先设成true。 # sysdumpdev -K dump打包 # snap -a -o /dev/rmt# 或 # snap -a -c 把/tmp/ibmsupt目录做成一个压缩文件 snap.tar.Z如果/tmp文件系统空间不够, 可用-d directory 参数指定别的目录代 替/tmp/ibmsupt 四 7133-D40 SSA磁盘柜的故障定位 当SSA磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显

19、示灯会闪动,在AIX的error log中也会有记载错误信息,如:DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等。请在出现问题后记录下代码,并致电IBM服务热线。 五 软件故障定位方法 软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。 1) 文件系统空间不够。 查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/ (根文件系统)满则会导致用户不能登录。用df k 查看。 # df -k (查看AIX的基本文件系统) Filesystem 1024-blocks Free

20、%Used Iused %Iused Mounted on /dev/hd4 24576 1452 95% 2599 22% / /dev/hd2 614400 28068 96% 22967 15% /usr /dev/hd9var 8192 4540 45% 649 32% /var /dev/hd3 167936 157968 6% 89 1% /tmp /dev/hd1 16384 5332 68% 1402 35% /home 除/usr文件系统,其他文件系统都不应太满,一般不超过80%。 处理方法1:删除垃圾文件 # du -sk * |sort -rn |head 查找出当前目录

21、下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。 处理方法2:增加文件系统大小 # smitty chjfs 文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。 2) 检查文件系统的完整性 # umount filesystem_name # fsck -y filesystem_name 注意:文件系统必须先umount,再做检查和修复,否则可导致未 知的后果。 3)查看卷组信息(lsvg -l vg_name): 有没有stale状态的逻辑卷。 若有,用syncvg 命令修复stale逻辑卷。 4)检查内存交换区(paging space)使用率(lsps -s): 使用率是否超过70% ,若有则用chps sX pgna

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1