SUN 小型机故障处理指导书.docx

上传人:b****4 文档编号:11578565 上传时间:2023-03-19 格式:DOCX 页数:18 大小:24.57KB
下载 相关 举报
SUN 小型机故障处理指导书.docx_第1页
第1页 / 共18页
SUN 小型机故障处理指导书.docx_第2页
第2页 / 共18页
SUN 小型机故障处理指导书.docx_第3页
第3页 / 共18页
SUN 小型机故障处理指导书.docx_第4页
第4页 / 共18页
SUN 小型机故障处理指导书.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

SUN 小型机故障处理指导书.docx

《SUN 小型机故障处理指导书.docx》由会员分享,可在线阅读,更多相关《SUN 小型机故障处理指导书.docx(18页珍藏版)》请在冰豆网上搜索。

SUN 小型机故障处理指导书.docx

SUN小型机故障处理指导书

目 录

第1章故障的定义..................................................................................................................1

第1章故障信息的收集...........................................................................................................1

1.1控制台信息...................................................................................................................1

1.2系统故障记录(messages)..............................................................................................1

1.3主机面板上的LED........................................................................................................2

1.4系统引导的故障记录......................................................................................................2

1.5MAIL............................................................................................................................3

1.6运行故障诊断程序(prtdiad-v)对系统硬件进行检查和诊断.................................................3

1.7其他用于收集系统信息的命令.........................................................................................4

第2章硬件故障定位方法.......................................................................................................1

2.1PROM..........................................................................................................................1

2.2系统的启动顺序............................................................................................................1

2.3系统引导的时候,发生停止............................................................................................1

2.4系统dump....................................................................................................................2

第3章软件故障定位方法.......................................................................................................1

3.1文件系统空间不够.........................................................................................................1

3.2检查文件系统的完整性..................................................................................................2

第4章常用的系统状态查询命令.............................................................................................1

第5章网络故障定位方法.......................................................................................................1

5.1网络不通的诊断过程......................................................................................................1

5.2网络配置的基本方法......................................................................................................1

第6章SUNCLUSTER环境下的排错......................................................................................1

6.1了解问题的存在............................................................................................................1

6.2判断问题的出处............................................................................................................1

 

第1章 故障的定义

根据以下这些方面来考虑故障定位:

●             弄清楚系统发生了什么问题

●             系统现在能做什么不能做什么

●             故障什么时候发生的

●             有没有做平时不同的操作

●             故障有没有规律定时还是不定时发生的频率有多高

●             是一台机器出现故障还是多台机器故障故障现象是否相同

●             最近有没有做改动如安装了新的硬件软件改变了系统的一些设置

 

第1章 故障信息的收集

收集故障信息对于判断诊断故障原因修复系统非常重要

1.1 控制台信息

通过系统控制台来收集系统的信息,系统启动时的硬件自检信息,系统日常运行时的信息。

如:

SunFire480R,NoKeyboard

Copyright1998-2002SunMicrosystems,Inc. Allrightsreserved.

OpenBoot 4.7.5,4096MBmemoryinstalled,Serial#54021334.

Ethernetaddress0:

3:

ba:

38:

4c:

d6,HostID:

83384cd6.

 

Rebootingwithcommand:

boot                                         

Bootdevice:

/pci@9,600000/SUNW,qlc@2/fp@0,0/disk@w21000004cfd98e33,0:

a Fileandargs:

SunOSRelease5.8VersionGeneric_117350-1864-bit

Copyright1983-2003SunMicrosystems,Inc. Allrightsreserved.

StartingVxVMrestoredaemon...

VxVMstartinginbootmode...

/usr/sbin/prtconf:

getexecname()failed

vxvm:

vxconfigd:

NOTICE:

atfvendor_info:

readlinkfails    for/dev/rdsk/c2t1d0s2:

Nosuchfileordirectory

NOTICE:

vxvm:

vxdmp:

addeddiskarrayOTHER_DISKS,datype=OTHER_DISKS

 

vxvm:

vxconfigd:

NOTICE:

Unabletoresolveduplicatediskid.

       Pleaserefertoreleasenotesandadminguideforpossibleaction/solution.

       Followingarethediskswithduplicatediskid:

       Vendor:

SEAGATEProduct:

ST336607FSUN36G-c1t1d0s2,c1t0d0s2

vxvm:

vxconfigd:

WARNING:

Detachingplexrootvol-01fromvolumerootvol

vxvm:

vxconfigd:

ERROR:

Cannotstartrootvolvolume,novalidplexes

vxvm:

vxconfigd:

ERROR:

Systemstartupfailed

syncingfilesystems...done

Programterminated

 

1.2 系统故障记录(messages)

syslog进程在系统启动时自动运行。

记录包括硬件软件及其他操作信息。

故障记录文件为/var/adm/messages,可备份下来或拷贝到别的机器上分析

#vi /var/adm/messages

列出简短出错信息

Apr 303:

10:

20s9svr2in.mpathd[1967]:

[ID472890daemon.error]phyint_inst_v4_sockinit

:

setsockoptIP_DONTFAILOVER(inetrf2):

Optionnotsupportedbyprotocol

Apr 303:

11:

20s9svr2lastmessagerepeated3times

Apr 303:

11:

40s9svr2in.mpathd[1967]:

[ID472890daemon.error]phyint_inst_v4_sockinit

:

setsockoptIP_DONTFAILOVER(inetrf2):

Optionnotsupportedbyprotocol

 

Apr 303:

26:

08s9svr2rf:

[ID885255kern.notice]NOTICE:

rf1:

linkdowndetected:

mii_

stat:

7809<100_BASEX_FD,100_BASEX,10_BASE_FD,10_BASE,CANAUTONEG,EXTENDED>restartingauto

-negotiation

Apr 303:

26:

10s9svr2rf:

[ID345559kern.info]rf0:

auto-negotiationdone

Apr 303:

26:

10s9svr2rf:

[ID345559kern.info]rf1:

auto-negotiationdone

Apr 303:

26:

10s9svr2rf:

[ID103695kern.info]rf0:

Linkup:

100Mbpsfullduplexwith

outflowcontrol

Apr 303:

26:

10s9svr2rf:

[ID103695kern.info]rf1:

Linkup:

100Mbpsfullduplexwith

outflowcontrol

Apr 303:

26:

12s9svr2cl_runtime:

[ID273354kern.notice]NOTICE:

CMM:

Nodes9svr1(nod

eid=1)isdead

在每条记录中,有事件发生的时间,事件的id,以及事件的类型,在查看messages文件时,特别要注意,事件类型为error,或者warnning的项目

 

1.3 主机面板上的LED

根据具体机型的不同,LED灯的状态不同,具体含义,要参照各个产品的说明文档。

通常设备运行正常时,LED灯的状态是绿灯。

 

1.4 系统引导的故障记录

在系统引导的过程当中,系统的一些信息,包括正常的和错误的信息都不会直接显示出来,而是记录在日志文件中,我们可以在系统中用dmesg命令来显示这些信息。

如:

#dmesg

 

WedApr1017:

04:

48EDT2002

Apr1016:

39:

35s9svr2genunix:

[ID936769kern.info]devinfo0is/pseudo/devinfo@0

Apr1016:

39:

35s9svr2cl_runtime:

[ID499756kern.notice]NOTICE:

CMM:

Nodes9svr2:

joinedcluster.

Apr1016:

39:

36s9svr2cl_runtime:

[ID487827kern.notice]NOTICE:

CCR:

Waitingforrepositorysynchronizationtofinish.

Apr1016:

39:

37s9svr2pseudo:

[ID129642kern.info]pseudo-device:

clprivnet0

Apr1016:

39:

57s9svr2rootnex:

[ID349649kern.info]ffb0atroot:

UPA0x1e0x0

Apr1016:

39:

57s9svr2genunix:

[ID936769kern.info]ffb0is/SUNW,ffb@1e,0

Apr1016:

40:

14s9svr2xntpd[379]:

[ID301315daemon.notice]tickadj=5,tick=10000,tvu_maxslew=495,est.hz=100

Apr1016:

40:

14s9svr2xntpd[379]:

[ID798731daemon.notice]usingkernelphase-lockloop0041

Apr1016:

40:

14s9svr2lastmessagerepeated1time

Apr1016:

40:

14s9svr2Cluster.Framework:

[ID801593daemon.notice]stdout:

releasingreservationsforscsi-2diskssharedwiths9svr1

Apr1016:

40:

21s9svr2Cluster.Framework:

[ID801593daemon.notice]stdout:

resettingscsibusessharedwithnon-clusternodes

Apr1016:

42:

12s9svr2in.mpathd[1962]:

[ID472890daemon.error]phyint_inst_v4_sockinit:

setsockoptIP_DONTFAILOVER(inetrf2):

Optionnotsupportedbyprotocol

 

说明:

与message文件一样,在每条记录中,都有事件发生的时间,事件的id,以及事件的类型,在查看messages文件时,特别要注意,事件类型为error,或者warnning的项目。

1.5 MAIL

通常系统出现故障后,系统会定时提醒root用户,向root用户发mail,报告出错信息。

如:

#mail

From*************.bTueApr 906:

53:

562002

Date:

Tue,9Apr200206:

53:

56+0800(CST)

From:

Super-User<*************.b>

Message-Id:

<************************************.b>

To:

*************.b

Subject:

AttemptingVxVMrelocationonhosts9svr1

Content-Length:

940

 

Relocationwasnotsuccessfulforsubdisksondiskrootdisk_1in

volumelvtest1indiskgrouprootdg. Noreplacementwasmadeandthe

diskisstillunusable.

Thefollowingvolumeshavestorageonrootdisk_1:

 

lvtest1

lvtest3

rootdisk_16vol

rootvol

swapvol

 

Thesevolumesarestillusable,butthetheredundancyof

thosevolumesisreduced.AnyRAID-5volumeswithstorageon

thefaileddiskmaybecomeunusableinthefaceoffurther

failures.

1.6 运行故障诊断程序(prtdiad-v)对系统硬件进行检查和诊断

当发现有硬件故障时,或者怀疑有硬件故障时,应立即使用prtdiag。

如:

#prtdiag-v

SystemConfiguration:

 SunMicrosystems sun4uSunUltra30UPA/PCI(UltraSPARC-II296MHz)

Systemclockfrequency:

99MHz

Memorysize:

512Megabytes

 

=========================CPUs=========================

 

                   Run  Ecache  CPU   CPU

Brd CPU  Module  MHz    MB   Impl.  Mask

--- --- ------- ----- ------ ------ ----

 0    0    0     296    2.0  US-II   2.0

 

 

=========================IOCards=========================

 

    Bus  Freq

Brd Type MHz  Slot       Name                         Model

--- ---- ---- ---------- ---------------------------- --------------------

 0  PCI   33    On-Board network-SUNW,hme                                

 0  PCI   33    On-Board scsi-glm/disk(block)        Symbios,53C875    

 0  PCI   33  pcibslot2 ethernet-pci10ec,8139                           

 0  PCI   33        pcib scsi-glm/disk(block)        Symbios,53C875    

 0  PCI   33           - ethernet-pci10ec,8139                           

 0  PCI   66  pciaslot1 ethernet-pci1113,1211                           

 0  UPA   99          30 FFB,SingleBuffered         SUNW,501-4789     

NofailuresfoundinSystem

 

注意看各个设备项目检查后的状态,和最后的结论。

1.7 其他用于收集系统信息的命令

收集系统explorer信息

# cd/opt/SUNWexplo/bin/

./explorer

cd..

cdoutput

ls-l

 

在这个目录下将看到一个最新的explorer文件,接着再用ftp(bin)方式下载到PC上进行分析。

 

 

#prtconf

SystemConfiguration:

 SunMicrosystems sun4u

Memorysize:

256Megabytes

SystemPeripherals(SoftwareNodes):

 

SUNW,Ultra-30

   packages(drivernotattached)

       terminal-emulator(drivernotattached)

       deblocker(drivernotattache

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1