H3C核心交换机常见故障定位手册Word文档下载推荐.docx
《H3C核心交换机常见故障定位手册Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《H3C核心交换机常见故障定位手册Word文档下载推荐.docx(49页珍藏版)》请在冰豆网上搜索。
3.5.2故障处理步骤3-18
4报文转发故障处理4-22
4.1ping不通或丢包4-22
4.1.1故障描述4-22
4.1.2故障处理步骤4-22
4.2L2转发故障4-23
4.2.1故障描述4-23
4.2.2故障处理步骤4-23
4.3L3转发故障4-26
4.3.1故障描述4-26
4.3.2故障处理步骤4-27
4.4MPLS转发故障4-31
4.4.1故障描述4-31
4.4.2故障处理步骤4-32
5IRF类故障处理5-35
5.1IRF无法形成5-35
5.1.1故障描述5-35
5.1.2故障处理步骤5-35
5.2IRF出现分裂5-36
5.2.1故障描述5-36
5.2.2故障处理步骤5-36
6系统管理维护类故障处理6-37
6.1CPU占用率高6-37
6.1.1故障描述6-37
6.1.2故障处理步骤6-38
6.2内存占用率高6-44
6.2.1故障描述6-44
6.2.2故障处理步骤6-44
6.3资源不足6-45
6.3.1故障描述6-45
6.3.2故障处理步骤6-45
1故障处理通用流程
1.1信息搜集
为方便故障快速定位,建议不要关闭设备的信息中心(info-centerenable)。
缺省情况下信息中心处于开启状态。
1.1.1搜集设备日志信息
1.收集diag信息
执行displaydiagnostic-information命令后,请输入“Y”,以选择将diag保存到CF卡中(选择display会出现信息搜集不全)。
设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请耐心等待。
<
Sysname>
displaydiagnostic-information
Saveordisplaydiagnosticinformation(Y=save,N=display)?
[Y/N]:
y
Pleaseinputthefile
Diagnosticinformationisoutputtingto
Pleasewait...
Savesuccessfully.
也可以将diag信息直接显示出来(不建议这样搜集),搜集前请先执行screen-lengthdisable,避免屏幕输出被打断,如下:
screen-lengthdisable
%Screen-lengthconfigurationisdisabledforcurrentuser.
n
=================================================================
===============runningCPUusageinformation===============
=====CurrentCPUusageinfo=====
CPUUsageStat.Cycle:
19(Second)
CPUUsage:
5%
CPUUsageStat.Time:
2013-05-2110:
06:
25
CPUUsageStat.Tick:
0x19aa(CPUTickHigh)0xa57f44e1(CPUTickLow)
ActualStat.Cycle:
0x0(CPUTickHigh)0x39fb1e03(CPUTickLow)
……
2.其他注意事项
建议记录设备操作时的命令行显示信息,便于后续分析。
明确每一配置操作的影响,保证出现异常时配置能够被恢复。
保证当前配置与保存的配置一致,在IRF分裂、单板Fault、单板重启时请不要保存配置,否则可能会导致配置不一致。
操作执行后请等待一定时间来确认执行效果。
更换主控板时,请确保新、老主控板的软件版本一致。
1.1.2搜集其他运行信息
除设备日志信息外,还需要搜集设备的其他运行信息(包括但不限于以下):
故障现象、故障时间、网络拓扑、配置信息、现场处理措施及其实施后的现象效果;
操作日志记录、抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息等;
设备故障时单板、电源、风扇指示灯的状态或现场图片等
搜集信息越全面、越详细,越有利于故障的快速定位。
1.2故障定位和处理
设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。
如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。
1.2.1故障处理流程图
图1为故障处理的一般流程,可以大致判断出故障的类型。
图1故障处理流程图
故障分析时常用的方法有:
端口报文计数
报文镜像
端口抓包
配置QoS策略进行流量统计
Debug开关信息
对怀疑故障的模块交叉验证(比如:
怀疑某个端口光模块异常,可以将其他正常的光模块装在这个端口、将怀疑异常的光模块装到别的端口进行确认;
怀疑某个槽位单板异常,可以将别的正常单板装到这个槽位、将怀疑异常的单板装到本设备其他槽位或装到别的S12500-X上确认)。
1.2.2故障原因分类
1.单板故障
如单板出现异常重启、状态异常、无法启动、反复重启,请参照2.1单板故障处理。
2.电源故障
如设备电源指示灯异常、不断打印告警信息,请参照2.2电源处理。
3.风扇故障
如设备风扇指示灯异常、风扇停转、不断打印风扇告警信息,请参照2.3风扇故障处理。
4.温度告警
如设备打印温度告警,请参照2.4温度告警处理。
5.链路端口故障
如端口出现无法UP、频繁UP/DOWN、端口错包,请参照3链路端口故障处理。
6.硬件转发故障
如日志不断出现Forwardingfault、Boardfault:
chassisXslotY,pleasecheckit等打印信息,请参照4硬件转发故障处理。
7.报文转发故障
如出现ping、tracert丢包或不通、二层丢包或不通、三层丢包或不通、MPLS业务异常等,请参照5报文转发故障处理。
8.IRF故障
如设备无法形成IRF、IRF分裂等,请参照6IRF类故障处理。
9.CPU占用率高
如设备单板CPU占用率很高,请参照7.1CPU占用率处理。
10.内存占用率高
如设备单板内存占用率很高,请参照7.2内存占用率处理。
11.资源不足
如设备打印Noenoughresource资源不足,请参照7.3资源不足处理。
1.2.3故障模型及影响分析
图2是一个典型网络故障模型,为提高网络的可靠性,便于故障时快速切换恢复,组网中采用双上行链路,两台核心交换机之间互为备份。
图2典型网络故障模型
表1故障点影响分析
故障点
可能现象
影响范围
1(含光模块)
端口down
业务会切换
端口错包增加
影响该链路上的业务(影响范围大)
2
单板fault
单板芯片故障(单板状态正常)
该芯片上的业务异常
交换网板芯片故障会影响整机
软件异常
设备重启,业务会切换
协议模块异常一般会影响业务
3
同1
影响该接入层交换机上的业务(影响范围比故障点1小一些)
4
设备down
影响该设备下的业务
单板芯片故障
影响部分端口或整机业务
设备重启,影响设备下连业务
5
影响该链路上服务器涉及的业务
6
网络正常,业务异常
影响该服务器涉及业务
1.2.4常见的故障恢复措施
表2常见的故障恢复措施
故障原因
业务恢复动作
故障排除动作
硬件
隔离故障单板;
调整业务流向来隔离故障设备(如可以调整路由的优先级,避免流量经过故障设备,实现流量切换)
更换备件(备件上线应用前应进行必要的测试)
软件
重启故障设备的协议;
调整业务流向来隔离故障设备
升级版本(含补丁版本);
调整组网或配置消除引发故障因素
链路
调整业务流向来隔离故障线路
检修线路
其他
修改错误配置;
正确连接设备端口;
检修机房的电源、空调等支撑系统
2硬件类故障处理
2.1单板故障
2.1.1故障描述
单板状态异常(比如状态为Absent、Fault、Loading)。
单板出现异常重启、无法启动或不断重启等。
1.单板状态查询
单板状态包括:
Normal、Master、Slave、Absent、Fault、Loading。
Master与Slave分别表示主、备主控板。
Normal表示单板处于正常运行状态。
如果发现单板状态出现Fault、Offline、Loading,或该槽位存在单板但状态却是Absent的,说明单板可能出现故障,请参考2.1.2故障处理步骤处理。
displaydevice
SlotNo.BrdTypeBrdStatusSubslotSftVerPatchVer
0LSX1TGS48EC1Normal0S12510-X-1005None
1LSX1TGS48EC1Normal0S12510-X-1005None
2LSX1TGS48EC1Normal0S12510-X-1005None
3LSX1TGS48EC1Normal0S12510-X-1005None
4LSX1TGS48EC1Normal0S12510-X-1005None
5LSX1TGS48EC1Normal0S12510-X-1005None
6LSX1TGS48EC1Normal0S12510-X-1005None
7NONEAbsent0NONENone
8NONEAbsent0NONENone
9NONEAbsent0NONENone
10LSX1FAB10B1Normal0S12510-X-1005None
11LSX1FAB10B1Normal0S12510-X-1005None
12LSX1FAB10B1Normal0S12510-X-1005None
13LSX1FAB10B1Normal0S12510-X-1005None
14LSX1FAB10B1Normal0S12510-X-1005None
15LSX1FAB10B1Normal0S12510-X-1005None
16LSX1SUP10A1Standby0S12510-X-1005None
17LSX1SUP10A1Master0S12510-X-1005None
2.单板重启确认
可以通过logfile日志或displayversion查看设备启动后运行时间来确认单板有没有出现过重启,出现过重启的单板运行时间会明显短于设备上其他单板。
如果有单板出现过重启,请参考2.1.2故障处理步骤处理。
displayversion
H3CComwareSoftware,VersionRelease1005
Copyright(c)2004-2013HangzhouH3CTech.Co.,Ltd.Allrightsreserved.
H3CS12510-Xuptimeis0weeks,4days,1hour,55minutes
Lastrebootreason:
Coldreboot
Bootimage:
flash:
/S12500X-CMW710-BOOT-R1005.bin
Bootimageversion:
Release1005
CompiledNov11201315:
38:
46
Systemimage:
/S12500X-CMW710-SYSTEM-R1005.bin
Systemimageversion:
39:
12
LPU0:
Uptimeis0weeks,4days,1hour,52minutes
H3CS12510-XLPUwith1XLP308Processor
BOARDTYPE:
LSX1TGS48EC1
DRAM:
4096Mbytes
FLASH:
0Mbytes
NVRAM:
0Kbytes
PCB1Version:
VER.B
PCB2Version:
VER.C
BootromVersion:
108
CPLD1Version:
002
CPLD2Version:
CPLD3Version:
ReleaseVersion:
H3CS12510-X-1005
PatchVersion:
None
RebootCause:
ColdReboot
LPU1:
Uptimeis0weeks,4days,1hour,50minutes
LPU2:
2.1.2故障处理步骤
1.单板状态Absent、Fault
(1)确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重插入。
(2)将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板故障。
(3)检查单板面板、内部的指示灯是否发光。
(4)如果单板是主控板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。
(5)如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。
2.单板状态Loading
(1)检查单板面板、内部的指示灯是否发光。
(2)如果单板是主控板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。
(3)如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。
3.单板重启
这里的单板重启是指单板出现过重启,而当前单板状态是Normal。
(1)通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行reboot重启或进行单板上下电等操作。
(2)1005以上版本displayversion命令支持查询单板最近一次重启的原因。
比如下面示例中“Poweron”表示单板最近一次重启原因是掉电重启。
(3)如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。
(4)确认日志中重启时有无出现“SlotXneedtoberebootedautomatically!
”提示信息,这种情况是不正常的。
请更换单板并搜集故障信息并发送技术支持人员分析。
(5)确认日志中有无Hardwareerror提示信息,设备运行过程中单板出现Hardwareerror是不正常的。
请搜集信息发送给技术支持人员分析。
%@437307%May1522:
03:
02:
1222013S12508-XDIAG/3/ERROR:
Hardwareerror!
chassis=1,slot=7,code=0
%@437308%May1522:
chassis=1,slot=7,code=1
%@437309%May1522:
chassis=1,slot=7,code=2
(6)如无法确认,请搜集故障信息并发送技术支持人员分析。
2.2电源故障
2.2.1故障描述
设备电源指示灯异常或上报fault
2.2.2故障处理步骤
1.检查是否存在Fault或Absent状态的电源模块
使用displaypower命令显示电源模块状态,查看是否存在Fault或Absent状态的电源模块。
HP>
displaypower
PowerIDStateModeCurrent(A)Voltage(V)Power(W)
1NormalAC2.6053.81139.90
2Absent--------
3Absent--------
4NormalAC1.6053.8286.11
5Absent--------
6Absent--------
7Absent--------
8Absent--------
如果存在Absent状态的电源模块,请前往步骤3。
如果存在Fault状态的电源模块,请前往步骤4。
2.检查电源异常模块
查看电源异常状态:
Absent或者Fault.使用displayalarm命令。
[HP]displayalarm
SlotLevelInfo
-ERRORFan1isfaulty.
-INFOPower1isabsent.
-INFOPower2isabsent.
-INFOPower3isabsent.
-INFOPower5isabsent.
-INFOPower6isabsent.
-INFOPower7isabsent.
-INFOPower8isabsent.
3.检查Absent状态电源模块
如果电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装牢固。
如果电源模块槽位有电源模块在位且显示为Absent,请将电源模块拆卸后重新安装,然后使用displaypower命令查看对应槽位电源状态是否显示为Normal。
如果仍然显示为Absent状态,请更换新电源模块。
如果更换新电源模块后仍然显示为Absent状态,请前往步骤5。
4.检查Fault状态电源模块
如果存在Fault状态电源模块,表示该电源模块异常,无法供电。
电源处于Fault状态可能有以下原因:
(1).电源线可能没接稳而脱落。
如果电源线脱落,那么电源的电流和电压都会显示为0,电源状态显示为Fault。
请检查电源是否接线,接线后使用displaypower命令查看对应槽位电源状态是否显示为Normal。
如果没有恢复为Normal,请前往
(2)。
2FaultAC000/*电源没接线状态显示*/
(2).可能是电源模块本身温度过高导致。
如果电源模块上积灰较多可能引起电源模块温度升高。
请查看电源模块积灰情况,如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。
然后使用displaypower命令查看对应槽位电源状态是否显示为Normal。
如果没有恢复为Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。
如果该电源模块仍然显示为Fault状态,请更换电源模块。
如果更换新电源模块后仍然显示为Fault状态,请前往步骤5。
5.寻求技术支持
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
2.3风扇故障
2.3.1故障描述
风扇框指示灯异常,设备打印风扇异常信息,如:
%Sep2220:
32:
9472009H3Cxxxxxxx
2.3.2故障处理步骤
(1)风扇框在位时,用手放在设备出风口,判断是否有出风,如果出风口无风,则风扇异常
(2)检查风扇的入风口、出风口是否被挡住或积累太多灰尘。
(3)检查风扇框是否正常在位,各个风扇的状态是否正常、转速是否相差达到50%以上。
如存在异常,建议通过风扇框拔插、更换交叉进一步确认。
(4)如果故障不能恢复,需要更换该风扇框,但当前没有风扇框,请关闭设备以免发生温度高导致单板烧坏;
如果有降温