H3C核心交换机常见故障定位手册 2Word格式文档下载.docx
《H3C核心交换机常见故障定位手册 2Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《H3C核心交换机常见故障定位手册 2Word格式文档下载.docx(46页珍藏版)》请在冰豆网上搜索。
![H3C核心交换机常见故障定位手册 2Word格式文档下载.docx](https://file1.bdocx.com/fileroot1/2022-10/28/0f741b4b-4e60-4e88-9fda-7800628f36b4/0f741b4b-4e60-4e88-9fda-7800628f36b41.gif)
%Screen-lengthconfigurationisdisabledforcurrentuser.
n
=================================================================
===============runningCPUusageinformation===============
=====CurrentCPUusageinfo=====
CPUUsageStat.Cycle:
19(Second)
CPUUsage:
5%
CPUUsageStat.Time:
2013-05-2110:
06:
25
CPUUsageStat.Tick:
0x19aa(CPUTickHigh)0xa57f44e1(CPUTickLow)
ActualStat.Cycle:
0x0(CPUTickHigh)0x39fb1e03(CPUTickLow)
……
其他注意事项
建议记录设备操作时的命令行显示信息,便于后续分析。
明确每一配置操作的影响,保证出现异常时配置能够被恢复。
保证当前配置与保存的配置一致,在IRF分裂、单板Fault、单板重启时请不要保存配置,否则可能会导致配置不一致。
操作执行后请等待一定时间来确认执行效果。
更换主控板时,请确保新、老主控板的软件版本一致。
搜集其他运行信息
除设备日志信息外,还需要搜集设备的其他运行信息(包括但不限于以下):
故障现象、故障时间、网络拓扑、配置信息、现场处理措施及其实施后的现象效果;
操作日志记录、抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息等;
设备故障时单板、电源、风扇指示灯的状态或现场图片等
搜集信息越全面、越详细,越有利于故障的快速定位。
故障定位和处理
设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。
如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。
故障处理流程图
图1为故障处理的一般流程,可以大致判断出故障的类型。
故障分析时常用的方法有:
端口报文计数
报文镜像
端口抓包
配置QoS策略进行流量统计
Debug开关信息
对怀疑故障的模块交叉验证(比如:
怀疑某个端口光模块异常,可以将其他正常的光模块装在这个端口、将怀疑异常的光模块装到别的端口进行确认;
怀疑某个槽位单板异常,可以将别的正常单板装到这个槽位、将怀疑异常的单板装到本设备其他槽位或装到别的S12500-X上确认)。
故障原因分类
单板故障
如单板出现异常重启、状态异常、无法启动、反复重启,请参照2.1单板故障处理。
电源故障
如设备电源指示灯异常、不断打印告警信息,请参照2.2电源处理。
风扇故障
如设备风扇指示灯异常、风扇停转、不断打印风扇告警信息,请参照2.3风扇故障处理。
温度告警
如设备打印温度告警,请参照2.4温度告警处理。
链路端口故障
如端口出现无法UP、频繁UP/DOWN、端口错包,请参照3链路端口故障处理。
硬件转发故障
如日志不断出现Forwardingfault、Boardfault:
chassisXslotY,pleasecheckit等打印信息,请参照4硬件转发故障处理。
报文转发故障
如出现ping、tracert丢包或不通、二层丢包或不通、三层丢包或不通、MPLS业务异常等,请参照5报文转发故障处理。
IRF故障
如设备无法形成IRF、IRF分裂等,请参照6IRF类故障处理。
CPU占用率高
如设备单板CPU占用率很高,请参照7.1CPU占用率处理。
内存占用率高
如设备单板内存占用率很高,请参照7.2内存占用率处理。
资源不足
如设备打印Noenoughresource资源不足,请参照7.3资源不足处理。
故障模型及影响分析
图2是一个典型网络故障模型,为提高网络的可靠性,便于故障时快速切换恢复,组网中采用双上行链路,两台核心交换机之间互为备份。
典型网络故障模型
故障点影响分析
故障点
可能现象
影响范围
1(含光模块)
端口down
业务会切换
端口错包增加
影响该链路上的业务(影响范围大)
2
单板fault
单板芯片故障(单板状态正常)
该芯片上的业务异常
交换网板芯片故障会影响整机
软件异常
设备重启,业务会切换
协议模块异常一般会影响业务
3
同1
影响该接入层交换机上的业务(影响范围比故障点1小一些)
4
设备down
影响该设备下的业务
单板芯片故障
影响部分端口或整机业务
设备重启,影响设备下连业务
5
影响该链路上服务器涉及的业务
6
网络正常,业务异常
影响该服务器涉及业务
常见的故障恢复措施
故障原因
业务恢复动作
故障排除动作
硬件
隔离故障单板;
调整业务流向来隔离故障设备(如可以调整路由的优先级,避免流量经过故障设备,实现流量切换)
更换备件(备件上线应用前应进行必要的测试)
软件
重启故障设备的协议;
调整业务流向来隔离故障设备
升级版本(含补丁版本);
调整组网或配置消除引发故障因素
链路
调整业务流向来隔离故障线路
检修线路
其他
修改错误配置;
正确连接设备端口;
检修机房的电源、空调等支撑系统
硬件类故障处理
故障描述
单板状态异常(比如状态为Absent、Fault、Loading)。
单板出现异常重启、无法启动或不断重启等。
单板状态查询
单板状态包括:
Normal、Master、Slave、Absent、Fault、Loading。
Master与Slave分别表示主、备主控板。
Normal表示单板处于正常运行状态。
如果发现单板状态出现Fault、Offline、Loading,或该槽位存在单板但状态却是Absent的,说明单板可能出现故障,请参考2.1.2故障处理步骤处理。
displaydevice
SlotNo.BrdTypeBrdStatusSubslotSftVerPatchVer
0LSX1TGS48EC1Normal0S12510-X-1005None
1LSX1TGS48EC1Normal0S12510-X-1005None
2LSX1TGS48EC1Normal0S12510-X-1005None
3LSX1TGS48EC1Normal0S12510-X-1005None
4LSX1TGS48EC1Normal0S12510-X-1005None
5LSX1TGS48EC1Normal0S12510-X-1005None
6LSX1TGS48EC1Normal0S12510-X-1005None
7NONEAbsent0NONENone
8NONEAbsent0NONENone
9NONEAbsent0NONENone
10LSX1FAB10B1Normal0S12510-X-1005None
11LSX1FAB10B1Normal0S12510-X-1005None
12LSX1FAB10B1Normal0S12510-X-1005None
13LSX1FAB10B1Normal0S12510-X-1005None
14LSX1FAB10B1Normal0S12510-X-1005None
15LSX1FAB10B1Normal0S12510-X-1005None
16LSX1SUP10A1Standby0S12510-X-1005None
17LSX1SUP10A1Master0S12510-X-1005None
单板重启确认
可以通过logfile日志或displayversion查看设备启动后运行时间来确认单板有没有出现过重启,出现过重启的单板运行时间会明显短于设备上其他单板。
如果有单板出现过重启,请参考2.1.2故障处理步骤处理。
displayversion
H3CComwareSoftware,VersionRelease1005
Copyright(c)2004-2013HangzhouH3CTech.Co.,Ltd.Allrightsreserved.
H3CS12510-Xuptimeis0weeks,4days,1hour,55minutes
Lastrebootreason:
Coldreboot
Bootimage:
flash:
/S12500X-CMW710-BOOT-R1005.bin
Bootimageversion:
Release1005
CompiledNov11201315:
38:
46
Systemimage:
/S12500X-CMW710-SYSTEM-R1005.bin
Systemimageversion:
39:
12
LPU0:
Uptimeis0weeks,4days,1hour,52minutes
H3CS12510-XLPUwith1XLP308Processor
BOARDTYPE:
LSX1TGS48EC1
DRAM:
4096Mbytes
FLASH:
0Mbytes
NVRAM:
0Kbytes
PCB1Version:
VER.B
PCB2Version:
VER.C
BootromVersion:
108
CPLD1Version:
002
CPLD2Version:
CPLD3Version:
ReleaseVersion:
H3CS12510-X-1005
PatchVersion:
None
RebootCause:
ColdReboot
LPU1:
Uptimeis0weeks,4days,1hour,50mi