EOS业务现场故障处理指导.docx
《EOS业务现场故障处理指导.docx》由会员分享,可在线阅读,更多相关《EOS业务现场故障处理指导.docx(17页珍藏版)》请在冰豆网上搜索。
![EOS业务现场故障处理指导.docx](https://file1.bdocx.com/fileroot1/2022-11/30/72dae760-425d-4099-9196-cd14eacac6aa/72dae760-425d-4099-9196-cd14eacac6aa1.gif)
EOS业务现场故障处理指导
EOS业务故障处理指导
目录
1、EOS故障处理思路2
1.1、EOS业务典型网络排障经常用到的信息2
1.2、故障处理流程图3
1.3、流程说明4
1.3.1详细了解现场情况,确定故障严重程度4
1.3.2检测设备工作状态和各接口连接情况4
1.3.3判定故障是数据层面还是传输层面4
1.3.4通过各种方法,缩小故障范围,定位故障原因5
2、EOP故障排查常用命令8
2.1查看槽位运行状态8
2.2查看系统当前告警9
2.3查看SDH接口告警10
2.4查看SDH接口开销设置及状态10
2.5交换盘和汇聚盘的MAC地址表信息12
2.6交换盘交换端口的统计信息14
2.7以太接口的统计信息15
2.8EOS接口的统计信息15
2.9交换盘环回检测状态17
3、故障信息反馈17
1、EOS故障处理思路
注意:
在处理业务中断或其它紧急问题时,需要注意以下几点:
1)、以尽快恢复业务为原则。
2)、应先分析故障现象,定位原因后再进行处理。
在原因不明的情况下应避免盲目操作,导致问题扩大化。
3)、处理过程中一定要作好故障记录,保存好故障的原始数据,如果当时不能处理,为后续研发进行分析提供原始资料。
1.1、EOS业务典型网络排障经常用到的信息
图:
EOS业务典型网络排查故障经常用到的信息
板卡当前的状态和告警。
MSAP的板卡前面板的指示灯,包含板卡系统灯、电源指示灯、总告警指示灯,还有接口的状态指示灯,这些指示灯状态需要特别的关注和确认。
还有,系统的当前告警和状态也需要检查。
如果有了上述信息,可以通过告警分析法,按照先高级、后低级,先高阶、再地阶的原则进行处理。
EOS接口、交换\以太端口统计和SDH的性能统计。
端口的数据统计,包含收发的数据统计,还包括一些错误帧的统计。
通过对这些端口统计的查看,对业务流的状态就有了清晰的了解,然后结合一些故障排除方法,例如环回测试法,就可以逐段缩小故障反馈,从而进一步找到故障点,进而排除故障。
MAC地址表。
MAC地址表可以在一定程度判断业务是否正常。
例如,在汇聚交换板卡上查看MAC地址表,可以清楚的看到相应端口和VLAN下面的MAC地址,如果某个业务接入通道有问题或业务接入终端设备有问题,就不能学到相应业务接入终端的MAC地址,可以粗略的判断业务是否正常。
环回检测状态。
MSAP的EOS汇聚板卡支持环回检测功能,可以检测出传输通道是否有环回,然后把相应环回的交换接口关闭掉,直到环回解除,这样可以保护其他的业务分支业务的安全性。
板卡软硬件版本信息。
查看现网的设备的版本信息,以便确认是否存在功能缺陷,或者为公司故障排查协作部门进一步分析问题或验证故障现象提供必要数据。
通过上述的信息,结合一定的故障排除方法,可以解决一些常见的故障,或者可以确认故障的范围,为后续排查提供参考。
所以,工程师要牢记这些常用的信息的查看方法,并且掌握如何应用这些信息。
1.2、故障处理流程图
1.3、流程说明
1.3.1详细了解现场情况,确定故障严重程度
处理故障之前,详细了解故障的现场情况是前提。
例如,需要详细确认:
Ø网络的拓扑情况,包括使用的设备型号,及对接设备型号,还有相应的连接关系;
Ø业务全部中断,还是部分中中断;
Ø如果是业务丢包,丢包的严重程度或丢包率,如果是视频业务的话,图像的状态如何,视频的业务占用带宽是否超过传输带宽;
详细了解了上述情况后,就可以采取相应的措施处理故障。
1.3.2检测设备工作状态和各接口连接情况
这一步是根据观察法来判断故障原因。
可以从下面几个方面进行判断设备的状态:
Ø网管上的当前告警列表或命令行下的showcurrent-alarm,可以查看到设备的当前告警情况。
根据告警分析法来判断相应的告警,进行判断故障点。
Ø通过命令行下全局模式下showslot命令可以查看板卡个工作状态,例如是在工作状态还是在注册或上电状态,网管盘对业务盘的轮询状态等。
ØMSAP的板卡前面板的指示灯。
包含板卡系统灯、电源指示灯、总告警指示灯,还有接口的状态指示灯,这些指示灯状态需要特别的关注是否有异常,如果是以太网业务卡要注意协商的状态,如果有数据收发灯,观察是否闪烁或闪烁频率。
1.3.3判定故障是数据层面还是传输层面
图:
EOS业务的数据层面和传输层面示意图
EOS业务是将以太网业务承载到传输网上进行传送,自然分为两个大层面:
一个是数据层面,另外一个是传输层面。
在出现业务异常的时候,建议先排查传输层面的问题,是因为传输层面有问题,通常会有明显的告警,通过告警分析法就可以逐个解决故障。
⏹传输层面常见的故障主要包含以下几个方面:
Ø交叉连接配置错误,包括MSAP交叉连接错误和传输友商的交叉连接错误;
Ø传输线路损伤,例如光纤断或连接错误、光接口没接触好、光衰耗过大等;
ØEOS业务对接问题,例如V5/K4字节不匹配,封装协议配置错误,LCAS设置不匹配等;
Ø业务板卡单盘故障或设计缺陷;
判断传输层面的故障重点查看以下命令信息:
在群路盘端口模式下showsdh-alarm(可以查看传输层面的告警信息)和showinterface(可以查看传输上的开销设置和实际状态信息)。
Showcrossconnect或showcrossconnectslotX(槽位号),如果打印的信息中显示的交叉连接前面为“-”,一般情况是时隙指派问题,正常时应为“*”。
另外特别要注意时隙编号与友商设备对接的顺序。
Showtimeslot或showtimeslotslotX(槽位号),重点检查时隙指派是否正确。
⏹数据层面常见的故障主要包含以下几个方面:
Ø数据配置错误,例如VLAN配置、链路聚合配置、USE-CORE-TAG配置等;
Ø网络中产生环回,导致影响整个数据网络;
Ø以太接口自协商问题或网线制作和接触问题;
Ø业务板卡单盘故障或设计缺陷。
检查数据层面的常用的命令是:
showrunningslotX(槽位号)可以检查某个槽位的配置是否正常;showloopdetection可以检查某个槽位的环回检测情况;在以太端口模式下执行showinterface可以查看端口的性能统计信息,为排查故障提供重要参考。
1.3.4通过各种方法,缩小故障范围,定位故障原因
通过上一步的初步判断,可以通过一些简单的方法,仅可能的逐步缩小范围,一步一步找到故障点,进而进行相应的措施,排除故障。
⏹传输层面问题常用排查思路:
通过分段环回查看Jx和V5\K4字节信息判断传输问题
原理介绍:
SDH的开销Jx、V5、K4一般有三个值,发送值、期望接收值和实际接收值。
如果通过逐段环回的方面,判断这些开销字节的发送值和实际接收值是否一致,就可以粗略判断被环回的段是否正常。
图:
通过分段环回查看Jx和V5\K4字节信息判断传输问题
举例说明:
例如上图,如何判断传输两侧的MSAP中间的传输是否正常,可以在汇聚侧的群路盘看某路VC12的j2字节状态,进入相应的群路口通过showinterface可以查看开销情况,假如这路VC12的J2字节的发送值是raisecom-opcom,通过线路不同环回点环回后,实际接收值也应该是raisecom-opcom,如果一致说明相应的传输线路是正常的,如果不一致则说明还有问题存在,则需要再进一步进行环回。
上图中共示意了5个环回点,按照环回点1的示意直接在汇聚侧的光口或某路VC12进行环回,可以判断汇聚侧MSAP是否正常;按照环回点5的示意,可以判断接入侧MSAP到汇聚侧MSAP的传输均没有问题。
排除故障时建议先从环回点5开始,然后逐步进行缩小环回范围。
如果通过环回测试,确认了接入侧和汇聚侧的传输没有问题,后续就需要再进行排除对接问题或数据层面的问题了。
经验:
通过交叉连接也可以起到环回的作用,但一定要先删除原有交叉再做如下交叉连接:
Raisecom(config)#crossconnectvc12source6/3/1sink6/3/1,如果在接入端的MSAP做上面的交叉,产生的效果是相应的VC12向线路侧环回,在汇聚侧的群路盘上会看到环回,如果查看J2和V5的接收值和发送值是否一致就可以判断线路状态了。
⏹数据层面故障常用排查思路:
通过业务流各点数据统计判断故障范围
原理介绍:
MSAP的EOS板卡和交换汇聚板卡均可以进行端口的性能统计。
例如交换盘SUB-ESW-2GE和8EOS-FE板卡,可以通过进行交换端口使用showinterface命令查看交换端口的收发包统计;对于8EOS-FE和EOSE-8FX,可以通过进入相应EOS接口使用showinterface命令查看EOS接口的收发包统计。
通过业务流向的各点的收发包统计,查看数据增量或者具体数据统计,来判读故障点。
图:
通过业务流各点数据统计判断故障范围方法的示意图
举例说明:
在接入侧一直使用电脑或路由设备发包,例如ping。
按照业务流向,首先查看EOS接入盘的FX-eth接口的数据统计,如果接收有数据变化,说明接收到数据;再进入EOS接入盘的EOS接口,查看是否有数据发送出去;然后再进入EOS汇聚盘的EOS接口,查看收发有数据接收。
上图中,在EOS汇聚盘EOS1接口处无数据变化,说明中间的传输出了问题或EOS汇聚盘\接入盘出了问题,判断好范围之后,再进行下一步定位。
经验1:
通过一些测试软件,例如sniffer,再加上各点的环回,也可以逐段判断故障点。
使用sniffer产生一定量的数据包,然后通过线路中各点的环回,然后使用sniffer进行收包统计,如果发出去的包与接收的包数量一致,则说明传输没有问题;如果接收的包少于发送出去的包,则说明线路质量不好;如果干脆没有接收到的包,则说明环回点这段业务不通,再进一步减少环回范围逐段判断故障点。
经验2:
通过在交换盘汇聚盘上查看MAC地址表也可以初步查看业务通道是否正常
MAC地址表可以在一定程度判断业务是否正常。
例如,在汇聚交换板卡上查看MAC地址表,可以清楚的看到相应端口和VLAN下面的MAC地址,如果某个业务接入通道有问题或业务接入终端设备有问题,就不能学到相应业务接入终端的MAC地址,可以粗略的判断业务是否正常。
2、故障排查常用命令
2.1查看槽位运行状态
Raisecom#showslot
slot1:
working,opcom3500-8eos-fe,hdlc,none,poll,
slot2:
null,
slot3:
null,
slot4:
null,
slot5:
null,
slot6:
working,opcom3500e-b-stm1-m,hdlc,none,poll,
slot7:
null,
slot8:
null,
slot9:
working,subesw2ge,hdlc,none,poll,
slot10:
null,
slot11:
null,
slot12:
null,
3board(s)inslot(s)
通过showslot命令可以初步了解板卡的工作状态。
常见的状态有以下几种:
Null:
未插入板卡;working:
板卡处于正常工作状态;powering:
板卡处于上电状态;:
板卡处于注册状态;?
dev:
不能正常识别的板卡。
当板卡处于上电或注册状态时,常见的故障原因是:
1、电源问题:
电源电压或功率偏低;2、网管盘通信问题;3、某个业务盘出现故障导致把背板通信总线失效。
当处于“?
dev”时,通常情况下网管盘的程序版本较低或非MSAP板卡,升级网管盘出现或确认板卡型号后一般可以解决。
2.2查看系统当前告警
Raisecom#showcurrent-alarm
1coldStart
LOCATION:
SLOT-0
2rcEntDiscoverTrap
LOCATION:
SLOT-6
3rcDeviceFanLostTrap
LOCATION:
SLOT-15ID-1
4rcDeviceFanLostTrap
LOCATION:
SLOT-15ID-2
5rcOptTrapSdhLosTrap
LOCATION:
SLOT-6STM1-OPT-2-0-0-0-0
6linkDown
LOCATION:
SLOT-3FX-ETH-3
7rcOptTrapSfpNotExistTrap
LOCATION:
SLOT-3FX-ETH-3
通过showcurrent-alarm可以查看系统当前的告警信息。
快速识别当前告警是非常重要的,下面简单介绍当前告警的识别方法。
上面图中的告警介绍如下:
5rcOptTrapSdhLosTrap
LOCATION:
SLOT-6STM1-OPT-2-0-0-0-0
说明:
6槽位的第二个光口出现SDH光口los告警;
6linkDown
LOCATION:
SLOT-3FX-ETH-3
说明:
第三槽位的第三个以太光口没有输入方向的光纤连接。
7rcOptTrapSfpNotExistTrap
LOCATION:
SLOT-3FX-ETH-3
说明:
第三槽位的第三个以太光口SFP模块不存在。
2.3查看SDH接口告警
Raisecom(config)#slot6
Raisecom(config-slot/6)#interfacestm1-opt1
传输层面正常时的状态:
Raisecom(config-stm1-opt/6/1)#showsdh-alarm
RSAlarm:
NOALARM
MSAlarm:
NOALARM
HP-1Alarm:
NOALARM
vc12-1-01:
NOALARM
传输层面异常时的告警:
Raisecom(config-stm1-opt/6/1)#showsdh-alarm
RSAlarm:
RS-LOSRS-LOFRS-OOFRS-SDRS-TIM
MSAlarm:
MS-AISMS-EXCMS-SD
HP-1Alarm:
AU-LOPAU-AISHP-TIMHP-PLMHP-RDIHP-LOMHP-UAS
vc12-1-01:
TU-LOPTU-AISLP-SLMLP-RFI
进入SDH接口查看相应的告警,是排除传输层面故障的基础方面。
上图中给出了传输层面正常时的状态,再生段、复用段、高阶和低阶均为“NOALARM”没有告警。
传输层面如有告警的时候在相应的段层就会详细的显示告警情况,在排除故障时,按照“先高级、后低级,先高阶、再低级”的原则。
例如上图中显示,再生段有RS-LOS告警,说明SDH接口输入的光纤没有接或断了,这时候需要先处理光线路,解决RS-LOS告警后,再处理后面的告警。
经验:
出现RS-TIM、HP-TIM和LP-TIM时,是由于jx字节的实际接收值与期望接收值不匹配造成的。
瑞斯康达的MSAP再出现上述告警时,是否下插AIS可以进行选择,默认情况下为不下插AIS信号,所以,及时出现了TIM告警也不会影响业务。
另外,新的SDH标准中新增定义了,出现TIM告警时认为相应的段层不可用,出现TIM告警的时候,同时也会存在UAS告警,所以,不用紧张,至于处理好jx字节就可以了。
但如果TIM和UAS不时同时存在,即只有UAS存在,说明相应段误码严重,需要进一步排除了。
2.4查看SDH接口开销设置及状态
Raisecom(config-stm1-opt/6/1)#showinterface
interface:
sdh1status:
updescription:
SLOT-6SDH-1
linecodeis:
CMI
linetypeis:
SDHLongSingeMode
OpticalModuletypeis:
OTHER-TYPE
als:
disable
loopback:
none
RegeneratorSection:
RSexc-threshold:
3RSsd-threshold:
6
RSes-threshold:
900RSses-threshold:
900
RSTIMInsertmsaisEnable:
DISABLE
j0mode:
sixteen-byte
j0transmit:
Raisecom-Opcom
j0expected:
Raisecom-Opcom
j0received:
Raisecom-Opcom
MultiplexSection:
MSexc-threshold:
3MSsd-threshold:
6
MSes-threshold:
900MSses-threshold:
900
MSEXCInsertmsaisEnable:
DISABLE
S1transmit:
(0f)h
S1received:
(0f)h
K1transmit:
(00)h
K1received:
(00)h
K2transmit:
(00)h
K2received:
(00)h
HigherPath:
VC4-1exc-threshold:
3VC4-1sd-threshold:
6
VC4-1es-threshold:
900VC4-1ses-threshold:
900
AU-1PJEPs-threshold:
65535AU-1PJENs-threshold:
65535
j1-mode:
sixteenbyte
j1transmit:
Raisecom-Opcom
j1expected:
Raisecom-Opcom
j1received:
Raisecom-Opcom
sdh:
stm-1c2transmit:
(02)h
sdh:
stm-1c2expected:
(02)h
sdh:
stm-1c2received:
(02)h
HPPLMInsertaisEnable:
DISABLE
HPEXCInsertaisEnable:
DISABLE
HPTIMInsertaisEnable:
DISABLE
sdh1/1vc121k4(b1(12~19))transmit:
(0d)h
sdh1/1vc121k4(b1(12~19))expected:
(0d)h
sdh1/1vc121k4(b1(12~19))received:
(0d)h
LowerPath:
lower-pathexc-threshold:
3lower-pathsd-threshold:
6
lower-pathes-threshold:
900lower-pathses-threshold:
900
TU-PJEPs-threshold:
65535TU-PJENs-threshold:
65535
PORT-1VC4-1:
sdh1/1vc121j2transmit:
Raisecom-Opcom
sdh1/1vc121j2expected:
Raisecom-Opcom
sdh1/1vc121j2received:
FF5261697365636F6D2D4F70636F6D20
sdh1/1vc121v5(b5~b7)transmit:
(101)b
sdh1/1vc121v5(b5~b7)expected:
(101)b
sdh1/1vc121v5(b5~b7)received:
(101)b
通过进入相应群路盘的SDH接口使用showinterface命令可以查看相应接口各段的开销设置情况和实际开销接收的情况。
在遇到传输层面的故障时,可以通过查看这些开销来排除设备对接问题,另外,结合环回测试法也可以判断传输链路是否正常。
2.5交换盘和汇聚盘的MAC地址表信息
Raisecom#showslot
slot1:
working,opcom3500-8eos-fe,hdlc,none,poll,
slot2:
null,
slot3:
null,
slot4:
null,
slot5:
null,
slot6:
working,opcom3500e-b-stm1-m,hdlc,none,poll,
slot7:
null,
slot8:
null,
slot9:
working,subesw2ge,hdlc,none,poll,
slot10:
null,
slot11:
null,
slot12:
null,
3board(s)inslot(s)
Raisecom#config
Configurationmode,oneconmmandinputpertime.EndwithCTRL-Z.
Raisecom(config)#slot9
Raisecom(config-slot/9)#mac-polling
Raisecom(config-slot/9)#showmac-address-tableall
2item(s)found
000e.5e03.7e80:
dynamic,vlanid109,port1
0015.58c6.0a8d:
dynamic,vlanid109,port13
Raisecom(config-slot/9)#slot1
Raisecom(config-slot/1)#mac-polling
Raisecom(config-slot/1)#showmac-address-tableal
2item(s)found
000e.5e03.7e80:
dynamic,vlanid109,port1
0015.58c6.0a8d:
dynamic,vlanid109,port9
说明:
8EOS-FE/FX和交换盘等业务汇聚板卡中具有交换功能,通过查看MAC地址表的信息,可以分析业务是否正常,或者某段传输是否正常。
上图所示中查看交换盘的MAC地址表,端口1学到分支路由器的MAC,一般情况下说明从分支到中心的业务方向是正常的。
端口13学到中心路由器的MAC地址,说明中心设备到交换盘的下行是正常的。
如果查看8EOS-FE的MAC地址表,显示的信息又可以进一步分析网络情况。
注意:
在查看MAC地址表的之前要在槽位模式下执行mac-polling命令。
2.6交换盘交换端口的统计信息
Raisecom(config-slot/1)#interswitchport1
Raisecom(config-eswif/1/1)#clearstatistic
SetSuccessfully.
Raisecom(config