PTN典型故障解决.docx
《PTN典型故障解决.docx》由会员分享,可在线阅读,更多相关《PTN典型故障解决.docx(22页珍藏版)》请在冰豆网上搜索。
PTN典型故障解决
典型故障及处理方法
一.1带内DCN故障处理
介绍带内DCN出现故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步骤等。
A、前提条件:
查看工程文档,确认网元各个单板均使用配套版本。
B、故障现象:
处理带内DCN的故障时,通常会遇到以下故障现象。
✧网管与网元通信中断,网管上网元图标变灰色,网元脱管。
✧网管操作命令没有响应。
若响应中断时间持续超过2分钟,网管与网元通信中断。
✧网管查询信息部分丢失。
C、故障处理流程图:
带内DCN故障处理流程图如下图所示。
图 带内DCN故障处理流程图
D、对系统的影响
✧网元和网管通信中断后,通过该网元来保持与网管通信的网元,若无其它方法连接网管,也将处于脱管状态。
其它网元则无影响。
✧若承载带内DCN的物理通道故障,则会影响该物理通道上承载的其它业务。
E、可能原因:
对应故障处理流程图,带内DCN故障原因如下
✧全网内的网元ID、网元IP或者子网掩码存在冲突。
✧故障网元的带内DCN端口未使能,或对接端口参数配置不一致。
✧故障网元与网管之间的物理连接中断。
✧接收信号丢失或接收光功率过低,无法提取DCN报文。
✧单板故障。
✧DCN穿越的第三方网络不健康,引入DCN风暴或DCN中断。
✧带内DCN通道带宽配置过低。
✧故障网元主控板正在复位或发生了主备倒换,带内DCN报文得不到响应。
a)处理带内DCN故障时
✧如果网元通信中断,先处理网关网元的故障,再处理非网关网元的故障。
✧如果网元通信未中断,先处理非网关网元的故障,再处理网关网元的故障,避免造成非网关网元脱管。
b)当网元脱管时,可以使用其它工具尝试登录故障网元
✧如果可以正常登录,说明设备的通信正常,问题可能由网管引入,联系负责网管维护的工程师处理。
✧如果不能登录,可以采用PC机直连设备的ETH端口。
如果可以通信,说明是线路问题,否则是设备问题。
H、操作步骤
✧全网内的网元ID、网元IP或者子网掩码存在冲突
✓此原因一般由全网中新添加的网元引入。
对照网元规划表,检查新网元的网元ID、网元IP、子网掩码的配置是否正确。
✓若配置错误,或与现有网元存在冲突,请正确配置新网元的参数。
✧故障网元的带内DCN端口未使能,或对接端口参数配置不一致
✓检查是否存在光纤或电缆连接到默认使能DCN的端口。
如果没有,换用默认使能DCN的端口。
✓检查链路两端的端口是否已使能DNC。
如果没有,使能端口的带内DCN。
✓检查两端端口的参数配置是否一致,例如以太网端口的工作模式。
如果不一致,修改参数配置使两端一致。
✧故障网元与网管之间的物理连接中断
✓检查故障网元的网线或光纤是否从端口中脱落。
如果是,重新插上网线或光纤。
✧接收信号丢失或接收光功率过低,无法提取DCN报文
✓检查网元的历史告警中是否存在R_LOS、ETH_LOS或IN_PWR_ABN等告警。
✧单板故障
✓查询单板的历史告警中是否存在HARD_BAD或TEMP_OVER告警。
✓若存在,更换上报告警的单板。
✧DCN穿越的第三方网络不健康,引入DCN风暴或DCN中断
✓若带内DCN通信穿越了第三方网络,需要检查第三方网络中是否存在端口环回、物理通道中断等故障。
✓如果存在,需要立即排除第三方网络中的故障。
✧带内DCN通道带宽配置过低
✓当端口配置的业务数量超过某一数目时,可能造成部分查询信息丢失,此时需要适当增大带内DCN通道的带宽配置。
✧故障网元主控板正在复位或发生了主备倒换,带内DCN报文得不到响应
✓观察主控板的PROG指示灯是否处于绿灯闪烁状态,若是,则主控板正处于复位状态。
等PROG指示灯常亮绿色时,主控板完成复位,DCN将自动恢复连接。
若主控板发生了主备倒换,“当前板”将自动软复位。
✓若DCN未恢复响应,检查其它单板是否发生保护倒换,造成带内DCN报文处于重路由状态。
✓若存在单板发生保护倒换,等待DCN完成重路由后,将自动恢复响应。
一.2MPLSTunnel故障处理
介绍MPLSTunnel创建失败或中断等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。
A.故障现象:
处理MPLSTunnel的故障时,通常会遇到以下故障现象
✧MPLSTunnel创建失败,业务不通。
✧MPLSTunnel故障,业务中断。
✧保护倒换失败,业务中断或出现丢包、误码。
B.对系统的影响
若MPLSTunnel故障,则会影响网络中由该Tunnel承载的业务,但由其他Tunnel承载的业务正常。
C.可能原因:
MPLSTunnel故障原因如下
✧路由失败。
✧交叉创建失败。
✧Tunnel所在的物理链路故障。
✧保护倒换失败。
D.操作步骤
✧路由失败
✓对照网络规划,检查Tunnel两端端口参数配置是否正确,例如端口IP。
修正不正确的端口参数后,再次创建Tunnel。
✓检查Tunnel首末节点所在的网元间是否存在完整可达的链路。
若不存在,修复链路中残缺或故障的部分。
✓可选:
如果Tunnel配置了带宽,检查链路带宽是否满足Tunnel的要求。
✧交叉创建失败
✓检查网络中是否存在不同的网元使用相同的网段。
如果存在,需要修改端口IP地址。
✓检查Tunnel是否配置了不兼容的保护特性。
✓查看Tunnel所经过的网元或单板,确认已创建Tunnel个数是否已经达到了最大值。
如果是,需要重新规划或删除冗余的Tunnel。
✧Tunnel所在的物理链路故障
✓查询系统中是否存在HARD_BAD、R_LOS、ETH_LOS、PPP_LCP_FAIL或MP_DOWN等告警,指示Tunnel使用的物理链路故障。
若存在,优先处理这些告警。
✓查看并处理系统中存在的下列告警。
MPLS_TUNNEL_BDI
MPLS_TUNNEL_Excess
MPLS_TUNNEL_FDI
MPLS_TUNNEL_LOCV
MPLS_TUNNEL_MISMATCH
MPLS_TUNNEL_MISMERGE
MPLS_TUNNEL_SD
MPLS_TUNNEL_SF
MPLS_TUNNEL_UNKNOWN
✓检查对端设备是否存在单板故障或网元复位等异常状况。
排除对端设备的异常情况。
一.3PW故障处理
介绍PW创建失败或中断等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。
A.故障现象:
处理PW故障时,通常会遇到以下故障现象
✧PW创建失败,业务不通。
✧PW故障,业务中断或出现丢包、误码。
B.对系统的影响:
若PW出现故障,则会影响承载在该PW上的业务,但其他PW承载的业务正常
C.可能原因:
PW故障原因如下
✧LDP会话创建失败,PW创建不成功。
✧物理链路故障,LDP会话失效。
✧PW交叉建立失败。
✧PW所在的Tunnel故障。
✧PWAPS保护倒换失败。
D.操作步骤
✧LDP会话创建失败,PW创建不成功。
✓检查PW两端网元是否配置了LDP对等体。
若未配置,需要重新配置LDP对等体。
✓检查PW两端参数是否配置正确。
举例如下:
▪“控制字使用策略”,是否一端配置为“必须使用”,另一端配置为“不使用”。
▪对Ethernet业务,两端的“MTU”是否配置一致。
▪对CES业务,两端的“RTP头”、“报文装载时间”等参数是否配置一致。
✧物理链路故障,LDP会话失效
✓检查PW首末节点间物理链路是否正常,系统中是否存在HARD_BAD、LASER_MOD_ERR、R_LOS或ETH_LOS等告警。
✓若存在,优先处理HARD_BAD、LASER_MOD_ERR、R_LOS或ETH_LOS告警。
✓查询并处理系统中存在的PW_DOWN、PW_DROPPKT_EXC或PW_EXC_TRAFFIC告警。
✓查看并处理系统中存在的下列告警。
MPLS_PW_BDI
MPLS_PW_Excess
MPLS_PW_LOCV
MPLS_PW_MISMATCH
MPLS_PW_MISMERGE
MPLS_PW_SD
MPLS_PW_SF
MPLS_PW_UNKNOWN
-
✓检查对端设备是否存在单板故障或网元复位等异常状况。
排除对端设备的异常情况。
✧PW交叉建立失败:
查看PW所经过的网元或单板,确认已创建PW个数是否已经达到了最大值。
如果是,需要重新规划或删除冗余的PW
✧PW所在的Tunnel故障:
Tunnel故障
✧PWAPS保护倒换失败:
查看并处理系统中存在的下列告警
PWAPS_LOST
PWAPS_PATH_MISMATCH
PWAPS_SWITCH_FAIL
PWAPS_TYPE_MISMATCH
一.4CES业务故障处理
介绍CES业务出现中断或误码等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。
A.故障现象:
处理CES业务的故障时,通常会遇到以下故障现象,如下表所示。
消除设备上报的告警后,故障也随之排除
表 CES业务常见故障现象一览表
现象
上报告警
CES业务中断
HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR
T_ALOS、UP_E1AIS或DN_E1AIS
R_LOS、LASER_MOD_ERR、LSR_WILL_DIE、IN_PWR_ABN、TEM_HA或LSR_BCM_ALM
MPLS_TUNNEL_LOCV
PW_DOWN
CES业务出现误码,通信质量下降
HARD_BAD、TEMP_OVER或BUS_ERR
SYNC_C_LOS或LTI
LASER_MOD_ERR、LSR_WILL_DIE、IN_PWR_ABN、TEM_HA或LSR_BCM_ALM
CES_LOSPKT_EXC、CES_MISORDERPKT_EXC、CES_STRAYPKT_EXC、CES_JTRUDR_EXC或CES_JTROVR_EXC
B.故障处理流程图:
CES业务故障处理流程图如下图所示。
图 CES业务故障处理流程图
C.对系统的影响:
网络中CES业务中断或出现误码,通信会中断或质量下降。
若故障由于SCA或XCS单板造成,则可能影响设备接入的其它业务。
D.CES业务故障原因如下
✧单板硬件故障、温度过高或板间通信故障,无法正常工作。
✧处理板、接口板的接口接入的信号丢失或恶化。
✧承载CES业务的Tunnel或PW中断。
✧网元的同步时钟源级别丢失,或同步时钟源丢失。
✧承载CES业务的PW在单位时间内丢包数、错包数或抖动缓冲超过阈值。
E.注意事项:
严禁眼睛靠近或直视光接口或光纤接头。
光接口及光纤内部的激光束会伤害眼睛。
F.操作步骤
✧单板硬件故障、温度过高或板间通信故障,无法正常工作
✓查询系统当前告警,是否有HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR告警,并确定上报告警的单板。
✓处理HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR告警,排除故障。
✧处理板、接口板的接口接入的信号丢失或恶化
✓查询系统是否有T_ALOS、UP_E1AIS或DN_E1AIS告警。
✓查询系统是否有R_LOS告警。
✓查询系统是否有LASER_MOD_ERR、LSR_WILL_DIE、IN_PWR_ABN、TEM_HA或LSR_BCM_ALM告警。
✧承载CES业务的Tunnel或PW中断
✓查询系统是否存在MPLS_TUNNEL_LOCV告警。
✓查询系统是否存在PW_DOWN告警。
✧网元的同步时钟源级别丢失,或同步时钟源丢失
✓查询系统是否有SYNC_C_LOS或LTI告警。
✧承载CES业务的PW在单位时间内丢包数、错包数或抖动缓冲超过阈值
✓查询系统是否有CES_LOSPKT_EXC、CES_MISORDERPKT_EXC或CES_STRAYPKT_EXC告警。
✓查询系统是否有CES_JTRUDR_EXC或CES_JTROVR_EXC告警。
一.5以太网业务故障处理
介绍以太网业务出现中断或丢包故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。
A.故障现象:
处理以太网业务的故障时,通常会遇到以下故障现象,如下表所示。
消除设备上报的告警后,故障也随之排除。
表 以太网业务常见故障现象一览表
现象
上报告警
以太网业务中断
HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR
ETH_LOS、ETH_AUTO_LINK_DOWN或MAC_FCS_EXC
R_LOS
ETH_LINK_DOWN
LOOP_ALM
ETH_EFM_LOOPBACK
LASER_SHUT或LSR_WILL_DIE
以太网业务出现丢包或错包
HARD_BAD、TEMP_OVER或BUS_ERR
LSR_WILL_DIE
MAC_FCS_EXC或FLOW_OVER
ETH_CFM_UNEXPERI
B.故障处理流程图
以太网业务故障处理流程图如下图所示。
图 以太网业务故障处理流程图
C.对系统的影响:
网络中以太网业务中断、出现丢包或错包,若故障由于SCA或XCS单板造成,则可能影响设备接入的其它业务。
D.以太网业务故障原因如下
✧单板硬件故障、温度过高或板间通信故障,无法正常工作。
✧接收信号丢失。
✧原因3:
以太网网口连接错误,端口协商失败。
✧原因4:
端口配置了环回。
✧接口流量限值配置过低,源宿两端接口配置不一致。
E.工具、仪表和材料:
光功率计
F.注意事项:
严禁眼睛靠近或直视光接口或光纤接头。
光接口及光纤内部的激光束会伤害眼睛。
G.操作步骤
✧单板硬件故障、温度过高或板间通信故障,无法正常工作。
✓查询系统当前告警,是否有HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR告警,并确定上报告警的单板。
✧接收信号丢失
✓查询系统是否有ETH_LOS或ETH_AUTO_LINK_DOWN告警。
✓查询系统是否有R_LOS告警。
✓查询系统是否有LASER_SHUT或LSR_WILL_DIE告警。
✓查询系统是否有MAC_FCS_EXC告警。
✧以太网网口连接错误,端口协商失败
✓查询系统是否有ETH_LINK_DOWN告警。
✧端口配置了环回
✓查询系统是否有LOOP_ALM告警。
✓查询系统是否有ETH_EFM_LOOPBACK告警。
✧接口流量限值配置过低,源宿两端接口配置不一致
✓查询系统是否有FLOW_OVER告警。
✓查询系统是否有ETH_CFM_UNEXPERI告警。
一.6时钟故障处理
介绍时钟源丢失、时钟信号劣化等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。
A.故障现象
处理时钟故障时,通常会遇到以下故障现象,如下表所示。
消除设备上报的告警后,故障也随之排除。
表 时钟常见故障现象一览表
现象
上报告警
业务出现误码
SYNC_C_LOS、LTI、S1_SYN_CHANGE、SYN_BAD、EXT_SYNC_LOS、CLK_NO_TRACE_MODE或EXT_TIME_LOC
B.对系统的影响
网络中时钟源丢失或时钟源质量下降时,会影响跟踪该时钟源的业务的质量,产生指针调整和误码率增高。
C.造成时钟故障的原因如下
✧优先级表中业务板上的同步时钟源级别丢失。
✧同步时钟源丢失,网元的时钟处于不正常状态。
✧在SSM模式下时钟源发生倒换,网元跟踪的时钟源也发生了倒换。
✧同步时钟源的信号劣化。
✧外部时钟源丢失。
✧时钟进入非跟踪工作模式。
✧外部时间源丢失。
D.注意事项:
如果没有工作正常的备交叉板进行保护,硬复位交叉时钟板可能会引起业务完全中断。
E.操作步骤
✧优先级表中业务板上的同步时钟源级别丢失
✓查询系统是否有SYNC_C_LOS告警。
✧同步时钟源丢失,网元的时钟处于不正常状态
✓查询系统是否有LTI告警。
✧在SSM模式下时钟源发生倒换,网元跟踪的时钟源也发生了倒换
✓查询系统是否有S1_SYN_CHANGE告警。
✧同步时钟源的信号劣化
✓查询系统是否有SYN_BAD告警。
✧外部时钟源丢失
✓查询系统是否有EXT_SYNC_LOS告警。
✧时钟进入非跟踪工作模式
✓查询系统是否有CLK_NO_TRACE_MODE告警。
✧外部时间源丢失
✓查询系统是否有EXT_TIME_LOC告警。
一.7QoS故障处理
介绍QoS出现故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步骤等。
A.前提条件:
配置了QoS策略的业务连接正常。
B.故障现象
✧业务已经配置了带宽,但实际业务流量超出限制,造成业务流量偏高,导致拥塞。
✧不同业务之间互相抢占带宽,被抢占带宽的业务丢包或误码。
✧业务优先级较低,但抢占了优先级较高的业务的带宽,造成高优先级的业务丢包或误码。
✧业务处理单板上报BUS_ERR告警,单板的业务处理能力受限。
QoS故障时,系统一般会上报以下告警,如下表所示。
清除设备上报的告警,故障也随之排除。
表 QoS常见故障现象一览表
现象
上报告警
单板业务处理能力受限
BUS_ERR
业务流量偏高,出现拥塞
FLOW_OVER
PW_EXC_TRAFFIC
业务带宽被抢占,出现丢包或误码
PW_DROPPKT_EXC
CES_LOSPKT_EXC
CES_JTROVR_EXC
CES_JTRUDR_EXC
C.故障处理流程图
QoS故障处理流程图如下图所示。
图 QoS故障处理流程图
D.对系统的影响
✧若单板的业务处理能力受限,部分业务可能得不到处理,会出现丢包或误码。
✧业务流量偏高时,端口可能拥塞,若其它业务带宽被抢占,可能会丢包或误码。
E.QoS故障原因如下
✧业务处理单板存在BUS_ERR告警,单板业务处理能力受限。
✧网元未配置QoS策略。
✧配置业务时选择了错误的QoS策略。
✧Tunnel或PW的配置带宽过低。
✧单板故障,配置数据未下达到单板。
F.操作步骤
✧业务处理单板存在BUS_ERR告警,单板业务处理能力受限
✓检查系统是否存在BUS_ERR告警。
✧网元未配置QoS策略
✓检查网元是否配置了相关QoS策略,包括WRED策略,WFQ调度策略,端口策略,V-UNIIngress策略,V-UNIEgress策略,PW策略,QinQ策略或ATM策略等。
✓若没有,重新配置遗漏的QoS策略。
✧配置业务时选择了错误的QoS策略
✓检查业务当前配置的QoS策略是否适用。
若不适用,重新配置新的策略。
✧Tunnel或PW的配置带宽过低
✓检查Tunnel或PW当前配置带宽是否满足业务流量需求。
若带宽配置过低,需要重新配置带宽。
✧单板故障,配置数据未下达到单板
✓检查系统是否存在HARD_BAD等硬件类告警。
✓检查系统是否存在LSR_WILL_DIE等激光器相关告警。
一.8LAG故障处理
介绍LAG出现故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步骤等。
A.故障现象
处理LAG故障时,通常会遇到以下故障现象,如下表所示。
清除设备上报的告警,故障也随之排除。
表 LAG常见故障现象一览表
现象
上报告警
聚合组失效,所有成员端口不可用,业务中断
LAG_DOWN
聚合组成员端口不可用,业务丢包
LAG_MEMBER_DOWN
LOOP_ALM
ETH_EFM_LOOPBACK
ETH_LOS
ETH_LINK_DOWN
B.故障处理流程图
LAG故障处理流程图如下图所示。
图 LAG故障处理流程图
C.对系统的影响
✧若聚合组失效,则承载的业务中断,但不影响其它通道承载的业务。
✧若聚合组成员失效,则负载分担模式下有可能因为带宽不够导致持续丢包。
如果是非负载分担模式则会引发链路倒换,短暂丢包。
D.LAG故障原因如下
✧聚合组两端网元配置错误。
✧聚合组成员端口工作模式设置为半双工。
✧聚合组成员端口配置了环回。
✧聚合组成员端口连接故障或丢失。
E.操作步骤
✧聚合组两端网元配置错误
✓是否存在LAG_DOWN或LAG_MEMBER_DOWN告警。
✓检查聚合组两端网元配置是否不一致,若不一致,修改两端网元配置一致后,查看告警是否清除。
✧聚合组成员端口工作模式设置为半双工
✓检查聚合组各成员端口的工作模式是否设置为半双工,若存在,修改端口工作模式为全双工。
✧聚合组成员端口配置了环回
✓检查聚合组各成员端口是否存在LOOP_ALM告警。
若存在,重新设置端口的环回状态,清除LOOP_ALM告警。
✓检查聚合组各成员端口是否存在ETH_EFM_LOOPBACK告警。
若存在,禁止远端环回,清除ETH_EFM_LOOPBACK告警。
✧聚合组成员端口连接故障或丢失
✓检查聚合组各成员端口是否存在ETH_LOS或ETH_LINK_DOWN告警。
✓若存在,清除ETH_LOS或ETH_LINK_DOWN告警。