PTN典型故障解决.docx

上传人:b****7 文档编号:10816436 上传时间:2023-02-23 格式:DOCX 页数:22 大小:512.01KB
下载 相关 举报
PTN典型故障解决.docx_第1页
第1页 / 共22页
PTN典型故障解决.docx_第2页
第2页 / 共22页
PTN典型故障解决.docx_第3页
第3页 / 共22页
PTN典型故障解决.docx_第4页
第4页 / 共22页
PTN典型故障解决.docx_第5页
第5页 / 共22页
点击查看更多>>
下载资源
资源描述

PTN典型故障解决.docx

《PTN典型故障解决.docx》由会员分享,可在线阅读,更多相关《PTN典型故障解决.docx(22页珍藏版)》请在冰豆网上搜索。

PTN典型故障解决.docx

PTN典型故障解决

典型故障及处理方法

一.1带内DCN故障处理

介绍带内DCN出现故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步骤等。

A、前提条件:

查看工程文档,确认网元各个单板均使用配套版本。

B、故障现象:

处理带内DCN的故障时,通常会遇到以下故障现象。

✧网管与网元通信中断,网管上网元图标变灰色,网元脱管。

✧网管操作命令没有响应。

若响应中断时间持续超过2分钟,网管与网元通信中断。

✧网管查询信息部分丢失。

C、故障处理流程图:

带内DCN故障处理流程图如下图所示。

图 带内DCN故障处理流程图

D、对系统的影响

✧网元和网管通信中断后,通过该网元来保持与网管通信的网元,若无其它方法连接网管,也将处于脱管状态。

其它网元则无影响。

✧若承载带内DCN的物理通道故障,则会影响该物理通道上承载的其它业务。

E、可能原因:

对应故障处理流程图,带内DCN故障原因如下

✧全网内的网元ID、网元IP或者子网掩码存在冲突。

✧故障网元的带内DCN端口未使能,或对接端口参数配置不一致。

✧故障网元与网管之间的物理连接中断。

✧接收信号丢失或接收光功率过低,无法提取DCN报文。

✧单板故障。

✧DCN穿越的第三方网络不健康,引入DCN风暴或DCN中断。

✧带内DCN通道带宽配置过低。

✧故障网元主控板正在复位或发生了主备倒换,带内DCN报文得不到响应。

a)处理带内DCN故障时

✧如果网元通信中断,先处理网关网元的故障,再处理非网关网元的故障。

✧如果网元通信未中断,先处理非网关网元的故障,再处理网关网元的故障,避免造成非网关网元脱管。

b)当网元脱管时,可以使用其它工具尝试登录故障网元

✧如果可以正常登录,说明设备的通信正常,问题可能由网管引入,联系负责网管维护的工程师处理。

✧如果不能登录,可以采用PC机直连设备的ETH端口。

如果可以通信,说明是线路问题,否则是设备问题。

H、操作步骤

✧全网内的网元ID、网元IP或者子网掩码存在冲突

✓此原因一般由全网中新添加的网元引入。

对照网元规划表,检查新网元的网元ID、网元IP、子网掩码的配置是否正确。

✓若配置错误,或与现有网元存在冲突,请正确配置新网元的参数。

✧故障网元的带内DCN端口未使能,或对接端口参数配置不一致

✓检查是否存在光纤或电缆连接到默认使能DCN的端口。

如果没有,换用默认使能DCN的端口。

✓检查链路两端的端口是否已使能DNC。

如果没有,使能端口的带内DCN。

✓检查两端端口的参数配置是否一致,例如以太网端口的工作模式。

如果不一致,修改参数配置使两端一致。

✧故障网元与网管之间的物理连接中断

✓检查故障网元的网线或光纤是否从端口中脱落。

如果是,重新插上网线或光纤。

✧接收信号丢失或接收光功率过低,无法提取DCN报文

✓检查网元的历史告警中是否存在R_LOS、ETH_LOS或IN_PWR_ABN等告警。

✧单板故障

✓查询单板的历史告警中是否存在HARD_BAD或TEMP_OVER告警。

✓若存在,更换上报告警的单板。

✧DCN穿越的第三方网络不健康,引入DCN风暴或DCN中断

✓若带内DCN通信穿越了第三方网络,需要检查第三方网络中是否存在端口环回、物理通道中断等故障。

✓如果存在,需要立即排除第三方网络中的故障。

✧带内DCN通道带宽配置过低

✓当端口配置的业务数量超过某一数目时,可能造成部分查询信息丢失,此时需要适当增大带内DCN通道的带宽配置。

✧故障网元主控板正在复位或发生了主备倒换,带内DCN报文得不到响应

✓观察主控板的PROG指示灯是否处于绿灯闪烁状态,若是,则主控板正处于复位状态。

等PROG指示灯常亮绿色时,主控板完成复位,DCN将自动恢复连接。

若主控板发生了主备倒换,“当前板”将自动软复位。

✓若DCN未恢复响应,检查其它单板是否发生保护倒换,造成带内DCN报文处于重路由状态。

✓若存在单板发生保护倒换,等待DCN完成重路由后,将自动恢复响应。

一.2MPLSTunnel故障处理

介绍MPLSTunnel创建失败或中断等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。

A.故障现象:

处理MPLSTunnel的故障时,通常会遇到以下故障现象

✧MPLSTunnel创建失败,业务不通。

✧MPLSTunnel故障,业务中断。

✧保护倒换失败,业务中断或出现丢包、误码。

B.对系统的影响

若MPLSTunnel故障,则会影响网络中由该Tunnel承载的业务,但由其他Tunnel承载的业务正常。

C.可能原因:

MPLSTunnel故障原因如下

✧路由失败。

✧交叉创建失败。

✧Tunnel所在的物理链路故障。

✧保护倒换失败。

D.操作步骤

✧路由失败

✓对照网络规划,检查Tunnel两端端口参数配置是否正确,例如端口IP。

修正不正确的端口参数后,再次创建Tunnel。

✓检查Tunnel首末节点所在的网元间是否存在完整可达的链路。

若不存在,修复链路中残缺或故障的部分。

✓可选:

如果Tunnel配置了带宽,检查链路带宽是否满足Tunnel的要求。

✧交叉创建失败

✓检查网络中是否存在不同的网元使用相同的网段。

如果存在,需要修改端口IP地址。

✓检查Tunnel是否配置了不兼容的保护特性。

✓查看Tunnel所经过的网元或单板,确认已创建Tunnel个数是否已经达到了最大值。

如果是,需要重新规划或删除冗余的Tunnel。

✧Tunnel所在的物理链路故障

✓查询系统中是否存在HARD_BAD、R_LOS、ETH_LOS、PPP_LCP_FAIL或MP_DOWN等告警,指示Tunnel使用的物理链路故障。

若存在,优先处理这些告警。

✓查看并处理系统中存在的下列告警。

MPLS_TUNNEL_BDI

MPLS_TUNNEL_Excess

MPLS_TUNNEL_FDI

MPLS_TUNNEL_LOCV

MPLS_TUNNEL_MISMATCH

MPLS_TUNNEL_MISMERGE

MPLS_TUNNEL_SD

MPLS_TUNNEL_SF

MPLS_TUNNEL_UNKNOWN

✓检查对端设备是否存在单板故障或网元复位等异常状况。

排除对端设备的异常情况。

一.3PW故障处理

介绍PW创建失败或中断等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。

A.故障现象:

处理PW故障时,通常会遇到以下故障现象

✧PW创建失败,业务不通。

✧PW故障,业务中断或出现丢包、误码。

B.对系统的影响:

若PW出现故障,则会影响承载在该PW上的业务,但其他PW承载的业务正常

C.可能原因:

PW故障原因如下

✧LDP会话创建失败,PW创建不成功。

✧物理链路故障,LDP会话失效。

✧PW交叉建立失败。

✧PW所在的Tunnel故障。

✧PWAPS保护倒换失败。

D.操作步骤

✧LDP会话创建失败,PW创建不成功。

✓检查PW两端网元是否配置了LDP对等体。

若未配置,需要重新配置LDP对等体。

✓检查PW两端参数是否配置正确。

举例如下:

▪“控制字使用策略”,是否一端配置为“必须使用”,另一端配置为“不使用”。

▪对Ethernet业务,两端的“MTU”是否配置一致。

▪对CES业务,两端的“RTP头”、“报文装载时间”等参数是否配置一致。

✧物理链路故障,LDP会话失效

✓检查PW首末节点间物理链路是否正常,系统中是否存在HARD_BAD、LASER_MOD_ERR、R_LOS或ETH_LOS等告警。

✓若存在,优先处理HARD_BAD、LASER_MOD_ERR、R_LOS或ETH_LOS告警。

✓查询并处理系统中存在的PW_DOWN、PW_DROPPKT_EXC或PW_EXC_TRAFFIC告警。

✓查看并处理系统中存在的下列告警。

MPLS_PW_BDI

MPLS_PW_Excess

MPLS_PW_LOCV

MPLS_PW_MISMATCH

MPLS_PW_MISMERGE

MPLS_PW_SD

MPLS_PW_SF

MPLS_PW_UNKNOWN

-

✓检查对端设备是否存在单板故障或网元复位等异常状况。

排除对端设备的异常情况。

✧PW交叉建立失败:

查看PW所经过的网元或单板,确认已创建PW个数是否已经达到了最大值。

如果是,需要重新规划或删除冗余的PW

✧PW所在的Tunnel故障:

Tunnel故障

✧PWAPS保护倒换失败:

查看并处理系统中存在的下列告警

PWAPS_LOST

PWAPS_PATH_MISMATCH

PWAPS_SWITCH_FAIL

PWAPS_TYPE_MISMATCH

一.4CES业务故障处理

介绍CES业务出现中断或误码等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。

A.故障现象:

处理CES业务的故障时,通常会遇到以下故障现象,如下表所示。

消除设备上报的告警后,故障也随之排除

表 CES业务常见故障现象一览表

现象

上报告警

CES业务中断

HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR

T_ALOS、UP_E1AIS或DN_E1AIS

R_LOS、LASER_MOD_ERR、LSR_WILL_DIE、IN_PWR_ABN、TEM_HA或LSR_BCM_ALM

MPLS_TUNNEL_LOCV

PW_DOWN

CES业务出现误码,通信质量下降

HARD_BAD、TEMP_OVER或BUS_ERR

SYNC_C_LOS或LTI

LASER_MOD_ERR、LSR_WILL_DIE、IN_PWR_ABN、TEM_HA或LSR_BCM_ALM

CES_LOSPKT_EXC、CES_MISORDERPKT_EXC、CES_STRAYPKT_EXC、CES_JTRUDR_EXC或CES_JTROVR_EXC

B.故障处理流程图:

CES业务故障处理流程图如下图所示。

图 CES业务故障处理流程图

C.对系统的影响:

网络中CES业务中断或出现误码,通信会中断或质量下降。

若故障由于SCA或XCS单板造成,则可能影响设备接入的其它业务。

D.CES业务故障原因如下

✧单板硬件故障、温度过高或板间通信故障,无法正常工作。

✧处理板、接口板的接口接入的信号丢失或恶化。

✧承载CES业务的Tunnel或PW中断。

✧网元的同步时钟源级别丢失,或同步时钟源丢失。

✧承载CES业务的PW在单位时间内丢包数、错包数或抖动缓冲超过阈值。

E.注意事项:

严禁眼睛靠近或直视光接口或光纤接头。

光接口及光纤内部的激光束会伤害眼睛。

F.操作步骤

✧单板硬件故障、温度过高或板间通信故障,无法正常工作

✓查询系统当前告警,是否有HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR告警,并确定上报告警的单板。

✓处理HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR告警,排除故障。

✧处理板、接口板的接口接入的信号丢失或恶化

✓查询系统是否有T_ALOS、UP_E1AIS或DN_E1AIS告警。

✓查询系统是否有R_LOS告警。

✓查询系统是否有LASER_MOD_ERR、LSR_WILL_DIE、IN_PWR_ABN、TEM_HA或LSR_BCM_ALM告警。

✧承载CES业务的Tunnel或PW中断

✓查询系统是否存在MPLS_TUNNEL_LOCV告警。

✓查询系统是否存在PW_DOWN告警。

✧网元的同步时钟源级别丢失,或同步时钟源丢失

✓查询系统是否有SYNC_C_LOS或LTI告警。

✧承载CES业务的PW在单位时间内丢包数、错包数或抖动缓冲超过阈值

✓查询系统是否有CES_LOSPKT_EXC、CES_MISORDERPKT_EXC或CES_STRAYPKT_EXC告警。

✓查询系统是否有CES_JTRUDR_EXC或CES_JTROVR_EXC告警。

一.5以太网业务故障处理

介绍以太网业务出现中断或丢包故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。

A.故障现象:

处理以太网业务的故障时,通常会遇到以下故障现象,如下表所示。

消除设备上报的告警后,故障也随之排除。

表 以太网业务常见故障现象一览表

现象

上报告警

以太网业务中断

HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR

ETH_LOS、ETH_AUTO_LINK_DOWN或MAC_FCS_EXC

R_LOS

ETH_LINK_DOWN

LOOP_ALM

ETH_EFM_LOOPBACK

LASER_SHUT或LSR_WILL_DIE

以太网业务出现丢包或错包

HARD_BAD、TEMP_OVER或BUS_ERR

LSR_WILL_DIE

MAC_FCS_EXC或FLOW_OVER

ETH_CFM_UNEXPERI

B.故障处理流程图

以太网业务故障处理流程图如下图所示。

图 以太网业务故障处理流程图

C.对系统的影响:

网络中以太网业务中断、出现丢包或错包,若故障由于SCA或XCS单板造成,则可能影响设备接入的其它业务。

D.以太网业务故障原因如下

✧单板硬件故障、温度过高或板间通信故障,无法正常工作。

✧接收信号丢失。

✧原因3:

以太网网口连接错误,端口协商失败。

✧原因4:

端口配置了环回。

✧接口流量限值配置过低,源宿两端接口配置不一致。

E.工具、仪表和材料:

光功率计

F.注意事项:

严禁眼睛靠近或直视光接口或光纤接头。

光接口及光纤内部的激光束会伤害眼睛。

G.操作步骤

✧单板硬件故障、温度过高或板间通信故障,无法正常工作。

✓查询系统当前告警,是否有HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR告警,并确定上报告警的单板。

✧接收信号丢失

✓查询系统是否有ETH_LOS或ETH_AUTO_LINK_DOWN告警。

✓查询系统是否有R_LOS告警。

✓查询系统是否有LASER_SHUT或LSR_WILL_DIE告警。

✓查询系统是否有MAC_FCS_EXC告警。

✧以太网网口连接错误,端口协商失败

✓查询系统是否有ETH_LINK_DOWN告警。

✧端口配置了环回

✓查询系统是否有LOOP_ALM告警。

✓查询系统是否有ETH_EFM_LOOPBACK告警。

✧接口流量限值配置过低,源宿两端接口配置不一致

✓查询系统是否有FLOW_OVER告警。

✓查询系统是否有ETH_CFM_UNEXPERI告警。

一.6时钟故障处理

介绍时钟源丢失、时钟信号劣化等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。

A.故障现象

处理时钟故障时,通常会遇到以下故障现象,如下表所示。

消除设备上报的告警后,故障也随之排除。

表 时钟常见故障现象一览表

现象

上报告警

业务出现误码

SYNC_C_LOS、LTI、S1_SYN_CHANGE、SYN_BAD、EXT_SYNC_LOS、CLK_NO_TRACE_MODE或EXT_TIME_LOC

B.对系统的影响

网络中时钟源丢失或时钟源质量下降时,会影响跟踪该时钟源的业务的质量,产生指针调整和误码率增高。

C.造成时钟故障的原因如下

✧优先级表中业务板上的同步时钟源级别丢失。

✧同步时钟源丢失,网元的时钟处于不正常状态。

✧在SSM模式下时钟源发生倒换,网元跟踪的时钟源也发生了倒换。

✧同步时钟源的信号劣化。

✧外部时钟源丢失。

✧时钟进入非跟踪工作模式。

✧外部时间源丢失。

D.注意事项:

如果没有工作正常的备交叉板进行保护,硬复位交叉时钟板可能会引起业务完全中断。

E.操作步骤

✧优先级表中业务板上的同步时钟源级别丢失

✓查询系统是否有SYNC_C_LOS告警。

✧同步时钟源丢失,网元的时钟处于不正常状态

✓查询系统是否有LTI告警。

✧在SSM模式下时钟源发生倒换,网元跟踪的时钟源也发生了倒换

✓查询系统是否有S1_SYN_CHANGE告警。

✧同步时钟源的信号劣化

✓查询系统是否有SYN_BAD告警。

✧外部时钟源丢失

✓查询系统是否有EXT_SYNC_LOS告警。

✧时钟进入非跟踪工作模式

✓查询系统是否有CLK_NO_TRACE_MODE告警。

✧外部时间源丢失

✓查询系统是否有EXT_TIME_LOC告警。

一.7QoS故障处理

介绍QoS出现故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步骤等。

A.前提条件:

配置了QoS策略的业务连接正常。

B.故障现象

✧业务已经配置了带宽,但实际业务流量超出限制,造成业务流量偏高,导致拥塞。

✧不同业务之间互相抢占带宽,被抢占带宽的业务丢包或误码。

✧业务优先级较低,但抢占了优先级较高的业务的带宽,造成高优先级的业务丢包或误码。

✧业务处理单板上报BUS_ERR告警,单板的业务处理能力受限。

QoS故障时,系统一般会上报以下告警,如下表所示。

清除设备上报的告警,故障也随之排除。

表 QoS常见故障现象一览表

现象

上报告警

单板业务处理能力受限

BUS_ERR

业务流量偏高,出现拥塞

FLOW_OVER

PW_EXC_TRAFFIC

业务带宽被抢占,出现丢包或误码

PW_DROPPKT_EXC

CES_LOSPKT_EXC

CES_JTROVR_EXC

CES_JTRUDR_EXC

 

C.故障处理流程图

QoS故障处理流程图如下图所示。

图 QoS故障处理流程图

D.对系统的影响

✧若单板的业务处理能力受限,部分业务可能得不到处理,会出现丢包或误码。

✧业务流量偏高时,端口可能拥塞,若其它业务带宽被抢占,可能会丢包或误码。

E.QoS故障原因如下

✧业务处理单板存在BUS_ERR告警,单板业务处理能力受限。

✧网元未配置QoS策略。

✧配置业务时选择了错误的QoS策略。

✧Tunnel或PW的配置带宽过低。

✧单板故障,配置数据未下达到单板。

F.操作步骤

✧业务处理单板存在BUS_ERR告警,单板业务处理能力受限

✓检查系统是否存在BUS_ERR告警。

✧网元未配置QoS策略

✓检查网元是否配置了相关QoS策略,包括WRED策略,WFQ调度策略,端口策略,V-UNIIngress策略,V-UNIEgress策略,PW策略,QinQ策略或ATM策略等。

✓若没有,重新配置遗漏的QoS策略。

✧配置业务时选择了错误的QoS策略

✓检查业务当前配置的QoS策略是否适用。

若不适用,重新配置新的策略。

✧Tunnel或PW的配置带宽过低

✓检查Tunnel或PW当前配置带宽是否满足业务流量需求。

若带宽配置过低,需要重新配置带宽。

✧单板故障,配置数据未下达到单板

✓检查系统是否存在HARD_BAD等硬件类告警。

✓检查系统是否存在LSR_WILL_DIE等激光器相关告警。

一.8LAG故障处理

介绍LAG出现故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步骤等。

A.故障现象

处理LAG故障时,通常会遇到以下故障现象,如下表所示。

清除设备上报的告警,故障也随之排除。

表 LAG常见故障现象一览表

现象

上报告警

聚合组失效,所有成员端口不可用,业务中断

LAG_DOWN

聚合组成员端口不可用,业务丢包

LAG_MEMBER_DOWN

LOOP_ALM

ETH_EFM_LOOPBACK

ETH_LOS

ETH_LINK_DOWN

B.故障处理流程图

LAG故障处理流程图如下图所示。

图 LAG故障处理流程图

C.对系统的影响

✧若聚合组失效,则承载的业务中断,但不影响其它通道承载的业务。

✧若聚合组成员失效,则负载分担模式下有可能因为带宽不够导致持续丢包。

如果是非负载分担模式则会引发链路倒换,短暂丢包。

D.LAG故障原因如下

✧聚合组两端网元配置错误。

✧聚合组成员端口工作模式设置为半双工。

✧聚合组成员端口配置了环回。

✧聚合组成员端口连接故障或丢失。

E.操作步骤

✧聚合组两端网元配置错误

✓是否存在LAG_DOWN或LAG_MEMBER_DOWN告警。

✓检查聚合组两端网元配置是否不一致,若不一致,修改两端网元配置一致后,查看告警是否清除。

✧聚合组成员端口工作模式设置为半双工

✓检查聚合组各成员端口的工作模式是否设置为半双工,若存在,修改端口工作模式为全双工。

✧聚合组成员端口配置了环回

✓检查聚合组各成员端口是否存在LOOP_ALM告警。

若存在,重新设置端口的环回状态,清除LOOP_ALM告警。

✓检查聚合组各成员端口是否存在ETH_EFM_LOOPBACK告警。

若存在,禁止远端环回,清除ETH_EFM_LOOPBACK告警。

✧聚合组成员端口连接故障或丢失

✓检查聚合组各成员端口是否存在ETH_LOS或ETH_LINK_DOWN告警。

✓若存在,清除ETH_LOS或ETH_LINK_DOWN告警。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 表格模板 > 表格类模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1