华为PTN故障处理手册v10版.docx
《华为PTN故障处理手册v10版.docx》由会员分享,可在线阅读,更多相关《华为PTN故障处理手册v10版.docx(53页珍藏版)》请在冰豆网上搜索。
华为PTN故障处理手册v10版
华为PTN故障处理手册v1.0
惠州公司网络维护中心
2010年12月
一、
概述
PTN网络故障处理在日常维护中显得至关重要,为了更好的开展PTN网络的日常维护,特编制PTN网络故障处理手册。
本手册PTN设备故障处理主要涉及故障分析定位、业务中断故障应急恢复、常见故障处理方法等三个部分。
下面将对这三个部分进行详细说明。
二、网络故障分析定位方法
根据现网中处理网元脱管或业务中断等故障的经验,一般遵循“一分析,二倒换/复位,三换板”的处理方案。
保证PTN网络的稳定运行,尽量减少突发事故。
处理故障时,应从分析故障现象开始,尽快定位到故障的原因。
本节介绍各类分析和定位故障的方法、应用场景和应用示例。
二.1告警分析法
告警分析法是定位故障的常用方法之一。
当设备发生故障时,一般会伴随大量的告警。
通过对告警的分析,可大概判断出发生故障的类型和位置。
通过U2000查询告警:
只要在U2000主拓扑的网元图标上点击右键,就可以查询以下告警信息:
✧当前告警
✧网元侧历史告警
✧网管侧历史告警
通过分析、定位告警产生的原因,清除告警,并排除故障。
通过U2000获取告警信息时,应注意保证网络中各网元的当前时间与网管时间同步。
倘若网元当前时间与网管时间不同步,将导致信息上报错误。
在维护过程中,对某网元重下配置后,应特别注意将该网元的当前时间与网管时间同步。
否则网元会工作在缺省时间里,而缺省时间并不是当前时间。
示例一:
简单组网中,一般情况下清除告警的同时,故障也随之排除。
如下图所示的链路图中,网管计算机连接到NE2。
故障现象:
NE1和NE2之间的E-Line业务中断,NE2上报ETH_LOS告警。
故障分析定位:
排查ETH_LOS告警产生的可能原因,最终定位出业务中断故障的原因。
清除告警后,业务恢复正常,故障排除。
示例二:
复杂组网中,通过分析新增告警和已清除的历史告警,可以找出排除故障的关键所在。
某复杂环型拓扑组网突发广播风暴,各网元均出现大量FLOW_OVER告警,业务中断。
虽然通过断开环路光纤等方法恢复了业务,清除了FLOW_OVER告警,但无法定位出故障原因。
分析全网告警,发现某个UNI端口在上报FLOW_OVER告警的同时,该端口的历史告警ETH_LOS自动清除。
沿此线索,发现与该UNI端口对接的第三方设备上出现了远端环回,导致网络上出现环路。
解除该环回后,故障彻底排除。
二.2性能统计分析法
性能统计分析法通过统计“当前性能”和“RMON性能”来分析和定位故障。
判断单板、端口、Tunnel、PW的性能统计数据是否正常,可以判断是否存在故障。
当前性能:
下表区分不同的“对象”,列出当前性能统计的判断标准。
表 当前性能统计表
对象
判断标准
物理单板/端口
∙对于单板,其光功率、工作温度、CPU/内存占用率应在正常范围之内。
∙对于端口,应没有误码。
MPLSTunnel
Tunnel没有丢包。
IP/GRETunnel
Tunnel没有丢包。
以太网业务OAM
没有丢包。
✧开启网元当前性能统计功能。
✧网元支持的当前性能的具体含义和解释。
RMON性能:
下表区分不同的“对象”,列出RMON性能统计的判断标准。
表 RMON性能统计表
对象
判断标准
物理单板/端口
∙对于主控板,CPU占用率不应过高。
∙对于端口,发送/接收方向有计数。
MPLSTunnel
∙发送/接收方向有计数。
∙没有丢包。
IP/GRETunnel
∙发送/接收方向有计数。
∙没有丢包。
业务PW
∙PW的发送/接收方向有计数。
∙没有丢包、乱序包、误码等异常统计。
✧Tunnel是双向的,可以在“对象”中选择正向Tunnel或反向Tunnel。
✧网元支持的RMON性能的具体含义和解释。
示例:
两个网元之前配置了两条Tunnel,但仅在一端网元上配置了APS保护组,导致ATM业务质量很差。
在网管上查询该ATM业务的RMON性能,发现存在乱序包计数,且乱序包计数值约为接收信元计数的50%,由此判断业务出现双收,并找到问题的原因所在。
二.3OAM分析法
OAM机制可以有效地检测、确认并定位出源于MPLS层网络内部的缺陷和网络性能的监控。
设备可以利用OAM的检测状态来触发保护倒换,实现快速故障检测和业务保护。
A、OAM简介
OAM主要应用于PTN设备组网的网络侧(NNI侧),该区域具有以下特点:
●网元多。
一条MPLSLSP往往经过多个网元。
●组网复杂。
可能需要穿通第三方网络,存在很多导致故障的不确定因素。
●规划整改,扩容变化多。
B、OAM分类
分析定位故障时常用的OAM功能主要是TunnelOAM和PWOAM两种。
对Tunnel和PW执行Ping测试,通过计算OAM报文丢包率,判断Tunnel和PW的连通性。
C、执行LSPPing测试
1)进入“网元管理器”,在功能树中选择“配置>MPLS管理>单播Tunnel管理”。
2)在“OAM参数”选项卡中,使能Tunnel的“OAM状态”,设置“检测报文类型”和“检测报文周期”,单击“应用”。
在弹出的“操作结果”对话框中单击“关闭”。
3)重复步骤1和步骤2,在Tunnel另一端的网元上,使能OAM功能,并保证两端网元的参数设置一致。
4)右键单击“节点类型”为“Ingress”的Tunnel,在弹出的下拉菜单中选择“Ping测试”。
在弹出的“Ping测试”对话框中设置相应的参数,单击“启动测试”。
5)在“测试结果”区域分析Ping测试结果。
如果发送报文数量等于接收报文数量,且丢包率为0,则该Tunnel的连通性正常。
D、执行PWPing测试
1)进入“网元管理器”,在功能树中选择“配置>MPLS管理>PW管理”。
2)在“PWOAM参数”选项卡中,使能PW的“OAM状态”,设置“检测报文类型”和“检测报文周期”,单击“应用”。
在弹出的“操作结果”对话框中单击“关闭”。
3)重复步骤1和步骤2,在PW另一端的网元上,使能OAM功能,并保证两端网元的参数设置一致。
4)右键单击PW,在弹出的下拉菜单中选择“Ping测试”,在弹出的“Ping测试”对话框中设置相应的参数,单击“启动测试”。
5)在“测试结果”区域分析PWPing测试结果。
如果发送报文数量等于接收报文数量,且丢包率为0,则该PW的连通性正常。
E、OAM应用
业务中断或业务出现丢包、误码时,可按照所示的流程运用OAM功能,定位故障。
F、OAM分析业务故障流程图
图OAM分析业务故障流程图
G、OAM定位故障
通过在Tunnel的两端网元上使能OAM并查看LSP状态,可以轻易定位到存在故障的网元。
1)进入“网元管理器”,在功能树中选择“配置>MPLS管理>单播Tunnel管理”。
2)在“OAM参数”选项卡中,为Tunnel设置合适的“检测报文类型”和“检测报文周期”,使能“OAM状态”,单击“应用”。
在弹出的“操作结果”对话框中单击“关闭”。
3)选中一条或多条Tunnel,右键点击,在弹出的下拉菜单中选择“查询LSP状态”。
4)查看“LSP状态”,正常情况如下表所示。
Tunnel节点类型
LSP状态
Ingress
远端可用状态
Egress
近端可用状态
若出现其它状态时,根据“LSP缺陷位置”可定位到出现故障的网元。
5)根据相应的“LSP缺陷类型”,选择清除告警,检查光纤连接或确认端口、Tunnel、业务的配置参数等方法,排除故障。
二.4配置数据分析法
配置数据分析法通过在网管上分析业务的参数配置,找到配置错误的参数,从而定位故障。
当Tunnel或业务创建后不通,或在网管上修改部分参数后业务突然中断时,可以使用配置数据分析法来定位故障。
一般情况下,对照网元规划表即可找出网元上配置错误的参数。
当PTN设备与第三方设备对接时,由于两端的某些参数默认取值不一致,要特别注意两端参数的匹配问题。
采用配置数据分析法时,一般可遵循以下步骤。
1.检查网元的网元ID、网元IP、LSRID等参数是否配置正确。
2.对照网元规划表,检查端口状态和参数配置。
端口参数配置错误是现网中导致故障最常见的原因之一。
Ø对于以太网端口,确认端口是否已使能。
检查“端口模式”、“封装类型”、“工作模式”、“TAG标识”、“缺省VLANID”、“Tunnel使能状态”、“IP地址”等参数是否配置正确。
Ø对于SDH端口,检查“端口模式”、“封装类型”、“通道化”、“端口类型”、“Tunnel使能状态”、“时钟模式”等参数是否配置正确。
Ø对于PDH端口,检查“端口模式”、“封装类型”、“帧格式”、“阻抗”、“帧模式”等参数是否配置正确。
Ø对于IMA组,检查“协议版本”、“最小激活链路数”、“协议使能状态”、“时钟模式”、“E1帧模式”、“E1时隙数”、“ATM信元载荷加扰”、“VPI”、“VCI”等相关参数是否配置正确。
Ø对于第三方设备的端口,需要确认以太网端口工作模式、VC12线序模式或时钟模式是否与PTN设备匹配。
3.检查Tunnel两端网元上的参数配置是否匹配,是否选择了正确的端口。
4.检查以下PW参数配置。
ØPWID是否正确。
ØPW是否已使能。
ØPW的出入标签是否一致。
ØPW是否选择了正确的端口或Tunnel。
Ø对于CES业务,确认“报文装载时间”和“抖动缓冲时间”是否配置正确。
二.5仪表测试分析法
仪表测试分析法一般用于定位设备的外部问题及其它设备的对接问题。
定位故障的常用仪表主要有以下几种:
A.万用表:
根据不同需要可以将万用表调制电压档或电阻档,对怀疑的故障点进行电压或电阻测试。
如设备接地电压、电源电压等。
B.误码仪:
用于测试传输通道中存在的误码情况,如误码数、误码率、误码秒等。
一般是将需要测试的通道进行环回,通过误码仪发送伪随机码,并在误码仪上查看所测试到的通道误码情况。
C.光功率计:
用于测试单板的接收和发送光功率。
D.电缆测试仪:
用于测试电缆的端子对在最大额定电流下的电压降,从而可推断电缆的连通情况和传输质量。
E.网络分析仪:
用于网络性能的测试和分析,测试内容较丰富。
如最大线速、数据流量、帧长、吞吐量、丢包率及网络延时等。
示例:
以网络分析仪定位故障为例说明仪表测试法的思路。
某网络的业务中断,需要对设备故障进行逐一排查。
按下图所示,将网络分析仪与设备正确连接,同时在NE上进行内环回,对NE进行丢包率的测试。
图 网络分析仪和设备的连接
对网络分析仪进行正确的设置,向NE发送数据包。
根据网络分析仪上显示的丢包率结果,可判定是否由于NE的丢包过多导致业务中断。
如果数据正常,可确定NE工作正常。
可再对其它网元进行测试。
二.6环回法
环回法是定位故障时常用而且行之有效的一种方法,可以将故障尽可能准确地定位到单站。
设备维护人员应熟练掌握。
环回操作分为软件环回和硬件环回,这两种方式各有所长:
A.软件环回即在U2000上配置环回,操作方便,但定位故障的范围和位置不够准确。
比如在单站测试时,配置光口为内环回,即使业务测试正常,也不能确定该单板的接口模块没有问题。
B.硬件环回即使用光纤或者电缆环回端口,相对于软件环回而言环回更为彻底。
若通过尾纤将光口自环后,业务测试正常,则可确定该单板是好的。
但硬件环回需要到设备现场才能进行操作。
另外,光接口在硬件环回时要避免接收光功率过载。
环回操作会中断端口上其它正常运行的业务,在使用前请务必做好确认。
二.7排除法
在处理业务故障时,可以首先检查与其它业务的共用路由部分是否存在故障。
排