华为PTN常见开局故障处理.ppt

上传人:b****1 文档编号:1719979 上传时间:2022-10-23 格式:PPT 页数:36 大小:1.26MB
下载 相关 举报
华为PTN常见开局故障处理.ppt_第1页
第1页 / 共36页
华为PTN常见开局故障处理.ppt_第2页
第2页 / 共36页
华为PTN常见开局故障处理.ppt_第3页
第3页 / 共36页
华为PTN常见开局故障处理.ppt_第4页
第4页 / 共36页
华为PTN常见开局故障处理.ppt_第5页
第5页 / 共36页
点击查看更多>>
下载资源
资源描述

华为PTN常见开局故障处理.ppt

《华为PTN常见开局故障处理.ppt》由会员分享,可在线阅读,更多相关《华为PTN常见开局故障处理.ppt(36页珍藏版)》请在冰豆网上搜索。

华为PTN常见开局故障处理.ppt

2022/10/23,2022/10/23,PTN常见开局故障处理,PTN产品组,LITOlab,Page2,培训目标,学完本课程后,您应该能:

了解PTN产品故障处理基本步骤掌握PTN产品常见故障处理方法,参考资料OptiXPTN故障处理手册OptiXPTN告警和性能手册,目录,PTN故障定位方法PTN常见故障处理,Page4,PTN故障定位方法,告警法PTN在各种物理端口、逻辑端口、业务、PW等都有相关的告警。

当发生故障时,查询当前设备的相关告警。

通过分析告警,可以迅速的找到问题发生在什么层面。

在定位业务故障的时候,通常建议首先关注传输层和物理层的告警性能法PTN在各种物理端口、逻辑端口(如IMA组、MP组等)、业务、PW都支持性能统计计数。

当业务中断后,通过读取业务的相关性能,可以确认数据报文在哪台网元,在什么层面丢了。

比如,如果发现端口上有误码计数,就可以直接判定是中间链路问题环回法(CES业务常见方法)PTN在各种物理端口、逻辑端口(如IMA组)都支持环回功能。

在某些物理端口的故障发生后,通过环回的方法,可以确认问题所在的设备(或链路)业务oam法(重点了解和掌握)ATM业务与ETH业务都支持OAM功能,通过OAM可以准确的定位到故障所在的网元和处理板,进而可以快速的对业务进行恢复,Page5,环回法定位CES业务故障,现象描述:

在下面的组网图中,用误码仪测出BSC与BTS之间的CES业务中存在大量误码,处理步骤步骤1:

在网元NE01上连接仪表做误码测试。

将NE04的L75单板上的2M端口设置为“内环回”,仪表显示有大量误码。

步骤2:

在NE03配置静态ARP表项,MAC地址选择NE03的出端口,IP地址选择NE04。

在NE03和NE04之间创建入标签和出标签相同的Tunnel步骤3:

将NE04的网络侧端口设置为“外环回”,连接NE01的仪表仍然显示有误码,将NE03上连接NE04的网络侧端口设置为“内环回”,仍然有误码。

步骤4:

将NE03上连接NE02的网络侧端口设置为“外环回”,误码消失。

据此判定问题出在NE03网元。

步骤5:

更换NE03网元上对NE02对接的10GE线路板EX2,误码消失,Page6,PTNOAM知识-MPLSOAM,MPLS支持多种三层和二层协议,提供一个完全不依赖于任何上层或下层的OAM机制MPLSOAM使用CV/FFD、Ping等方式检测LSP的连通性,CV(ConnectivityVerification)/FFD(FastFailureDetection)单向连通检测1.Ingress节点发送CV/FFD检测报文,Transit节点透传报文,报文通过被检测的LSP到达Egress节点;2.Egress节点把接收到的报文类型、频率、TTSI等信息字段与本地记录的应该收到的对应值相比较来判断报文的正误,并统计检测周期内收到的正确报文与错误报文的数量,从而实现对LSP的连通性的实时监3.当Egress节点检测到LSP缺陷后,分析出缺陷类型,通过反向通道将携带缺陷信息的BDI报文发送给Ingress节点,从而使Ingress节点及时获知缺陷状态,MPLSPing单向连通检测1.MPLSPing使用MPLSEchoRequest和MPLSEchoReply检测LSP的可用性。

EchoRequest中携带需要检测的FEC信息,和其他属于此FEC的报文一样沿LSP发送,从而实现对LSP的检测2.EchoRequest消息应该达到Tunnel的Egress节点,由Egress节点的控制平面确认本节点是否是该FEC的出口。

通过MPLSPing可以检测LSP是否建立成功,Page7,PTNOAM知识-PWOAM,PTN设备将业务报文进行PW封装后送到Tunnel中进行承载。

网络中存在Tunnel和PW两个层次,MPLSTunnel可以通过MPLSOAM维护和管理,而PW层则需要通过PWOAM来进行维护和管理PWOAM的主要检测方式是PWPing,Ping报文在Ingress节点封装进PW中,沿虚电路发送,从而实现对PW的检测,如图所示,NE1和NE2之间存在一条由PW承载的CES业务,在NE1发起PWPing测试,可以查看Ping测试的结果,检测PW的运行状态,Page8,PTNOAM知识-以太业务OAM,以太网业务OAM是一种基于MAC层的协议,它通过发送OAM报文来检测以太网链路以太网业务OAM包括CC、LB和LT三种检测手段,1.环回检测(LB),源端MEP将构造并发送LBM帧,同时启动定时器开始计时。

如果目的MEP收到该LBM,将构造LBR帧发送回源端MEP,环回成功。

如果源端MEP定时器超时,环回失败,2.单向连通性检测(CC),源端MEP将周期性的发送CC帧,目的MEP收到源端发送的CC帧后,启动CC检测功能。

如果目的MEP在一定时间之内没有收到源端的CC报文,则自动上报ETH_CFM_LOC告警。

3.链路追踪检测(LT),源端MEP发送LTM帧,同时启动定时器开始计时。

链路上所有的MIP都会转发LTM帧,所有收到LTM帧的MEP和MIP都会回送LTR帧响应,根据这些LTR帧可以判断出源MEP到目的MEP所经过的所有MIP。

如果源端MEP定时器超时,LT失败,Page9,PTN故障定位流程,掌握PTNOAM使用是快速定位链路和业务故障的关键,目录,PTN故障定位方法PTN常见故障处理DCN故障处理MPLSTunnel故障处理PW故障处理CES业务故障处理以太网业务故障处理时钟故障处理,Page11,DCN故障处理流程,DCN故障现象网管与网元通信中断,网管上网元图标变灰色,网元脱管;网管操作命令没有响应。

若响应中断时间持续超过2分钟,网管与网元通信中断网管查询信息部分丢失,故障可能原因原因1:

全网内的网元ID、网元IP或者子网掩码存在冲突。

原因2:

故障网元的带内DCN端口未使能,或对接端口参数配置不一致。

原因3:

故障网元与网管之间的物理连接中断。

原因4:

接收信号丢失或接收光功率过低,无法提取DCN报文。

原因5:

单板故障。

原因6:

DCN穿越的第三方网络不健康,引入DCN风暴或DCN中断。

原因7:

带内DCN通道带宽配置过低。

原因8:

故障网元主控板正在复位或发生了主备倒换,带内DCN报文得不到响应。

Page12,DCN故障处理方法,Page13,DCN故障处理案例1/3,故障现象两台非网关网元NE10和NE30,分别通过ML-PPP连接第三方SDH设备,再连接到NE08与网管保持通讯NE10和NE08已配置业务且正常运行,NE30为新创建的网元,未配置业务NE30创建后,NE10和NE30一直处于间歇性脱管状态,网管上报NE_COMMU_BREAK和NE_NOT_LOGIN告警,处理步骤步骤1:

检查NE10的ML-PPP端口状态,发现链路无问题,业务一直都是正常,排除DCN通道质量问题步骤2:

查看NE30的网元IP,发现与NE10某DCN通道核心路由重复,确认为NE30网元IP设置错误步骤3:

在网管上更改NE30的网元IP,返回提示成功后,发现该两个网元仍出现间歇脱管步骤4:

尝试查询NE30网元信息,NE30网元IP仍为修改前的错误值,网管上修改NE30网元IP的操作并未成功步骤5多次重复修改NE30网元IP的操作,直至网元间歇性脱管故障消失,案例类型-IP地址冲突导致网元间歇性脱管,Page14,DCN故障处理案例2/3,故障现象PTN网络的网关网元穿越一个IP传送网络后,保持与网管中心之间的通信PTN网络中的非网关网元全部脱管,系统中出现大量MPLS_TUNNEL_LOCV告警,业务中断,处理步骤步骤1:

检查该网关网元主控板上的ETH接口,发现该接口通过网线与IP传送网络中一台路由器的2号接口直连。

该路由器的1号接口连接网管,但3号接口与4号接口被另一条网线直连,产生了环路步骤2:

IP传送网络中的大量DCN报文及其它报文通过交换机的环路被引入PTN网络中,造成网关网元的CPU长期被完全占用,而PTN网络内非网关网元的DCN报文及其它协议报文无法得到处理,最终导致网元脱管,业务中断步骤3:

拔掉引发交换机环回的网线,PTN网络恢复正常,案例类型-环回引发DCN风暴导致网元脱管,Page15,DCN故障处理案例3/3,案例类型-子网掩码配置错误导致全网网元脱管故障现象:

在由PTN网元组成的网络中,添加一个新网元后,其它所有网元全部脱管处理步骤步骤1:

PTN网元都属于同一个网段,且“子网掩码”都是16位,而新添加的这个网元的“子网掩码”是24位步骤2:

“子网掩码”为24位的网元会生成一个“255.255.255.0”的网段路由,而该路由会通过DCN通道在网络内扩散。

在网管访问网元的过程中,根据最长匹配原则,网管服务器主机原本16位的网段“255.255.0.0”会被匹配为24位的“255.255.255.0”,造成其它子网掩码均为16位的网元无法与网管通信,网元脱管步骤3:

断开新添加网元与网管之间的物理连接,并将该网元的子网掩码修改为16位后,网络正常,案例类型-GE端口工作模式不一致导致网元间通信中断故障现象:

PTN网元通过GE链路互联组网,网元属性及DCN参数已经正确规划与配置,现场安装设备时,发现多处相邻网元之间无法通信,但各网元均无告警上报处理步骤步骤1:

选择无法彼此通信的两个相邻网元,现场分别登录,可正常登录,且通信正常。

步骤2:

查看当前性能事件,链路上无误码,测试光功率也均在正常范围内。

步骤3检查两端网元上直接对接的光口,均为GE光口,网管上检查两个端口的属性配置,发现“工作模式”不一致(一端为“1000M全双工”,一端为“自协商”)步骤5:

将两端GE光接口的“工作模式”统一修改为“自协商”模式,通信也正常,目录,PTN故障定位方法PTN常见故障处理DCN故障处理MPLSTunnel故障处理PW故障处理CES业务故障处理以太网业务故障处理时钟故障处理,Page17,MPLSTunnel故障处理方法,MPLSTunnel故障现象MPLSTunnel创建失败,业务不通lMPLSTunnel故障,业务中断l保护倒换失败,业务中断或出现丢包、误码,故障处理方法检查链路两端的IP是否设置正确检查控制链路状态是否OK检查光纤是否连接正确检查NNI端口之间的二层属性设置是否一致(tag/access/hybrid)查询是否有相关链路级告警,如果有需要清除掉检查Tunnel的路由约束是否配置正确检查Tunnel是否使能查询Tunnel所在的物理端口是否存在FLOW_OVER告警,如果存在,说明网络侧出现拥塞,此时部分业务回手到影响,Page18,BTS1,CES,CES,BTS2,PTN,PTN,ETH,BTS3,PTN,MPLS,PTN,PTN,MPLS,PTN,BSC,CoreNetwrok,PTN,BSC,GE/10GE,GE/FE,STM-1,STM-1,GE/10GE,MPLS_TUNNEL_LOCV,MPLS_TUNNEL_FDI,MPLS_TUNNEL_LOCV:

Tunnel连通性丢失告警。

物理链路故障。

网络出现严重的拥塞。

对端设备故障。

MPLS_TUNNEL_FDI:

Tunnel前向缺陷指示告警。

上游设备检测到物理层发生了故障,比如断纤。

MPLSTunnel故障典型告警处理,Page19,MPLSTunnel故障处理案例,案例类型-光纤错连导致动

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > IT认证

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1