华为光网络维护宝典第6辑MSTP专刊0803C.docx

上传人:b****8 文档编号:9580441 上传时间:2023-02-05 格式:DOCX 页数:89 大小:2.02MB
下载 相关 举报
华为光网络维护宝典第6辑MSTP专刊0803C.docx_第1页
第1页 / 共89页
华为光网络维护宝典第6辑MSTP专刊0803C.docx_第2页
第2页 / 共89页
华为光网络维护宝典第6辑MSTP专刊0803C.docx_第3页
第3页 / 共89页
华为光网络维护宝典第6辑MSTP专刊0803C.docx_第4页
第4页 / 共89页
华为光网络维护宝典第6辑MSTP专刊0803C.docx_第5页
第5页 / 共89页
点击查看更多>>
下载资源
资源描述

华为光网络维护宝典第6辑MSTP专刊0803C.docx

《华为光网络维护宝典第6辑MSTP专刊0803C.docx》由会员分享,可在线阅读,更多相关《华为光网络维护宝典第6辑MSTP专刊0803C.docx(89页珍藏版)》请在冰豆网上搜索。

华为光网络维护宝典第6辑MSTP专刊0803C.docx

华为光网络维护宝典第6辑MSTP专刊0803C

华为光网络维护宝典

MSTP专刊(第6辑)

文档版本

V1.0

发布日期

2012-07-12

华为技术有限公司

版权所有©华为技术有限公司2012。

保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

商标声明

和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意

您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。

除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声明或保证。

由于产品版本升级或其他原因,本文档内容会不定期进行更新。

除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

华为技术有限公司

地址:

深圳市龙岗区坂田华为总部办公楼邮编:

518129

网址:

客户服务邮箱:

support@

客户服务电话:

4008302118

前言

概述

本文档从日常维护、故障处理、设备对接等方面深入介绍了华为OptiXOSN设备的运维思路、流程和方法。

读者对象

本文档主要适用于以下工程师:

●技术支持工程师

●维护工程师

符号约定

在本文中可能出现下列标志,它们所代表的含义如下。

符号

说明

表示有高度潜在危险,如果不能避免,会导致人员死亡或严重伤害。

表示有中度或低度潜在危险,如果不能避免,可能导致人员轻微或中等伤害。

表示有潜在风险,如果忽视这些文本,可能导致设备损坏、数据丢失、设备性能降低或不可预知的结果。

表示能帮助您解决某个问题或节省您的时间。

表示是正文的附加信息,是对正文的强调和补充。

修改记录

修改记录累积了每次文档更新的说明。

最新版本的文档包含以前所有文档版本的更新内容。

文档版本01(2012-07-12)

第一次正式发布。

目录

前言ii

1关于本文档1

2MSTP设备维护SOP2

2.1设备状态检查2

2.2系统安全检查4

2.3告警分析处理4

2.4设备负荷评估5

3故障定位的常用方法7

3.1分组业务故障处理方法7

3.1.1ETHOAM7

3.1.2MPLSOAM10

3.1.3MPLS-TPOAM12

3.1.4TP-Assist14

3.2通用故障处理方法20

3.2.1配置数据分析法20

3.2.2告警、性能分析法21

3.2.3更改配置法22

3.2.4仪表测试法24

3.2.5数据测试帧功能测试法26

3.2.6RMON性能分析法27

3.2.7替换法28

3.2.8经验处理法29

4分组业务故障处理指导31

4.1典型分组故障类型31

4.2业务中断故障处理32

4.2.1定位思路32

4.2.2场景示例35

4.3保护倒换故障处理39

4.3.1定位思路39

4.3.2常见LAG故障40

4.3.3场景示例一:

LAG功能不可用42

4.3.4案例二:

LAG端口主从属性不一致,导致LAG倒换后业务不通43

4.4对接类故障处理44

4.4.1定位思路44

4.4.2常见MC-LAG故障处理45

4.5IPTV业务故障处理48

4.5.1故障定位思路48

4.5.2场景示例一:

未能实现IGMPSnooping功能49

4.5.3场景示例二:

XX运营商IPTV客户测试失败问题49

5传统以太网业务故障处理指导51

5.1丢包故障51

5.1.1带宽不够故障简介51

5.1.2定位思路51

5.1.3场景示例51

5.2FTP故障53

5.2.1定位思路53

5.2.2场景示例一:

丢包导致FTP下载速率降低53

5.2.3场景示例二:

时延过大缓存不足导致FTP下载速率不达标54

6常见问题汇总56

6.1EoS类问题56

6.1.1OptiXOSN1500数据单板上报HARD_BAD告警56

6.1.2如何设置EoS单板GE电口56

6.1.3华为MSTP设备和业界主要厂家EoS单板对接设置技巧57

6.1.4EGS4单板替换EGT2单板,对业务影响的处理57

6.1.5OptiXOSN设备上报ALM_GFP_dCSF告警支持情况58

6.1.6配置QoS时,如何计算CAR和Shaping的速率59

6.1.7以太网二层交换版本和3层交换机对接注意事项59

6.2分组类问题60

6.2.1单个接入设备离开组播组,导致所有业务中断60

6.2.2MC-LAG无法实现保护问题61

6.3其他类问题61

6.3.1华为数通交换机与OptiXOSN设备对接故障处理61

6.3.2因突发流量过大导致视频业务频繁出现马赛克62

6.3.3数通设备的STP报文穿通传输数据单板的处理问题65

7以太网告警的产生和检测67

7.1TDM平面以太网告警的产生和检测67

7.1.1以太网透传处理板67

7.1.2以太网交换处理板67

7.1.3以太网PRP处理板68

7.1.4告警相关性68

7.2分组平面以太网告警的检测和上报70

7.2.1告警上报流程70

7.2.2告警相关性71

关于本文档

目的

介绍处理MSTP故障的基本原则和常用的几种方法,使维护人员对故障的处理思路和方法有一个基本的认识。

使用对象

系统维护人员

适用场合

设备出现故障时,指导设备维护人员进行故障定位。

内容简介

本辑维护宝典主要针对HybridMSTP、传统数据业务的常见故障提供运维方法和思路,主要包括以下几部分内容:

●故障定位常用方法

介绍故障定位的常用方法,为维护人员提供故障定位和处理的思路和方法。

●故障处理指导

介绍故障处理的总体处理流程以及分类故障的具体处理方法,以指导维护人员如何根据故障现象进行问题点定位的思路和方法。

●典型故障案例

提供产品典型故障案例,维护人员通过实际故障处理和分析方法学习和提高故障定位的能力。

●常见问题汇总

提供MSTP产品常见问题汇总。

MSTP设备维护SOP

设备状态检查

工序号

工序大类

2

设备状态检查

序号

工序活动

关键动作

支撑工具

2.1

告警检查

检查网元告警自动上报是否合理设置,一些不需要上报的告警是否设置成了自动上报,一些必须上报的告警是否设置成了不上报

网管

检查网元告警,无不明原因的critical级别告警;每条告警应该有合理存在的原因。

现网告警清零,不能清零的告警,必须确认原因

2.2

性能检查

检查设备的性能监视是否打开

检查单板的光功率性能,收发光功率应在正常范围之内

检查单板的误码性能、指针调整性能,应无误码性能累加和指针调整性能累加

检查异常的性能事件上报,无不明原因的性能事件上报

检查机房环境温度,设备工作温度,环境监控温度在正常范围之内

2.3

配置检查

检查线路板环回状态及环回解除模式

检查线路板激光器自动关断标志

检查业务低阶优化开关状态

2.4

SNCP保护检查

检查各类保护的工作状态,是否是正常态,主备通道是否为normal态,是否有不知原因的异常倒换;如通道存在SF,需要及时确认并进行处理

主备通道业务类型、业务速率检查:

SNCP监测点丢失情况检查

SNCP配置情况检查:

源端是否双发,穿通站点是否配置

2.5

MSP保护检查

检查MSP保护组状态是否正确,当前东西向是否均为IDLE态。

检查环形MSP节点参数设置是否正确

检查环形MSP系统板位是否对偶且在不同单板上

2.6

TPS保护检查

检查TPS保护组倒换和锁定状态

检查TPS保护组正确性和完整性

2.7

ECC检查

检查ECC通道收发数据状态

检查ECC通信的光口信息

检查DCC通道错误信息

检查网元的DCC资源使用情况

2.8

时钟及公务检查

检查S1字节模式的设置是否和时钟网相符合

检查S1字节时钟源ID设置是否合理

检查时钟源使能状态

检查OW呼叫等待时间是否正确

检查OW自动保护倒换是否使能

检查公务号码长度

2.9

全网单板制造信息检查

从网管上导出全网单板的制造信息,检查是否有异常的制造信息,包括制造信息空白,制造信息内容错误

网管

现网所有单板制造信息、现网单板版本信息

2.10

TUNNELOAM状态检查

查询无OAM告警

网管

查询OAM的近断和远端状态全部为可用

2.12

TUNNELAPS保护状态检查

查询无APS告警

网管

查询工作和保护TUNNEL的OAM状态正常

查询工作和保护均为可用状态

2.13

以太端口状态检查

查询端口无ETH_LOS、LASER_MOD_ERR、IN_PWR_LOW、IN_PWR_HIGH或者Eth_LINK_DOWN告警

网管

查询端口link状态正常

系统安全检查

工序号

工序大类

3

系统安全检查

序号

工序活动

关键动作

支撑工具

1

数据备份与检查

数据库备份,包括网元侧数据库备份,网管侧数据库备份,网管侧与网元侧数据应该一致

网管

数据库自动备份使能检查,应处于enable状态。

检查是否已经定期成功将设备数据备份到网管服务器或客户端

2

网管系统安全

用户账户管理安全性检查:

定期清理用户权限,定期修改密码

网管

网管服务器备份情况检查,主从服务器状态检查

网管服务器软件操作检查:

是否安装无关软件、开启无关服务、设置共享目录等

网管与网元通讯状态检查

告警分析处理

工序号

工序大类

4

告警分析处理

序号

工序活动

关键动作

支撑工具

1

紧急重要告警识别

(1)按照“先紧急重要、后次要”,“先线路、后支路”的告警处理原则,筛选出优先处理的紧急重要告警;

(2)对于客户关注的需考核告警,需要优先处理;

网管

2

重点告警处理

针对上面识别出来的告警逐一确认,如果是未上业务,未使用端口的,建议与客户确认后进行屏蔽或者反转处理。

网管

对于确认后依然存在的告警要制定解决方案,按照告警清零的原则协助客户进行处理。

现网告警清零,不能清零的告警,必须和客户确认原因

3

历史告警汇总分析

对设备上的历史告警进行分析,对于历史告警中曾经出现的异常告警要确认原因,并确定现在是否仍在发生,排除设备运行的异常导致的异常告警上报

设备负荷评估

工序号

工序大类

设备负荷评估

序号

工序活动

关键动作

支撑工具

1

基本配置负荷检查

交叉板剩余容量检查

网管

低阶资源限制情况检查、占用情况检查

2

ECC子网负荷检查

针对链性组网必须确保一个网络有备用的网关网元,确保光纤中断时,倒换到备用网管网元上,网络可正常监控。

网管

保证现网ECC路由规模合理、网元间通讯模式符合产品手册的约束,减少网络发生大规模托管概率。

网管

在同一个子网内,建议使用同一协议栈

 

附件1日常维护SOPChecklist

局点:

____________版本:

___________维护责任人:

__________时间:

_____________

检查大类

检查子项

结果

备注

1设备状态检查

告警检查

□通过□不通过 

性能检查

□通过□不通过 

配置检查

□通过□不通过

SNCP保护检查

□通过□不通过

MSP保护检查

□通过□不通过

TPS保护检查

□通过□不通过

ECC检查

□通过□不通过

时钟及公务检查

□通过□不通过

全网单板制造信息检查

□通过□不通过

数据一致性检查

□通过□不通过

2系统安全检查

数据备份与检查

□通过□不通过

安全备件储备

□通过□不通过

3告警分析处理

紧急重要告警识别

□通过□不通过

重点告警处理(告警清零)

□通过□不通过

历史告警汇总分析

□通过□不通过

4设备负荷评估

基本配置负荷检查

□通过□不通过

ECC子网负荷检查

□通过□不通过

5专题分析

TUNNELOAM状态检查

□通过□不通过

TUNNELAPS保护状态检查

□通过□不通过

以太端口状态检查

□通过□不通过

对于传统SDH业务的故障定位前面几期已有介绍,本期重点介绍传统以太网业务以及分组业务的故障处理。

故障定位的常用方法

分组业务故障处理方法

ETHOAM

方法介绍

ETH-OAM是一种基于MAC层的协议,它通过发送OAM协议报文来检测以太网链路。

ETH-OAM协议作为低速率协议,所占用的网络带宽很小,通常不会对链路所承载的业务造成影响。

ETH-OAM与现有网络维护和故障定位手段相比,有如下优势:

●可以在不同数据封装格式(如GFP与HDLC等其他封装格式)之间进行测试。

●可以有选择性地对某一业务流进行环回。

●能够主动发现硬件故障类的问题。

●能够实现故障自动检测和定位。

ETHOAM的应用包括以太网业务OAM和以太网端口OAM,如图3-1所示。

图1-1以太网业务OAM和以太网端口OAM的应用

●以太网端口OAM:

遵循IEEE802.3ahOAM标准,其应用不针对具体的业务,它关注EFM(EthernetintheFirstMile,Ethernet最后一公里)的两台直连设备之间的点到点以太网链路维护,主要用于CE网元和数通设备。

以太网端口OAM的各项功能如下:

−OAM自动发现

两端设备通过定时交互的“信息OAMPDU(OAMProtocolDataUnit)”,获取对端对IEEE802.3ahOAM协议的支持能力。

只有当OAM自动发现成功后,才能在端口上进行链路性能监控、故障检测、环回操作。

如果发现失败,会上报“ETHOAM_DISCOVER_FAIL”告警。

−链路性能监控

在以太网端口上使能了IEEE802.3ahOAM协议后,端口就周期性查询硬件芯片的RMON统计计数,获取正确报文个数、错误报文个数等信息。

链路性能监控功能即是通过对这些信息的分析,能够对链路的误码性能(错帧或者错误信号)根据用户在网管上设置的门限值及窗口值进行监控。

如果产生了某种性能事件,本端就通过“事件通知OAMPDU”将该信息通知对端,对端设备收到通知后就上报“ETHOAM_RMT_SD”告警,提示维护人员进行处理。

−故障检测

以太网端口OAM把本端检测到的故障(包括链路故障、致命故障、紧急事件),通过OAMPDU定义的FlagField传送给远端,从而实现故障对告。

−远端环回

本端的OAM实体可以向远端OAM实体发送“环回控制OAMPDU”报文来要求对方进行环回,通过分析发送出去的报文个数和环回回来的报文个数,就可以检测从环回发起端到环回响应端的这段链路双向的性能和故障。

−自环检测

以太网业务处理单板使能自环检测功能后,可以检测到一个端口的发送方向的光纤连到自身接收方向的端口的自环情况,以及同一单板内两个端口相连的板内环回情况。

检测到上述两种自环情况后会有告警上报,也可以进一步对发生自环的端口作阻塞的处理。

当一个端口使能了自环检测功能后,就从该端口上以每秒一个报文的频率向外发送自环检测报文。

●以太网业务OAM:

遵循IEEE802.1agOAM标准,其应用是以业务为基础的,它以“维护域”为单位实现端到端的以太网业务链路检测,主要用于CE网元和PE网元。

以太网业务OAM的各项功能如下:

−连通性测试

CC(ContinuityCheck,连通性测试)可以实现单向意义上的对链路状态的检测。

由于连通性测试的定时检测机制,一旦设置成功便进行自动检测,从而实现了链路故障检测、故障自动发现。

另外,基于CC实现的广播协议报文,可以完成一对多及多对多的网络检测(特别是二层交换网络中的应用),实现了整个维护域的网络化检测。

−环回测试

LB(Loopback,环回测试)可以实现由源端MEP(MaintenanceassociationEndPoint)到维护域内任一MP(MaintenancePoint)链路状态的检测。

和连通性测试相比,环回测试实现的是一次性检测,每次检测都需要人工下发命令。

−链路追踪测试

LT(LinkTrace,链路追踪测试)在环回测试的基础上进一步强化了故障定位的能力,能够实现一次定位故障网络段。

−OAM_Ping测试

OAM_Ping测试提供了对业务因误码导致的丢包率和时延时间的在线测试方法,在检测连通性的基础上实现了对以太网MAC层的链路性能的精细化管理。

以太网端口OAM的各项功能的应用场景如表3-1所示。

表1-1以太网端口OAM的各项功能的应用场景

OAM类型

作用

应用场景

链路性能监测

检测到本端接收侧链路的误码性能(错帧或者错误信号)并通知对端设备

实时监测链路业务性能

故障检测

检测到本端故障后通知对端设备

实时监测对端故障

远端环回

定位故障点和链路性能测试

现场定位问题

自环检测

检测端口环回和板内环回

自环检测

以太网业务OAM的各项检测功能的应用场景如表3-2所示。

表1-2以太网业务OAM的各项检测功能的应用场景

OAM类型

作用

应用场景

CC

检测单向连通性

实时检测链路状态

LB

检测双向连通性

单端定位或单端检测

LT

定位故障点

现场定位问题

OAM_Ping

检测业务丢包率和时延

实时检测业务性能

●ETH-OAM不能和MPLSOAM混合使用。

●ETH-OAM不能在专网业务模型下使用。

应用示例

图1-1ETH-OAM应用示例组网

故障现象:

如图3-2所示的组网,BSC/RNC和BTS/NodeB之间业务中断。

原因分析:

OptiXOSN3500和OptiXOSN1500之间的链路可能故障。

故障定位:

可以使用ETH-OAM的LB功能进行测试,测试过程如下:

2.在OptiXOSN3500对应的以太网端口创建维护点1,方向选择Ingress方向。

3.在OptiXOSN1500对应的以太网端口创建维护点2,方向也选择Ingress方向。

4.从维护点1发起到维护点2的LB测试。

如果LB测试显示成功,那说明这一段传输路径是正常的。

创建维护点的具体操作指导请参见版本配套的《特性描述》的“创建维护点”。

MPLSOAM

方法介绍

设备支持的MPLSOAM包括MPLSTunnelOAM和PWOAM,MPLSTunnelOAM工作在MPLSTunnel层面,PWOAM工作在PW层面。

二者只是在通道上存在区别,即MPLSTunnel是大管道,PW是小管道。

它们都提供了完善的故障检测与定位机制和网络性能监控功能,设备可以利用OAM的检测状态来触发保护倒换,实现快速故障检测和业务保护。

MPLSOAM包括如下功能:

●报文检测

MPLSOAM常用的检测报文包括:

CV(ConnectivityVerification)报文、FFD(FastFailureDetection)报文、FDI(ForwardDefectIndication)报文和BDI(BackwardDefectIndication)报文。

通过这些报文,MPLSOAM可以设置固定周期自动地检测LSP的连通性,并对检测出的缺陷进行响应

●Ping

Ping功能是用来检测链路、通道、虚电路的连通性的常用手段。

在MPLS层面上对应为MPLSTunnelPing,在PW层面上对应为PWPing,二者实现方式类似。

●Traceroute

Tranceroute功能与Ping功能类似,在MPLS层面,可以用来检查通道的连通性,与Ping功能不同的是Transroute可以准确定位故障节点。

同样因检测对象不同,分为TunnelTraceroute和PWTraceroute。

MPLSOAM参考的标准为:

ITU-TY.1711Operation&MaintenancemechanismforMPLSnetworks

表1-1MPLSOAM检测手段的应用场景

OAM类型

作用

应用场景

CV/FFD

单向连通性检测

隧道状态实时检测

Ping

双向连通性检测

双端定位或双端检测

Traceroute

故障点定位

隧道路由检测

应用示例

图1-1MPLSOAM示例组网

故障现象:

如图3-3所示的组网,NE1至NE3之间配置一条双向TUNNEL,目前:

●NE1对NE2方向单板上报MPLS_TUNNEL_BDI告警(Tunnel后向缺陷指示)。

●NE3对NE2方向单板上报MPLS_TUNNEL_FDI告警(Tunnel前向缺陷指示)。

原因分析:

从三个网元上报的告警来看:

●MPLS_TUNNEL_FDI告警属于分组网络中较独特的告警,当NE2检测到收NE1方向链路故障时,会向下游Egress站点下插FDI报文,告知下游站点线路中发生了故障。

下游Egress站点在接收到FDI报文后,上报MPLS_TUNNEL_FDI告警,同时向上有Ingress站点回插BDI报文。

●MPLS_TUNNEL_BDI告警与传统网络中RDI告警的含义类似。

NE1的告警为接收到NE3回插的BDI报文后上报的。

故障定位:

根据MPLS_TUNNEL_FDI告警检查本端网元与上游网元间的物理链路是否存在故障,如纤缆中断、光模块故障、单板故障等。

MPLS-TPOAM

方法介绍

MPLS-TPOAM针对PW、LSP和Section等传送实体,提供端到端的故障管理(FaultManagement)、性能监控(PerformanceMonitoring)和保护倒换(ProtectionSwitching)三个方面功能。

MPLS-TPOAM包括如下功能:

●连通/连续性检测

包括ContinuityCheck(CC)、ConnectivityVerification(CV)、on-demandConnectivityVerification(on-demandCV)、RouteTracing(RT)。

ContinuityCheck用于同一MEG的两个MEP之间的连续性缺陷检测(lossofcontinuitydefect,LOC)。

ConnectivityVerification检测出两个MEG或者同一MEG的MEP之间错误的连通性缺

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 成人教育 > 电大

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1