光网络新空间以太网常见故障处理专题Word下载.docx

上传人:b****6 文档编号:16236870 上传时间:2022-11-21 格式:DOCX 页数:20 大小:49.84KB
下载 相关 举报
光网络新空间以太网常见故障处理专题Word下载.docx_第1页
第1页 / 共20页
光网络新空间以太网常见故障处理专题Word下载.docx_第2页
第2页 / 共20页
光网络新空间以太网常见故障处理专题Word下载.docx_第3页
第3页 / 共20页
光网络新空间以太网常见故障处理专题Word下载.docx_第4页
第4页 / 共20页
光网络新空间以太网常见故障处理专题Word下载.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

光网络新空间以太网常见故障处理专题Word下载.docx

《光网络新空间以太网常见故障处理专题Word下载.docx》由会员分享,可在线阅读,更多相关《光网络新空间以太网常见故障处理专题Word下载.docx(20页珍藏版)》请在冰豆网上搜索。

光网络新空间以太网常见故障处理专题Word下载.docx

如果对端设备使用固定的全双工模式,则METRO设备的网口需要设置为同等速率的固定的全双工模式;

因为根据IEEE802.3的规定(详见IEEE802.3[2000版]第28章第2节),当自协商的端口与固定模式的端口对接时,自协商一方应通过并行检测(ParallelDetection)机制工作于同等速率的半双工模式下;

此时数据量少时,业务也能通(如ping业务能通),但是数据量大时,就会造成业务完全中断。

到网上运行时就会出现业务时断时续。

因此在对端设备使用固定的全双工模式时,不建议将METRO的端口设置为自协商模式。

【端口工作模式不一致时性能检测方法】

通过分析相应的以太网性能事件,可以较顺利的定位出是否存在对接端口工作模式不一致的情况:

1、本端是全双工,如果对端为半双工,必然有大量碰撞,而本端由于工作在全双工下所以不监听信道,不会直接丢弃碰撞后的包,会将收到的所有包进行CRC校验,因此“接收有CRC错的数据包”值较大即出现大量CRC校验错的包。

2、本端是自适应,与碰撞有关的几个性能事件的值如果是零,说明链路工作在全双工模式下,对端是自协商且两端都自适应到了全双工模式,反之则工作在半双工模式下。

3、本端是半双工,如果“发送过程中出现的碰撞次数”较大,以及“丢弃的数据包数上报”和“超过16次碰撞的数据包数”值不为零,那么说明对端很可能工作在全双工模式下。

总之在Metro采用ET1的实际组网中,不能简单的以开局的时候能Ping通就认为一切正常,为了保障以后以太网业务的稳定,必须将对接两端的工作模式设置在一个合理的相同的模式下。

【VLAN与Tag标签】

VLAN(VirtualLocalAreaNetworks)即虚拟局域网。

802.1qVLAN帧与原以太网帧相比,在帧头中的源地址后增加了一个4字节的802.1q帧头。

这4个字节的802.1q标签头包含了2个字节的标签协议标识(TPID--TagProtocolIdentifier)和两个字节的标签控制信息(TCI--TagControlInformation)。

端口属性为Tag的端口能够识别含有Tag标签的数据包,其中Tag标签中的12个bit用于标识VLANID。

【端口TAG属性设置原则】

ET1的以太网端口与LANSWITCH等设备的TAG端口对接时,应设置TAG属性;

对于不支持802.1Q的设备(如计算机、HUB),我们可将单板的以太网的IP端口的TAG属性设置为UNTAG,并设置端口默认的VLANID号,而MP端口侧的TAG属性设置为TAG。

TAG属性一定要按照规定来设置,否则可能出现丢包现象。

1.1.2CSMA/CD

IEEE802.3主要定义了带冲突检测的载波监听多路访问算法(CSMA/CD:

CarrierSenseMultipleAccesswithCollisionDetection)。

CSMA/CD与人际间的通话非常相似(即先听再说,假设很多人在聊天,同一时间只允许一个人讲话),其实现的核心在于对通信介质的持续监听和信号发生碰撞后的延迟与再次发送,从而实现了通信介质的共享、完成多方通信。

由算法原理可知,基于CSMA/CD的以太网是一种半双工技术,以信号碰撞和重传为代价,因此当网络的通信需求上升到一定量后,碰撞的概率增大,相应网络整体效率下降。

1.1.3以太网各种错帧(EthernetⅡ)

以下几种为常见的以太网错帧:

1、CRC校验错

以太网帧的最末部分为4个字节的帧校验序列字段,接收端通过CRC(循环冗余校验)来校验帧在传送过程中是否发生差错(误码)。

对于CRC校验出错的帧,一律丢弃。

2、超短帧

小于64字节的帧,认为是信号碰撞产生的残片,一律丢弃。

3、超长帧

超过端口允许的最长长度的帧,一律丢弃,MSTP系列产品端口默认最长帧为1522字节(可设置)。

若全双工VS半双工,大量碰撞的会导致端口接收到不完整的帧,如果残片小于64字节,则认为是超短帧,直接丢弃;

如果残片不小于64字节,则进行CRC校验,但由于帧校验序列字段错误,则认为是CRC错帧,也会丢弃。

4、Alignment

字节对齐错,比较少见,一般为硬件故障引起,碰撞也可能引起该类错包。

1.1.4以太网流控

当设备的数据处理/转发能力小于端口接收到的流量时,即发生了拥塞,为减少因缓存溢出而导致的丢包,必须进行适当的流量控制。

基于CSMA/CD的半双工以太网,有两种方法实现流控:

1、强行与将要到达的帧发生冲突;

2、强行使信道处于忙状态。

由于半双工以太网的现实意义不大,目前各种设备主要实现的是全双工以太网的显式流量控制:

在发生拥塞的时候,端口发送特定的流控帧(PAUSE帧)到对端,对端接收到流控帧后便停止数据发送一段时间,从而减缓端口的拥塞压力。

PAUSE帧是一种标准的以太网帧,其类型域的值为0x8808,净荷的主要内容为slottime(表明需要对端暂停数据发送的时间,若slottime为0,则表示对端可以立即恢复数据发送)。

对于华为MSTP产品系列以太网单板而言,都支持在自身拥塞的情况下向对端发送流控帧,但slottime一般为固定值(产品不同、版本不同,则取值不同)。

流控的模式:

1、非自协商流控

不使能、只发送、只接收、使能(既发送又接收)

2、自协商流控

不使能、非对称流控(只发送,不处理)、对称流控、both

对于接收到的流控帧,不同的单板处理方式不完全相同:

支持情况:

ET1单板:

支持非自协商流控

EFGS系列单板:

支持非自协商、自协商流控

EFGT系列单板:

1.1.5VLAN

对于ET1V1版本而言,VLAN的作用在于业务汇聚功能时用作路由标志,即通过配置VLAN路由实现以太网业务的汇聚功能,此时,有如下要求:

1、中心网元ET1的以太网端口设置为TAG属性;

2、中心网元ET1对接的宽带数通设备必须具备3层功能,即可以进行VLAN的划分(一般根据目的IP地址划分不同的VLAN)。

3、其他网元不做要求,根据实际情况灵活配置。

其他场合,一律建议配置端口路由。

对于ET1V2版本而言,VLAN的作用在于隔离,即通过VLAN过滤表实现端口的隔离,再在VLAN过滤表内通过二层交换实现帧的转发。

1.1.6封装与拆片

数据业务具有突发和不定长的特性,这与要求严格同步的SDH帧有很大的区别,因此需要引入合适的数据链路层适配协议来完成以太数据封装,包括数据缓存、队列调度等,实现以太网到SDHVC的帧映射。

ET1系列单板的处理方式:

发端首先将以太网帧拆成N个64字节长度的分片,然后采用ML-PPP协议对各个分片进行封装并依次轮循映射到绑定的VC12中,其中每个分片对应一个VC12。

接收端首先从VC12中恢复出完整的分片,然后再将N个分片合成一个完整的以太网帧。

EGT/EMS/EFS系列单板的处理方式:

发端不对以太网帧进行拆片,而是采用LAPS/GFP协议将整个以太网帧进行封装,然后以字节流依次轮循映射到绑定的VC中。

接收端首先从VC中取出数据,然后去掉封装恢复成一个完整的以太网帧。

疑问:

如果数据在传输过程中,即SDH侧出现误码,单板如何处理?

解答:

无论是何种封装协议,在封装时都会加入CRC校验,接收端在恢复成完整的以太网帧时,会对数据进行相应的CRC校验,如果校验错,则直接丢弃相关数据,不会将产生错误的以太网帧发送出去。

1.1.7常用单板性能指标

1、吞吐量(Throughput):

网络不丢帧情况下的最大速率,是最直接反映“带宽”的一个性能指标;

2、时延(Latency):

设备的处理过程引入的延时;

3、丢帧率(FrameLossRate):

在网络稳定状态下由于网络资源缺乏造成的不能转发的数据帧和总数据帧的百分比,理论上,吞吐量+丢帧率=100%;

4、背靠背(Back-to-Back):

网络允许的无帧丢失通过的、以最小的合法帧间隙出现的连续数据帧的最大长度,反映系统对数据突发的容忍能力。

由于吞吐量和丢帧率具有互补的关系,一般情况下只需要关注吞吐量和时延这两项性能指标,尽量引导用户不测试单板的背靠背指标。

当然,在故障定位时,要综合考虑以上几种性能指标对业务带来的影响。

另外,长期稳定性测试能反映出系统在一定负荷下长期工作的可靠性,对于用户反映业务有少量丢包的故障,最终可通过此项测试来判断是否为MSTP产品故障引起。

综合而言,MSTP产品提供的是链路层和物理层功能,任何严格意义上的测试都必须是仅仅基于这两层的,其他通过一些软件手段进行的测试由于引入了高层协议、软件实现等多种外部因素,都只能在一定程度上近似的反映出MSTP产品的部分性能指标,并不准确,不推荐做为衡量标准。

为何吞吐量测试时,测试用的帧长度不同,则测试结果不同?

主要是帧间间隔、前导码等不需经过SDH传送(由对端直接重生),即不占用通道绑定的带宽。

1.1.8性能事件(RMON)

不同以太网特性单板提供了不同的性能监视功能,具有RMON特性的单板还可以提供相关性能值越界告警,在日常维护和故障定位中,性能事件(RMON)是一个很好的辅助工具。

在众多性能事件中,通常需要重点关注以下内容:

1、各种错包

a、CRC错和超短帧:

首先排除端口模式不匹配的问题,其次是网线质量(干扰)的可能性,最后定位是否为网口硬件故障。

b、Alignment:

首先排除碰撞的可能性,如错包数量较多,建议更换硬件(对端设备故障可能性较高)。

c、发送错包:

一般为本端FIFO处理能力瓶颈引起或硬件故障,如错包数量较多且频繁,建议更换单板。

2、流控帧

表明网络流量过大,建议用户适当调整业务负载或进行流量整形。

3、碰撞与退避

表明本端口工作在半双工模式下,建议查询对端是否也工作在半双工模式。

对于其他性能事件,日常维护中不必过分关注。

1.2以太网常见故障定位思路处及问题处理方法

1.2.1故障定位思路与要求

与SDH故障定位思路一样,以太网故障定位也遵循“先外部、再内部;

先软件、再硬件;

先单板、再系统”的原则,充分利用性能事件、环回、测试帧等技术手段,结合工具软件、测试仪表进行有计划有步骤的定位。

同时,定位手段应具有针对性,这就要求工程师具备从纷繁的故障现象中迅速判断故障大致原因的能力,这种能力来源于两个方面:

1、对数据通信技术和SDH技术的深入了解;

2、经验的积累。

与SDH定位不同的是,以太网本身缺乏网络管理、监控能力,即OAM功能很弱,这种劣势往往需要更多的使用工具软件和仪表来弥补。

同时,故障往往牵涉传输和数通两大产品,这就要求工程师能站在整个网络的高度、业务的角度来看待问题,而不是仅仅看到SDH网络。

1.2.2常见故障现象及原因

发生以太网故障时,常见的故障现象有:

•业务不通;

•开通的业务异常,如:

上网速度慢,设备时延较大,业务有丢包,发送或者接收的数据有错包。

常见原因如下表所示。

故障类别

故障原因

外部原因

电缆或光纤接触不良

电缆或光纤连接错误

网线制作不规范

对接信号衰耗过大或不符合标准要求

对接设备的业务配置不正确

对接设备故障

网线或者光纤的传输长度超过规范

环境电磁干扰严重,影响网线传输

两端设备协商出现问题

对接设备光口选择错误(单模或者多模)

设备原因

端口属性设置不正确(Tag属性、缺省VLAN)

路由配置错误

两端绑定通道捆绑的2M数目不一致

对接信号的速率不同

对接信号的工作模式不同(全双工或者半双工)

环境温度或者子架温度过高

以太网板故障

光接口物理特性异常(发光功率过低、抖动过大等)

SDH部分业务配置错误

SDH故障(线路板、交叉板故障,倒换失败,线路误码等)

1.2.3以太网故障定位时如何找准问题的锲入点?

原则:

步骤:

弄清故障现象:

1)、业务全阻;

2)、业务部分丢包;

3)、非故障。

查询伴随的告警和性能:

1)、SDH侧;

2)、以太网侧。

难点:

判定故障界面:

1)、MSTP故障;

2)、数通产品故障;

3)、对接故障。

结论:

若数量较大,则先硬复位单板,如现象持续,则更换单板。

1.2.4常见故障处理步骤

检查SDH告警及业务

出现以太网业务故障时,首先通过网管,检查SDH业务是否正常,是否有SDH类型的告警。

检查并分析性能事件

当以太网业务异常时,OptiX2500+通常会上报性能事件。

下表列出了性能事件与故障原因的对应关系。

性能事件

RXCRC(接收有CRC错的数据包)

RXBBAD(接收不正确的数据包)

RXSCRC(接收错误的短数据包)

RXLCRC(CRC错误的超长数据包)

端口工作模式不匹配,单板故障

Txcol(发送过程中出现的碰撞次数)

Txxcol(超过16次的数据报数)

两侧端口的工作模式不一致

Txscok(一次碰撞后正确发送的数据包)

Txmcok(多次碰撞后正确发送的数据包)

Txlc(迟到的碰撞导致停发的数据包数)

RXpause(正确接收的流控数据包)

发送给对接设备的流量过大

Txpause(正确发送的流控数据包)

对接设备发送的流量超过设备的带宽

Txerr(由于underflow错误而发送的数据包数)TXBBAD(非正确发送字节数上报)

单板故障

1.2.5常用故障定位方法

仪表测试法

使用PC机的ping命令是测试以太网业务的常用方法。

操作方法:

配置一条连接,两端端口的Tag属性设置为UnTag,然后在两端用户接入端口分别接入一台PC,将两台PC设置在同一网段内,然后使用ping命令,用其中一台PCping另一台PC的IP地址。

要求ping包长为64~10000byte之间的不同包长的包,如果都能够ping通,则可以确认设备工作正常。

当只有一台PC的时候,可采用如下方法:

(1)将本站以太网板的一个端口连接PC;

(2)将对端站以太网板的一个端口连接到该站主控板的以太网接口;

(3)在本站使用不同的包长ping对端站的IP地址。

注意,此时以太网板要设置为10Mbit/s半双工或自协商。

环回法

采用环回法定位以太网对接故障时,通常按照“MAC层环回”、“E1支路环回”、“VC-4外环回”、“光口环回”的顺序依次进行环回操作。

环回操作通常与ping命令同时使用:

首先根据需要,设置端口的环回,然后使用ping命令任意ping一个IP地址;

通过端口统计的性能事件来查看数据包的增长,如果性能事件中的某一数据包的接收和发送数据没有同步增长,则说明环回处有问题。

对比法

使用相同的配置在同一时间,同一地点进行相同的操作,以确定是传输设备的问题还是以太网对接设备的问题。

操作步骤:

1、将本地两台PC通过交叉网线直接相连,进行ping测试,并记录ping的结果。

2、在传输设备上配置两条以太网路由;

然后在传输设备远端站点将这两条路由串接(即配置一条VC-Trunk至VC-Trunk的路由或者将以太网端口硬件环回)。

3、在本端将步骤1使用的两台PC,分别连接到已在步骤2完成配置的两个以太网端口;

然后进行与步骤1同样的ping测试;

如下图所示。

比较步骤1和步骤3ping测试的结果;

如果比较结果有数量级上的差异,则说明传输设备有问题。

以太网性能分析方法

1、最直观的定位工具--RMON

处理SDH故障时,我们首先做的就是查告警查性能,同样,处理以太网故障时,我们第一步也是查清告警和性能。

请注意,涵盖SDH侧和以太网侧。

排除A类告警:

Ethlos、AIS、LOP等必然导致业务中断的告警。

排除B类告警和性能:

B3SD、LPBBE等导致业务丢包。

重点分析RMON:

错包、碰撞与延迟、流控、硬件异常。

2、RMON分析

A、错包事件

AlignmentErrors:

对齐错误---碰撞引起或硬件故障(对端居多)。

FCSErrors:

CRC校验错---碰撞(全双工VS半双工)、网线质量差或受到干扰、对端硬件故障。

查端口模式、查网线、查对端硬件

B、碰撞相关事件

a、本端口实际工作在半双工模式,建议调整到全双工模式;

b、CSMA/CD算法所决定,非故障。

C、流控事件

反映了通道的“拥挤”程度,建议根据需要扩容。

D、硬件异常

DropEvents:

由于FIFO溢出而导致的丢包

1.2.6故障类型---业务严重受损

A、判定故障原因是否在MSTP侧

探询故障的触发事件--是否对网络做过操作、发生倒换等;

隔离法:

两端直接使用PC互Ping;

发测试帧:

简单实用(需要单板支持)。

B、定位故障点

法宝一:

环回,环回定位手段仅针对以太网透传单板。

对于二层交换单板在进行二层转发处理时会将自己发出去的包丢弃,因此对于二层交换的单板进行环回测试时没有意义。

法宝二:

测试帧(对于EFGS、EFGT单板,测试帧是我们定位故障界面比较有力的工具)--不支持咋办啦?

不支持那就用法宝三;

法宝三:

RMON性能统计。

C、套路

从近端开始逐段环回(以太网单板、交叉、线路),每环回一段,通过测试帧测试是否收、发一致,当收发不一致时,即找到故障所在点。

如产品不支持测试帧功能,则只能利用PC发包,通过单板端口RMON的收、发包数量是否一致来判断。

1.2.7故障类型---业务损伤不明显

判定故障原因是否在MSTP侧。

由于此时业务损伤不明显,甚至不能称之为“故障”,因此通过隔离法往往难以迅速判定故障界面;

或故障具有突发性和自愈性,不能及时抓到故障信息,需要长期监测定位。

此类问题,一般有以下几种处理方法:

A、调走业务,使用仪表对问题通道进行长期(24~72小时)稳定性测试,验证通道的长期可靠性。

B、不调动业务,使用仪表或软件工具进行在线长期监测,记录并输出log文件和其他信息。

C、替换法,直接更换相应单板,在线长期观察。

1.3典型案例

1.3.1案例一:

SDH业务故障引起以太网业务中断

【现象描述】

某传输网络采用OptiX2500+组成2纤双向复用段环,组网图如

(1)所示,1号站为业务中心站。

各站均配置有ET1板,集中型业务,即各站只与1号站有业务。

环上3号站的用户反映在上网时,时通时断;

网页有时能打开,有时打不开。

在网管上查询告警,发现3号站的ET1板上有大量瞬时性LP_RDI告警上报,对端1号站的ET1板上有大量瞬时性TU_AIS告警上报;

每次告警只持续1到2秒,间隔大约12分钟。

3号站和1号站的2M支路板、STM-1接口板都没有异常告警,整个网络只有Ethernet业务受影响。

1号站ET1板的端口分别对应环上各站点的ET1板端口,各站点的业务使用同一个VC-4汇接到1号站;

而且1号站的2块ET1上不是所有2M都有TU_AIS,其中有5个2M没有TU_AIS,这5个2M和其他2M唯一不同的就是这5个2M都来自1站东向板位的S16,其它有TU_AIS的2M业务都来自1站西向板位的S16。

(1)组网图

【告警信息】

LP_RDI、TU_AIS告警。

【原因分析】

1、ET1板瞬报LP_RDI、TU_AIS告警应该是影响以太网业务的根本原因,所以应首先排除SDH业务出现故障;

2、ET1板故障。

【处理过程】

1、查询各网元性能事件,没有发现再生段异常性能事件,1号、3号网元ET1板有低阶通道误码;

2、避开业务高峰对1号站XCS板进行主备倒换,结果故障现象依然存在。

倒换4号站点的XCS板,告警结束。

观察1个小时,仍然正常。

再将4号站点的XCS板倒回,故障重现,可以定位为该XCS板故障。

更换该板后故障排除。

【建议和总结】

由于XCS板故障导致某个VC-4业务无法穿通,SDH业务受到影响,使得使用户该部分业务的ET1板相业务受到影响。

在定位以太网业务故障时,先要观察SDH的告警和性能事件,在确保SDH无误的前提下,再进行以太网的故障定位。

1.3.2案例二:

使用二分法在线定位ET1单板故障

【现象描述】:

组网:

A-B-C-D-A组成2.5G双向MSP环,各站点均为2500+设备,A为中心局,配置了3块ET1单板,B、C和D为支局,各配一块ET1单板;

A站的3块ET1单板分别和每个支局的ET1单板开通以太网业务。

A站的3块ET1单板各出一个以太网接口连接至中心局的路由器上,下面各支局的ET1单板出一个以太网接口连接至交换机上。

某日,A至B的业务有规律性丢包。

【告警信息

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 社交礼仪

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1