13第13章 ECC故障处理.docx
《13第13章 ECC故障处理.docx》由会员分享,可在线阅读,更多相关《13第13章 ECC故障处理.docx(10页珍藏版)》请在冰豆网上搜索。
13第13章ECC故障处理
目录
第13章ECC故障处理13-1
13.1背景知识13-2
13.1.1网管与网元通信13-2
13.1.2ECC信号流13-2
13.1.3ECC路由13-2
13.1.4ID和IP13-3
13.1.5人工设置连接表和路由表13-4
13.1.6ECC路由规划13-4
13.2常见故障原因13-5
13.3故障定位方法与步骤13-6
13.3.1常用定位方法13-6
13.3.2故障定位步骤13-6
13.4分类故障定位与排除13-8
13.4.1排除外部故障13-8
13.4.2排除人为原因造成的故障13-8
13.4.3将故障定位到单站或两个站之间13-8
13.4.4检查单板13-9
插图目录
图13-1环网中的ECC13-3
图13-2ECC故障处理流程图13-7
图13-3链形组网13-8
表格目录
表13-1ECC故障的常见原因13-5
第13章ECC故障处理
本章介绍OptiXOSN1500设备ECC(EmbeddedControlChannel)的故障处理流程和故障排除方法。
包括:
●背景知识
●常见故障原因
●故障定位方法与步骤
●分类故障定位与排除
13.1
背景知识
ECC即嵌入式控制通道,用于SDH网元间通信,传送TMN(TelecommunicationsManagementNetwork)信息,实现网管对非网关网元的管理。
ECC的物理通道包括DCC(DataCommunicationChannel)字节和用于扩展ECC的串口和网口。
DCC字节即SOH(SectionOverhead)中的D1-D12字节。
OptiXOSN1500产品一般用到了其中的D1-D3字节(OptiXOSN1500可以选择D1-D3,D4-D12和D7-D9三组中的任意一组字节),即再生段DCC,速率为192kbit/s,用于网元之间的OAM(OperationAdministrationandMaintenance)信息交流。
在两个SDH网元之间有光纤连接时一般使用段开销的再生段字节D1~D3传送TMN信息。
在没有光纤连接但需要交换TMN信息的两个网元之间一般使用扩展ECC,即将两个网元通过网口或串口连在一起,并传送TMN信息。
13.1.1网管与网元通信
网管和非网关网元之间的通信是这样的:
首先网管和网关网元之间通过TCP/IP协议传递信息,然后网关网元和非网关网元之间通过ECC通信,最终实现了网管和非网关网元之间的通信。
13.1.2ECC信号流
ECC信号流与业务信号流无关。
对于OptiXOSN1500设备,每对对偶板位(如slot12和slot13)的DCC字节可以互相穿通。
因此,在配置ADM时,slot12和slot13板位组成ADM。
说明:
OptiXOSN1500设备的对偶板位有(slot1和slot11)、(slot12和slot13)、(slot2和slot12)、(slot3和slot13)、(slot4和slot5)(slot6和slot9)、(slot7和slot8)。
13.1.3ECC路由
1.ECC路由的特点
(1)若路由一切正常,网管通过网关网元登录非网关网元走网上的短路径。
若短路径不正常,则走网上的长路径。
若长短路径皆不正常,则不能登录。
(2)ECC通道的建立方式也是采用发端并发,收端选择建立路由的方式。
其选择原则是根据最短路径建立路由。
这里的最短路径不是指地理上的实际距离,而是指路由表中的逻辑距离,即间隔站点的数量。
2.环网中的ECC路由
图13-1环网中的ECC
如图13-1所示,假设NE1是网关网元,连接网管。
从网管登录NE4,既可以走NE1→NE4的路径,也可以走NE1→NE2→NE3→NE4的路径;即所谓的短路径和长路径。
在环网中,如果NE1→NE4的短路径出了问题,网管还是可以通过长路径登录NE4号网元。
所以我们不能仅仅以是否能登录网元来判断ECC的正常与否,应经常在网管中查看ECC路由,发现走长路径的现象就应查找原因,排除故障。
13.1.4ID和IP
1.网元ID
每个网元必须有一个独立的标识符ID,网元之间的ECC通信是通过ID地址识别进行的。
另外网管在界面/数据库中标识不同的网元时也采用网元ID,作为检索的关键字标志网络中每个网元。
2.扩展ID(子网号)
采用扩展ID的意义在于统一网管时,以前独立开通的各个子网要通过一个网管进行管理,由于各子网的ID是重复编码的,连接成一个大网后,ID重复了,ECC路由表的建立会出错,网管也无法管理。
可以在统一网管之前,将ID重复的网元设成不同的扩展ID。
扩展ID(即网元的子网号)可在网管中设置/查询。
3.网关网元的IP地址
IP地址是网关网元与网管进行通信用的,因此只有在参与TCP/IP通信时IP地址才有效,也就是说,一般只有网关网元才需要设置IP地址。
IP地址不能用于唯一标识网元。
从本质来说,ID与IP无任何关系,ID与IP都可以独立设置。
但缺省IP地址的低16位是网元的ID。
例如,如果ID为1,则IP缺省为129.9.0.1。
如果人工设置IP地址后,ID的改变将不再影响IP地址。
如果取消人工设置的IP地址后,IP将跟随ID改变。
注意:
只有网关网元才需要设置“IP”地址,严禁对非网关网元进行“IP”设置。
设置网关网元的“IP”后,需要在文档中进行记录。
如IP地址遗忘,则只能通过非网关网元登录到IP地址遗忘的网元上,通过网管查询IP地址获得。
13.1.5人工设置连接表和路由表
自动路由是网元根据协议自动建立起来的网元之间的路由关系。
自动路由不能删除和修改。
人工路由是人工设置的网元间的路由关系(包括路由的距离、级别等),下发后替代原自动路由完成网元间的通信。
在T2000网管中可以增加、删除人工路由。
人工设置连接表和路由表主要用于单向路由时建立ECC通道。
不正确的人工路由将影响网元之间的通讯,请慎用!
人工路由的设置和删除方法请参考T2000联机帮助的介绍。
13.1.6ECC路由规划
ECC路由规划是指一个网关网元所辖的网元数应该在一个比较合理的范围内。
网络中通过ECC互相连接时,网络中网元越多,ECC路由越复杂。
如果ECC路由规划不合理,当网络出现异常时,就会出现ECC通信困难。
在OptiXOSN1500组网时,ECC路由规划时,建议一个网关网元所辖的网元在50个网元以下。
13.2
常见故障原因
1.常见故障现象
常见的ECC故障现象有:
网管登录不上网元、网管登录网元的速度慢、网管登录网元忽通忽断和ECC路由不正确。
2.常见故障原因
表13-1ECC故障的常见原因
故障原因
故障类别
外部原因
网线、网卡、网管计算机、HUB、路由器等外部设备故障
光缆性能劣化
人为原因
ECC路由规划不合理
IP地址设置不对
网元ID重复
网元未加入到系统管理域中
设置了人工路由
设备原因
AUX板故障
CXL板故障
光接口板故障
13.3
故障定位方法与步骤
13.3.1常用定位方法
●替换法
●经验处理法
13.3.2故障定位步骤
1.故障处理的基本原则
故障的定位基本原则仍然是“先外部,后传输;先网络,后网元;先高速,后低速;先高级,后低级”。
2.ECC故障处理步骤
步骤
操作
1
排除外部因素,如网线、网卡、网管计算机、HUB、路由器等外部设备故障。
2
排除人为因素。
检查ECC路由规划是否合理;网管计算机和网关网元的IP地址是否正确;网元ID是否重复;是否存在未将网元加入到系统管理域;是否设置人工路由。
3
检查AUX板。
存在AUX板故障,则替换AUX板。
4
检查CXL板。
存在CXL板故障,则替换CXL板。
5
检查光接口板。
存在光接口板故障,则替换光接口板。
ECC故障定位流程如图13-2所示。
图13-1ECC故障处理流程图
13.4
分类故障定位与排除
13.4.1排除外部故障
网线、网卡、网管计算机、HUB、路由器等外部设备故障都会造成网管无法登录所有网元。
13.4.2排除人为原因造成的故障
ECC路由规划不合理会造成网管速度较慢,且经常出现若干个网元颜色突然变灰又恢复的现象。
在设备组网调测的时候,就应该合理地规划ECC路由。
如果由于ECC路由规划不合理,造成ECC通信异常,应该重新规划ECC路由。
网关网元IP地址和网管计算机IP地址不在同一个网段中,就会造成网管计算机无法登录所有网元。
重新设置正确IP,可以排除故障。
在设备安装调测或升级扩容中,一些设置上的错误也会导致ECC问题。
比如,新增网元的ID和老网元的ID重复。
特别应该注意检查系统管理域设置,确认已经将不能够登录的网元加入系统管理域。
查询是否存在人工路由,有时候由于人工路由的存在,在正常情况下,ECC通信正常,在发生断纤故障的时候,常常会发生ECC通信故障。
13.4.3将故障定位到单站或两个站之间
对于ECC问题,将故障定位到单站或两站之间是比较容易的。
一般来说,将问题定位到距离网关网元最近的ECC故障网元以及相邻网元之间。
如图13-3所示的链形组网中,NE1为网关网元,连接网管。
故障现象:
现在NE3、NE4站登录不上。
图13-1链形组网
如果NE3、NE4都不能登录,则故障基本可以定位到NE2和NE3。
对于ECC问题,不但要分析登录不上的站点,还要分析其上游站。
如上所述如果网管不能登录NE3,则对NE2、NE3都应分析。
13.4.4检查单板
如果还没有定位出单站内的ECC故障,就要对相应的单板进行检查了。
1.检查CXL板
首先检查相关站点的CXL板是否硬件故障。
以上例子中,此项需要NE2、NE3的机房维护人员配合,主要是查看CXL板的指示灯是否正常。
红灯长亮则SCC板硬件有故障。
如果有以上情况,更换CXL板。
注意:
更换CXL板后,应对此网元重新下发配置,因为网元配置数据是存放在CXL板上的。
2.检查光接口板
如果处理CXL板无效,就要检查光接口板。
光接口板有告警应先查明告警原因,否则用互换法、替换法,更换光接口板。
警告:
拔插光接口板将导致相关业务中断!
慎用拔插光接口板,建议在夜间小业务量时进行。