降低PTN网络2M业务误码率.docx
《降低PTN网络2M业务误码率.docx》由会员分享,可在线阅读,更多相关《降低PTN网络2M业务误码率.docx(21页珍藏版)》请在冰豆网上搜索。
降低PTN网络2M业务误码率
降低PTN网络2M业务误码率
目前PTN网络所承载2M业务误码率极高,通过研究不同设备的单板特性,并进行优化配置,降低由于设备单板原因引起的PTN网络2M业务误码率.
1、选择课题
在小组长组织下,通过小组进行了课题选择讨论,通过会议确定课题内容,关于误码。
2、现状调查
小组通过统计业务误码率极高的部分基站,用于分析误码产生的情况,来进行分析和研究。
3、设定目标
处理PTN网络中承载业务误码情况,通过研究类单板特性,并进行优化配置,降低由于设备单板原因引起的PTN网络误码率,避免人为配置导致的误码率过高,保障自贡地区通信网络质量。
4、分析原因
PTN网络产生误码的主要原因:
1、网络侧链路故障;
2、网络侧QOS策略配置错误;
3、端口配置错误导致对接失败;
4、单板故障导致业务产生大量误码;
5、传输通道产生误码;
6、数据配置不一致导致业务产生大量误码;
7、设备接地不规范产生误码;
5、确定主要原因
产生误码主要原因是要因4单板故障导致业务产生大量误码和要因6数据配置不一致导致业务产生大量误码。
6、指定方案
1、挂误码仪对存在误码的业务进行测试,记录相关误码业务的误码值。
对CES接入端口挂误码仪,然后在另一端做环回进行测试,正常情况下24小时没有误码产生。
对通道执行伪随机码误码率测试可检查通道质量,测试结果将在坐标图上显示出来,由此判断误码。
2、对CES业务数据配置进行详细检查,确保业务数据配置正确。
7、方案实施
1、分小组对有误码的CES进行误码测试,其他小组用伪随机码进行测试,对比测试结果。
2、对全网CES业务进行业务数据配置和设备单板性能核查。
8、检查效果
1、通过接入误码仪准确测试误码值。
2、通过伪随机码误码率测试是否有误码。
9、制定巩固措施
误码产生主要原因是由于设备单板和人为配置数据导致。
1、要保证数据配置正确,降低由于人为操作问题导致产生误码。
2、对设备单板进行性能分析和比对,保障在有CES业务误码时能够快速分析误码产生的原因,避免误码影响业务带来损失。
10、总结和下一步打算
通过本次对误码课题的研究,对产生误码的原因进行了系统的分析,以及如果分析和判断各种产生误码的原因,通过方法进行误码原因的逐一排查,来避免误码的产生。
对自贡现有PTN网络中存在误码的情况,进行严格按照本次的方案进行实施。
降低PTN网络2M业务误码率
中国移动通信集团四川有限公司自贡分公司网络部
“EC特工队”QC小组
2012年11月
QC小组简介
自贡网络部“EC特工队”QC小组成立于2012年3月,小组成员由网络部传输组维护人员组成,小组成员共有7人,人员素质较好、技术水平较高。
小组以改进质量、提高企业效益为宗旨,在工作中应用质量管理的理论和方法,进行新技术开发、技术难点攻关,以提高网络运行质量、工作效率和客户满意度为目的。
表1:
EC特工队QC小组介绍制表人:
丁均平
小组名称
EC特工队QC小组
小组注册号
12SC-0398-001
QC教育时间
2小时/人次
课题名称
降低PTN网络2M业务误码率
组长
钟亨义
课题类型
攻关型
活动时间
2011.6.15-2011.11.30
活动次数
9次
序号
姓名
文化程度
组内分工
1
钟亨义
本科
负责总体策划和协调
2
杨显斌
本科
负责技术支持和协调
3
曹琳玉
本科
负责性能分析
4
王睿书
本科
负责2M业务误码收集
5
丁均平
本科
负责数据测试和分析
6
胡强
本科
负责线路质量收集
7
贺军
本科
负责物资和硬件准备
选择课题
自贡传输PTN网络
4、分析原因
PTN网络产生误码的主要原因:
1、网络侧链路故障
原因分析
●原因1:
承载CES业务的Tunnel经过的站点光口光功率异常。
●操作步骤:
1、查询当前告警,看是本站业务经过的站点的相关光口否有IN_PWR_ABN告警,进入网元管理器
查看IN_PWR_ABN是否抑制如有抑制情况解出抑制
,无则说明光功率正常。
●原因2:
承载CES业务的PW中断。
●操作步骤:
1、查询系统是否有PW_DOWN告警,处理PW_DOWN告警
产生PW_DOWN告警的可能原因有:
∙原因1:
本端和对端的PW配置不匹配。
∙原因2:
网络出现严重的拥塞。
∙原因3:
单板光接口未正确连接尾纤。
∙原因4:
光模块故障。
∙原因5:
单板故障。
处理步骤
∙原因1:
本端和对端的PW配置不匹配。
1.在网管上查询PW承载的业务类型,并确认本端网元和对端网元的PW配置是否一致,例如PWID,PW类型,PW信令类型,标签等。
2.若不一致,修改网管配置,使两端网元的配置相匹配。
∙原因2:
网络出现严重的拥塞。
3.在网管上检查Tunnel的配置带宽是否太小。
4.若配置带宽过低,增大Tunnle的配置带宽或消除非法发送大数据量的根源后,查看告警是否清除。
∙原因3:
单板光接口未正确连接尾纤。
5.检查两端网元单板光接口的尾纤是否正确连接。
6.若连接不正确,重新正确连接尾纤。
∙原因4:
光模块故障。
7.在网管上查询两端网元是否存在光模块相关的告警,例如LSR_WILL_DIE。
8.若存在,更换故障的光模块。
∙原因5:
单板故障。
9.在网管上查看两端网元的单板是否存在HARD_BAD、COMMUN_FAIL等硬件类告警,如图:
图上灰色单板
10.若存在,硬复位上报硬件类告警的单板,查看本告警是否清除。
。
11.若本告警未清除,更换相关单板后,查看本告警是否清除。
2、查询系统是否有PWAPS-TYPE-MISMATCH告警,处PWAPS-TYPE-MISMATCH告警
告警PWAPS_TYPE_MISMATCH产生的可能原因如下:
∙原因1:
保护组保护类型不一致。
∙原因2:
保护组倒换模式不一致。
∙原因3:
保护组恢复模式不一致。
处理步骤
∙原因:
PWAPS保护组保护类型、倒换模式或恢复模式配置不一致。
1.在网管上查询PWAPS保护组两端配置是否一致。
若不一致,修改PWAPS保护组配置,使两端配置一致后重新使能协议,告警将自动清除。
2、查询系统是否有PW-DROPPKT-EXC告警,处PW-DROPPKT-EXC告警
处理步骤如下:
原因为少量丢包
1在网管上查看PW的带宽配置是否过低。
2、若是,重新为该PW配置较大带宽,查看告警是否清除。
●原因3:
承载CES业务的Tunne中断。
操作步骤
1.查询系统是否有MPLS_TUNNEL_LOCV告警,处理MPLS_TUNNEL_LOCV告警。
2.查询系统是否有PW_DOWN告警,处理PW_DOWN告警
如上阐述网络侧链路故障是产生2M误码的主要原因之一,在后期数据配置时要查看络侧链路是否有故障。
如有故障先排出链路故障。
2、网络侧QOS策略配置错误
QoS故障原因如下:
∙原因1:
网元未配置QoS策略。
∙原因2:
配置业务时选择了错误的QoS策略。
∙原因3:
Tunnel或PW的配置带宽过低。
∙原因4:
单板故障,配置数据未下达到单板。
工具、仪表和材料
U2000,误码仪
操作步骤
∙原因1:
网元未配置QoS策略。
1.检查网元是否配置了相关QoS策略,包括WRED策略,WFQ调度策略,端口策略,CAR策略,V-UNIIngress策略或ATM策略等。
∙若没有,重新配置遗漏的QoS策略。
∙原因2:
配置业务时选择了错误的QoS策略。
∙检查业务当前配置的QoS策略是否适用。
若不适用,重新配置新的策略。
∙原因3:
Tunnel或PW的配置带宽过低。
2.检查Tunnel或PW当前配置带宽是否满足业务流量需求。
若带宽配置过低,需要重新配置带宽。
∙原因4:
单板故障,配置数据未下达到单板。
3.检查系统是否存在HARD_BAD等硬件类告警,若存在,清除HARD_BAD告警。
4.检查系统是否存在LSR_WILL_DIE等激光器相关告警,若存在,清除LSR_WILL_DIE告警。
网络侧QOS策略配置错误是产生2M误码的次要原因之一(原因4:
单板故障,配置数据未下达到单板,需要引起重视)
3、端口配置错误导致对接失败
操作步骤:
1、查看网元是否有
2、进入网元管理器里
查看CES业务所经E1接口的基本属性
,发现“端口模式”设置为“一层”,支持CES业务。
3、再查看该接口的高级属性
发现“帧格式”设置为“非成帧”。
说明:
E1接口支持三种“帧格式”:
“非成帧”,“Double帧”和“CRC-4复帧”。
1.将“帧格式”修改为“非成帧”后,再创建UNI-UNICES业务,即可以完成配置。
用SDH测试仪进行业务测试,业务正常,问题解决。
∙“Double帧”和“CRC-4复帧”具有固定的帧结构,适用于配置结构化的CES业务。
∙“非成帧”的信号是连续的比特流,没有固定的帧结构,适用于配置非结构化的CES业务。
∙UNI-UNICES业务需配置非结构化的CES业务,所以端口的“帧格式”需要设置为“非成帧”
端口配置错误导致对接失败是2M误码产生的次要原因之一,主要是人为操作不当造成在后期业务配置时、必须认真查检。
4、单板故障导致业务产生大量误码
操作步骤:
2、查询系统当前告警,是否存在HARD_BAD告警,并确定上报告警的单板。
3、硬复位单板,看HARD_BAD告警是否消除如消除,排除故障
4、若HARD_BAD告警未消除,更换单板。
单板故障是业务产生大量误码主要原因之一,如发现单板有问题进行硬复位与数据分析、看是否可以恢复,如无法复位申请更换单板。
5、传输通道产生误码
1、基站侧PTN的E1线与MLI板未插好出现误码
2、基站侧E1线缆接头虚焊出现误码。
3、传输DDF架未接地、DDF架出接触不良导致出现误码。
4、中心局点E1电缆是否存在松动可脱落导致出现误码。
传输通道产生误码的主要原因之一,主要是基站侧和核心侧E1线缆与DDF架2M头虚焊和接触不良造成。
后期在工程施工时要求工程按规范施工。
6、数据配置不一致导致业务产生大量误码
操作步骤:
1、查看网元是否有SWDL-NEPKGCHECK告警如有:
检查文件类型是否匹配、文件是否有丢失,如存在不匹配或丢失,重新下载匹配软件。
2、重新进行软件包加载,更新软件包,查看告警是否清除。
3、查看时钟是否配置正确。
数据配置不一致是导致业务产生大量误码主要原因之一,如发现数据不一致进入配置“网元配置数据
进行一致性校验或上载
。
7、网元的同步时钟源级别丢失,或同步时钟源丢失。
操作步骤:
1.查询系统是否存在SYNC_C_LOS或LTI告警。
2.查看时钟配置是否正确,如配置错误重新配置时钟。
3.若存在,消除SYNC_C_LOS或LTI告警。
网元的同步时钟源级别丢失,或同步时钟源丢失是产生误码的主要原因之一,因为2M对时钟要求很高,因此在时钟配置时一定要按规范配置。
8、承载CES业务的PW在单位时间内丢包数、错包数或抖动缓冲超过阈值
操作步骤:
1.查询系统是否存在CES_LOSPKT_EXC或CES_MISORDERPKT_EXC告警,若存在,消除CES_LOSPKT_EXC或CES_MISORDERPKT_EXC告警。
2.查询系统是否存在CES_STRAYPKT_EXC或CES_MALPKT_EXC告警,若存在,消除CES_STRAYPKT_EXC或CES_MALPKT_EXC告警。
3.查询系统是否有CES_JTRUDR_EXC或CES_JTROVR_EXC告警,处理CES_JTRUDR_EXC或CES_JTROVR_EXC告警。
承载CES业务的PW在单位时间内丢包数、错包数或抖动缓冲超过阈值是产生2M误码的主要原因之一,单位时间内丢包数、错包数或抖动缓冲超过阈值会造成闪断与误码。
9、单板温度过高或板间通信故障,无法正常工作
操作步骤:
1、查询系统当前告警,是否存在TEMP_OVER、COMMUN_FAIL、BUS_ERR告警,并确定上报告警的单板。
2、消除TEMP_OVER、COMMUN_FAIL或BUS_ERR告警,排除故障。
单板温度过高或板间通信故障,无法正常工作是产生误码的主要原因之一,在后期要注意机房温度情况,定期进行机房设备温度检查,看温度是否正常。
如不正常进行温度整改。
10、设备接地不规范产生误码
1、查看设备和机柜是否按规范接地。
未接地按规范接地。
2、查看地排一端接地是否牢固。
设备接地不规范产生误码是产生误码的次要原因之一,在工程新建设备一定要按规定接地。
5、确定主要原因
1、传输通道问题。
2、单板故障导致业务产生大量误码
3、数据配置不一致导致业务产生大量误码。
4、时钟配置错误
5、E1线缆松动或接头虚焊
6、指定方案
1、检查传输通道是否有告警存在,若有先消除告警。
2、对CES业务数据配置进行详细检查,确保业务数据配置正确。
3、时钟配置与跟踪是否正确。
4、挂误码仪对存在误码的业务进行测试,记录相关误码业务的误码值。
对CES接入端口挂误码仪,然后在另一端做环回进行测试,正常情况下24小时没有误码产生。
对通道执行伪随机码误码率测试可检查通道质量,测试结果将在坐标图上显示出来,由此判断误码。
5、创建U2000CES业务性能监控
7、方案实施
1、对全网CES业务进行业务数据配置和设备单板性能核查。
操作步骤:
1、进入“网元管理器”
2、步骤2-在网元管理树下,选择“接口管理”下的PDH接口,在高级属性中将设置帧格式
对于结构化CES业务,即cesopsn类型,设置帧格式为“CRC4-复帧”对于非结构化CES业务,即satop类型,设置帧格式为“非成帧”
对CES业务进行PING测试:
步骤如下:
1、进入网元管理器的PW管理
3、进入PWOAM参数选中要测试的PW(如图1)、点击右键进行PING测试_应答模式选择为“应用控制通道”(如图3)。
图1
图2
图3
查看测试结果是否有丢包,如下图
2、对有误码的站点重新培置一条CES进行随机码进行伪随机码测试.
步骤如下:
1、进入“网元管理器”配置-接口管理-PDH接口高级属性-环回方式“内环回”如下图
2、选中要进行测试的端口进行内环进行伪随机码测试,如下图
4、设置测试时间开始测试,如下图
5、查看测试结果是否有误码、查看伪随机码总数,如下图(图1为误码、图2为正常)
图1(为误码)
图2(业务正常)
2、创建U2000CES业务性能监控
方法如下:
1.打开历史性能统计
1找到相关的网元,单击右键,选择网元浏览器(NE_Explorer).如图所示:
2选则CES业务管理(CESServiceManagement).选择相应的业务,单击右键选择性能和统计管理(PerformanceandStatisticManagement),如下图所示:
3选择左下方方框中对应的PW项,将其移入右方的方框中,如图所示:
4点击OK后,界面如下:
点击下一步(NEXT)后,界面如下:
选择创建性能监控模板(CreateDataMonitorTemplate),选择以CES和PW开头的性能,不要选以MPLS_PW开头的性能:
输入模板名称(TemplateName),例如,CESTEST,点击OK后,界面如下:
选中刚创建的模板CESTEST,在监控周期(Granularity)中选中15min,然后点击下一步(next),
点击下一步(next),成功后,选择完成(Finish).
2.查询当前性能计数
1找到相关的网元,单击右键,选择网元浏览器(NE_Explorer),如图所示:
2选择CES业务管理(CESServiceManagement).选择相应的业务,单击右键选择浏览性能(BrowsePerformance),如下图所示:
3选择统计组(StatisticsGroup),选上要查看的性能(以CES_,PW_开头的性能),选择List后,点击Start后,即可以查询当前性能计数。
观察性能的单位,可以发现它是一个速率值。
3.查询历史性能计数
和查询当前性能计数类似,只是查看性能时,需要选择历史组(HistoryGroup),选择可变周期1(CustomPeriod1),选择查询(Query)即可。
如果没有数据,会显示没有可查询的数据。
有可能是还没有达到一个采集周期,需要等待15min后,才会有第一次数据。
3、对有误码的站点重新培置一条CES业务下挂误码仪进行误码测试,与网管上的为随机码测试结果进行对比。
8、检查效果
1、通过接入误码仪准确测试误码值。
2、通过U2000进行伪随机码测试检查是否有误码,分别对基站侧和核心侧进行环回分别测试,判断传输线路是否有误码。
3、通过U2000CES业务性能查看方法查看是否有丢包,如果有丢包查看传输线路是否有告警,如有进行处理。
4、对现网PTN所带CES业务误码进行系统分析,总结处现误码的原因和处理方法。
9、制定巩固措施
误码产生主要原因是由于设备单板、传输线路和人为配置数据导致。
1、要保证数据配置正确,降低由于人为操作导致产生误码。
2、对设备单板进行性能分析和比对,保障在有CES业务误码时能够快速分析误码产生的原因,避免误码影响业务带来损失。
3、查看时钟配置是否正确。
4、查看业务经过的传输线路上是否有IN-PWR-ABN告警、如有进行光功率整改。
10、总结和下一步打算
通过本次对误码课题的研究,对产生误码的原因进行了系统的分析产生误码的主要原因如下:
1、网络侧链路故障
2、网络侧QOS策略配置错误
3、端口配置错误导致对接失败
4、单板故障导致业务产生大量误码
5、传输通道产生误码
6、数据配置不一致导致业务产生大量误码
7、网元的同步时钟源级别丢失,或同步时钟源丢失
8、承载CES业务的PW在单位时间内丢包数、错包数或抖动缓冲超过阈值
9、单板温度过高或板间通信故障,无法正常工作
10、设备接地不规范产生误码
通过对误码产生的原因进行逐一排查,避免PTN网络中误码的产生。
对自贡现有PTN网络中存在误码的情况,按照本次的方案进行实检查,找出误码存在的问题点。
后期进行2M业务配置时尽量避免人为的数据配置错误,对2M误码处理参考以上步骤进行,后期尽量2M误码对网络业务的影响,争取做到误码率在4%以下。