QC降低PON类无效工单率.docx
《QC降低PON类无效工单率.docx》由会员分享,可在线阅读,更多相关《QC降低PON类无效工单率.docx(34页珍藏版)》请在冰豆网上搜索。
QC降低PON类无效工单率
降低PON无效故障
工单率
中国移动集团安徽有限公司阜阳分公司监控QC小组、网络部运行监测科第四QC小组
2012年4月——2012年11月
一、小组概况
1、小组概况(待确定)
表1-1小组概况表
小组名称
阜阳分公司监控QC小组、网络部运行监测科第四QC小组
成立时间
2006年10月
小组类型
现场型
组长
张建业
课题名称
降低PON无效故障工单率
活动起止时间
2012年4月~2012年11月
课题登记号
人数
8人
制表:
范晓慧日期:
2012-4-2
2、组成人员及分工
表1-2小组成员及分工表
姓名
性别
文化程度
职务
组内分工
张建业
男
硕士
阜阳分公司副总经理
组长
李辉
男
本科
阜阳分公司运维部主任
组员
范晓慧
女
本科
阜阳监控班班长
组员
王琪
男
硕士
监控技术管理
组员
倪晋宇
男
硕士
监控技术支持
组员
胡进
男
本科
网络监控支撑
组员
张玉涛
男
本科
集中分析
组员
杨强
男
本科
宣传管理
组员
制表:
范晓慧日期:
2012-4-2
3、名词解释
无效故障工单:
不能反映设备、网络、业务实际运行情况告警和由于网络工程操作而产生告警派发的工单,定义为无效故障工单。
无效故障工单率:
一个统计周期内(月度)的无效故障工单总数与故障工单总数之比,称为无效故障工单率。
二、选题理由
1、课题选择
图2-1故障处理流程
制图:
王琪日期:
2012-4-3
在图2-1的故障处理流程中,监控部门主要负责三个方面的工作:
网管告警的有效性分解、故障预处理、派发工单。
但是,监控部门派发的故障工单中无效故障工单量大。
小组针对阜阳分公司动环设备、交换设备、无线设备、传输专业和其他设备的无效故障工单情况进行比较发现传输专业无效故障工单量最大,通过对传输专业无效故障工单进一步分析发现PON类无效故障工单率最高,阜阳分公司运维部监控班联合省公司网络部运行监测科选择了该QC课题。
图2-2课题选定过程
制图:
王琪日期:
2012-4-6
2、活动计划
表2-1活动计划甘特图
制表:
范晓慧日期:
2012-4-7
三、现状调查
小组对2011年12月到2012年3月阜阳分公司PON类的工单量进行统计,如表3-1
表3-1阜阳分公司PON类故障工单统计表
统计月份
分类
工单总数
厂商名称
贝尔
爱立信
华为
201112
工单数
1576
546
623
407
占比
100%
34.64%
39.53%
25.82%
201201
工单数
1525
509
613
403
占比
100%
33.38%
40.20%
26.43%
201202
工单数
1605
532
639
434
占比
100%
33.15%
39.81%
27.04%
201203
工单数
1530
520
617
393
占比
100%
33.99%
40.33%
25.69%
合计
工单数
6236
2107
2492
1637
占比
100%
33.79%
39.96%
26.25%
制表:
杨强日期:
2012-4-10
从表3-1中可以看出,贝尔、爱立信、华为三个厂家工单数占总工单数的比例分别为33.79%、39.96%、26.25%。
小组采用分层抽样法每月随机抽取200条PON类故障工单进行分析。
根据不同厂家告警量占比进行样本的配置:
70条、80条、50条。
分层调查一:
按时间分层
小组对抽样数据分月进行统计,结果如表3-2所示:
表3-2阜阳月度PON无效故障工单率
统计月份
告警总数
抽查样本数
无效故障工单数
无效故障工单率
201112
1576
200
50
25.00%
201201
1525
200
46
23.00%
201202
1605
200
48
24.00%
201203
1530
200
50
25.00%
合计
6236
800
194
24.25%
制表:
张玉涛日期:
2012-4-15
由表3-2可知:
阜阳分公司PON类无效故障工单率月度波动性不大。
未找到问题所在。
分层调查二:
按设备厂家分层
小组对PON类故障告警按照厂家进行分类统计,结果如表3-3所示:
表3-3分厂家统计PON类故障无效故障工单率表
厂家
告警总数
抽查样本数
无效工单数
无效工单率
贝尔
2107
280
68
24.29%
爱立信
2490
320
75
23.44%
华为
1636
200
51
25.50%
合计
6233
800
194
24.25%
制表:
张玉涛日期:
2012-4-15
由表3-3可知:
每个厂家无效故障工单率差异不大,无效故障工单占比比例与抽样比例相当。
未找到问题所在。
分层调查三:
按告警种类分层
小组从阜阳市贝尔设备厂家抽随机查出的1944条无效故障工单,将无效故障工单进行了分类,并按工单种类进行总量统计。
结果如表3-4所示:
表3-4不同告警种类的无效故障工单占比情况统计表
工单种类
无效故障工单总数
无效故障工单总数占比
累计
ONU掉电
1612
82.92%
82.92%
ONU离线
180
9.26%
92.18%
ONU光功率异常
96
4.94%
97.12%
OLT光功率异常
34
1.75%
98.87%
其他告警
22
1.13%
100.00%
合计
1944
100%
/
制表:
张玉涛日期:
2012-4-15
图3-1无效故障工单随告警种类变化的帕累托排列图
制表:
张玉涛日期:
2012-4-15
从图3-1可见,ONU掉电类工单的无效故障工单数占所有无效故障工单数82.92%。
ONU掉电类无效故障工单量大是问题的症结所在。
课题选定:
降低ONU掉电类无效故障工单量。
四、设定目标
小组结合我省各地市其他传输设备监控系统实际,同时与使用同样传输监控设备的同等网管规模兄弟地市进行交流得知:
(1)阜阳市PON传输系统与SDH/DWM传输系统对比
表4-1阜阳市SDH监控系统无效故障工单统计表(抽查2个月)
月份
工单样本数
无效工单数
无效工单率
20011年12月
200
14
7.00%
20012年1月
200
13
6.50%
制表:
杨强日期:
2012-4-25
从表4-1中可以看出与PON传输系统相似的SDH/DWM传输系统的无效故障工单率基本控制在8%以下。
(2)与兄弟地市进行交流,得出PON传输系统工单无效率情况,见表4-2。
表4-2其他地市PON无效故障工单率对比统计表
厂商
地市A
地市B
地市C
贝尔
6.91%
\
5.95%
爱立信
7.25%
5.98%
6.79%
华为
5.69%
6.29%
7.37%
合计
6.62%
6.14%
6.70%
制表:
王琪日期:
2012-4-25
表中可见其他地市PON传输无效故障工单率基本控制在8%以下。
而阜阳分公司的PON网络规模和结构与其他地市相似,通过努力阜阳分公司PON传输无效告警率也可达到相当的水平。
小组认为,通过采取一系列措施可以将电源类无效告警量降低到与其他告警相当的水平,即掉电类的无效故障工单量降低80%。
因此,可以计算出对应的无效告警率:
因此,阜阳监控QC小组与网络部运行监测科第四QC小组商讨后认为把活动目标值定位为:
PON类无效故障工单率≤7.9%
PON传输无效故障工单率由24.30%降低到7.90%。
现状和目标如图4-1所示:
,
图4-1现状和目标示意图
制图:
王琪日期:
2012-4-25
五、原因分析
小组利用头脑风暴法列举可能造成ONU类无效故障工单量大的各种因素,整理成如下图5-1所示的系统图:
图5-1原因分析树图
制图:
王琪日期:
2012-5-10
六、要因确认
小组制定要因确认计划表,如表6-1所示:
表6-1要因确认计划表
序号
末端原因
确认内容
确认方法
确认标准
负责人
完成日期
1
维护人员缺乏培训
维护人员的PON设备培训情况
数据统计、现场调查
培训人数占比大于50%;理论和操作成绩90分以上
张玉涛、范晓慧
2012-5-25
2
无PON告警关联规则
调查同一故障告警关联情况
现场调查
存在PON告警关联规则
倪晋宇、张玉涛
2012-5-25
3
网络侧无工程告警标识
服务器对工程类告警的处理情况
现场调查统计
根据《安徽移动网络工程告警管理办法》,要求工程类告警正确标识率大于95%
王琪、杨强
2012-5-25
4
客户侧无FTTH用户属性标识
客户侧是否有FTTH用户属性标识
现场调查
客户侧有FTTH用户属性标识
倪晋宇、杨强
2012-5-25
5
告警门限未设缓冲带
告警门限设置方法情况
现场调查
告警门限设置有缓冲带
胡进、张玉涛
2012-5-25
6
网管网传输误码率高
调查传输误码率高情况
现场调查
根据《安徽移动传输工程验收规范》,要求传输误码率小于10e-6的比率大于98%。
王琪
2012-5-25
7
告警服务器配置内存不足
告警服务器配置内存情况
现场调查统计
告警服务器运行时平均内存占用率不大于50%
倪晋宇
2012-5-25
制表:
王琪日期:
2012-5-25
按要因确认计划表逐一进行要因确认:
验证一:
维护人员缺乏培训
确认方法1:
目前阜阳分公司PON类维护人员有26人,对人员的各级培训经历进行统计,结果如下表:
表6-2阜阳市PON类维护人员培训统计表
培训类型
培训人次
维护人员总数
比例
PON高级培训
5
26
19%
PON中级培训
8
31%
PON初级培训
12
46%
制表:
范晓慧日期:
2012-5-25
由表6-2调查结果可见,各级培训人数均低于50%,培训人次低于标准。
确认方法2:
对所有参培人员的考证成绩进行统计,平均成绩如表6-3:
表6-3考试成绩表
培训类型
理论考试平均分
操作测试平均分
平均分
标准值
评价
PON高级培训
89
87
88
90
不合格
PON中级培训
85
83
84
90
不合格
PON初级培训
80
82
81
90
不合格
制表:
范晓慧日期:
2012-5-25
由上表可知,考试成绩和操作成绩均低于标准值(90分)。
结论:
维护人员缺乏培训是要因。
验证二:
无PON告警关联规则
确认方法:
因通信网中某一设备发生故障会引起相关联的设备、板卡、链路等产生同类告警,若无有效的告警关联规则进行告警关联,会导致同一故障产生多条无效故障工单。
经过小组现场调查发现,PON为新业务设备,PON类设备还没有告警关联规则。
结论:
无PON告警关联规则是要因。
验证三:
网络侧无工程告警标识
确认方法:
传输系统割接是传输系统扩容和优化的重要手段,割接过程中会产生大量可预知的对网络和业务有影响的告警。
这类告警不能视为故障,割接完成后会消失。
服务器中对该类告警若不做专门处理将会导致无法判断其有效性,从而引发大量无效故障工单。
网络部运行监测科第四QC小组调查发现目前阜阳传输系统具有将工程类告警与有效告警进行区分功能,对2012年1月-3月工程类告警正确标识率进行统计,结果发现月均正确标识率为97%,高于《安徽移动网络工程告警管理办法》规定的标准值95%。
表6-4工程类告警正确标识率统计表
月份
2012年1月
2012年2月
2012年3月
平均
标准值
工程类告警正确标识率
96.0%
98.0%
97.0%
97.0%
95%
制图:
王琪日期:
2012-5-25
结论:
网络侧无工程告警标识不是要因。
验证四:
客户侧无FTTH用户属性标识
确认方法:
FTTH用户通俗来说即为通过光纤将ONU设备放入用户家中的一种宽带接入模式,如果用户自行断电,会产生ONU掉电类告警,而这类告警不能视为故障,如果不对FTTH用户属性进行标识,将会导致系统无法判断该类OUN掉电告警其有效性,从而派发无效故障工单。
小组抽取2012年2-3月阜阳市FTTH用户自行断电次数和ONU掉电类无效故障工单量数据制成下图6-1:
图6-1ONU掉电类无效工单量数据散布图
制图:
王琪日期:
2012-5-29
从图6-1可以看出阜阳市FTTH用户自行断电次数和ONU掉电类无效故障工单量成强正相关:
即FTTH用户自行断电次数越多,ONU掉电类无效故障工单量越大。
小组进一步调查发现目前系统并无FTTH用户属性标识功能。
结论:
客户侧无FTTH用户属性标识是要因。
验证五:
告警门限未设缓冲带
确认方法:
ONU监控系统中,若采用单门限值进行设置,ONU供电电源的电压纹波引起采集数据正常波动时会导致大量无效告警。
经过小组现场调查发现,目前系统对ONU掉电告警门限采用单门限法进行设置,没有设置缓冲带。
结论:
告警门限未设缓冲带是要因。
验证六:
网管网传输误码率高
确认方法:
网管网传输网络误码率高,会导致传输错误的信息。
小组对2012年1月-3月阜阳市光纤传输误码率情况(每月随机抽查100个测试点)进行统计,结果发现传输误码率小于10e-6月均达到99.33%高于指标值。
表6-5传输误码率高故障统计表
月份
2012年1月
2012年2月
2012年3月
平均
标准值
传输误码率低于10e-6占比
99%
99%
100%
99.33%
98%
制图:
王琪日期:
2012-5-29
结论:
网管网传输误码率高不是要因。
验证七:
告警服务器配置内存不足
确认方法:
在传输监控系统中,告警服务器配置内存不足,会导致告警服务器对告警的处理能力不足,从而在发生告警风暴时,较多告警拥塞,告警服务器无法对派单范围内的告警派单时延进行处理,直接进行工单派发,从而引发大量无效故障工单的派发。
经过小组现场调查发现,2012年1月-3月告警服务器内存占用率为25%,远低于标准值50%。
表6-6告警服务器内存占用率统计表
月份
2012年1月平均
2012年2月平均
2012年3月平均
总平均
标准值
告警服务器内存占用率
28%
22%
25%
25%
50%
制图:
杨强日期:
2012-5-29
结论:
告警服务器配置内存不足不是要因。
经过以上逐条确认,小组找出的主要原因是:
1、维护人员缺乏培训
2、无PON告警关联规则
3、客户侧无FTTH用户属性标识
4、告警门限未设缓冲带
七、制定对策
找出主要原因后,小组对不同问题分别制定相应对策,对策表见表7-1。
表7-1对策计划表
序号
要因
对策
目标
措施
责任人
地点
完成时间
1
维护人员缺乏培训
对维护人员进行系统培训
PON类设备培训人数占比大于50%;理论和操作成绩90分以上
1、对维护人员进行系统培训,提高维护人员系统操作熟练程度。
2、定期对维护人员进行理论知识和系统操作测试。
范晓慧
集中监控中心
2012-6-1
2
无PON告警关联规则
构建“主次+衍生”二维告警关联体系
同一故障告警关联度高于90%
1、实现OLT与ONU主次告警关联。
2、实现ONU设备同类告警的衍生关联。
倪晋宇、张玉涛
集中监控中心
2012-6-1
3
客户侧无FTTH用户属性标识
建立FTTH用户的场景化标识
FTTH用户ONU掉电告警告警标识率大于99%
1.开发FTTH用户场景化标识模块
2.加强场景化日常管理
王琪、杨强
集中监控中心
2012-6-1
4
告警门限未设缓冲带
启用滞环双门限设置法
告警门限设置缓冲带的比率大于95%
1、告警门限采用滞环双门限法进行设置。
2、定期检查告警门限缓冲带设置情况
胡进
集中监控中心
2012-6-1
制表:
王琪日期:
2012-6-1
八、对策实施
实施一:
对维护人员进行系统培训
1、对维护人员进行系统培训,提高维护人员系统操作熟练程度
2012年4-5月,阜阳分公司监控QC小组针对PON类维护人员,请厂家技术人员对其进行集中系统培训,经过2个月的系统培训。
小组成员再次对阜阳分公司PON类维护人员培训情况进行调查统计。
目前阜阳分公司PON类维护人员有26人,对人员的各级培训经历进行统计,结果如下表:
表8-1阜阳市PON类维护人员培训统计表
培训类型
培训人次
维护人员总数
比例
PON高级培训
18
26
69%
PON中级培训
20
77%
PON初级培训
26
100%
制表:
范晓慧日期:
2012-5-29
由表8-1调查结果可见,各级培训人数均高于50%,培训人次高于标准。
2、定期对维护人员进行理论知识和系统操作测试
小组成员每月定期对阜阳传输维护人员进行系统操作测试,由厂家技术人员统一出题测试,并将测试结果全市通报,以巩固培训效果,并督促维护人员进行不断巩固与提升相关技能。
2012年5月底维护人员测试成绩如表14:
表8-2考试成绩表
培训类型
理论考试平均分
操作测试平均分
总体平均分
评价
PON高级培训
94
92
93
合格
PON中级培训
96
94
95
合格
PON初级培训
97
99
98
合格
制表:
范晓慧日期:
2012-5-29
由上表可知,考试成绩和操作成绩均高于标准值。
可见对策一已达到目标。
实施二:
构建“主次+衍生”二维告警关联体系
1、实现OLT与ONU主次告警关联。
在传输系统中,同一故障可能导致多条告警并派发工单,当某一OLT发生故障时,会导致其所辖ONU产生告警并派发工单,因此,网络部运行监测QC第四小组制定了OLT和ONU主次关联规则,阜阳分公司配合验证,即当某一OLT发生故障时,将OLT告警作为主告警、下挂ONU设备告警作为子告警进行关联,主次关联时间参数设置为X分钟,系统仅对OLT的主告警进行工单派发,从而减少了无效故障工单的产生。
我们通过计量值控制图来确定参数X的具体值,以5个连续出现的主次关联告警为一个样本,于是样本容量n=5,每半小时取一个样本,收集25个样本数据,即样本个数k=25,并按观察顺序将样本数据值记录在下表8-3中。
表8-3主次告警延迟时间和样本数据控制表
主次告警延迟时间(min)和样本统计量
样本号
X1
X2
X3
X4
X5
∑X
X—
R
1
4.7
3.2
4.4
3.5
2
17.8
3.56
2.7
2
1.9
3.7
3.1
2.5
3.4
14.6
2.92
1.8
3
1.9
1.1
1.6
1.1
4.4
10.1
2.02
3.3
4
2.9
2.9
4.2
5.9
3.8
19.7
3.94
3
5
2.8
1.2
4.5
3.6
2.5
14.6
2.92
3.3
6
4
3.5
1.1
3.8
3.3
15.7
3.14
2.9
7
1.5
3
1.2
3.3
2.6
11.6
2.32
2.1
8
3.5
4.4
3.2
1.1
3.8
16
3.2
3.3
9
2.7
3.7
2.6
2
3.5
14.5
2.9
1.7
10
2.3
4.5
2.6
3.7
3.2
16.3
3.26
2.2
11
2.8
4.4
4
3.1
1.8
16.1
3.22
2.6
12
3.1
2.5
2.4
3.2
2.2
13.4
2.68
1
13
2.2
3.7
1.9
4.7
1.4
13.9
2.78
3.3
14
3.7
3.2
1.2
3.8
3
14.9
2.99
2.6
15
2.5
4
2.4
5
1.9
15.8
3.16
3.1
16
7
3.1
2.3
1.8
3.2
11.1
2.22
2.5
17
3.8
0
4.1
4
3.7
15.6
3.12
4.1
18
3.5
1.2
2.9
4.8
2
14.4
2.88
3.6
19
3.1
2
3.5
2.4
4.7
15.7
3.14
2.7
20
1.2
2.7
3.8
4
3.1
14.8
2.96
2.8
21
5.2
4.2
5.2
2.4
2.5
19.5
3.9
2.8
22
2
3.1
1.5
3
2.8
9.7
1.94
2.8
23
2.9
4.7
4.1
3.2
2.2
17.1
3.42
2.5
24
2.8
2.7
2.2
3.2
5.4
16.3
3.26
3.2
25
4.2
3.4
1.5
2.9
2.1
14.1
2.32
2.7
平均X==2.99R-=2.74
于是我们计算控制图的中心线和控制界限如下:
X—图:
中心线CL=X==2.99(min)
UCL=X=+A2R-,A2为随着样本容量n变化而变化的系数,可由控制系数选用表选取,,本次试验中n=5,可查相关控制图系数选用表得A2=0.577。
UCL=2.99+0.577*2.74=4.57(min)
LCL=2.99-0.577*2.74=1.40(min)
R图:
CL=R-=2.74(min),通过查相关控制图系数选用表选取相关系数计算得UCL=5.80(min),LCL=0.
对应的计量值控制图如下图所示:
综上,我们选取参数X=5min。
2、实现ONU设备同类告警的衍生关联。
在传输系统中,同一故障短时间内出现多条同类告警,会产生多条告警并派发工单,导致大量同类无效故障工单。
小组在系统中开发了衍生告警关联功能,并部署了ONU掉电、ONU离线、ONU光功率异常三类告警的关联规则,当同类告警在X分钟产生Y条告警时,将产生一条衍生告警将同类告警作为子告警下挂在衍生告警下,系统仅派发衍生告警,从而减少无效故障工单的产生。
我们通过计量值控制图来确定参数X的具体值,以5个连续出现的衍生关联告警为一个样本,于是样本容量n=5,每半小时取一个样本,收集25个人样本数据,即