网络KPI指标优化指导书.docx
《网络KPI指标优化指导书.docx》由会员分享,可在线阅读,更多相关《网络KPI指标优化指导书.docx(46页珍藏版)》请在冰豆网上搜索。
网络KPI指标优化指导书
移动TD-LTE网络KPI指标
优化指导书
适用对象:
TDLTE网优工程师
摘要
章节
描述
1概述
概述
2主要KPI指标介绍
主要KPI指标介绍
3KPI指标监控流程
KPI指标监控流程
4KPI性能分析方法
KPI性能分析方法
5KPI优化分析专题
KPI优化分析专题
6结束语
结束语
7附录
附录
图目录
表目录
1概述
无线网络KPI是体现网络质量的直接体现,KPI监控也是我们发现问题的重要手段;KPI监控与优化主要集中在运维期间,网络问题不能靠用户投诉来解决,对一些异常的事件必须第一时间发现并提出相应解决方案,这样才能保证为用户提供良好的话音与数据业务。
在网络建设初期主要是工程优化,由于用户少,工程质量等问题,在这个阶段的KPI优化没有太大的意义,关注点主要在RF调整上面,只要特别关注一下RRC、ERAB接入成功率、ERAB掉话率、RSSI指标即可;网络进入运维时期后,才是真正的KPI优化,也即是我们通常说的参数优化,通过各种参数的联合调整来降低某项指标,达到客户的要求。
KPI数据来源于操作维护中心(OMC)的网管系统(NetNumenU31),对关键性能指标KPI数据进行分析,可得到各种指标的一个当前状态,这些指标的当前状态是评估网络性能的重要参考。
当前我们关注的指标主要有网络保持性能、接入性能、移动性能、系统容量等;根据上述指标的当前值,判断并定位问题发生的区域、问题发生的围、问题的严重程度;比如:
某站点拥塞、某站点掉话率为10%、最坏小区比例、超忙小区比例、接入成功率、呼叫时延、切换成功率、重建立成功率等。
关于KPI的分类,我们按照统计的来源将KPI分为业务KPI与网络KPI;业务KPI是指通过外场路测测得的KP数据,;网络KPI是指通过后台综合网管统计得到KPI数据;本文主要讨论的是网络KPI,通过网络KPI来发现网络问题。
一般解决问题是通过后台KPI数据、告警数据、用户投诉、DT测试联合起来进行分析定位,最终给出解决方案。
图1-1KPI联合问题定位
2主要KPI指标介绍
KPI指标是通过ENB计数器的实现,通过后台网管定制统计出来的,能真实反映网络某项性能的情况,及时发现问题,使网络的风险降低。
按照时间统计粒度分为:
15分钟粒度、60分钟粒度、24小时粒度、周粒度、月粒度;按照统计对象分为小区级、ENB级。
2.1指标的分类
2.1.1按照网元对象分
●小区级指标
●小区对级指标
●天线PORT级指标
●ENodeB级指标
2.1.2按照统计时间粒度分
●15分钟粒度
●30分钟粒度
●1小时粒度
●24小时粒度
●7天粒度
●月粒度
2.1.3按照指标相关性分
●保持性指标
主要是包括ERAB掉话率,RRC掉话率、切换时掉话;
●接入类指标
包括RRC连接建立成功率、ERAB指派成功率、无线接通率等等。
●移动性指标
主要包括频切换成功率、频间切换成功率、异系统硬切换成功率(LTE->2G、3G切换成功率)等等。
●资源类指标
主要包括下行控制信道受限、CPU受限、业务信道受限、能承载的用户数、传输受限等等。
●系统容量类指标
主要包括小区级、PS吞吐量等等。
由于篇幅的限制,这里就每个类别里面的每个指标不一一叙述,可以参考随机文档《性能指标参考.pdf》,每个KPI指标实现的公式、相应计数器的定义、每个指标的分类、指标的取值围等都可以在这里找到;对于单个的计数器定义与说明可以参考随机文档《性能计数器参考.pdf》,该文档主要阐述各计数器的定义及触发点;本章主要对一些常用的重点指标进行举例说明,同时也以表格的形式对每个指标进行了质量等级的划分,当指标质量等级为差时,就需要对该指标进行优化了,其余的指标用类似的方法可以自己来深入学习。
本文以中移4G一期为背景,介绍当前外场较关心的接入,掉线,切换三大指标的定义和优化措施。
所有指标定义以《TD-LTE中移集团30个网管指标V1.0-502版本》为基础。
每个Counter取值采样点和Counter所代表的原因在《性能计数器参考.pdf》都有清晰的描述,在此不再一一介绍。
2.2接入类指标
2.2.1RRC连接建立成功率
本指标反映eNodeB或者小区的UE接纳能力,RRC连接建立成功意味着UE与网络建立了信令连接。
RRC连接建立,包括(如位置更新、系统间小区重选、注册等)的RRC连接建立。
公式中分子和分母涉及的计数器都是RRCConnectionRequest消息元Establishmentcause中的所有原因。
分子是RRC连接建立成功次数,分母是RRC连接建立尝试次数。
对外公式都采用成功+失败来表示请求,实际上也要参考或核对请求计数器。
2.2.1.1公式定义:
RRC连接建立成功率=RRC连接建立成功次数/RRC连接建立请求次数*100%
2.2.1.2RRC建立连接成功率
2.2.1.3KPI指标取值与质量等级
表21RRC连接建立成功率与质量等级
序号
统计对象
统计粒度
取值围
质量等级
1
CLUSTER/Cell级
24小时
小于80%
差
2
CLUSTER/Cell级
24小时
80%-98%
良
3
CLUSTER/Cell级
24小时
大于98%
优
2.2.2ERAB建立成功率
本指标用于了解该小区UE业务建立成功的概率,部分反映了该小区围用户发起的业务的感受度。
比较准确的做法:
分子是ERAB建立成功次数,分母是ERAB建立尝试次数。
E-RAB建立成功则是成功为用户分配了用户平面的连接。
2.2.2.1公式定义:
ERAB建立成功率=E-RAB建立成功数/E-RAB建立请求数*100%
2.2.2.2E-RAB建立成功率
2.2.2.3KPI指标取值与质量等级
表22小区ERAB建立成功率与质量等级
序号
统计对象
统计粒度
取值围
质量等级
1
CLUSTER/Cell级
24小时
小于80%
差
2
CLUSTER/Cell级
24小时
80%-98%
良
3
CLUSTER/Cell级
24小时
大于98%
优
2.3保持性指标
2.3.1无线掉线率
无线掉线率反映了系统的业务通讯保持能力,也反映了系统的稳定性和可靠性。
UE掉话是指由于异常原因被UE主动发起RRC释放的情况;公式统计的是异常原因的掉话率,现在归为正常释放的原因值包括:
用户不活动(inactive)、操作维护干预、过载控制导致的释放、CCO、重定向,其他情况归为异常。
2.3.1.1公式定义:
无线掉线率=(eNB请求释放上下文数-正常的eNB请求释放上下文数)/初始上下文建立成功次数*100%
2.3.1.2无线掉线率
2.3.1.3KPI指标取值与质量等级
表23业务掉话率与质量等级
序号
统计对象
统计粒度
取值围
质量等级
1
CLUSTER/Cell级
24小时
大于1.5%
差
2
CLUSTER/Cell级
24小时
1%-1.5%
良
3
CLUSTER/Cell级
24小时
0.4%-1%
优
2.3.2ERAB掉线率(小区级)
无线掉线率反映了系统的业务通讯保持能力,也反映了系统的稳定性和可靠性。
本指标用于了解该小区UE进行掉话的概率,部分反映了该小区围用户进行业务的感受度。
掉话是指由于异常原因被ENB主动发起ERAB释放的情况;公式统计的是异常原因的掉话率,现在归为正常释放的原因值包括:
用户不活动、操作维护干预、过载控制导致的释放、重定向、CCO等,其他情况归为异常。
2.3.2.1公式定义
ERAB掉线率=(切出失败的E-RAB数+eNB请求释放的E-RAB个数-正常的eNB请求释放的E-RAB数)/(遗留E-RAB个数+E-RAB建立成功数+切换入E-RAB数)*100%
2.3.2.2E-RAB掉线率
2.3.2.3KPI指标取值与质量等级
表24分组域业务掉线率与质量等级
序号
统计对象
统计粒度
取值围
质量等级
1
CLUSTER/Cell级
24小时
大于4.0%
差
2
CLUSTER/Cell级
24小时
2.0%-4.0%
良
3
CLUSTER/Cell级
24小时
小于2.0%
优
2.4移动性指标
2.4.1切换成功率
切换成功率是系统移动性管理性能的重要指标,切换过程不区分同频/异频。
2.4.1.1公式定义:
切换成功率=(eNB间S1切换出成功次数+eNB间X2切换出成功次数+eNB切换出成功次数)/(eNB间S1切换出请求次数+eNB间X2切换出请求次数+eNB切换出请求次数)*100%
2.4.1.2切换成功率
2.4.1.3KPI指标取值与质量等级
表25业务切换成功率与质量等级
序号
统计对象
统计粒度
取值围
质量等级
1
CLUSTER/Cell级
24小时
小于90%
差
2
CLUSTER/Cell级
24小时
90%-98%
良
3
CLUSTER/Cell级
24小时
大于98%
优
3KPI指标监控流程
KPI监控的目的:
第一时间发现影响业务及用户感受的网络异常事件并解决之;如:
某个站点掉话率超过了50%,我们就要第一时间发现它,并找出解决问题的办法。
鉴于KPI问题发现的及时性及重要性,我们须有一套合理的KPI监控机制及解决问题的流程。
同时,需要有合适的监控工具、分析工具来配合工作。
及时发现由于传输问题、资源拥塞、小区退服、干扰严重、NodeB硬件故障、ENODEB参数配置错误等引起的业务掉话;
我们对KPI监控大概分为四类:
1.日常的KPI监控;
2.参数修改过程中的KPI监控;
3.ENODEB、NodeB版本升级过程中的参数修改;
4.用户割接过程中的KPI监控。
KPI日常监控是一项长期的工作,需要每天监控,形成例行的工作,并通过采用KPI日报方式进行汇报,日报的容主要包括CS最坏小区、PS最坏小区、RRC连接成功率低的最坏小区、资源受限最坏小区等等;做到及时预警和解决问题。
3.1KPI监控流程介绍
KPI监控主要有四类监控容,分别为:
日常KPI监控、参数修改过程中的KPI监控、ENodeB版本升级过程中KPI监控、用户割接过程的KPI监控。
各项监控又有不同的监控容,以及不同的输出形式;如日常KPI监控用日报的形式来体现,其他用KPI对比报告形式来体现;各类监控形式又根据处理的问题不同,提取的KPI指标采用的统计时间粒度也不同,粒度的选择按照问题定位的需要来决定。
KPI日常监控是一个长期工作,最终以日报的形式输出,并且将各类最坏小区汇总后,以的形式发给相关人员进行处理。
3.2日常KPI监控流程
图3-1日常KPI监控流程图
3.3参数修改过程中KPI监控流程
图3-2参数修改后KPI监控流程图
3.4ENodeB版本升级过程中的KPI监控
图3-3ENodeB版本升级KPI监控流程图
3.5割接过程中的KPI监控
在整网割接替换其他厂家的网络中,比如的CSL网络,该网络是我们替换诺基亚的设备;当我们的网络优化好后,将现网的用户要逐步割接到我们网络,在每次割接过程中,用户会不断注册到我们的网络,在网络负荷增加的情况下,要密切关注KPI指标的变化;该监控流程、监控容、监控方法、以及报告输出与上一节ENodeB版本升级过程中的监控是一样的,具体容参考ENodeB版本升级时KPI监控一节容。
4KPI性能分析方法
4.1KPI性能分析方法
不同的网络问题有不同的性能分析方法,在掌握现网运行情况和存在的问题后,选择合适的一种或多种分析方法,常用的性能分析方法有:
1.TOPN最坏小区法:
按照所关注的话务统计指标(如掉话率、连接成功率、切换失败率等),根据需要取忙时平均值或全天平均值,找出最差的N个小区,作为故障分析和优化的重点,也可以据此排定优化工作的优先顺序。
2.时间趋势图法:
指标统计的趋势图是话务分析的常用方法,分析工程师可以按小时、天或周作出全网、Cluster或者单个小区的单个或多个指标的变化趋势图,从中发现话务统计指标的变化规律。
3.区域定位法:
网络性能指标的变化往往发生在部分区域,由于话务量增长、话务模型变化、无线环境改变、少数基站故障或上下行干扰造成了这些区域的指标变差,从而影响到全网的性能指标,可以对比变化前后的网络性能指标,在电子地图上标出网络性能变化最大的基站或扇区,围绕问题区域重点分析。
4.对比法:
一项话务统计指标往往受多方面因素的影响,某些方面改变,其他方面可能没有变化,可以适当选择比较对象,证实问题的存在,并分析问题产生的原因。
看指标时,不能只关注指标的绝对数值是高是低,关心的应该是指标的相对高低情况。
4.1.1TOPN最坏小区分析法
在KPI优化分析的整个过程中,TOPN最坏小区分析法是最有效的一个手段,贯穿与整个优化阶段;主要是通过对TOPN小区的关注,可以解决网络的主要问题;每天网络中都有可能发生一些异常的掉话事件,这些事件可能代表一类问题,解决了TOPN最坏小区的问题就可以解决这一类的问题,所以我们从TOPN小区着手是最好最直接的解决问题的办法之一。
TOP最坏小区分析法适用与所有的指标优化分析,主要是根据一定的门限值选出TOPN最坏小区,这个门限的定义根据指标的不同而不同;N是最坏小区的个数,当最坏小区比较多且没有精力去关注的时候,可以将N的个数适当的减少,只关注最差的小区。
TOPN小区分析方法主要有下面几个步骤:
第一步:
按照关注指标的条件筛选出TOPN小区;
第二步:
对TOPN小区进行健康性检查,检查最坏小区的传输、单板问题,或者是不是由于某突发的外界事件造成,如恶劣天气、集会、节假日的高话务造成;
第三步:
检查小区无线参数配置、邻区、小区半径,与正常小区进行比较;
第四步:
导出与所关注指标关联最紧密的指标进行分析,从侧面来发现问题所在;
例:
某网络出现全网的切换成功率变差的情况,现在对切换成功率采用TOPN分析方法分析问题;
详细操作可以参考如下案例:
第一步:
按照关注指标的条件筛选出TOPN小区;
我们用KPI分析功能筛选出TOPN小区(也可以用其他的工具选出,导出到EXCEL排序),这里我们取切换失败次数高的个最坏小区;
表41TOPN最坏小区列表
开始时间
结束时间
MEID名称
YY-切换成功率分子
YY-切换成功率分母
切换失败次数
2013-12-3000:
00:
00
2013-12-3100:
00:
00
0040_大桥南FE(40)
12264
24458
12194
2013-12-2800:
00:
00
2013-12-2900:
00:
00
0040_大桥南FE(40)
7403
16749
9346
2013-12-2900:
00:
00
2013-12-3000:
00:
00
0040_大桥南FE(40)
8967
17625
8658
2013-12-3000:
00:
00
2013-12-3100:
00:
00
1484_周门丽安大厦FEprc(1484)
2721
5263
2542
2013-12-2900:
00:
00
2013-12-3000:
00:
00
0301_碧海大厦FE(301)
4844
6938
2094
2013-12-2800:
00:
00
2013-12-2900:
00:
00
1484_周门丽安大厦FEprc(1484)
2424
3986
1562
2013-12-2800:
00:
00
2013-12-2900:
00:
00
0301_碧海大厦FE(301)
4558
5726
1168
第二步:
检查TOPN最坏小区的、传输、硬件问题,或者是不是由于某突发的外界事件造成,如恶劣天气、集会、节假日的高话务造成;
接下来对每个小区进行健康性检查,主要关注点在日常告警、BPL单板/RRU问题等等,经过检查发现这些站点的切换目标侧都无告警,但这些站点都出现切换过程中在目标侧准备失败的问题。
第三步:
检查小区无线参数配置、邻区、小区半径,与正常小区进行比较;
1.小区状态问题:
经过核查,没有问题。
2.配置问题:
小区参数配置,没有问题。
3.telnet到前台发现BPL单板核2无法连接,怀疑单板故障。
现场更换BPL单板后,问题解决。
4.2KPI性能分析基本技能
掌握KPI统计工具及分析工具的应用:
1.使用工具可以快速了解全网运行情况,快速的筛选出TOPN最坏小区列表;
2.使用不同的分析工具可以多方位多维度的定位问题,迅速找到问题点;
掌握信令流程和基本原理:
●异常定位分析中能够有的放矢,根据流程和基本原理能够迅速查找其他的相关指标进行辅助分析。
●熟悉流程和原理,可以把异常的KPI和网络问题(如覆盖问题、干扰问题等)有机关联,根据异常KPI大致确定问题的性质,从而选择相应分析工具进行深入分析。
性能分析工作要求工程师掌握基本的信令流程,熟悉标准口的协议栈,了解产品实现有哪些相关算法;对于名目繁多的RRM算法,工程师至少要从概念上有所了解,如果分析的商用网络中包含部分算法,则需要对这些算法进行深入的学习。
4.2.1KPI监控常用工具
●网管工具NetNumenU31:
统计KPI原始数据、告警数据、小区无线参数配置、地面参数配置;
●KPI日报生成工具:
对重要指标按某种条件进行分类,筛选出最坏小区;
4.2.2KPI分析用到的工具
●CNO工具:
CNO具有KPI分析功能,可以按照各种条件筛选最坏小区,并且指出该指标对应的计数器;该工具的使用方法参考《ZXPOSCNO1-LTE应用指导书》或者软件帮助;
●SignalTrace:
跟踪ENB各接口信令;可以跟踪S1,X2口以及Uu口(和UE的RRC层交互信令)的信令,查KPI问题最常用的就是RRC信令。
能够进行ENB信令跟踪,这是对外场KPI优化及网优及维护人员的基本要求。
该信令跟踪工具非常强大,用于KPI分析的主要是按照小区(UE_Cell)和按照IMSI(或GID)进行跟踪。
前者可以跟踪多个用户的信令,后者只跟踪一个用户的信令,但如果RRC过程没有完成,则无法跟踪,主要是因为ENB只有在RRC过程完成后才能够从CN得到该用户的IMSI。
该工具的使用方法参考《TD-LTE(12.13.xx)网管网优常用工具及操作指导书_R1.3》;
●ENB关联日志:
关联日志的应用场景一般是:
出现异常且没有跟踪到RRC信令,可以通过关联日志进行异常时间上下文信令分析来定位。
异常可以按照GID(或IMSI)和小区id来进行查询。
关联日志的另一个应用是可以对各种异常进行汇总统计;
●ENodeBLMT:
ENodeB本地操作维护的工具,除具备OMCB的全部操作功能外,还可以提供更详细的小区,UE等信息采集。
ENodeB的本地维护(LMT)系列工具包括EOMS,MTS
●NodeB异常探针:
在LTE商用局外场,ENodeB异常探针分析是监控基站运行状况的有效手段,ENodeB各模块在发现异常后会自动记录相关信息,便于定位问题。
但此方法需要较专业的背景知识,即需要了解各单板及模块的功能和接口;现场人员如果不能做简单的分析,只要获取异常探针发给后方研发人员就可以。
ENodeB上报的异常探针,存储在各自OMCB服务器上。
NodeB异常探针分析,需要分别从不同的OMCB服务器FTP下载异常探针文件,再使用异常探针工具进行分析汇总。
●CTS工具:
CTS是端对端工具,可以按照IMSI进行深度信令跟踪,尤其可以跨MME边界进行跟踪,这样就非常适合对VIP用户的跟踪;如果采用SignalTrace进行跟踪,则需要多个ENODEB进行跟踪,比较麻烦。
CTS可以跟踪部网元之间的交互信令,可以跟踪S1口及Uu口的信令,这就是所谓的深度跟踪。
其基本原理就是在CTSserver上建立IMSI任务,将该IMSI任务送到CN前台,CN前台再通过和CN个模块及ENODEB约定好的接口送给各个模块,各模块收集到这个IMSI相关信令后通过前台汇总到CTSserver上。
上述的接口属于私有接口,所以,这个工具只能支持我们自己的CN和ENODEB(其他厂商的核心网需要进行对接)。
CTS信令可以采用离线工具进行查看分析。
该工具的使用可参考《TD-LTECTS信令跟踪工具使用指导手册》
●UElog:
KPI指标的分析过程中,DT测试也是非常重要的辅助手段;很多问题,从网络侧的一些信令跟踪及trace常常无法定位问题,只有结合UElog才能最终分析定位。
我们常用的路测软件有QXDM/APEX(QCAT),CNT/CNA等。
CNT/CNA都是网优常用路测软件,CNT/CNA的使用方法详见相应的帮助文档及网优工具部对外发布的说明文档。
其中高通提供的QXDM及解析工具APEX(QCAT),功能非常强大,多年以来,为我们系统的稳定成熟及提高做出了重大贡献。
4.3KPI优化分析过程
分析思路:
KPI优化过程就是一个发现问题并解决问题的过程;运维阶段的KPI优化主要是从后台网管提取所关注的性能数据,对性能数据分类汇总,将汇总的值与局方的要求值进行比较,如果某个指标比局方要求的值低,那么就要对该指标进行重点的分析,找到影响该指标的因素并提出解决方案,最后输出报告给局方;如果指标比局方要求的高则不需要特别关注。
KPI指标分析过程是一个从宏观到微观,从全局到局部的一个过程;
1.第一步,从全网的角度来看重点指标的情况,如果没有什么问题则不用做何处理,否则要定位发生问题的ENB网元;
2.第二步,对相应CLUSTER指标数据进行分析,找出指标有问题的CLUSTER;
3.第三步,对问题CLUSTER下面的小区级指标进行分析,找出最坏小区或TOPN小区,如果该CLUSTER所有小区的指标普遍较低,这种共性的现象可能是由于参数设置造成,核查一下该CLUSTER下小区与正常CLUSTER下小区的无线参数配置是否一致;
4.第四步,综合最坏小区的KPI数据、告警数据、DT测试数据、用户投诉情况四类数据综合分析,提出解决方案。
-问题排除法:
从网管的告警数据中可以直接检查该ENodeB,BPL板、传输的运行情况,如果问题存在明显的传输断链、硬件设备等,可以很快定位问题原因;
-突发事件关联:
对大量站点出现的问题就需要考虑是否是由于突发事件造成;比如大型集会、恶劣天气、误操作等都会对网络指标造成影响,根据各自的程度深浅,影响的围也有所区别;
-无线参数比较法:
如果出现某些站点突然出现故障,还可以检查该小区无线参数的配置,与其它正常小区的无线参数配置是否一致,如果不一致则改为一致,因为该小区可能是由于无线参数被误改而造成指标下降;
-指标关联法:
如果某指标较差,一定要看一下与之相关联的指标情况,往往从这些关联的指中能发现共同的问题;
-综合定位法:
排除了以上几个原因后,运用DT数据、KPI数据、ENB信令分析等数据,综合分析指标问题,可以定位出小区的指标问题。
图4-1KPI优化分析流程图
5KPI优化分析专题
本章主要介绍如何从网管数据来分