TDLTE网优KPI指标优化指导手册.docx
《TDLTE网优KPI指标优化指导手册.docx》由会员分享,可在线阅读,更多相关《TDLTE网优KPI指标优化指导手册.docx(61页珍藏版)》请在冰豆网上搜索。
TDLTE网优KPI指标优化指导手册
TD-LTE网优KPI指标优化
工作指导手册
项目名称
文档编号
版本号
作者
版权所有
大唐移动通信设备有限公司
本资料及其包含的所有内容为大唐移动通信设备有限公司(大唐移动)所有,受中国法律及适用之国际公约中有关著作权法律的保护。
未经大唐移动书面授权,任何人不得以任何形式复制、传播、散布、改动或以其它方式使用本资料的部分或全部内容,违者将被依法追究责任。
文档更新记录
日期
更新人
版本
备注
2013-7-17
王学斌
V0.0.1
创建
2013-7-31
王学斌卢颢
V0.0.2
添加RRC、ERAB、掉线CDL信令流程及失败原因
2013-9-20
王学斌、张发厚、索志刚、魏晓东、闫俊霖、徐世勋
V0.0.3
编写案例
2013-9-29
徐世勋
V0.0.4
增加章节2.KPI优化的工作流程及内容
2013-10-23
王学斌、周晓华、王会庆
V0.0.5
增加案例
2013-10-24
徐世勋
V0.0.6
汇总及增加KPI问题处理工单模板
2013-11-5
徐世勋
V0.0.7
根据评审意见进行修改
2013-11-8
童志坚
V0.0.8
增加童志坚整理的案例:
3.5.2小区上行功控参数设置问题
1前言4
2KPI优化的工作流程及内容5
2.1KPI优化工作总体流程5
2.2KPI优化工作内容6
2.2.1KPI数据生成6
2.2.2KPI数据分析6
2.2.3问题处理7
2.2.4问题跟踪和核查7
2.3KPI优化工作逻辑图8
2.4KPI优化工作模板和示例8
3RRC连接建立成功率优化9
3.1理论介绍9
3.2指标定义9
3.3CDL信令流程及失败原因10
3.3.1正常过程10
3.3.2异常过程10
3.4优化方法介绍11
3.4.1上行随机接入的问题13
3.4.2小区重选参数问题13
3.4.3下行初始发射功率偏低问题13
3.4.4上行初始功控问题13
3.5相关案例介绍分析13
3.5.1小区重选参数问题13
3.5.2小区上行功控参数设置问题15
3.5.3小区测试开关参数问题16
3.5.4SCTP内存池耗尽导致信令发送失败问题18
3.5.5全频带高干扰导致接入失败问题21
4ERAB建立成功率23
4.1理论介绍23
4.2指标定义25
4.3CDL信令流程及失败原因25
4.3.1正常过程25
4.3.2异常过程25
4.4相关案例介绍分析28
4.4.1路由关系未配无法接入的问题28
4.4.2网关IP配置错误导致无法附着29
4.4.3安全参数配置问题30
5切换成功率优化32
5.1理论介绍32
5.2指标定义32
5.3CDL信令流程33
5.3.1正常过程33
5.4优化方法介绍34
5.4.1切换信令流程35
5.4.2涉及话统打点36
5.4.3切换问题分类38
5.5相关案例介绍分析40
5.5.1硬件和传输故障40
5.5.2邻区漏配问题42
5.5.3邻区数据配置不当44
5.5.4切换算法参数配置不当45
5.5.5小区个性偏移参数调整案例46
5.5.6切换时终端接入到非源和目标小区导致核心网释放用户问题48
5.5.7邻区移动网络码配置错误导致S1切换失败50
5.5.8开启防乒乓切换开关导致不切换52
5.5.9终端发A3切换测量报告后,不触发异频切换56
6无线掉线率优化58
6.1理论介绍58
6.2指标定义61
6.3CDL失败原因61
6.3.1空口超时引起的掉话61
6.3.2激活检测——UE不活动67
6.3.3激活检测——UE丢失(V3.20.00.40.15.03版本及后续版本无此类问题)68
6.3.4其他错误引起的掉话68
6.4相关案例介绍分析69
6.4.1切换不及时问题69
6.4.2核心网问题71
6.4.3激活检测UE不活动和UE丢失造成的掉线分析74
6.4.4帧头未对齐导致的干扰问题76
1前言
话统KPI是中国移动考核项之一,也是对网络质量的最直观反映。
日常话统监测是进行网络性能检测的一种有效手段。
通过日监测,识别突发问题小区,将问题消除在初级阶段。
通过周监测,识别网络性能持续短木板小区,针对性的进行提升优化。
话统KPI主要包括以下几大类:
接入性指标、保持性指标、移动性指标、业务量指标、产品运行类指标、系统可用性指标和网络资源利用率指标。
通过上述重点话统KPI指标的监测,可以达到:
识别突发问题、风险提前预警、话统KPI的稳定与提升,目前TD-LTE系统需要重点关注的话统KPI指标如下表:
指标分类
数据来源
具体的KPI指标
接入性指标
无线侧
RRC连接建立成功率
ERAB建立成功率
无线接通率
保持性指标
无线掉话率(ERAB异常释放)
移动性指标
小区eNodeB内切换出成功率
小区eNodeB间切换出成功率
业务量指标
上、下行业务平均吞吐量量
上、下行PRB平均利用率
产品运行类指标
无线侧
单板CPU最大占用率
单板CPU平均占用率
系统可用性指标
无线侧
无线网络退服比例
网络资源指标
无线侧
上行PRB资源使用的平均个数
下行PRB资源使用的平均个数
2KPI优化的工作流程及内容
2.1KPI优化工作总体流程
KPI优化工作流程图
2.2KPI优化工作内容
2.2.1KPI数据生成
工作内容:
使用预定义和自定义的统计项及模板生成KPI性能报表,通过OMCClient提取KPI报表,输出KPI报表和重要指标失败原因列表给KPI数据分析人员。
KPI报表生成和提取相关操作请参考《LTEKPI模板指导手册》。
根据KPI报表数据,选择KPI指标最差TopN小区。
TOPN小区的选择:
对某项指标按照失败率最高进行排序,选取前20个小区,再对这20个小区进行失败次数分析,失败次数大于20次的(RRC连接、切换、掉线等按失败次数大于20次为标准,ERAB建立失败指标按次数大于10次为标准)作为TOP小区进行分析 ;另外需要对指标再进行失败次数的降序排序,如果有小区失败次数很多失败率也较高但是未在之前选的TOP小区中,也需要将这些小区作为TOP小区分析。
KPI数据生成工作所需输入、工具和技术、输出如图所示:
2.2.2KPI数据分析
工作内容:
KPI指标变化趋势分析:
根据KPI报表数据,分析全网KPI指标变化趋势,尤其是存在设备版本升级或参数全网性修改后,需要持续至少一周重点监测KPI指标变化趋势;
TOP小区分析:
根据TOP小区列表、重要指标失败原因列表、历史告警信息、网管数据、CDL日志、IOT数据、复测终端LOG等信息进行分析。
先查看告警信息,确认有设备故障类告警是否和TOP小区关联,再使用与基站软件版本匹配的CDLBrowser工具进行指标统计和失败信令流程分析确认TOP小区产生的原因,CDLBrowser工具使用方法请参考《CDL分析工具使用手册》。
KPI数据分析工作所需输入、工具及技术、输出如图所示:
2.2.3问题处理
工作内容:
1)通过CDL分析能够明确定位TOP小区问题后,给出问题处理建议输出给相关问题处理人员:
参数修改问题导给维护人员调整(和标定参数不一致的大规模参数修改需和SE确认);网络优化问题给出优化建议导给网优人员;由于设备故障引起的KPI指标恶化问题导给排障人员处理;定位确认为产品缺陷要及时提交BUG推动和跟踪版本解决。
2)通过CDL分析无法明确定位TOP小区产生原因的问题,需要复测后结合终端侧log再进一步分析。
问题处理工作所需的输入、工具及技术、输出如图所示:
问题处理:
输入、工具及技术、输出
2.2.4问题跟踪和核查
工作内容:
问题跟踪和核查环节,主要依据问题列表、KPI问题处理工单、BUG/CR/RR编号,内部讨论推动和核查问题解决,和外部其它环节沟通确认问题进展,以形成问题闭环,最终输出KPI优化报告。
问题跟踪和核查工作所需的输入、工具及技术、输出如图所示:
问题跟踪和核查:
输入、工具及技术、输出
2.3KPI优化工作逻辑图
综合KPI优化工作流程和内容,KPI优化工作逻辑图如下:
KPI优化工作逻辑图
2.4KPI优化工作模板和示例
1.KPI优化工作参考模板
KPI报表示例
3RRC连接建立成功率优化
3.1理论介绍
RRC连接建立过程分为两个阶段:
准备阶段和实施阶段。
在准备阶段中,UE会根据NAS层的触发原因和系统广播中的接入限制信息,通过一系列检查来判断自己是否被允许进行接入过程,如果可以,则执行后续的实施阶段;否则UE的RRC将启动相应的定时器,在该定时器超时前UE无法发起任何接入过程。
上述机制的目的是负荷拥塞控制,当网络负荷较重时限制某些UE进行接入。
3.2指标定义
RRC连接建立是指处于空闲状态的UE或待开机的UE准备发起一个呼叫或响应寻呼时发起的过程。
出于降低接入时延的考虑,LTE系统将RRC连接建立过程设计发生在ENB和MME之间的S1连接建立前,也就是在ENB尚未从MME获得任何UE上下文前,ENB需要将RRC连接建立完毕,因此该过程主要建立最基本的SRB1。
RRC连接建立成功意味着UE与网络建立了信令连接,是进行其他业务的基础。
RRC连接建立成功率主要通过话务统计结果获得,推荐的公式为:
RRC建立成功率=[RRC连接建立完成次数]/[RRC连接请求次数(不包括重发)];
公式中相关各指标的具体统计方式如下所示:
指标
指标描述
RRC连接请求次数
小区接收UE的RRCConnectionRequest消息次数(不包括重发)
RRC连接建立完成次数
小区接收UE返回的RRCConnectionSetupComplete消息次数
RRC建立失败次数
资源分配失败而导致连接建立失败的次数
UE无应答而导致连接建立失败的次数
小区发送RRCConnectionReject消息次数
3.3CDL信令流程及失败原因
3.3.1正常过程
图RRC建立过程正常流程
每当在CDLlog中发现一条UU接口RRCConnectionRequest消息时,代表某一个UE连接建立的开始,此后所有的消息都可以提取相同的CellUeIndex和CELLID。
当看到RRCConnectionSetup和RRCConnectionSetupComplete消息时,标志着RRC建立正常流程的结束。
3.3.2异常过程
i.RRC连接建立完成超时
图RRC连接建立完成超时
每当在CDLlog中发现一条UU接口RRCConnectionRequest消息时,代表某一个UE连接建立的开始,此后所有的消息都可以提取相同的CellUeIndex和CELLID。
当看到UU接口的RRCConnectionSetup和RRC事件类接口的RRC_OVERTIME消息,并且第3条消息的定时器类型字段为RAC_TIMER_W_RRC_SETUP_CMPLT时,标志着RRC连接建立完成超时。
ii.RRC连接建立拒绝
图RRC连接建立拒绝
每当在CDLlog中发现一条UU接口RRCConnectionRequest消息时,代表某一个UE连接建立的开始,如图2.10所示。
第1、2条消息为UU接口的RRCConnectionRequest、RRCConnectionReject,2条消息有相同的小区标识与UeIndexCell,是连接建立发生时基站为UE新分配的索引。
3.4优化方法介绍
LTE系统内RRC连接建立失败问题的可能原因大概分为如下几条:
RRC建立失败主要的原因有:
上行随机接入信道功率问题、小区重选参数问题、下行初始发射功率偏低、上行初始功控问题、拥塞问题或设备异常问题等。
当出现RRC连接建立成功率低的问题时,首先按照上述问题分类,了解相关问题的范围,然后根据空口信号质量、参数配置、干扰和上下行功率调整及设备告警等方面入手逐一排查解决,排除这些影响RRC连接建立成功率的客观因素,逐步提升该指标的成功率。
RRC连接建立的过程主要包括以下3个个步骤:
RRC连接建立成功信令流程
(1)首先UE通过SRB0发送RRCConnectionSetupRequest消息(注:
SRB0一直存在,用来传输映射到CCCH的RRC信令。
)此消息主要携带UE初始(NAS)表示以及该连接建立的原因等信息,此高层消息会触发UE的底层试题进行基于竞争的随机接入过程,RRC连接建立请求消息就对应于底层随机接入过程中的Msg3
(2)通过底层的竞争接入冲突解决机制,UE接收到ENB的RRCConnectionSetup消息,建立了UE与ENodeB之间的SRB1,NodeB为SRB1配置RLC层和逻辑层信道的属性。
ENB还在此信令中对PHY/MAC/RLC/PDCP等各个实体的配置参数进行配置,RRC连接建立消息就对应于底层随机接入过程中的Msg4。
UE收到NodeB的rrcConnectionSetup信令后,UE和ENB之间的SRB1就建立起来了。
(3)在UE接收到RRCConnectionSetup消息后,向ENB发送一个RRCConnectionSetupComplete消息。
此消息中携带有上行方向的初始NAS层的信令消息(如AttachRequest,TAURequest,ServiceRequest等),ENB收到此消息后,将其中的NAS消息转发给MME用于建立S1连接。
在第
(2)步中,如果ENB拒绝为UE建立RRC连接,则通过SRB0回复一条RRC连接拒绝消息RRCConnectionReject。
在该RRC连接拒绝消息中,网络侧可以可选地携带一个禁止呼叫的定时器T302,该定时器和系统广播中的接入限制信息共同决定了UE是否被允许发起接入过程。
一般RRC连接建立问题的定位方法如下,通用流程:
3.4.1上行随机接入的问题
UE发出RRCConnectionRequest消息,ENB没有收到,如果此时的下行信道质量正常,一般是随机接入参数中的初始接收目标功率设置偏低的问题。
3.4.2小区重选参数问题
ENB收到UE发的RRC建立请求消息后,下发了RRCConnectionSetup消息而UE没有收到。
查看此时的SINR,如果偏低,而且监视集中没有质量更好的小区,那么是覆盖的问题可以适当提高下行公共信道的功率。
如果此时监视集中有更好的小区,则可能是小区重选的问题,可以适当调整小区重选参数加快小区重选。
3.4.3下行初始发射功率偏低问题
UE收到RRCConnectionSetup消息而没有发出RRCConnectionSetupComplete消息,如果此时下行的信号质量正常,那么可能是手机异常,否则可能是下行初始功率过低导致下行不能同步。
3.4.4上行初始功控问题
UE发出RRCConnectionSetupComplete消息而ENB没有收到,由于上行初始功控会让UE的发射功率上升,如果是UE的发射功率不足导致,可以适当提高上行信道的初始期望功率和调整量等参数。
3.5相关案例介绍分析
3.5.1小区重选参数问题
问题描述:
华电集团专项2小区接入率很低,且主要集中在15点到16点之间,查看小区无告警。
由于接入失败次数过多,影响全网一天的KPI指标数据。
问题分析:
从CDL信令看UE发起随机接入申请,UE发出RRCConnectionRequest后ENB下发RRCconnectionsetup消息,终端无响应,造成RRC连接建立完成超时,导致RRC建立失败。
定位过程:
从最近一次的测量上报消息中可以看出,源小区PCI为254,此时测量到的rsrpResult值为23,由此可以计算出RSRP的值为23-141=-118dbm左右。
而测量到的相邻目标小区PCI为62,rsrpResult值为34,小区RSRP在-107dbm左右。
由此可以初步分析相关的场景是UE所处位置的信号质量不好,且存在模3干扰,最终导致RRC连接建立定时器超时后RRC连结建立失败。
解决建议:
查看基站配置后,该小区的参考信号功率为15,已经为最大。
故不存在下行初始发射功率偏低问题。
通过现场复测抓取log进一步分析,排除天线安装问题以及工参设置问题、排除存在大面积的弱覆盖问题。
通过log分析,发现存在PCI模三干扰严重,重新进行规划,修改小区的PCI。
解决效果:
修改PCI后,RRC接入率有所提,KPI指标数据恢复正常。
3.5.2小区上行功控参数设置问题
问题现象
NBYZ技侦大楼FHTL-0从7月13日开始,RRC接入请求次数变多还有伴随着大量失败,每天RRC成功率基本在20%左右,失败发生在忙时时段,影响全网KPI。
问题分析:
查看小区状态以及通道驻波均没有问题,从CDL中看:
均是ENB下发RRCsetup之后终端无响应造成RRC连接超时,导致RRC接入失败。
查看基本上是UEID为1和3的用户的失败,但是查看最近的RSRP均较高。
定位过程:
查看小区的IOT以及小区状态正常,对此小区进行核查,发现参数在非持续调度功率设置上出现问题,当此小区是-95,全网当时都已经改成-70,通过对全网此参数的核查,发现还有NBYZ理工学院2FHTL-2也是设置为-95,指标也很差。
解决建议:
效果:
把小区的非持续调度功率从-95修改到-70以后指标明显有提升:
网元友好名
时间
RAB建立成功率分母[单位:
次]
RAB建立成功率分子[单位:
次]
RRC连接建立成功率分母[单位:
次]
RRC连接建立成功率分子[单位:
次]
RRC建立成功率
NBYZ技侦大楼FHTL-0
2013/7/11
51
51
78
77
98.72%
NBYZ技侦大楼FHTL-0
2013/7/12
35
35
54
53
98.15%
NBYZ技侦大楼FHTL-0
2013/7/13
44
40
95
60
63.16%
NBYZ技侦大楼FHTL-0
2013/7/14
20
14
127
30
23.62%
NBYZ技侦大楼FHTL-0
2013/7/15
20
14
127
30
23.62%
NBYZ技侦大楼FHTL-0
2013/7/16
13
5
175
25
14.29%
NBYZ技侦大楼FHTL-0
2013/7/17
12
7
127
23
18.11%
NBYZ技侦大楼FHTL-0
2013/7/18
34
31
531
60
11.30%
NBYZ技侦大楼FHTL-0
2013/7/19
54
50
121
87
71.90%
NBYZ技侦大楼FHTL-0
2013/7/20
19
19
26
25
96.15%
NBYZ技侦大楼FHTL-0
2013/7/21
13
13
20
20
100.00%
NBYZ技侦大楼FHTL-0
2013/7/22
47
47
51
51
100.00%
NBYZ技侦大楼FHTL-0
2013/7/23
22
22
28
28
100.00%
3.5.3小区测试开关参数问题
问题现象:
在月苑二试扩L-3小区下收不到该小区信号,无法接入该小区,导致该路段信号较弱,较大区域形成弱覆盖。
问题分析:
测试车辆在月苑南路自西向东行驶至和墨香路交叉口区域,在交叉口区域该站下无法收到该小区信号,导致该路段覆盖较差,严重影响下载速率,机房核查小区状态正常,无告警情况。
图一
在后台对比核查参数发现,小区加载开关打开,且带真实用户的模拟快开关关闭,导致用户终端无法接入。
MAC测试开关里有小区加载开关和带真实用户的模拟加载开关,小区加载开关打开的话,带真实用户的模拟加载开关就会生效。
当需要加扰测试时需要把小区加载开关打开,而此时如果带真实用户的模拟加载开关关闭,表示小区处于模拟用户加载情况,真实用户不能接入,如果带真实用户的模拟加载开关打开,表示是用真实用户进行加载,则真实用户可以接入。
月苑二试扩小区正是由于小区处于模拟加载状态,且关闭了带真实用户的模拟加载开关导致测试终端搜不到小区信号,无法正常接入;
解决建议:
关闭小区加载开关
解决效果:
关闭小区加载开关后,终端能正常搜到小区信号,且接入正常。
如下图:
问题总结
对于无法接入小区的问题,建议处理措施:
a)核查小区状态和告警以及硬件问题情况。
b)核查是否由参数问题导致
小区加载开关默认关闭,在现网中进行模拟加载等测试时,测试完成后需要对参数及时进行恢复。
3.5.4SCTP内存池耗尽导致信令发送失败问题
问题描述:
南京F鼓楼四条巷专项L基站RRC接入失败率很高,查看指标时段趋势,在有业务的时段都有RRC接入失败率较高的问题存在。
实时查看小区无上行干扰,由于RRC接入失败次数较多,影响全网全天的KPI指标数据。
问题分析:
从指标劣化趋势看,在7点左右统计的RRC接入失败次数最多,一个时段内高达22次的失败。
从CDL信令看,UE在不断的在做TAU更新,RRC接入失败时是由于在随机接入过程中,UE上发RRCConnectionRequest,ENB回复RRCConnectionSetup但可能UE未收到,导致RRC接入超时,ENB侧未收到RRCConnectionSetupComplete消息,具体CDL信令情况如下:
通过NAS解码可以得出此为TAU过程:
定位过程:
从mapinfo中,目标基站F鼓楼四条巷专项L所处位置属于边缘覆盖,F鼓楼四条巷专项L-2和F鼓楼四条巷专项L-3小区覆盖方向无其他小区衔接覆盖。
查看EXCEPTION日志,对应失败的时间点事 6:
50 7:
11 7:
34 7:
40,每个时间点都对应下面两条告警。
未知的消息和定时器超时,从CDL中统计失败原因都是收到RRC建立完成消息超时。
通过分析日志,发现6:
04--6:
34半小时之间没有发送接收成功任何SCTP信令;存在很多信令发送失败的情况,原因为SCTP内存池耗尽。
查看71号日志以及OSP控制台日志,和配置文件里,发现对端100.68.131.214和100.68.131.221 同时配置为客户端和服务器,导致了基站SCTP内存池耗尽,消息发不出去,造成RRC接入失败。
解决建议:
1、由于对端IP:
100.68.131.214和IP:
100.68.131.221 同时配置为客户端和服务器,这个配置触发了SCTP内存耗尽,导致SCTP信令发送失败的现象,删除并只保留对端100.68.131.214和100.68.131.221 配置为客户端和服务器的其中一条。
2、升级新版本对此配置错误加保护,同时解决内存泄露的问题,以及增加对内存耗尽后的保护,来根本解决此问题的再次发生。
3.5.5全频带高干扰导致接入失败问题
干扰定义:
在每个子帧轮询一次后都会统计出在100个PRB中每个PRB的IOT值,当IOT值高于10的P