5G优化案例NSA网络scgfailure原因掉话问题分析.docx
《5G优化案例NSA网络scgfailure原因掉话问题分析.docx》由会员分享,可在线阅读,更多相关《5G优化案例NSA网络scgfailure原因掉话问题分析.docx(16页珍藏版)》请在冰豆网上搜索。
5G优化案例NSA网络scgfailure原因掉话问题分析
5GNSA网络scg-failure原因掉话问题分析
XX
摘要
NSA组网的一大特点是可以基于现有的LTE核心网实现5G快速部署,是在5G初期运营商大规模投资后收益不确定的情况下,既达到快速部署5G网络又降低5G投资的“一石二鸟”过渡方案,所以5G商用初期,运营商都选择了NSA组网。
但NSA网络优化较为复杂,需要4G、5G两张网络同步进行,特别发生5G用户掉话,如何快速定位问题则非常重要。
本文结合NSA网络架构原理和掉话信令流程,分别从eNodeB和gNodeB两侧进行掉话场景分类,而4G侧上报的ScgFailure则是主要分析掉话的切入口。
本文通过UE上报Scg-Failure问题原因值,列举了常见四大类:
“SynchReconfigFailureSCG”、“RandomAccessProblem”、“scg-changefailure”、“rlc-MaxNumRetx”,并依次进行具体案例举例剖析,总结了一套排查优化手段,形成形成了一套行之有效的处理流程,为NSA掉话问题的解决提供了有力指引,为后期NSA网络优化提供了借鉴。
【关键词】NSA5G网络、掉话、ScgFailure
一、NSA5G网络掉话场景
在5GNSA组网下,NR侧的掉话定义为NR侧承载的异常释放,其中包含两类主要场景,一种为只有NR侧发生异常释放,LTE侧正常;另一种为LTE侧发生了异常释放也会导致NR侧的异常释放。
针对上述问题,XX电信无线中心对上述2类场景分别开展掉话研究,并对LTE侧正常,NR异常释放进行了深入的测试分析,给出了相关的优化解决方案。
1.1eNodeB触发的释放
图1.1eNodeB触发释放图
在eNodeB场景释放包含两个子场景
a)如果是eNodeB直接发起异常释放,那么本次释放是由LTE侧的异常事件导致的;
b)如果在空口UE上报了SCGFailureinfo消息,那么表示UE在NR侧检测到了异常,本次异常原因还在5G侧。
4G侧发起释放,无SCGFailure上报,如下图:
图1.2无SCGFailure上报
4G侧Uu口收到RRC_SCG_FAIL_INFO_NR,释放原因FailureType:
synchreconfigfailurescg,如下图:
图1.3空口FailureType:
synchreconfigfailurescg图
1.2gNodeB触发的释放
图1.4gNodeB触发释放图
该场景下的释放是由gNodeB触发,如果是异常释放,那么可以肯定是由NR侧的问题导致的。
5G侧发起释放,信令中携带异常释放原因值,如下图:
图1.55G侧触发释放原因值图
图1.6空口RRC重配置信元
图1.7NR侧异常释放事件
二、NSA5G网络掉话分析
如上文所述,NSA组网分为两大类,其中根据跟踪实例我们可以将NSA掉话细分为如下图示:
图2.1NSA组网分类图
4G侧发起的掉话,一般都很常见,但对于4G正常,5G侧掉话的,则不大容易分析,通常是UE上报相关原因值,来进行层层信令分析,UE上报SCGFailure较为典型,下文将详细介绍这部分内容。
2.1核心网发起释放
a)场景一:
发起释放命令后,将4G/5G一起释放
MME向eNB下发命令后携带原因值deteach,检查LTE侧信令,LTE给5G发SGNB_REL_REQ之后1秒内,LTE在Uu口发送RRC_CONN_REL,携带原因值Other,将导致4G/5G一起释放。
核查步骤:
查看LTE侧信令,核心网发卡了释放LTE上下文。
优化方法:
检查终端是否发了Detach,或者核心网侧分析释放上下文原因。
b)场景二:
在初始添加5G辅站后,或5G站间切换后,LTE发起ERAB修
改流程,核心网反馈承载修改失败,导致4G释放5G
初始添加辅站后SGNB_ADD_REQ,并收到SGNB_ADD_REQ_ACK后,查看LTE发起ERAB修改流程,当反馈信息携带原因值为查看LTE侧信令,是否收到核心网ERAB_MOD_CONF消息后马上发起释放,查看S1AP_ERAB_MOD_CONF消息中携带
Cause信元,说明eRAB修改失败;如果X2信令看到NR回复SGNB_ADD_ACK后收到LTE发的SGNB_REL_REQ,则可能是LTE和NR配置的RLC模式不一致。
核查步骤:
查看LTE侧信令,是否收到核心网ERAB_MOD_CONF消息后马上发起释放,查看S1AP_ERAB_MOD_CONF消息中携带Cause信元,说明eRAB修改失败;如果X2信令看到NR回复SGNB_ADD_ACK后收到LTE发的SGNB_REL_REQ,则可能是LTE和NR配置的RLC模式不一致。
优化方法:
联系核心网工程师解决ERAB承载修改失败问题,修改NR侧RLC模式和LTE侧一致。
2.24G侧重建或掉话
当处于RRC连接状态时,如果出现切换失败、无线链路失败、完整性保护失败、RRC重配置失败等情况,将会触发RRC连接重建过程。
该过程旨在重建RRC连接,包括SRB1操作的恢复,以及安全的重新激活。
处于RRC_CONNECTED状态的UE,安全已被激活,可发起该过程继续RRC连接。
仅当相关小区是具有UE上下文的小区时,连接重建才会成功。
假使E-UTRAN认可重建,SRB1的操作会恢复,而其它RB将继续保持挂起。
如果AS安全没有被激活,UE不会发起该过程,而直接转到RRC_IDLE状态。
总体信令流程图如下:
核查步骤:
图2.3重建、掉话流程图
当LTE侧发起了RRC重建时会导致eNdoeB触发gNodeB释放;LTE异系统重定向导致NR释放,检查LTE侧信令,LTE给5G发SGNB_REL_REQ之后1秒内,LTE在Uu口发送RRC_CONN_REL,携带原因值interrat-redirection。
优化方法:
排查LTE侧发起RRC重建的原因;检查LTE异系统盲重定向门限设置是否合理。
比如可以通过减小该门限,降低异系统盲重定向触发概率。
2.3UE侧上报SCGFailure异常释放
UE上报的SCGFailure消息里会携带异常原因值,常见的有RLC_MAXNUMRetx(上行RLC达到最大重传次数)和收不到RAR等。
图2.4SCGFailure
FailuretypeofSCG-FailureInformation
1
t310-Expiry
T310超时
2
synchReconfigFailure-SCG
UE在SCG小区同步失败
3
randomAccessProblem
随机接入故障
4
rlc-MaxNumRetx
超过RLC重发次数
5
srb3-IntegrityFailure
SRB3加密失败
6
scg-reconfigFailure
SCG重配置失败
由于NSA组网下,UE和基站之间的信令只会在4G一侧,所以当UE检测到异常时,也是通过4G上报,4G基站在收到UE上报的ScgFailure消息后会发起释放。
这类释放从终端侧LOG可以看到UE上报的ScgFailure;其它类型掉话,从终端侧看不到是4G发起,还是5G发起释放。
图2.5SCGFailure分类SCGfailure信令流程:
图2.6SCGFailure信令流程
一般根据上报的原因进行对应的问题分析,例如:
切换时随机接入失败,或者SR达到最大重传次数后随机接入失败,需检查空口误码和是否存在外部干扰。
终端物理层失步,需要排查外部干扰、邻区干扰、小区状态等是否正常。
三、SCGFailure应用举例
3.1案例RandomAccessProblem:
RAR波束信号弱RAR失败,
NR小区添加失败
问题描述:
NSA5G站点,NR小区添加失败。
问题分析:
从现场反馈数据分析,在SCG添加后,UE在NR小区随发起机接入,UE发送了MSG1消息后,一致未收到网络返回的MSG2消息导致RAR超时,尝试多次后(现网设置10次)后T304超时,NR接入失败,SCG添加失败。
图3.1问题发现信令图
图3.2随机接入流程图
RAR失败的原因有三种:
1)UE发送了MSG1消息,GNB未收到;2)GNB收到后没有处理,即未发送RAR;3)gNB处理后发送RAR,UE未收到。
通过CELLDT数据分析,基站从17:
01:
59~17:
02:
41之间未收到MSG1小区
(DT数据上看MSG1是在此时间段多次发送),说明UE发送了MSG1消息,但GNB未收到。
图3.3站点跟踪图
图3.4DT信令图
测试问题点处于5G站点覆盖旁瓣位置,当前基站侧使用为默认波束场景。
超出主瓣覆盖范围,网络性能上无法保障,RAR波束和SSB波束不一样,SSB波峰强信号点位存在RAR波束信号处于波谷较弱的场景,从而导致接收信号较
好,但无法接入5G网络,UE上报RAR超时。
解决方案:
RAR波束和SSB波束不一样,SSB波峰强信号点位存在RAR波束信号处于波谷较弱的场景,导致接收信号较好,但无法接入5G网络,UE上报RAR超时。
可以通过修改RAR波束为SSB波束测试。
修改RAR波束,MODNRDUCELLRSVD:
NrDuCellId=1,RsvdParam29=1;(该参数用于控制NSA场景下RAR使用的波束。
当参数设置为0时,表示开关关闭,RAR使用PRACH波束。
当参数设置为1时,表示开关打开,RAR使用SSB波束。
当参数设置为大于1时,默认开关关闭,RAR使用PRACH波束)。
3.2案例rlc-MaxNumRetx:
SRS周期配置过小引起RLC达到最大重传掉话
问题描述:
某小区PCI=218频繁出现RLC最大重传导致5G掉话问题。
问题分析:
通过分析基站侧信令跟踪,确认上下行均存在最大重传的问题,初步怀疑
是空口数据传输过程存在异常。
图3.5站点信令图
图3.6空口信令图
通过probe日志核查,比对掉话小区和正常小区的路测数据发现,掉话小区PCI218无相关SRS测量配置信息,怀疑存在异常。
掉话用户无SRS配置信息,正常用户有SRS配置信息。
核查基站话统数据确认测试小区存在背景用户,确认存在多用户导致SRS资源分配失败问题。
核查当前的SRS周期(RsvdParam37)为10Slot,会导致SRS资源分配失败的概率增加。
解决方案:
SRS周期配置过小导致SRS资源分配失败影响权值,导致上下行数传过程异常,引起RLC达到最大重传掉话。
修改SRS周期为80Slot:
MODNRDUCellRsvd:
NrDuCellId=*,RsvdParam37=4;
注:
RsvdParam37配置成1代表SRS周期是10个slot,相当于5ms;原来配置的4是80个slot,相当于40ms。
3.3案例rlc-MaxNumRetx:
终端未开性能模式导致RLC达到最大重传掉话
问题描述:
5GNSA组网下DT测试时,发现正常添加NR之后在等待UE不活动定时器超时会出现NR小区异常释放,上报NRSCGfailure对应的详细原因为rlc-maxnumretx。
问题如下图所示:
图3.7路测图
问题分析:
查看终端上报SCGFAIL,原因是RLCMAXRETX。
a)【温控】终端有温控措施,问题超过43度后,只要不是做FTP下载或者speedtest等演示业务(比如视频,微信电话,游戏,导航等),就报SCGfail,携带原因也是RLC最大重传。
--------可以排除,因为同时间检查过上电信的5G载波释放正常。
b)【节能】终端进入省电模式以后(或者超级省电模式)会上报SCGFAIL(RLCMAXRETX),释放以后终端不回在上报B1。
(在SCG建立的情况下,突然设置为省电模式,上报上行RLC最大重传,且不会再上报B1。
现场情况是一直在省电模式下,按照终端的说法是不会上报B1,也不会发起添加SCG)
--------可以排除,为了提升测试速率,现场的测试终端都是设置的为性能模式,
c)【双卡】终端在双卡情况下如果打电话,会出现SCGfail;主卡是5GSIM卡,副卡是电话卡,如果副卡支持CS或者VOLTE语音,当副卡是打VOLTE电话(双卡副卡通话通道数不够),终端会上报SCGFAIL,携带原因也是RLCMAXRETX。
--------可以排除,因为测试的时候,手机上只安装了一张联通卡d)【灭屏】非性能模式(默认场景)下,终端在灭屏一定时间(1分钟)后会发起SCGfail,如果要想灭屏之后业务不释放,需要打开性能模式。
--------确认是终端未开性能模式,测但是并没有非性能模式下灭屏超过一分钟,对该路段进行复测,终端开启性能模式,并没有发现SCGfail问题。
因此定位问题根因是终端未开启性能模式。
e)【断流】终端在NRUE不活动定时器为0时,如果24s内PDCP层没有流量,就会主动通过SCGFailure信令主动释放,释放原因是RCL最大重传。
通常网络侧是20s的不活动定时器,将24S断流机制中断。
--------可以排除,不活动定时器为10。
图3.8CQI承载查询图
解决方案:
非性能模式(默认场景)下,终端在灭屏一定时间(1分钟)后会发起SCGfail。
网络侧开启不活动定时器(通常网络侧是20s的不活动定时器),关闭终端
的省电模式,后续DT测试时先开启性能模式,终端放在空调出风口,测试时不要熄屏。
3.4案例scg-changefailure:
NR小区频繁故障导致辅站变更过程中UE随机接入失败
问题描述:
NSA网络测试时,UE占用到PCI=24/25的小区高概率随机接入失败。
图3.9DT路测图
问题分析:
UE在锚点切换后进行辅站变更流程,在辅站变更随机接入失败,NR小区覆盖电平正常。
图3.10随机接入失败信令图
告警类别
告警次数
gNodeB分布单元退服
3
gNodeB退服告警
53
NRCELL不可用故障
336
NRDUCELL闭塞故障
144
NR分布单元小区TRP不可用
103
总计
834
查看一键式日志,alarmlog时间和告警告警显示异常,查看本地故障lfltlog,NRCELL存在频繁不可用告警,统计告警类别和次数:
表3.1异常次数表
其中NR分布单元小区TRP不可用告警,具体问题显示基带单元异常:
NRDU小区TRP标识=1柜号=0框号=151槽号=0硬件能力描述=NULL具体问题=基带单元异常。
解决方案:
NR小区频繁故障导致UE辅载波变更过程随机接入高概率失败,处理故障后恢复正常。
3.5案例scg-changefailure:
4-5邻区漏配导致NR掉话
问题描述:
5GDT测试发现一个路段数据掉底,时长接近25秒。
问题分析:
首先检查probelog从信令和事件上进行分析。
发现这个时间段发生了2次UE侧发起的NR异常释放。
而且释放原因都是SCG-changefailure。
图3.11路测事件图
分析发现两次掉话发生时,都是在LTE同一个小区,PCI75的小区。
2次SCG-changefailure都是NRPCI130小区。
怀疑是PCI75的LTE小区没有把130的NR小区添加邻区,导致LTE切换到PCI75小区后,NR不能换到75上。
导致NR发生掉话。
核查LTE75的小区,发现确实漏配PCI130的NR小区。
图3.12路测切换事件图
问题分析:
4-5邻区漏配导致NR掉话,PIC75LTE小区添加PCI130NR邻区后,掉话解决。
3.6案例SynchReconfigFailureSCG:
外部小区配置错误导致NR
接入失败
问题描述:
NSA拉网时,每次添加SgNB失败,失败原因为重同步失败。
问题分析:
路测经过PCI=48时,随机接入失败。
失败原因是SCGFailure,重同步失
败,从CHR日志分析,失败原因是failintheradiointerfaceprocedure。
NR配置核查:
20ANSA用户接入时,当ADDREQ中携带了CGI信息时,选择小区时以CGI信息为准,但是观察到按照CGI选择的小区PCI与UE实际请求的值不一致。
图3.13配置核查图
根据ADDREQ中的请求信息,看到PCI=46,根据配置,对应的小区实际上是小区cellID=3,但是CGI中携带的小区是1(对应的PCI=48),导致了基站小区选择了PCI=48的小区,出现不一致。
图3.14ADDREQ中的请求信息图
图3.15CGI请求图
锚点侧和NR配置核查,4G邻区关系配置中的PCI和CELLID的对应关系和5G的配置不一致。
解决方案:
4G侧配置的5G邻区关系中的CELLID和PCI对应关系错误,修改4G侧的外部小区配置。
四、经验总结
在5GNSA网络优化过程中,XX全网出现的多种类型的掉话,有核心网侧的掉话,4G侧的掉话,也有4G侧正常,5G侧异常释放的掉话,其中以上报SCGFailure问题最多,因此,可以通过总结其分类,快速定位掉话原因,提升了优化效率。
另外,通过问题归类,我们发现邻区X2优化和参数数据一致性对掉话有较大影响,需在日常工作中重点关注,可从以下两方面着手分析处理:
确保X2邻区正确性和完整性——需网优包区员对基础工参数据做好准确性,并进行日常的X2、邻区、PCI核查。
关键参数确保无误——定期汇总参数,并建立日常参数核查机制。
目前XX电信团队,通过上述优化方法对5G网络的掉话类优化进行了流程化分析,效果较好,保证了5G性能质量以及5GNSA用户感知。