经典案例防火墙设备拥塞导致用户丢包速率恶化问题定位与处理.docx

上传人:b****8 文档编号:28688994 上传时间:2023-07-19 格式:DOCX 页数:11 大小:1.55MB
下载 相关 举报
经典案例防火墙设备拥塞导致用户丢包速率恶化问题定位与处理.docx_第1页
第1页 / 共11页
经典案例防火墙设备拥塞导致用户丢包速率恶化问题定位与处理.docx_第2页
第2页 / 共11页
经典案例防火墙设备拥塞导致用户丢包速率恶化问题定位与处理.docx_第3页
第3页 / 共11页
经典案例防火墙设备拥塞导致用户丢包速率恶化问题定位与处理.docx_第4页
第4页 / 共11页
经典案例防火墙设备拥塞导致用户丢包速率恶化问题定位与处理.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

经典案例防火墙设备拥塞导致用户丢包速率恶化问题定位与处理.docx

《经典案例防火墙设备拥塞导致用户丢包速率恶化问题定位与处理.docx》由会员分享,可在线阅读,更多相关《经典案例防火墙设备拥塞导致用户丢包速率恶化问题定位与处理.docx(11页珍藏版)》请在冰豆网上搜索。

经典案例防火墙设备拥塞导致用户丢包速率恶化问题定位与处理.docx

经典案例防火墙设备拥塞导致用户丢包速率恶化问题定位与处理

防火墙设备拥塞导致用户丢包速率恶化问题

定位与处理

1问题描述

分析绿网DPI数据发现全网TCP12次握手时延较大,日均65ms左右,正常情况下TCP12次握手时延应该为20ms左右,如下图所示:

图1全网TCP握手时延日均趋势

2原理介绍

2.1DPI数据说明

DPI全称为“DeepPacketInspection”,称为“深度包检测”。

所谓“深度”是和普通的报文分析层次相比较而言的,“普通报文检测”仅分析IP包的层4以下的内容,包括源地址、目的地址、源端口、目的端口以及协议类型,而DPI除了对前面的层次分析外,还增加了应用层分析,识别各种应用及其内容。

一般情况下,DPI技术在LTE网络数据的应用可分为3类:

基于特征字的识别技术、应用层网关识别技术和行为模式识别技术。

基于特征字的识别技术:

现阶段DPI数据解析中最主要的DPI技术,其原理就是不同的业务或应用通常有特殊的“指纹”,这些指纹可能是特定的字符串或者比特流,例如URL就是典型的特征字,依此可以确定该用户业务流承载的具体应用和业务类型;

应用层网关识别技术:

部分业务的业务流和控制流是分开的,从业务流中无法找到相应的特征字,所有特征信息及控制流与业务流的关联信息都存在于控制流中,,和这种情况下就使用应用层网关识别技术,其实就是控制流识别技术,受限识别出控制流,从控制流信息中提取出业务流信息,再基于此对业务流进行识别。

使用应用层网关识别技术进行包检测的典型协议就是FTP协议。

行为模式识别技术:

基于对对终端已经实施的行为的分析,判断出用户正在进行的动作或者即将实施的动作。

通常用于无法根据特征字判断的业务的识别。

比如路测仪表模拟生成业务流和普通的业务流从内容上看是完全一致的,只有通过对用户行为的分析,才能够准确的识别出路测业务行为。

一般可以通过构建包含发送请求的速率、间隔的时延、重复的周期等参数的行为模型来进行识别。

图2传统IP数据包检测与DPI深度数据包检测

2.2DPI技术在电信网络的应用

目前运营商在部署DPI设备时一般有两种方式,一种为串联式,即把DPI解析设备串联在业务流的通路上,另一种为并联式,即通过分光器或者路由器镜像的方式。

当前中国电信使用的为方式2,将DPI探针部署在S1-U口上,如下图所示:

图3DPI探针结构图

3问题分析

3.1分析思路

湖北电信LTE网络组网结构如下图所示:

图4湖北电信LTE网络组网图

基于DPI数据TCP12次握手时延波动较大,可推断为S1-U口以上的问题,即为核心网、SP内容源的原因导致。

图5湖北电信LTE网络组网图

由于众该问题存在多个地市排除SP问题,预判可能存在的原因为MME、EPC、防火墙的问题。

3.2Wireshark软件抓包方法介绍

DPI数据中的TCP时延或是HTTP时延可准确定界S1-U端口两侧,当TCP23次握手时延大时,可判断为S1-U口以下问题导致,但无法判断传输网的哪一条链路出现了问题,此时需要通过Wireshark软件抓包方法进一步定位。

1)电脑上启动wireshark软件,按照下图进行设置操作。

图6Captuer---Interfaces

2)分别让UE附着在MME1或是MME2后,进入到报文捕获界面,实施抓包。

图7设置目标IP

4测试验证过程

4.1DPI数据分析

由于握手时延与基站空口的负荷有一定的关系,因此选取了营房村机房小区为分析对象,该小区在12、22点的时候一二次、二三次握手时延有明显的抬高,如下图所示:

图8营房村局BBU34TCP握手时延时域上趋势图

分析该该站下5个小区的PRB利用率及CQI优良比可知PRB利用率在每晚的22点已经很低,CQI优良比保持稳定,如下图所示:

图9营房村局BBU34下挂RRUPRB利用率趋势图

图10营房村局BBU34下挂RRUCQI趋势图

通过以上指标分析,可说明晚忙22点TCP时延抬高与空口负荷关联不大,可能是传输网或是核心网问题导致,需进一步核查根因。

4.2基站侧Ping测试分析

为了核实问题根因,排除可能绿网DPI数据有误,或是SP服务器的问题,安排工程师在该基站下进行Ping测试,分别在10点和22点ping不同的服务器,结果如下:

图11早上10点ping测试结果

图12晚22点ping测试结果

分别在早10点和晚22点进行ping测试1500次,可见早上时延稳定在42至60之间,晚上无规则的出现大大于100ms的时延,个别时间段出现丢包的现象,说明晚忙22点确实存在TCP时延大,丢包的现象。

4.3核心网侧抓包分析

在核心网侧运用Wireshark软件进行抓包,丢包率为1.6%。

当用户业务丢包率大于0.3%(经验值)时,可能就会影响用户业务流畅,当前已远大于这个值,如下图所示:

图13Wireshark抓包丢包率统计

图14终端的TCP窗口稳定情况分析

图14RTT时延分析

基于核心网侧Wireshark抓包可断定在核心网存在瓶颈,导致用户随机性的丢包,从而出现全网的TCP时延增大的现象,可能的原因为防火墙容量不够导致。

针对丢包现象,6月26日完成对宝丰机房的防火墙扩容,洪山机房防火墙暂未扩容。

在晚忙22点让UE分别占用两个MME进行下载业务测试,如下图所示:

图15FTP测试速率结果

现场使用LTE测试终端在同一地点同一时段占用同一小区(控制变量)进行下载测试观察速率,发现占用洪山机房MME时速率较差(平均2.5Mbps),更换S1链路后占用宝丰机房MME,速率上升至10Mbps,验证防火墙对用户速率存在较大压制。

5解决方案及实施效果

完成宝丰机房和洪山机房的防火墙扩容,扩容后对晚忙时防火墙性能测试数据进行分析,测试用户0丢包,速率与闲时相同,全网吞吐量从203Gbps(6月25日)增加到224Gbps(6月28日),增长23Gbps。

UGW链路负荷使用率由60%上升到70%,扩容效果明显,如下图所示:

图16防火墙扩容前后全网吞吐量变化情况

6总结

该案例基于绿网的DPI数据TCP时延分析法入手,挖掘数据的特征性,最后通过ping测试、Wireshark抓包、问题推断与验证定位问题,解决并验证了方案实施效果良好。

该案例描述清晰,方法论合理,可供一线工程师参考。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 成人教育 > 电大

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1