WLAN无线网络维护及优化问题处理指导手册Word格式文档下载.doc
《WLAN无线网络维护及优化问题处理指导手册Word格式文档下载.doc》由会员分享,可在线阅读,更多相关《WLAN无线网络维护及优化问题处理指导手册Word格式文档下载.doc(107页珍藏版)》请在冰豆网上搜索。
2.4传输问题 27
2.5数据配置问题 29
第二章业务应用篇 33
1.无法搜索到移动信号问题 33
1.1无法搜索到网络问题处理流程 34
1.2无法搜索到网络问题案例 35
2.无法关联问题 45
2.1无法关联问题处理流程 46
2.2无法关联问题案例 46
3.无法上网问题 53
3.1无法上网问题处理流程 53
3.2无法上网问题案例 54
4.速度慢问题 67
4.1速度慢问题处理流程 67
4.2速度慢问题案例 68
5.掉线率高问题 94
5.1掉线率高问题处理流程 94
5.2掉线率高问题案例 95
6.用户不能正常登录问题 103
6.1用户不能正常登录问题处理流程 104
6.2用户不能正常登录问题案例 105
第一章设备维护篇
1.AC故障问题
1.1登陆成功率(非用户原因)低问题原因分析
登陆成功率(非用户原因)=1-上线bas错误/登陆申请总次数,所有登陆成功率(非用户原因)主要与上线bas错误有关。
上线bas错误的定义:
在认证过程中ac返回了网络错误的错误码(4),或者返回未知错误码,或者接收ACK-CHALLENGE或ACK_AUTH包超时15秒失败,一般认为是网络或设备原因。
在用户上线流程图中,和发生上线bas相关的交互步骤:
(1)如果查询成功,PortalServer向AC请求Challenge;
(2)AC分配Challenge给PortalServer;
(3)PortalServer向AC发起认证请求;
(4)而后AC进行Radius认证,获得Radius认证结果;
(5)AC向PortalServer送认证结果;
用户上线Chap认证流程图
上线bas错误包括以下四种情况:
(1)AC未发送Ack_challenge、Ack_auth或者发往Portal服务器的Ack_challenge、Ack_auth丢失。
(2)Portal服务器接收Ack_challenge、Ack_auth超时15秒。
(3)AC发往Portal服务器的Ack_challenge或者Ack_auth的报文带有errcode4信息。
以下2种情况AC将发送带有错误码4的报文:
AC在准备发送Ack_challenge时,发现Req_challenge报文中的保留字段不为0或者AC没有能产生16位的挑战值,此时AC将发送携带错误码为4的Ack_challenge报文到Portal,表示AC设备告诉PortalServer此用户请求Challenge失败。
AC在收到REQ_AUTH时,发现该报文中的REQ_ID和之前Req_challenge中的REQ_ID不相等,从而认为该用户登录操作出现异常,发送携带有错误码4的AUTH_ACK报文到Portal,表示AC设备告诉PortalServer此用户认证失败。
(4)AC设备设计缺陷,在发往Portal服务器的Ack_challenge或者Ack_auth的报文中带有其他未知errcode值信息。
上线bas错误产生的主要原因:
(1)AC设备问题
(2)参数设置问题
(3)设备性能问题
(4)网络丢包问题
1.2登陆成功率(非用户原因)低问题案例分析
1.2.1AC设备问题
主要原因:
(1)AC因设计缺陷,在发往Portal服务器的Ack_challenge、Ack_auth的报文中带有其他未知errcode值信息。
(2)AC内进程发生错误导致无法响应Portal服务器的请求,导致Portal服务器无法接收到响应报文,记录为上线bas错误。
(3)AC和Portal之间通过UDP报文进行交互,在交互过程中UDP端口学习错误,将导致Portal无法接收到正确的响应报文,发生上线bas错误。
(4)网络丢包导致AC和Portal之间的数据包丢失重传,因丢包重传引发超时,发生上线bas错误。
相关案例分析:
案例一:
AC响应Portal服务器的认证报文中携带有未知errcode值,发生上线bas错误。
故障描述:
某厂家现网AC发生认证接通率低的问题,通过抓包分析发现,在AC相应Portal的报文中存在errcode10。
AC设备版本设计缺陷导致在发往Portal服务器的Ack_challenge、Ack_auth的报文中存在错误代码errcode10,此代码不符合移动集团规范,Portal将带有errcode10消息的响应报文记录为上线bas错误。
导致用户认证失败。
解决方案:
依据《中国移动WLAN用户接入流程技术规范(WEB)V3.0.0》要求,在AC版本中,将errcode10值修改为符合规范的errcode值,解决因未知errcode值导致的上线bas错误。
案例二:
AC内认证模块异常退出,导致发生上线bas错误。
某厂家设备出现大量上线BAS错误通过AC日志分析发现AC认证模块发生重启的现象。
进一步根据AC调试信息进行定位:
分析认证代码后发现认证模块在发送停止计费时有空指针的现象。
如果进程发 生空指针那就会出现异常,从而引起进程退出。
分析认证逻辑后发现在认证模块启用了STOP机制,也就是防止用户吊死在RadiusServer的功能情况下发送STOP停止计费报文就会有空指针的风险,这就会导致认证模块异常退出。
在认证模块退出情况下,如果发起认证请求,则AC无法响应报文challenge或Auth报文导致认证,就会造成上线bas错误。
通过升级新版本,修改认证模块代码,解决因认证模块异常退出而发生上线bas错误的问题。
案例三:
交互过程中AC学习UDP端口号错误,导致发生上线bas错误。
AC和Portal之间通过UDP报文进行交互。
通过抓包发现AC存在UDP端口号学习错误的问题。
在交互过程中,如果期间有其他用户进行认证交互,AC会学习到其他用户的端口号。
以这个端口号给Portal回应确认报文,AC无法识别该确认消息,发生上线bas错误。
用户将显示认证失败,不能正常登录使用。
2011-03-0211:
18:
53.251408igw8021x[2248]:
<
debug>
[P]STA(10.0.20.75)ReceiveREQ_AUTHfromPortalServer(221.176.1.140),port:
39777size:
47
53.291442igw8021x[2248]:
[P]STA(10.0.23.138)ReceiveREQ_LOGOUTfromPortalServer(221.176.1.140),port:
54555size:
16
53.370251igw8021x[2248]:
[P]STA(10.0.20.75)SendACK_AUTHwithErrcode0toPortalServer(221.176.1.140),destport:
16
在认证模块中增加代码,记录下每一用户Portal请求报文的端口号,以该端口号响应Portal的请求,解决UDP端口学习错误的问题。
1.2.2参数设置问题
AC内关于认证计费的参数设置不当,增加AC内认证模块出现异常的机率,导致上线bas错误的发生。
记账间隔时间设置太短,导致出现认证接通率低的问题。
AC内认证计费参数有一项记账间隔时间,该值作用为每隔一个记账间隔时间AC对所有用户进行一次检测其是否在线,如果在线则针对每用户给Radius发送一条续费报文。
表明该用户在线,对用户计费信息进行更新,确保计费的准确性。
如果记账间隔时间设置太短,将导致AC频繁对在线用户进行检测并向Radius发送续费报文。
当用户量大时,AC内认证模块将出现繁忙。
无法及时响应Portal服务器发出的请求报文,产生上线bas错误,导致用户登录失败。
抓包截图
记账间隔时间设置太短,导致AC和Radius之间进行大量的续费报文交互,从上面的截图可以看出,截图中的26个数据报文中仅有一个是AC和Portal服务器交互的报文,其他的25个数据包都是AC和Radius之间的续费报文。
占比达到了96%。
大量的续费报文导致了AC认证模块繁忙,消耗大量AC资源,无法AC及时响应Portal发出的认证请求报文。
从问题发生的AC和时间来看。
该问题发生在业务量较大的AC,且发生的时间点一般发生在上网的高峰期。
在5月份发现部分厂家AC内记账间隔时间采用默认值,且默认值设置太短,设置成了30秒,导致AC认证模块出现繁忙,无法及时响应Portal服务器发出的请求报文,产生了大量的上线bas错误,出现认证接通率低的问题。
将记账间隔时间设置为900秒或更长(注:
该参数raduis尚未使用,部分可以设置为0的厂家可以关闭该参数),防止认证模块出现繁忙导致发生大量上线bas错误。
1.2.3设备性能问题
AC内开启了某些功能(SNMP/NAT)后,导致AC内资源消耗过大或者功能实现效率不高。
从而导致出现上线bas错误。
AC开启SNMP服务后,出现认证接通率低的问题。
某厂家AC设备在开启了SNMP服务后,SNMP进程对AC的CPU资源消耗较大;
在业务量大的时候,将会因CPU利用率高而出现认证模块异常,出现上线bas错误。
通过优化AC内SNMP进程代码及资源调度机制,降低SNMP进程对资源的消耗。
避免因SNMP进程对资源的消耗,导致AC认证模块出现异常,导致出现上线bas错误。
AC开启NAT地址转换功能后,出现接通率低的问题。
长沙市目前WLAN用户IP地址分配采取私网IP地址+NAT的实施方案,AC为用户分配私网IP地址,同时在AC上启用NAT功能进行地址转换。
AC实施地址转换需要通过软件功能实现,在地址转换时需要通过CPU计算处理。
存在地址转换产生时延和效率不高的问题。
地址转换产生的时延较大,从交互过程中AC收到用户登录请求开始计算,收到Ack_challenge、Ack_auth消息时间超过15秒超时将记录为上线bas错误。
WLAN用户使用公网地址。
通过NAT转换专业设备进行地址转换,解决地址转换存在时延和效率不高问题而产生上线bas错误。
AC配置关联用户通过SSID匹配portal后,出现认证接通率低的问题。
某厂家AC配置关联用户通过SSID匹配portal后,产生的Wirelessstation表项数据非常庞大,如图:
用户关联成功后,AC上的Wirelessstation表中就会增加此用户的