1、2.4 传输问题272.5 数据配置问题29第二章 业务应用篇331.无法搜索到移动信号问题331.1无法搜索到网络问题处理流程341.2无法搜索到网络问题案例352.无法关联问题452.1无法关联问题处理流程462.2无法关联问题案例463.无法上网问题533.1无法上网问题处理流程533.2无法上网问题案例544.速度慢问题674.1速度慢问题处理流程674.2速度慢问题案例685.掉线率高问题945.1掉线率高问题处理流程945.2掉线率高问题案例956.用户不能正常登录问题1036.1用户不能正常登录问题处理流程1046.2用户不能正常登录问题案例105第一章 设备维护篇1. AC故障
2、问题1.1 登陆成功率(非用户原因)低问题原因分析登陆成功率(非用户原因)=1-上线bas错误/登陆申请总次数,所有登陆成功率(非用户原因)主要与上线bas错误有关。上线bas错误的定义:在认证过程中ac返回了网络错误的错误码(4),或者返回未知错误码,或者接收ACK-CHALLENGE或ACK_AUTH包超时15秒失败,一般认为是网络或设备原因。在用户上线流程图中,和发生上线bas相关的交互步骤:(1) 如果查询成功,Portal Server向AC请求Challenge;(2) AC分配Challenge给Portal Server;(3) Portal Server向AC发起认证请求;(
3、4) 而后AC进行Radius认证,获得Radius认证结果;(5) AC向Portal Server送认证结果; 用户上线Chap认证流程图上线bas错误包括以下四种情况:(1)AC未发送Ack_challenge、Ack_auth或者发往Portal服务器的Ack_challenge、Ack_auth丢失。(2)Portal服务器接收Ack_challenge、Ack_auth超时15秒。(3)AC发往Portal服务器的Ack_challenge或者Ack_auth的报文带有errcode 4信息。以下2种情况AC将发送带有错误码4的报文:AC 在准备发送 Ack_challenge时,
4、 发现Req_challenge报文中的保留字段不为 0 或者AC 没有能产生16 位的挑战值,此时AC 将发送携带错误码为4的Ack_challenge报文到Portal,表示AC设备告诉Portal Server此用户请求Challenge失败。 AC在收到REQ_AUTH时, 发现该报文中的REQ_ID 和之前Req_challenge中的REQ_ID 不相等,从而认为该用户登录操作出现异常,发送携带有错误码4的AUTH_ACK报文到Portal,表示AC设备告诉Portal Server此用户认证失败。(4)AC设备设计缺陷,在发往Portal服务器的Ack_challenge或者Ac
5、k_auth的报文中带有其他未知errcode值信息。上线bas错误产生的主要原因:(1) AC设备问题(2) 参数设置问题(3) 设备性能问题(4) 网络丢包问题1.2 登陆成功率(非用户原因)低问题案例分析1.2.1 AC设备问题主要原因:(1)AC因设计缺陷,在发往Portal服务器的Ack_challenge、Ack_auth的报文中带有其他未知errcode值信息。(2)AC内进程发生错误导致无法响应Portal服务器的请求,导致Portal服务器无法接收到响应报文,记录为上线bas错误。(3)AC和Portal之间通过UDP报文进行交互,在交互过程中UDP端口学习错误,将导致Por
6、tal无法接收到正确的响应报文,发生上线bas错误。(4)网络丢包导致AC和Portal之间的数据包丢失重传,因丢包重传引发超时,发生上线bas错误。相关案例分析:案例一:AC响应Portal服务器的认证报文中携带有未知errcode值,发生上线bas错误。故障描述:某厂家现网AC发生认证接通率低的问题,通过抓包分析发现,在AC相应Portal的报文中存在errcode 10。AC设备版本设计缺陷导致在发往Portal服务器的Ack_challenge、Ack_auth的报文中存在错误代码errcode 10,此代码不符合移动集团规范,Portal将带有errcode 10消息的响应报文记录为
7、上线bas错误。导致用户认证失败。解决方案:依据中国移动WLAN用户接入流程技术规范(WEB)V3.0.0要求,在AC版本中,将errcode 10值修改为符合规范的errcode值,解决因未知errcode值导致的上线bas错误。案例二: AC内认证模块异常退出,导致发生上线bas错误。某厂家设备出现大量上线BAS错误通过AC日志分析发现AC认证模块发生重启的现象。进一步根据AC调试信息进行定位:分析认证代码后发现认证模块在发送停止计费时有空指针的现象。如果进程发生空指针那就会出现异常,从而引起进程退出。分析认证逻辑后发现在认证模块启用了STOP机制,也就是防止用户吊死在Radius Ser
8、ver的功能情况下发送STOP停止计费报文就会有空指针的风险,这就会导致认证模块异常退出。在认证模块退出情况下,如果发起认证请求,则AC无法响应报文challenge或Auth报文导致认证,就会造成上线bas错误。通过升级新版本,修改认证模块代码,解决因认证模块异常退出而发生上线bas错误的问题。案例三:交互过程中AC学习UDP端口号错误,导致发生上线bas错误。AC和Portal之间通过UDP报文进行交互。通过抓包发现AC存在UDP端口号学习错误的问题。在交互过程中,如果期间有其他用户进行认证交互,AC会学习到其他用户的端口号。以这个端口号给Portal回应确认报文,AC无法识别该确认消息,
9、发生上线bas错误。用户将显示认证失败,不能正常登录使用。2011-03-02 11:18:53.251408 igw8021x2248: P STA(10.0.20.75) Receive REQ_AUTH from Portal Server(221.176.1.140), port:39777 size:4753.291442 igw8021x2248:P STA(10.0.23.138) Receive REQ_LOGOUT from Portal Server(221.176.1.140), port:54555 size:1653.370251 igw8021x2248:P STA
10、(10.0.20.75) Send ACK_AUTH with Errcode 0 to Portal Server(221.176.1.140), dest port:16 在认证模块中增加代码,记录下每一用户Portal请求报文的端口号,以该端口号响应Portal的请求,解决UDP端口学习错误的问题。1.2.2 参数设置问题AC内关于认证计费的参数设置不当,增加AC内认证模块出现异常的机率,导致上线bas错误的发生。记账间隔时间设置太短,导致出现认证接通率低的问题。AC内认证计费参数有一项记账间隔时间,该值作用为每隔一个记账间隔时间AC对所有用户进行一次检测其是否在线,如果在线则针对每用户
11、给Radius发送一条续费报文。表明该用户在线,对用户计费信息进行更新,确保计费的准确性。如果记账间隔时间设置太短,将导致AC频繁对在线用户进行检测并向Radius发送续费报文。当用户量大时,AC内认证模块将出现繁忙。无法及时响应Portal服务器发出的请求报文,产生上线bas错误,导致用户登录失败。 抓包截图记账间隔时间设置太短,导致AC和Radius之间进行大量的续费报文交互,从上面的截图可以看出,截图中的26个数据报文中仅有一个是AC和Portal服务器交互的报文,其他的25个数据包都是AC和Radius之间的续费报文。占比达到了96%。大量的续费报文导致了AC认证模块繁忙,消耗大量AC
12、资源,无法AC及时响应Portal发出的认证请求报文。从问题发生的AC和时间来看。该问题发生在业务量较大的AC,且发生的时间点一般发生在上网的高峰期。在5月份发现部分厂家AC内记账间隔时间采用默认值,且默认值设置太短,设置成了30秒,导致AC认证模块出现繁忙,无法及时响应Portal服务器发出的请求报文,产生了大量的上线bas错误,出现认证接通率低的问题。将记账间隔时间设置为900秒或更长(注:该参数raduis尚未使用,部分可以设置为0的厂家可以关闭该参数),防止认证模块出现繁忙导致发生大量上线bas错误。1.2.3 设备性能问题AC内开启了某些功能(SNMP/NAT)后,导致AC内资源消耗
13、过大或者功能实现效率不高。从而导致出现上线bas错误。AC开启SNMP服务后,出现认证接通率低的问题。某厂家AC设备在开启了SNMP服务后,SNMP进程对AC的CPU资源消耗较大;在业务量大的时候,将会因 CPU利用率高而出现认证模块异常,出现上线bas错误。通过优化AC内SNMP进程代码及资源调度机制,降低SNMP进程对资源的消耗。避免因SNMP进程对资源的消耗,导致AC认证模块出现异常,导致出现上线bas错误。AC开启NAT地址转换功能后,出现接通率低的问题。长沙市目前WLAN用户IP地址分配采取私网IP地址+NAT的实施方案,AC为用户分配私网IP地址,同时在AC上启用NAT功能进行地址
14、转换。AC实施地址转换需要通过软件功能实现,在地址转换时需要通过CPU计算处理。存在地址转换产生时延和效率不高的问题。地址转换产生的时延较大,从交互过程中AC收到用户登录请求开始计算,收到Ack_challenge、Ack_auth消息时间超过15秒超时将记录为上线bas错误。WLAN用户使用公网地址。通过NAT转换专业设备进行地址转换,解决地址转换存在时延和效率不高问题而产生上线bas错误。AC配置关联用户通过SSID匹配portal后,出现认证接通率低的问题。某厂家AC配置关联用户通过SSID匹配portal后,产生的Wireless station表项数据非常庞大,如图:用户关联成功后,AC上的Wireless station表中就会增加此用户的
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1