宽带网络故障定位指导书.docx
《宽带网络故障定位指导书.docx》由会员分享,可在线阅读,更多相关《宽带网络故障定位指导书.docx(31页珍藏版)》请在冰豆网上搜索。
宽带网络故障定位指导书
宽带网络故障定位指导书
关键词:
故障处理宽带产品网络
摘要:
本文针对宽带网络中常见网络故障现象和故障定位方法进行了描述。
本文侧重点是网络运行过程中的网络故障处理,针对单个产品的故障请参考各产品故障定位指导书。
缩略语清单:
参考资料清单:
第1章网络故障概述
1.1常见故障分类
针对目前网上问题和常见故障,根据故障现象等因素作了以下分类。
1)上网速度慢
●用户客户端问题(含客户端机器问题和客户端组网问题);
●网络服务器问题(WEB/DNS服务器问题);
●网络侧具体网络设备问题;
●网络结构问题(网络侧组网、流量问题);
✓带宽分析
✓ATM网络
✓以太网络
✓IP网络
●网络攻击问题
2)用户端掉线
●ADSL用户掉线
●VDSL用户掉线
●MA5200用户掉线
●以太端口协商问题
3)数据包丢失
●ping大包不通
●ping大包丢包
●ping小包丢包(超时网络速度慢引起,端口协商问题)
4)部分业务中断案例
●NAT部分业务不支持
●没有保存数据,设备重启引起部分用户数据丢失。
第2章上网速度慢故障分析
上网速度慢是一个比较复杂问题(从用户PC到他需要访问的目的网站,中间任何一个环节出现了问题都将出现网速慢的现象)。
对于我们用户来说,最关心的是如何解决这个问题;而对于设备供应商来说,主要需要定位问题是否由其自身的设备问题所引起还是由于网络其他原因所致。
是以遇到这类问题时需要有一个定位问题的基本思路,这样能帮助我们在日常维护中有条不紊地找到问题的真实原因,我们大致可以从以下几个方面着手:
(1)用户客户端问题(含客户端机器问题和客户端组网问题);
(2)网络服务器问题(WEB/DNS服务器问题);(3)网络侧具体网络设备问题;(4)网络结构问题(网络侧组网、流量问题);(5)网络攻击问题。
2.1用户客户端问题
该类问题定位思路如下:
1)若只是用户局域网(企业内部和网吧内部)内部个别机器出现上网速度慢的问题,主要从该问题机器本身找原因(机器硬件原因、软件原因等等)。
2)若整个局域网内所有机器均出现上网速度慢的问题,适当的时候可以断开局域网组网,将广域网入口处直接挂一台好的PC做上网测试。
如果此时问题解决,则证明问题可能出在局域网内部组网上(代理服务器原因,内部路由器原因,内部交换机硬件原因等等。
)
3)情况中若用户广域网入口处接一台好的PC做上网测试也存在同样上网慢的问题,则需要排除用户侧的问题进一步向网络侧找原因。
2.2网络服务器(web站点或其他网络服务器)问题
明确用户反应的上网速度慢的具体情况如何。
1)出现以下情况者,可高度怀疑是个别网站的WEB服务器问题:
1、打开某个网站的网页十分慢,或根本打不开,而打开其它网站网页(特别是一些大型的门户网站)正常;
2、从多处PING该WEB服务器的IP地址不通或丢包严重。
2)出现下列故障,可高度怀疑是DNS服务器问题:
1、浏览器的状态条中长时间提示“正在连接站点XXX....”(其中XXX为连接的URL名称);
2、直接输入网站的IP地址,可迅速打开网页;
3、可以PINGDNS服务器来确定到底是不是DNS服务器的网路出现了问题。
2.3网络侧具体网络设备问题
如果发生用户网速慢的问题被定位在网络侧(主要是局端的网络设备),要想验证此类问题比较理想的手段是在局端上行设备(从接入层设备到汇聚层设备)上依次分别直接挂接一个FTP服务器,然后再分别在用户端直接用计算机进行FTP下载来测试速度。
这样哪层设备出了设备上的硬件问题可以被进一步准确定位。
为了更进一步证明不是接入层或汇聚层设备问题,也为了更进一步定位问题,可以在连接的上层设备上(一般是L3)连接一台FTP或HTTP服务器,并在用户端进行下载或浏览测试,倘若正常,则说明接入层或汇聚层设备和上层设备都没问题,倘若在L3上就比较慢,则考虑下列可能出现故障的地方:
1)接入层或汇聚层设备与上层连接的设备之间的链路问题,如果为以太网链路,可以考虑协商是否有问题;
2)可以通过下列手段进一步确认问题到底出现在哪方面:
1、在用户端PING接入层或汇聚层设备上行端口IP地址(可以变换PING的延迟和数据包尺寸),倘若不正常,可怀疑接入层或汇聚层设备问题,这时候往往是产品局部问题,可以向产品厂家工程师寻求解决;
2、倘若PING接入层或汇聚层上行端口IP地址正常,而PING接入层或汇聚层设备连接的上层设备接口IP地址有问题(不通或丢包严重),则可以初步断定是上层设备问题(过度拥塞或受到攻击)。
业务需求紧急时立即恢复方法,可以尝试下列手段:
1、在接入层或汇聚层连接的上层设备上(一般是L3)的接口进行复位(如果是以太网接口,确认双方配置的协商模式);
2、倘若接入层或汇聚层设备连接的上层设备业务量不是很大,可以考虑复位整机;
3、倘若接入层或汇聚层设备连接的上层设备业务量很大,可以考虑复位连接设备的单板。
注意:
在做上述任何一种操作前,一定保存配置信息和告警信息。
2.3.1案例一:
MA5100ADSL用户反馈上网速度始终很慢,ping网关时延很大(32字节长度,延时达到50到60ms)。
如果一个局点很多ADSL用户反馈这个问题,建议检查用户的激活模板。
如果配置成交织自动配置方式,或者交织延时模式为手工配置方式,但是交织深度很大,则修改激活模板,改为交织手工配置方式,交织深度为下行16dmt,上行8dmt(或者下行8dmt,上行8dmt)。
具体如下:
设置参数
调整前参数值
调整后参数值
ADSLoperatingmode
All(G992.1,G992.2,T1.413)
All(G992.1,G992.2,1.413)
TrellisMode
Enable
Enable
Channelmode
Interleaved
Interleaved
Interleaveddelaymode
Auto
Config
Unitofinterleaveddelay
DMT
DMT
Maxdowninterleaveddepth/delay
8
16
Maxupinterleaveddepth/delay
8
8
Targetdownstreamnoisemargin(dB)
12
12
Mindownstreamnoisemargin(dB)
0
0
Targetupstreamnoisemargin(dB)
12
12
Minupstreamnoisemargin(dB)
0
0
Mindownstreambitrate(Kbps)
32
32
Maxdownstreambitrate(Kbps)
3,000
3,000
Minupstreambitrate(Kbps)
32
32
Maxupstreambitrate(Kbps)
512
512
有的用户由于上行带宽太小也会导致上网速度慢,PING包时延大,甚至打不开网页,将用户的上行带宽设为512K或者640K可解决问题。
另外,用户的终端问题也会导致上网速度慢,比如病毒、MODEM故障等问题。
2.3.2案例二:
MA5200用户上网速度慢的问题一般定位方法
如果MA5200用户可以上网,但是上网的速度达不到正常的速度,比如:
点播VOD不连贯、下载文件的速度很小等等,此时可能的原因有如下几种:
1)MA5200对用户做CAR
2)用户到目的网站之间存在其它网络瓶颈
3)线路原因
4)客户自身设备限制
5)其它设备对用户做CAR
6)工作模式协商不一致
MA5200可以对用户进行流量控制,从而提供差异化的服务,当用户的上网速度比较慢时,我们首先应当确认MA5200为用户提供的CAR值。
对MA5200下的用户,其CAR值可能在用户名中限制,也可能在域下限制,而且只要域下面的流控是打开的(默认流控),无论在用户属性中设置的CAR值是多少都以默认的流控为准。
在实际网络的使用中,用户的速度往往达不到理论的速率,这是正常的,因为从MA5200到用户这一段的带宽是独占的,可以达到10-100M,而从MA5200到目的网站之间要经过多级路径,这些路径的带宽是共享的而且是有限的,因此会随用户数的多少而有所不同,因此,在遇到上网速度慢的时候,我们还应当确认是否是网络中的其它瓶颈的问题。
简单的判断方法可以访问一个近端的服务器,比如直接挂在MA5200下面的服务器,看看速度是否正常。
对于MA5200通过光纤上行时,我们应当注意是否距离过长,这个我们可以从扣板的类型的判断,一般来说,扣板的类型为OxFIy,其中x=1\8,代表扣板接口数量,y=A\B\E\F\G\H\I,依次代表最大传输距离为:
0.5KM、2KM、10KM、15KM、30KM、50KM、70KM,同时A\B代表是多模光纤,E\F\G\H\I代表单模光纤。
光纤是单模还是多模,可以多颜色上来区分,黄色为单模光纤,橙色为多模光纤。
如果传输的距离超过了自身类型所能达到的距离,会因为线路的质量而导致速率下降。
同时,即使传输距离在允许的范围内,我们可以测量光纤接口的光功率是否正常来判断线路的质量。
当与其它设备对接时,如果两端的设备允许不同的工作模模式,比如MA5200的FE口就有自协商、10M全双工、10M半双工、100M全双工、100M半双工五种工作模式,GE口也存在自协商、1000M全双工、1000M半双工等工作模式,当两端设备对接的端口工作模式不一致时也会导致网络性能的急剧下降。
我们可以查看两端端口的协商模式,一般来说,两端的端口只要工作于自协商状态就会协商允许的最高速率,例外时如果协商的速率太低,我们可以强制把端口都设置为更高速率,比如把FE口设置为100M全双工,把GE口设置为1000M全双工。
如果MA5200上行还相联其它设备如8750\8850、MA5100等,因为这些设备也可以对用户或端口做流量限制,此时我们也应当了解这些设备对流量控制的设置情况。
除了以上的原因外,客户自身的硬件也是一个值得关注的地方。
不同的硬件可以达到的速度是有区别的,一个10M的网卡是如何也跑不出100M的速率的。
如果出现点播VOD时画面不连续时,而且MA5200使用的是支持流控的GE板,并且对端设备也是支持流控的,我们可以通过以下的办法来解决:
在全局模式下面执行Flowctroltime,值的大小从200开始向下调整,调整的标准为PINGVODSERVER大小为20000的包,丢包率在2%以下即可,经验值为60-70。
2.4网络结构问题
2.4.1带宽分析
网络带宽瓶颈是影响上网速度主要原因之一。
如下图所示,宽带城域网组网模型,网络带宽可能成为瓶颈,对于不同运营商有所不同。
对于网通和中国电信Internet出口不是瓶颈,对于广电和铁通等出口带宽有可能形成瓶颈。
对是在骨干层、汇聚层、接入层是否形成瓶颈或某两台设备之间是否形成带宽瓶颈,可以通过网管系统进行流量统计监控,如果带宽利用率超过了50%就应该考虑扩容了。
图2-1城域网组网示意图
网络受到DoS攻击也是引起上网速度变慢的一个主要原因,这是流量带宽被大量占用造成上网速度显著变慢甚至造成整网中断。
对此问题最好通过网管系统对各端口流量进行实时监控。
接入层(MA5100接入ADSL)
考虑到宽带应用与窄带的不同,宽带应用以IP应用为主,不面向连接,所以主要考虑的因素是流量和带宽的占用,但是由于ADSL接入在链路层采用面向连接的ATM技术,所以连接数量限制也是考虑的因素;