网络故障排除.docx
《网络故障排除.docx》由会员分享,可在线阅读,更多相关《网络故障排除.docx(18页珍藏版)》请在冰豆网上搜索。
网络故障排除
实验目的与要求
熟悉网络故障排除方法和步骤,熟练使用Ping命令测试网络。
实验准备
包含10-20台计算机的局域网,思科交换机或路由器模拟器
实验相关理论知识
一、以太网故障排除
根据经验发现大多数的网络故障都是与硬件有关的:
比如说电缆,中继器,HUB,Switch和网卡等。
对于以太网典型故障的查找,一般过程如下:
①收集一切可以收集到的有价值的信息,分析故障的现象。
②将故障定位到某一特定的网段,或者是单一独立功能组(模块),也可以是某一用户。
③确认到底是属于特定的硬件故障还是软件故障。
④动手修复故障。
⑤验证故障确实被排除。
1.定位故障点
一般来说,最好的方法是先把故障细分或隔离在一个小的功能段上,即首先排除最大的网络段,从任何一个方便的,靠近问题的站点出发,利用二分法隔离障碍,再继续使用二分法直至把故障划分到最小的单位。
网管人员不要过多的指望用户会给出准确的故障情况描述,最好由自己亲自来确认一下。
当然也可以由用户演示所发现的问题。
由于网络故障带来的压力和混乱,人们经常
忽略一些细节问题。
如果某个部件出了问题,最好不要立即去替换它,除
非能肯定故障的来源。
故障查找要注意一些事项,由于以太网采用通用总线拓扑结构以及物理层可扩展的潜在问题,所以某个特定物理层的问题会以不同的方式显现出来,由于采用的测试手段、位置和环境不同,显示出的现象也常常矛盾。
为了避免被假象误导,特推荐两个故障查找的步骤。
1.沿网段多做测试如果故障现象随测试点的不同还保持一样的话,就可以依照所测试出来的故障现象去排除。
如果故障现象在一些或所有的测试点都不同的话,就要把查找故障的方向定在物理层(除非有特别提示),例如去查找坏的电缆、噪声环境、接地循环等故障。
2.要提高测试质量,在测试的同时要把测试仪器设置成至少可同时发送较低的流量。
由于增加了网络流量,微小的和间歇性的物理层问题会暴露出来。
为了更具体说明故障分析方法,下面列举典型的网络故障加以说明。
故障:
不能访问服务器或某项服务
在这里设定服务器或某项服务以前是正常的,并且已经做过如下的工作:
-重新冷启动PC机(热启动不能复位全部的适配卡)。
-确认PC机没有本身的硬件故障。
-确认所有的网络电缆都连接正确。
-确认所有的网卡驱动软件都正常的装入,没有报告错误。
-确认服务器或服务没有改变,比如重新配置增加硬件或软件。
要测试一下这一故障是否只影响该工作站(本地故障)还是会影响其他站点(大范围故障),可以通过其他工作站装入服务器或服务来证明这一点。
这些工作站要在同一网段或HUB上。
如果故障在同一网段或HUB上的其他的站点也存在,就试着从其他的网段或HUB上的站点进行测试。
(1)本地故障
在进行硬件故障查找以前,要确认其他用户也不能到这台机器上,这就排除了用户帐号的错误。
对一个单一的站点来说,典型的故障多发生在坏的电缆、坏的网卡、驱动软件、或是工作站设置的不正确等问题上。
(2)全局问题
通常来说,在同轴网中的物理层故障会导致灾难性的网络故障。
使用二分法来查找这类故障是可以很快定位解决的。
间歇性故障是比较难以隔离的。
(3)电缆连接问题
目测连接性:
检查连接性常用的方法就是检查HUB、收发器以及近期出产的网卡上的状态灯。
如果是10BASE5的电缆,要仔细检查所有的AUI电缆是否牢固的连接划锁要同时锁牢,很多问题只要简单的把未接牢的部分重新紧一下就解决了。
受损的电缆或连接部件:
在检查物理层的问题时,要注意受损的电缆、不正确的电缆类型(比如在以太网上用RG62或RG59)、未打好的RJ-45水晶头或未按牢的BNC头。
对怀疑有问题的电缆可以用一般的电缆测试仪进行测试。
(4)连接脉冲极性问题
无论是NIC还是HUB的连接脉冲极性都可以通过测试测出,连接极性故障通常是由电缆的连接错误引起的。
(5)检查链路层的问题
碰撞问题:
如果平均碰撞率大于10%或是观察到非常高的碰撞,就需要进一步的测试了。
如果可能,试着通过减少网段规模(将网络分成小块)并随时检测碰撞的变化以隔离出发生问题的区域。
为了追踪碰撞情况,就必须知道网络的流量。
可以使用背景流量发生器来加入适当的流量(100帧/秒,100字节长的流量),并同时观察网络的统计显示。
某些与介质有关的故障是与流量的大小成正比的。
可以在用控制键改变流量同时观察碰撞与错误的改变。
这种做法要特别小心,因为你很容易给网络加入很重的流量。
解决与碰撞有关的问题常常是很费劲的,因为测试的情况在很大程度上取决于观察的位置。
也许在同一网段相距几尺远的不同观察点看到的情况就不同,要多找几个点来观察并留意所发生的变化。
如果碰撞和流量成正比,或碰撞几乎是100%,或几乎没有正常的流量,则可能是布线系统出了问题。
对于UTP布线,可以在HUB上断开电缆然后进行电缆测试。
对于同轴电缆就要进行阻抗测量,可以使用数字表或其他仪表的直流通断功能进行测试。
如果电缆两端都有端接器,从T型接头应测的大约25欧姆,如果从电缆的一端将会测的50欧姆。
帧级错误:
如果出现帧级错误,你就要运行错误统计测试,并通过详细功
能把有问题的工作站的MAC地址找出,然后经过测试把故障确定下来。
可以试着将驱动程序用“干净”的原盘重新装入工作站,要确认各项配置安全。
如果这一切仍不奏效,可以试着把有疑问的网卡换掉。
利用率过高:
如果利用率过高(平均值大于40%,瞬间峰值高于60%),那么网段负荷就过重了。
应当考虑安装网桥和路由器以减少在网段中的流量或把网段分成若干小的网段。
(6)客户服务器连接的完整性问题
如果在链路层上是完好的,那么我们就要来看一下协议方面是否有什么问题会影响服务器和客户之间的通信。
连通性:
使用专业仪表,你可以运行ServerList或NovellPing测试功能,用来验证从测试点是否可以访问服务器或服务功能。
如果服务器没有反应,重新冷启动服务器并注意观察所有驱动软件是否正确加载,有无错误提示。
Novell的3.11版本以及以前版本,在缺省配置下使用802.3RAW的打包,而2.12及以后的版本在缺省配置时都使用了802.2打包类型。
另外也可试着对服务器进行几次ping测试,要确认请求信号与返回的响应信号数目相等,结果不一致则表明有时好时坏的网卡或HUB的故障导致帧的丢失。
临界状态的和已坏的桥或路由器也可以用此方法很快的定位。
服务器或服务的可达性:
如果使用协议分析仪,就要捕获3至4分钟的数据包来分析。
看一下是否有从服务器发出的延时请求,并找出是哪个服务器发出的,如果有延时请求,则表明服务器不能完全处理所加载的任务,每一个延
时请求作废一个任务请求。
二、网络响应慢或性能差
网络响应慢或性能差,要确定一下是否是与网络介质有关的故障,是一个工作站的问题还是一个服务器或是服务的问题。
从其他工作站去访问同样的服务器或服务,并询问本段网络或其他网段上的用户,如果问题不是与介质有关的,要确定问题是否与软件有关,检查网络利用率和软件错误来查找性能差的网络问题。
运行诸如网络统计这样的测试,看一下是否有高流量和不正常的高碰撞存在,在增加背景流量后再运行一下这些测试。
如果发现碰撞和PCF伴随的流量的增加而增多的话,你就应运行电缆测试来检查工作站的连接。
(1)碰撞问题
如果碰撞较多,要算一下多少带宽被碰撞损失了。
把本地和远端碰撞的损失都加起来,如果平均碰撞的值大于5%-10%,就要进行进一步的故障查找。
同样要检查一下碰撞是否是突发的,也就是说碰撞明显的增多不是因为流量明显增大引起的,如果是这样,就意味着某处的物理层出现了比较严重的问题。
在碰撞与流量之间应是有一定关系的。
这种关系应当在做网络参照基准测试时收集。
如果碰撞始终是比较多的(但仍是可以接受),可能是太多站点同时在参与发送,或者网络结构应做一些优化使近距离的站点分在一起。
过多的碰撞最常见是与介质有关的故障导致的,比如:
不正确的端接、特性阻抗不连续(坏
接点、残留支缆、残破线缆等)和坏网卡。
(2)过载的网段
如果利用率很高(持续峰值超过60%)而碰撞又可以接受(平均碰撞小于10%),那么网络就饱和了。
这时就应该增加网段或用路由器把网段分成较小的可以支持正常流量的网段。
(3)硬件故障
如故出现帧错误,利用专业仪表可以找出错误帧的来源。
此后的工作就是在HUB口、网卡和电缆中隔离出特定的故障,如果故障是间歇性的,就替换掉有疑问的网卡。
检查一下服务器/服务是否接在广域网路由器的两端。
如果是这样,就用Ping测试来测试一下响应时间并与基准测试比较一下。
为了保证没丢失帧的情况就要连续运行多次的Ping测试,检查测试请求包与响应包是否相等。
如果不相等,远端的介质或互连设备(网桥、路由器等)就有可能是容量问题或有故障。
丢帧也是电缆故障之一。
比如:
UTP布线中的线对串绕和同轴缆的故障。
如果怀疑有丢帧就进行电缆测试。
测试接在反应慢的工作站的电缆,也要测一下服务器方向的电缆。
(4)软件故障
运行网络统计测试,如果是高流量,低碰撞,而且有一点错误帧,就先确定发送错误帧的站点。
也可以由繁忙站点测试来找出有问题的站点。
到该站点现场来查看该用户在做什么。
要问明在非高峰时间用户在干什么或把这个用户移到其他网段上,以改善本网段上的其他用户工作情况。
如果利用率、碰撞、
错误帧都低,要询问抱怨网络性能不好的用户是使用哪个服务器和哪个应用软件。
检查该服务器是否处在高负载状况下,它和网络的利用率是不同的概念。
要找出使用这个服务器资源最多的用户,这可以用服务器上的用户监测功能或协议分析仪来完成。
无论是网络流量高或低时发生的问题,如果是碰撞很少而且没有错误帧,这类问题多出自应用软件或与文件服务器有关。
服务器可能是Cache设置的太小,保留的缓冲不足,服务器内存不够,服务器所余空间有限,这也可能是另一类软件问题,它们可能造成不正常的“网络磁盘请求”,这时有必要将某一应用移到另一个服务器上,要么升级现有的服务器,要么再加入一个新的服务器。
三、故障排除过程
在开始动手排除故障之前,最好先准备一支笔和一个记事本,然后,将故障现象认真仔细记录下来。
在观察和记录时一定注意细节,排除大型网络故障如此,一般十几台电脑的小型网络故障也如此,因为有时正是一些最小的细节使整个问题变得明朗化。
1、识别故障现象
作为管理员,在你排故障之前,也必须确切地知道网络上到底出了什么毛病,是不能共享资源,还是找不到另一台电脑,如此等等。
知道出了什么问题并能够及时识别,是成功排除故障最重要的步骤。
为了与故障现象进行对比,作为管理员你必须知道系统在正常情况下是怎样工作的,反之,你是不好对问
题和故障进行定位的。
识别故障现象时,应该向操作者询问以下几个问题:
(1)当被记录的故障现象发生时,正在运行什么进程(即操作者正在对电脑进行什么操作)。
(2)这个进程以前运行过吗?
(3)以前这个进程的运行是否成功?
(4)这个进程最后一次成功运行是什么时候?
(5)从那时起,哪些发生了改变?
带着这些疑问来了解问题,才能对症下药排除故障。
2、对故障现象进行详细描述
当处理由操作员报告的问题时,对故障现象的详细描述显得尤为重要。
如果仅凭他们的一面之词,有时还很难下结论,这时就需要管理员亲自操作一下刚才出错的程序,并注意出错信息。
例如,在使用Web浏览器进行浏览时,无论键入哪个网站都返回“该页无法显示”之类的信息。
使用ping命令时,无论ping哪个IP地址都显示超时连接信息等。
诸如此类的出错消息会为缩小问题范围提供许多有价值的信息。
对此在排除故障前,可以按以下步骤执行:
(1)收集有关故障现象的信息;
(2)对问题和故障现象进行详细描述;
(3)注意细节;
(4)把所有的问题都记下来;
(5)不要匆忙下结论。
3、列举可能导致错误的原因
作为网络管理员,则应当考虑,导致无法查看信息的原因可能有哪些,如网卡硬件故障、网络连接故障、网络设备(如集线器、交换机)故障、TCP/IP协议设置不当等等。
注意:
不要着急下结论,可以根据出错的可能性把这些原因按优先级别进行排序,一个个先后排除。
4、缩小搜索范围
对所有列出的可能导致错误的原因逐一进行测试,而且不要根据一次测试,就断定某一区域的网络是运行正常或是不正常。
另外,也不要在自己认为已经确定了的第一个错误上停下来,应直到测试完为止。
除了测试之外,网络管理员还要注意:
千万不要忘记去看一看网卡、Hub、Modem、路由器面板上的LED指示灯。
通常情况下,绿灯表示连接正常(Modem需要几个绿灯和红灯都要亮),红灯表示连接故障,不亮表示无连接或线路不通。
根据数据流量的大小,指示灯会时快时慢的闪烁。
同时,不要忘记记录所有观察及测试的手段和结果。
5、隔离错误
经过你的一番折腾后,这时你基本上知道了故障的部位,对于电脑的错误,你可以开始检查该电脑网卡是否安装好、TCP/IP协议是否安装并设置正确、Web浏览器的连接设置是否得当等一切与已知故障现象有关的内容。
然后剩下的事
情就是排除故障了。
注意:
在开机箱时,不要忘记静电对电脑的危害,要正确拆卸电脑部件。
6、故障分析
处理完问题后,作为网络管理员,还必须搞清楚故障是如何发生的,是什么原因导致了故障的发生,以后如何避免类似故障的发生,拟定相应的对策,采取必要的措施,制定严格的规章制度。
四、故障原因
虽然故障原因多种多样,但总的来讲不外乎就是硬件问题和软件问题,说得再确切一些,这些问题就是网络连接性问题、配置文件选项问题及网络协议问题。
1、网络连接性
网络连接性是故障发生后首先应当考虑的原因。
连通性的问题通常涉及到网卡、跳线、信息插座、网线、Hub、Modem等设备和通信介质。
其中,任何一个设备的损坏,都会导致网络连接的中断。
连通性通常可采用软件和硬件工具进行测试验证。
例如,当某一台电脑不能浏览Web时,在网络管理员的脑子里产生的第一个想法就是网络连通性的问题。
到底是不是呢?
可以通过测试进行验证。
看得到网上邻居吗?
可以收发电子邮件吗?
ping得到网络内的其他电脑吗?
只要其中一项回答为“yes”,那就可以断定本机到Hub的连通性没有问题。
当然,即使都回答“No”,也不就表明连通性肯定有问题,而是可能会有问题,因为如果电脑的网络协议的配置出现了问题也会导致上述现象的发生。
另外,
看一看网卡和Hub接口上的指示灯是否闪烁及闪烁是否正常也是个不坏的主意。
排除了由于电脑网络协议配置不当而导致故障的可能后,就应该查看网卡和Hub的指示灯是否正常,测量网线是否畅通。
2、配置文件和选项
服务器、电脑都有配置选项,配置文件和配置选项设置不当,同样会导致网络故障。
如服务器权限的设置不当,会导致资源无法共享的故障。
电脑网卡配置不当,会导致无法连接的故障。
当网络内所有的服务都无法实现时,应当检查Hub。
3、网络协议
没有网络协议,网络设备和电脑之间就无法通信,是不能实现资源共享Modem上网的。
五、连通性故障
1、故障表现
连通性故障通常表现为以下几种情况:
①电脑无法登录到服务器;
②电脑无法通过局域网接入Internet;
③电脑在“网上邻居”中只能看到自己,而看不到其他电脑,从而无法使用其他电脑上的共享资源和共享打印机;
④电脑无法在网络内实现访问其他电脑上的资源;
⑤网络中的部分电脑运行速度异常的缓慢。
2、故障原因
以下原因可能导致连通性故障:
①网卡未安装,或未安装正确,或与其他设备有冲突;
②网卡硬件故障;
③网络协议未安装,或设置不正确;
④网线、跳线或信息插座故障;
⑤Hub电源未打开,Hub硬件故障,或Hub端口硬件故障;
⑥UPS电源故障。
3、排除方法
①确认连通性故障
当出现一种网络应用故障时,如无法接入Internet,首先尝试使用其他网络应用,如查找网络中的其他电脑,或使用局域网中的Web浏览等。
如果其他网络应用可正常使用,如虽然无法接入Internet,却能够在“网上邻居”中找到其他电脑,或可ping到其他电脑,即可排除连通性故障原因。
如果其他网络应用均无法实现,继续下面操作。
②看LED灯判断网卡的故障
首先查看网卡的指示灯是否正常。
正常情况下,在不传送数据时,网卡的指示灯闪烁较慢,传送数据时,闪烁较快。
无论是不亮,还是长亮不灭,都表明有故障存在。
如果网卡的指示灯不正常,需关掉电脑更换网卡。
对于Hub的指示灯,凡是插有网线的端口,指示灯都亮。
由于是Hub,所以,指示灯的作用
只能指示该端口是否连接有终端设备,不能显示通信状态。
③用ping命令排除网卡故障
使用ping命令,ping本地的IP地址或电脑名(如ybgzpt),检查网卡和IP网络协议是否安装完好。
如果能ping通,说明该电脑的网卡和网络协议设置都没有问题。
问题出在电脑与网络的连接上。
因此,应当检查网线和Hub及Hub的接口状态,如果无法ping通,只能说明TCP/IP协议有问题。
这时可以在电脑的“控制面板”的“系统”中,查看网卡是否已经安装或是否出错。
如果在系统中的硬件列表中没有发现网络适配器,或网络适配器前方有一个黄色的“!
”,说明网卡未安装正确。
需将未知设备或带有黄色的“!
”网络适配器删除,刷新后,重新安装网卡。
并为该网卡正确安装和配置网络协议,然后进行应用测试。
如果网卡无法正确安装,说明网卡可能损坏,必须换一块网卡重试。
如果网卡安装正确则原因是协议未安装。
④如果确定网卡和协议都正确的情况下,还是网络不通,可初步断定是Hub和双绞线的问题。
为了进一步进行确认,可再换一台电脑用同样的方法进行判断。
如果其他电脑与本机连接正常,则故障一定是先前的那台电脑和Hub的接口上。
⑤如果确定Hub有故障,应首先检查Hub的指示灯是否正常,如果先前那台电脑与Hub连接的接口灯不亮说明该Hub的接口有故障(Hub的指示灯表明插有网线的端口,指示灯亮,指示灯不能显示通信状态)。
⑥如果Hub没有问题,则检查电脑到Hub的那一段双绞线和所安装的网卡
是否有故障。
判断双绞线是否有问题可以通过“双绞线测试仪”或用两块三用表分别有两个人在双绞线的两端测试。
主要测试双绞线的1、2和3、6四条线(其中1、2线用于发送,3、6线用于接收)。
如果发现有一根不通就要重新制作。
通过上面的故障压缩,我们就可以判断故障出在网卡、双绞线或Hub上。
六、协议故障
1、协议故障的表现
协议故障通常表现为以下几种情况:
①电脑无法登录到服务器。
②电脑在“网上邻居”中既看不到自己,也无法在网络中访问其他电脑。
③电脑在“网上邻居”中能看到自己和其他成员,但无法访问其他电脑。
④电脑无法通过局域网接入Internet。
2、故障原因分析
①协议未安装:
实现局域网通信,需安装NetBEUI协议。
②协议配置不正确:
TCP/IP协议涉及到的基本参数有四个,包括IP地址、子网掩码、DNS、网关,任何一个设置错误,都会导致故障发生。
3、排除步骤
当电脑出现以上协议故障现象时,应当按照以下步骤进行故障的定位:
①检查电脑是否安装TCP/IP和NetBEUI协议,如果没有,建议安装这两个协议,并把TCP/IP参数配置好,然后重新启动电脑。
②使用ping命令,测试与其他电脑的连接情况;
③在“控制面板”的“网络”属性中,单击“文件及打印共享”按钮,在弹出的“文件及打印共享”对话框中检查一下,看看是否选中了“允许其他用户访问我的文件”和“允许其他电脑使用我的打印机”复选框,或者其中的一个。
如果没有,全部选中或选中一个。
否则将无法使用共享文件夹;
④系统重新启动后,双击“网上邻居”,将显示网络中的其他电脑和共享资源。
如果仍看不到其他电脑,可以使用“查找”命令,能找到其他电脑,就一切OK了;
⑤在“网络”属性的“标识”中重新为该电脑命名,使其在网络中具有惟一性。
七、配置故障
配置错误也是导致故障发生的重要原因之一。
网络管理员对服务器、路由器等的不当设置自然会导致网络故障,电脑的使用者(特别是那些似懂非懂的初学者)对电脑设置的修改,也往往会产生一些令人意想不到的访问错误。
1、故障表现及分析
配置故障更多的时候是表现在不能实现网络所提供的各种服务上,如不能访问某一台电脑等。
因此,在修改配置前,必须做好原有配置的记录,并最好进行备份。
配置故障通常表现为以下几种:
脑只能与某些电脑而不是全部电脑进行通信;
电脑无法访问任何其他设备。
2、配置故障排错步骤:
首先检查发生故障电脑的相关配置。
如果发现错误,修改后,再测试相应的网络服务能否实现。
如果没有发现错误,或相应的网络服务不能实现,执行下述步骤。
测试系统内的其他电脑是否有类似的故障,如果有同样的故障,说明问题出在网络设备上,如Hub。
反之,检查被访问电脑对该访问电脑所提供的服务作认真的检查。
八、网吧
网吧网速变慢的故障分析。
在众多的网络故障中,最另人头疼的是网络是通的,但网速很慢。
遇到这种问题,往往会让人束手无策,以下是引起此故障常见的原因及排除方法。
①网线问题。
双绞线是由四对线严格而合理地紧密绕和在一起的,以减少背景噪音的影响。
而不按正确标准制作的网线,存在很大的隐患,有的开始一段时间使用正常,但过一段时间后性能下降网速变慢。
②回路问题。
一般当网络规模较小,涉及的节点数不多结构不复杂时,这种情况很少发生。
但在一些比较复杂的网络中,容易构成回路,数据包会不断发送和校验数据,从而影响整体网速,并且查找比较困难。
为避免这种情况的发生,要求布线时一定要养成良好的习惯。
③广播风暴。
作为发现未知设备的主要手段,广播在网络中有着非常重要
的作用。
然而,随着网络中计算机数量的增多,广播包的数量会急剧增加。
当广播包的数量达到30%时,网络传输效率会明显下降。
当网卡或网络设备损坏后,会不停的发送广播包,从而导致广播风暴,使网络通信陷于瘫痪。
④端口瓶颈。
实际上路由器的广域网端口和局域网端口,服务器网卡都可能成为网络瓶颈。
网络管理员可以在网络使用高峰时段,利用网管软件查看路由器、交换机、服务器端口的数据流量,来确定网络瓶颈的位置,并设法增加其带宽。
⑤蠕虫病毒。
蠕虫病毒对网络速率的影响越来越严重。
这种病毒导致被感染的用户只要一连上网就不停的往外发邮件,病毒选择用户电脑中的随机文档附加在用户通讯簿的随机地址上进行邮件发送。
垃圾邮件排着队往外发送,有的被成批的退回堆在服务器上。
造成个别骨干互联网出现明显拥塞,局域网近于瘫痪。
因此,网吧管理员要时常注意各种新病毒通告,了解各种病毒特征;及时升级所用的杀毒软件,安装系统补丁程序;同时卸载不必要的服务,关闭不必要的端口,以提高系统的安全性和可靠性。
实验步骤
一、使用Ping命令测试网络
当我们使用Ping命令来查找问题所在或检验网络运行情况时,如果所有都运行正确,我们就可以相信基本的连通性和配置参数没有问题;如果某些Ping命令出现运行故障,它也可以指明到何处去查找问题。
下面就给出一个典型的
检测次序及对应的可能故障:
·ping127.0.0.1
这个Ping命令被送到本地计算机的I