最全的网络故障案例分析及解决方案Word下载.docx
《最全的网络故障案例分析及解决方案Word下载.docx》由会员分享,可在线阅读,更多相关《最全的网络故障案例分析及解决方案Word下载.docx(65页珍藏版)》请在冰豆网上搜索。
电路板接触不良41
[故事之三]防火墙设置错误,合法用户进入受限44
[故事之四]路由器工作不稳定,自生垃圾太多,通道受阻47
[故事之五]PC机开关电源故障,导致网卡工作不正常,干扰系统运行49
[故事之六]私自运行Proxy发生冲突,服务器响应速度“变慢”,网虫太“勤快”52
[故事之七]供电质量差,路由器工作不稳定,造成路由漂移和备份路由器拥塞54
[故事之八]中心DNS服务器主板“失常”,占用带宽资源并攻击其它子网的服务器57
[故事之九]网卡故障,用户变“狂人”,网络运行速度变慢60
[故事之十]PC机网卡故障,攻击服务器,速度下降62
[故事之十一]多协议使用,设置不良,服务器超流量工作65
[故事之十二]交换机设置不良,加之雏菊链效应和接头问题,100M升级失败67
[故事之十三]交换机端口低效,不能全部识别数据包,访问速度慢70
[故事之十四]服务器、交换机、工作站工作状态不匹配,访问速度慢72
第三部:
网络免疫篇75
[故事之一]网络黑客程序激活,内部服务器攻击路由器,封闭网络75
[故事之二]局域网最常见十大错误及解决(转载)78
[故事之三]
浅谈局域网故障排除81
网络医院的故事
时间:
2003/04/2410:
03am 来源:
sliuy0
整理人:
蓝天(QQ:
12015152)
[引言]网络正以空前的速度走进我们每个人的生活。
网络的规模越来越大,结构越来越复杂,新的设备越来越多。
一个正常工作的网络给人们带来方便和快捷是不言而喻的,但一个带病工作的网络也常常给人带来无穷的烦恼甚至是巨大的损失。
网络世界中最忙乱、心里最感底气不足的人恐怕要数网络管理人员和运行维护人员了。
他们时时刻刻都在为他们的网络担心,病毒、黑客、速度变慢、网络崩溃....
[小康档案]:
三年前负责管理Coneill公司,一家快速成长的公司的网络,曾自认为是NT和Novell、Unix等平台以及Oracle方面的专家,擅长协议分析和网管软件的使用,每天忙于安装设置不断加入网络的设备和系统,应付不断增加的各种意外事件、报警和陷井,处理网络设备经常性的增加、删除、更改和系统设置、连接等方面的故障和问题。
至于如何提高网络的运行效率、如何合理调整网络流量并配置网络设备、如何防止网络问题的发生、如何采用宽带网络设备组网及应用等则基本上无暇顾及。
一年前,小康从网络健康学院毕业后到网络医院就职,负责网络的体检(测试)和故障诊断,专门为哪些网络发生严重问题的“病人”提供帮助。
现在他已经是一位经验丰富的网络健康维护的医生,巡诊故事多多。
网络经脉篇
[故事之一]三类线仿冒5类线,加上网卡出错,升级后比升级前速度反而慢
[症状]今天是我第一次巡诊,病人抱怨他的大多数站点上网连接速度比系统升级前还慢,有的站点时断时续,有的则根本不能上网。
原来用的是10M以太网,工作非常稳定,性能优良。
升级后全部更换为100M系统,出现上述症状。
用户总数未有增加,也没有启用大型软件或多媒体应用软件。
重装系统软件、应用软件,重新设置服务器和网站,查杀病毒,Reset所有联网设备均不奏效。
其中,有两台机器换到另一地点后能基本正常工作。
用笔记本连接到这两个不正常链路的集线器端口上网,也能正常工作。
更换这两根网线后现象依旧。
将机器还原到原位置,更换网卡(原卡商标为3COM卡)后恢复正常,不知何故。
由于以太网大多数用户不能工作,只好暂时退回到10M以太网系统。
[诊断过程]从10M系统的网管上观察,网络的平均流量为3%,低于40%,由于未运行大型软件和多媒体软件,应该不会感到任何速度上的“折扣”。
将FLUKE的F683网络测试仪接入Hub端口,测试网络流量为35%。
碰撞率为23%,远远高于5%的健康标准。
报告的错误类型有:
延迟碰撞、FCS帧错误、少量本地错误。
基本可以断定是布线系统的严重问题。
遂对线缆进行测试,结果显示除了测试点的两根电缆线外,其余所有布线链路的衰减和近端串扰均不合格,用3类标准测试这些电缆则显示全部合格。
查看线缆外包装上印有LucentCat5的字样,可以断定是仿冒产品。
测试
两台工作站的链路长度分别为78米和86米,测试其网卡端口,显示网卡发射能力(信号幅度)不足,并且仪器上没有内置的3COM厂商标记显示。
[诊断点评]用3类线外覆5类线产品标记在假冒伪劣产品中为数不少。
用户在10M以太网环境中不会出现应用上的问题,一旦升级到100M环境在只有少数短链路能勉强使用。
对于两台更换地点后能正常工作的网站,查明链路长度只有3米,且为标准的5类线(平时此站点用于临时测试)。
原地点测试长度为45米和37米,由于网卡发射能力弱,信号在100M系统衰减大,造成上网困难。
改在3米链路连接时,衰减的影响小,故可以正常上网。
网卡测试显示为仿冒卡。
[后记]一个月后,“病人”打电话告述我,重新布线后网络工作完全正常,即使跑一些多媒体软件也丝毫没有停顿的感觉。
不好的消息是,原来的系统集成商已不知去向,无法索赔了。
[故事之二]UPS电源滤波质量下降,接地通路故障,谐波大量涌入系统,导致网络变慢、数据出错
[症状]今天的病人是一家著名的证券公司。
上午9:
45,用户来电请求紧急救援,说大户室中的一群声称遭受巨额无端损失的愤怒的股民们正聚集在营业部计算中心的机房门前,质问为什么实时交易的动态信息显示屏幕出现大片空白,数据刷新和交易的速度都极慢,且经常中断,根本无法进行交易。
扬言如果不立即恢复交易,将砸掉证券交易所的计算机。
交易大厅的散户门也开始向机房云集,如果不及时处理,情绪激动的股民们很可能真的会将营业部计算中心的网络设备砸个希巴烂。
放下电话直立即直奔该营业部,途中继续用移动电话了解得知,该网络为10M以太网,用户数为230个。
从卫星接收广播的行情数据,并回传交易信息。
由于从卫星接收机监测口观察接收数据完全正常,故网管人员初步判定是网络系统的问题。
两个月前就开始有传输数据错误的现象出现,有时数据更新出现空白,数据更新速度偶尔变慢,有时出现断续。
虽用网管和协议分析仪检查过,但因这种“症状”并不连续出现,且对网络的速度和股民的交易基本没有影响,故一直心存侥幸,没有彻底查找真正的故障根源。
前天参加“第二轮证券系统Y2K统一认证测试”,顺利通过。
利用剩余时间对硬件设备进行了检测和维护,之后进行联网检查,网络表现正常。
不料今天开市就出现严重问题。
[诊断过程]用F683网络测试仪监测网络30秒,观察网络流量为81%(但网管报告为0.2%),错误帧97.6%。
错误类型为Ghosts(占93%)、FCS错误(又称CRC错误)和Jabber,即幻象干扰、帧校验错误和超长帧,这表明网络中有大量的非法数据包存在。
此类症状一般以电磁干扰和接地回路方面的问题居多。
为了确定干扰源的准确位置,将大部分与工作站相连的集线器组电源关断,服务器继续工作,观察错误率降为87%,仍然很高。
重新打开集线器组电源,用F43电源谐波测试仪观察,发现谐波含量严重超标(最高970mV)。
该网络用一台大型UPS电源给所有网络设备供电,测试UPS输入电源谐波,约为输出电源谐波含量的30%,明显低于输出端的指标,断定为内谐波含量超标。
启动小型备用UPS后,网络恢复正常工作(为减少负荷,网络设备分批轮换接入),但网络测试仪显示仍有错误存在,错误率(幻象干扰)下降为1.3%。
再次关断集线器组的电源,类型为Ghosts的幻象干扰错误率下降为0.8%,证实仍存在由接地回路串入的幻象干扰,且应该是从主通道进入。
摇动卫星接收机的数据输出电缆,幻象干扰时有时无,拔下电缆则干扰消失。
网管人员回忆前日维护机器时曾动过该电缆。
由此造成连接不良。
为使股民能继续交易,稳定情绪,在更换电缆后又将原UPS启动继续工作提供服务。
收市后再更换大型UPS,故障彻底排除。
[诊断点评]故障原因有二,一是UPS对电源的净化能力下降,网络外谐波容易从电源系统串入网络系统,为重大故障的发生提供了基础,但只是累积的内谐波超标还不足以引发致命问题。
二是接地回路问题,给大量的内谐波串入网络提供了通道。
内谐波是指从电源净化设备的输出端比如UPS的输出端测得的谐波功率,由各种用电设备产生(网络设备绝大多数都采用开关电源,本身就是一个较大的谐波源)。
本案中,大量的内谐波功率叠加后从卫星接收机数据输出电缆串入交易网络,一方面以幻象干扰的形式侵蚀网络带宽(此时网络测试仪监测到的错误类型即为Ghosts),当以太网的网络总流量高于80%时,会导致绝大多数的网络瘫痪;
另一方面,串入的内谐波将干扰正常数据传输(与正常的卫星广播数据叠加,表现为FCS帧错误和少量长帧),使卫星接收机接收到的数据出错,显示屏出现大片空白或不能实时更新数据。
本故障为累积故障,两个月前因UPS性能下降就开始出现少量干扰超标,不过这没有引起网管人员的足够重视。
前天维护设备后又增加了电缆接地回路的干扰问题。
但因当时未将卫星接收机连入网络,网管人员仅检查了网络部分的工作状况,所以此时的网络表现肯定是正常的。
直到今天临近股市开市,当接通卫星广播数据的输入通道时,问题才爆发出来。
此时内谐波干扰信号大举入侵网络,几乎造成网络瘫痪。
关断集线器组电源,内谐波总功率下降,干扰信号强度减弱,错误率自然有所下降。
更换UPS电源后,错误率大幅下降(理论上应降为零)。
但因接地回路问题使50Hz电源及其高次谐波感应信号仍能进入网络形成较小数量的错误帧。
需要注意的一点是,一般人在更换UPS后看到网络恢复正常工作即认为故障已经排除,因此很容易忽视仪器监测指示仍存在的少量错误(1.3%),这可能使“接地回路问题”这一重大故障隐患得以长期存在下去。
此故障的诊断网管系统基本上无能为力。
[建议]电源谐波功率含量和网络错误率要定期测试,当发现错误帧时一定不要掉以轻心。
另外,一路电源能带动的工作站建议不要超过30台,否则应象划分网段那样重新划定供电区域。
以免内谐波功率累积过大,超过设备的容许范围。
如果您的网络可靠性要求很高,或者您的网络对您来说非常重要,那么建议您将主要的网络设备如服务器、路由器等,在网络规划设计时就选择由单独的UPS供电。
[故事之三]光纤链路造侵蚀损坏
[症状]周末,要下班了,我正在计划如何安排假期,接某银行来电,报告该行某支行下辖的西区营业部网络瘫痪,营业部所管理的33台ATM取款机也全部不能提供取款服务,用户反响强烈。
已经两天了,解决都没有问题,要求网络医院立即派人帮助排除。
西区营业部和支行在同一个大院的两幢大楼内,之间用一对90米的光纤将营业部的网络与支行的网络连接起来,路由器、服务器等都设在支行计算中心(100BaseT以太网)。
营业部的网络结构为10BaseT以太网,五天前发现网络速度变慢,用户抱怨ATM取款机等待时间太长。
由于营业部没有配备任何网络测试和维护的工具,为了定位故障,请支行计算中心的网管人员协助检查。
从支行一端的网络监测显示,一切正常。
从计算中心打开营业部交换器的Mib,观察流量正常,为5%,发现只有很少量CRC/FCS错误,没有发现严重异常,用协议分析仪捕捉数据包观察,也未发现严重的问题,遂怀疑是病毒侵害营业部子网。
昨日夜间进行了查杀病毒,重装系统,恢复数据等工作,症状大大减轻。
但未能经受住昨夜暴风雨的考验(本周天气除昨天下午间晴外,连续降雨),最终于今晨“死网”。
为便于观察,支行网管人员在计算中心将连接营业部的交换机用集线器暂时取代,结果导致支行网络速度也变慢。
检查营业部内的交换数据无障碍,断定是传输通道的问题。
拔下光纤,支行速度恢复正常,插上光纤则上述现象重新出现。
进一部测试光纤链路,连接和衰减均符合要求。
故障排除工作陷于停顿。
[诊断过程]据网管人员介绍的上述情况,光纤和交换机已经过了网管人员初步检测,基本正常。
可以初步判定问题出在链路通道上。
将F683网络测试仪接入营业部交换机,观察网络基本正常。
进行通道测试,检测营业部到支行的ICMPPing测试结果,成功率约0.8%,路由追踪支行服务器,成功率约0.5%。
从支行集线器上观察,流量18%,属正常范围,但发现大量“幻象干扰”错误“Gosts”(16%),拔除光纤,则错误为0%,至此可以肯定错误与营业部网络及其通道有关。
将营业部与支行连接的交换机接口串入一个4端口的集线器,用F683网络测试仪观察网络,流量5%,发现大量幻象干扰(97%),拔除光纤,错误消失。
寻找光纤接线箱,发现支行一侧的接线箱外包装已被撞击变形、破损(据说是半年前安装空调时被吊车臂碰坏),雨水已将3号接头完全浸蚀(3号接头用于连接营业部)。
清洁接线箱内的所有光纤接头,用电吹风加热干燥光纤的插头插座,重新更换并密封接线箱,故障彻底消失。
[诊断评点]光纤链路经常被忽视。
本故障中,光纤接头因雨水侵蚀和污染,从营业部送来的信号被大量反射,此时若只测试光纤链路的物理性能是合格的。
但由于此段光纤只有90米,强反射信号经过较少的衰减后与正常信号叠加,破坏了数据的结构(包括数据帧帧头信号格式),网络测试仪即认为这是幻象干扰信号而不是正常的数据信号。
此时只有少数信号可能侥幸通过。
由于集线器和交换器不具备前期碰撞的识别能力,所以从网管上只能观察到数据帧后半部分被破坏后所表现出来的少量FCS/CRC类型的错误,此错误往往被人忽视。
昨天重装系统后因天气转晴,光纤接头性能有所好转,症状减轻。
昨夜暴雨又使网络陷入灾难境地。
加上今天测试光纤链路显示正常,致使故障排除陷于停顿,束手无策。
[建议]交换器对均衡网络负荷、隔离故障网段对网络的影响有很好的效果,但也因此经常成为网管系统监测中的“黑洞”。
用网络测试仪定期监测网络可以将故障消灭在萌芽状态之中。
定期测试分很多种,我们将在以后的连载中陆续介绍。
本故障如不及时处理,其它光纤接头连接的网络也会陆续出现严重问题。
[故事之四]水晶头损坏引起大型网络故障
[症状]某大公司IT经理黄先生是我的朋友,新年将近,喜事却不多。
今天来电要求帮忙查找“元凶”。
事情是这样的,公司规模发展很快,两周前对网络实施了一次比较大的扩容工程,新增加了200台工作站(为新员工配备),网络规模由2000个站点增加到2200个站点,全部在一个网段中。
该公司采用100BaseT以太网结构,用两个路由器实现与生产基地和开发基地的连接(新换2个155ATM骨干),以前我曾建议他们将网段划分小一些,以便管理和隔离故障,但因网络未出现什么大的故障,加上黄先生本人的丰富经验和自信以及维护经费未落实等原因,网络一直保持了这种大型网段的“危险结构”。
这次扩容同时将两条广域网骨干链路升级到155ATM,但网段结构仍然未作根本调整,计划留待下期工程时再作打算。
本周内网络已多次出现阻塞现象,每天至少两次,每次阻塞时间10~30分钟不等。
逐个仔细检查了新安装的200台工作站,没有发现任何问题。
由于故障不是持续存在,Boss催得又紧,故令黄先生颇有些“精疲力尽”的感觉。
[诊断过程]上午10:
00,打开路由器的MIB库,记录的参数基本正常,网络平均流量13%。
其中有约1.5%左右的碰撞,表明网络结构的绝大部分构件是好的。
给新增加的200台工作站Share一个软件,然后每40台一组同时下载并操作该软件,结果证明200台工作站工作基本正常。
将F683网络测试仪接入网络,同时将F693网络流量分析仪也接入网络进行监测。
下午14:
21分,网络阻塞现象出现,持续时间15分钟,F693流量分析仪监测的流量正常,平均流量从9%上升到13%,一分钟后下降为8%,但F683网络测试仪的流量报告为84%左右,其中碰撞帧占82%~87%,少量FCS损坏帧(约2%~4%左右)。
记录该时间前后的ProtocolMatrix协议对话图谱,发现在15分钟阻塞时间内
共有137个工作站曾发送或接收过数据,其中4个工作站一直在持续收发数据,有一个工作站发送的数据包流量一直占其它工作站流量总和的15倍左右。
幸好黄先生以前对站点的Mac地址做过文档备案,依据仪器显示的Mac地址我们立即确定了这4个工作站的使用者(流量最大者是财务科陈小姐的地址)。
随即询问他们最近有无更动过硬件和网线,有无增删或调整过软件,回答均是“没有”。
询问陈小姐刚才在使用何种软件与生产基地的小张联络(ProtocolMatrix协议矩阵指示为小张的工作
站)。
回答是“机器一直就连在网上,但刚才没有使用计算机”。
将网络测试仪连接到陈小姐的台式机网卡接口上,模拟发送流量,结果碰撞随流量的增加而大幅增加。
测试该链路的网卡和网线,显示插头为3类插头,链路近端串扰超差比较多。
重新更换5类插头后,网络恢复正常。
经过私下再三询问原因,陈小姐才道出了实情。
[诊断评点]本故障是由更换不适当的3类插头引起的。
新员工小张是陈小姐的多年不见的同学,也是个网虫。
此次与陈小姐在新公司相遇,自然倍感亲切。
一周前小张在帮陈小姐安装新声卡时不慎将插头损坏,随意用一个3类插头更换之。
临近新年,陈小姐在小张的指点下从网上陆续下载了不少大容量的贺年卡,均为动态电影格式,可以在网络上实时传送播放并加上双方对话,非常有趣。
该站点平时使用的财务软件无论是传输速度和数据量都很小(3k左右),对整个网络系统影响不大。
但在向小张放送解压后的动态电影贺年卡时数据流量约在3~4Mbps左右。
由于网线问题,事后推算传输的数据帧约有13%是有效的,其余均被反射和串绕所破坏须重新发送,表现为网络上大量的碰撞帧和少量的FCS帧。
[建议]大型网络不划分网段既不便于管理又很难隔离网络故障,此种结构是非常少见的,同时也是非常危险的。
该公司网络大部分采用的是集线器,只有很少几台交换机,这对故障隔离也是不利的。
另外,一定要对员工进行上机前教育,不能随意增删、更改软件和网络设置。
所幸的是黄先生本人经验非常丰富,平时已将文档备案工作做得很细致(国内多数网络在文档备案时不将网卡的Mac地址备案),否则是不可能在半小时内查出本故障,一般来讲,可能会耗费1~3天左右的时间才行。
[后记]黄先生经过此次“洗礼”,也悟出一点当好IT经理经理的绝招。
至少他已不再认为仅凭经验就可以“打遍天下无敌手”。
网络维护是一门艺术,更是一门科学或工程,没有适用的工具和科学的方法是达不到这最高的“艺术境界”的。
至于陈小姐,我们还是愿意善意地再为她,也为小张保守一段时间的“秘密”。
[故事之五]雏菊链效应引起得网络不能进行数据交换
[症状]下午某市工商局信息中心来电,其下辖的某县工商局今晨与市局的联网出现问题,速度与往常相比速度慢了许多。
其中与该县工商大厦七楼的计算机基本上不能进行数据交换。
而与其它楼层的计算机通信虽然速度较慢但还基本上能维持正常的数据交流。
由于该市在规划计算机网络广域联网方案时没有考虑将来自身维护的问题,只是简单地在工程合同中将维护工作交给工程承包商负责,自己没有配备专门的工具和培训专门的人员来维护网络。
该工程承包商当时负责此项工程的人员早已离开这家公司,故对今日的故障只能表示爱莫能助。
经人介绍找到了网络医院。
[诊断过程]我们当晚即乘火车抵达该市并连夜开始查找故障。
该市网络规模挺大,下辖7县6区87个工商所,市县局之间用64K的DDN链路连接,工商所与县区局之间用电话线连接。
从市局向故障的县局用F683网测试仪作通道测试,速度4K时就上不去了,响应时间804ms,ICMPPing显示县局路由器连接成功率在1/7左右。
将县局网下挂的所有网络设备断电并拔下所有与路由器相连的联线插头,只留下路由器和一台集线器、一台笔记本电脑与之相连,再作通道测试速度为54k,响应时间46ms,ICMPPing成功率100%。
由此证明故障不在DDN链路,而在县局网络本身。
驱车前往县局工商大楼,恢复大楼网络设备的供电,插上全部线缆插头,然后将Fluke公司的F683网络测试仪接入网络进行网段扫描,30秒后显示双路由器IP地址错误,伴随少量FCS类型帧错误。
显然,故障与地址设重的这台路由器有直接关系,但网管人员不知道这另一台路由器来自何方,查机器文档备案资料也无此路由器的资料。
经再三询问网络管理人员,才想起原来有一个废弃的备份路由器,半年前就早已经不工作了。
虽未从早期不用机架上拆下来,但一直未让其上电工作(电缆联线也未摘下)。
我们检查该路由器时却发现它正在上电工作!
!
,系何人所为暂且不查,立即将电源插头拔下另路由器断电,一分钟后市局来电网络速度恢复正常。
此时F683网络测试仪虽然显示双重地址消失,但仍然有少量FCS类型帧错误,这说明网络还存在问题,而且主要是布线及链路设备的问题。
联系七楼数据交换比其它楼层困难的故障现象,用F683向各楼层的计算机定点发送流量,结果发现与一楼、二楼和市局的定点数据发送FCS帧错误明显增高,其它楼层正常。
基本可以断定是由于雏菊链效应造成的典型故障。
据网络管理人员介绍,本网络平时就感觉七楼与市局和一楼、二楼的网络连接速度有时变慢,偶尔会有中断现象。
查工程图纸,上面只标有一到五楼的布线及网络设备的分布图。
六楼七楼的设备由于是半年前该局自己增加的,所以没有标示。
无赖我们只得沿集线器布线方向查找网络连接结构。
简单的计数就可以知道,七楼的设备与一楼、二楼的设备(路由器在二楼)集线器总数为5个,这很容易引起数据包的延迟碰撞(在10Base-T网络中则表现为
FCS类型错误帧)。
[诊断评点]雏菊链效应是指局域网(10M网)内任何两个站点之间的集线器数量超过4个后引起的数据传输时间超长而引发的网络错误现象。
本案中七楼、六楼为后来增加的网络,网络管理人员没有规划网络就想当然地将集线器按级连方式连接起来,结果出现雏菊链效应。
如果不是有人昨天将备份路由器偶然接入网络造成广域网故障,雏菊链效应还将作为一隐患长期潜伏下来。
一般来讲,路由地址竞争将引发严重的路由瓶颈问题,另外路由与服务器、交换器等地址竞争也同样会引起严重的带宽平衡问题。
路由与工作站地址竞争情况会好一点。
该市工商局的网络维护和管理可以说基本上处于空白状态,这也是国内许多网络维护管理的典型现状。
如果说前几年主要精力放在了网络的建设上,那么现在该是将网络的健康维护工作提到议事日程上来的时候了。
否则随着网络规模、速度和复杂性的增加将会后患无穷。
[诊断建议]改变六楼、七楼的集线器连接方式,或者重新做正规布线;
指定专人妥善管理备份路由器;
培训网络维护和管理人员,配备适当的维护工具,对网络的工作状态做一些必要的定期测试和登记。
另外,网络的文档