中兴交换机故障分析诊断Word文档下载推荐.docx
《中兴交换机故障分析诊断Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《中兴交换机故障分析诊断Word文档下载推荐.docx(12页珍藏版)》请在冰豆网上搜索。
2.操作系统、数据库打最新的补丁;
3.安装中兴通讯自主研发的网络安全软件,对关键程序、系统进程实时监控,防止病毒感染;
4.后台网络与大网隔离,防止外网病毒入侵;
5.不在ZXJ10后台维护网络上安装、使用其它无关软件;
6.不使用其它媒介(U盘、移动硬盘、软盘等)对服务器和终端进行操作;
7.定期作好数据备份,包括交换机数据和计费设置数据等,以便万一出现故障后能够进行迅速恢复;
8.加强机房操作维护人员管理,强化防病毒意识。
案例1:
现象:
XX局ZXJ10V10交换机的IP前置机计费操作失败,影响结算。
处理:
检查发现前台积累大量的话单文件,无法完全及时的传送到后台,并且后台话单文件无法进行入库操作,后台计算机反应速度非常慢。
经过检查是因为计费服务器感染病毒引起的,该病毒的名字是wom.lovegate,通过杀毒,故障恢复!
点评:
该故障就是因为没有做好防病毒工作导致的,由于本局没有立即计费、IP超市、鉴权等实时业务,因此影响还不是很大,只是影响了正常结算和话单及时接收,如果存在上述业务,则影响就很大了,因此平时必须做好病毒预防工作。
案例2:
XX局ZXJ10V10交换机的计费服务器出问题,影响8个点的话吧业务。
经检查,是由于计费服务器染病毒不能正常启动,立即计费终止,话吧用户不能正常使用,杀毒后正常。
这是一起有实时计费业务的案例,对业务的影响就比较大,话吧无法营业。
2.网络风暴
1.交换机前后台不能正常通信。
2.前台MP自动重起;
3.MP的CPU占用率高,呼叫困难;
4.计算机速度慢,终端不能从服务器获得数据,或获取数据的速度很慢。
1.前后台通讯;
2.前台MP;
3.后台服务器及操作终端。
1.后台网络与大网隔离,防止广播风暴;
2.作好防病毒工作。
3.操作系统、数据库打最新的补丁;
案例:
XX局ZXJ10交换机MP不能正常启动。
询问现场情况,两个MP均不能正常启动,和服务器通讯中断,将后台网络断开并重启MP后,正常。
事后经分析相关跟踪文件,发现是网络风暴引起的,该交换机的后台维护系统与其它网络相连,当有网络风暴产生时,会直接影响到MP与后台的通讯,并影响到MP本身的工作。
3.传输故障
1.模块间通信中断;
2.模块间通信瞬断;
3.远端用户单元通信阻断;
4.局间业务中断;
5.模块间、局间杂音等。
1.模块间业务;
2.局间业务。
1.加强传输设备的定期检查维护,对于隐患要及时排除;
2.对传输设备进行割接或维护后,要立即对经过该传输设备的所有业务进行测试,及时排除故障,消除隐患;
3.用户出现业务故障后,不仅要检查交换设备,还要迅速检查传输设备,以减少影响的时间;
4.在作传输设备割接等工作前,通知到相关的设备主管部门,以做好防和通信保障措施。
XX分公司XX端局ZXJ10下挂一个模块中断,影响约五百用户。
经过了解现场情况,该中断的模块用户可以互相拨打,DTI板状态正常,在DDF上给DTI环回也正常。
查传输通道有问题,处理后,模块间通信恢复
由于现场及时检查了传输,使得问题较快定位。
XX局ZXJ10反映拨打一个局向不通。
局可以正常拨打,该局向不能呼入呼出。
经查,系传输中断,处理后,恢复正常。
这是一起传输问题引起局间不通的案例,因此,首先保障传输安全,才能保障通信畅通。
4.对端设备问题
1.对端误操作,数据配置错误,导致业务不通;
2.对端设置了电路闭塞,导致中继不通;
3.对端做了电路自环,影响中继业务和信令;
4.对端做了升级、重组网、搬迁等中断业务的操作,影响本端业务。
视对端的操作情况而影响不一样,可能会影响本端部分用户,或某个局向的业务。
1.在修改数据时要考虑到对各邻接局向的影响;
2.在某个局进行设备割接、升级等工作前,能够通知到其它各邻接局,使各方能有所准备;
3.出现故障后,及时与对端局沟通,双方配合,缩短中断时间。
XX局某个局向业务中断
经了解该局出中继为PRA,对端局做数据时将对应PRA中继的30B+D用户置为欠费。
让对端局将该30B+D用户欠费标志取消后正常。
这是一起对端误操作的案例,在这起案例中,对端局在修改数据时没有考虑到对其它局的影响(也可能是误操作),从而导致不通,因此在做数据时要考虑到对邻接局向的影响,并且在修改数据后要及时拨打测试,一旦出现故障需尽快查明原因,并进行恢复处理。
5.雷击
雷击后,部分单板损坏、部分后背板损坏、部分线缆损坏,导致该模块部分单元或整个模块不通。
故障围:
本模块部分用户或全部用户。
1.保证设备接地良好,接地电阻符合邮电部机房环境规;
2.按中兴通讯提供的防雷改造方案,对设备进行防雷改造;
3.对于雷击多发地区,要准备备板备件,以便雷击后能迅速进行部件的更换;
4.设备所在的机房要符合邮电部相关机房防雷规。
XX局ZXJ10模块间通信阻断,有1000多用户只能部通信。
检查发现,因雷击导致COMMA板故障,影响模块间通讯,更换故障单板,问题解决。
该局没有做防雷改造,机房也没有很好的防雷措施,导致雷击时更易出现设备损坏,庆幸的是,现场及时提供了备板,使中断时间不是太长。
6.日常维护
6.1服务器C盘空间不足
1.程序运行错误,不能正常运行;
2.计算机启动后程序不能正常运行,或速度很慢。
不能进行正常的后台操作维护。
1.作好日常检查工作,检查服务器C盘(系统盘)的剩余空间,保证C盘剩余空间不能少于500M;
2.不要在计算机上,尤其是C盘上安装其它软件;
XX局服务器数据库出错,后台无法运行。
现场检查时发现,C盘的空间只有200M左右,空间已不能使程序正常的运行了,且交换机的运行程序目录也已被删除(可能是在处理中误删除了),只能重新对后台进行安装,安装过程中还出了一些报错,经过处理,最终安装成功,故障消除。
由于C盘空间太小,本来只需要删掉一些无关的程序即可,但用户在现场处理时又将C盘上ZXJ10维护系统目录误删除,导致故障围加大。
本故障的根源是在C盘上安装了太多的程序,导致C盘剩余空太小造成的,因此如果平时能注意C盘空间,在出问题后能正常处理,则不会出现该案例中的一系列问题。
6.2服务器数据库空间不足
数据库满,相关的业务中止。
后台服务器、相关业务。
1.合理分配数据库空间,对于计费库,要根据话单量进行数据库空间的分配,保证可以保存三个月以上的话单;
2.定期检查数据库空间,对于即将满的数据库要分析原因,如果是本身空间分配比较小,则要做扩库操作,如果是因为过期数据没有及时删除,则需要进行及时的清理。
3.不要在计算机上安装其它软件,占用硬盘空间。
XX局ZXJ10V10大面积话吧出现拨号完之后立马出现忙音现象。
检查发现计费服务器130的计费库已满,一年前的话单还存在。
将计费库由4000M扩到6000M,并将过期话单清除后故障解决。
由于硬盘空间和数据库空间有限,随着话单的不断增加,总有一天硬盘空间或数据库空间会不够,因此,在日常维护中,要定期检查硬盘和数据库空间,对于过期话单,要及时清理。
该局的计费库空间其实是足够的,主要是历史话单太多,没有及时清理,如果能够及时清理话单,本次话吧不能拨打的情况可以避免。
6.3数据未及时备份
后台数据库或者后台服务器崩溃后不能及时进行数据的恢复,延长了业务中断时间。
全局业务或计费系统。
1.定期人工备份交换机的后台数据和计费设置数据,数据备份到不同的介质;
2.定期人工备份IP超市系统数据;
3.设置交换机后台数据自动备份功能;
XX局,立即计费系统无法正常工作。
查询数据库,发现JYSYS被置为可疑状态。
经过长时间的努力,最终解决问题。
该局用户没有养成备份数据的习惯,另外计算机也可能染有病毒。
出现问题后,一个简单的有效的方法就是重装服务器,将备份数据恢复即可,但由于用户没有养成备份数据的习惯,现场的计费设置数据还是很久以前备份的,已经没有使用价值,如果重新设置则工作量太大,并且也记不清到底是怎样的设置了,因此现场只能是解决JFSYS置疑问题,从而花去了大量的时间,影响了立即计费等业务。
在本次故障处理中,也发现了计算机存在病毒,这也是导致计算机数据库故障的原因之一。
6.4数据未及时转储
当MP重启或设备突然掉电,造成数据不正确(恢复到转储前的数据),影响业务。
根据未转储的数据不同,而造成的影响也不一样。
1.通常是ZXJ10V4.X交换机有此问题,ZXJ10A型交换机数据配置后,数据存于存中,必须进行转储才能将数据保存到硬盘文件中,因此,进行数据修改后,需要及时进行数据转储。
2.对于ZXJ10V10交换机,动态数据会定时转储,但如果做了动态数据后需要重启MP,则也需要进行动态数据转储,防止动态数据失。
XX局MP数据丢失,所有无法入局,出局正常。
A及B两地专网交换机MP出现过倒换,而用户没有养成转储数据的习惯;
这就导致数据丢失,造成局码不对,通过创建本局局码及升位本局局码等手段将局码改成正确局码,大部分业务恢复。
该局是一个ZXJ10V4.X版本的交换机,由于没有及时转储,造成数据丢失,花了好多时间和精力进行补救,并且还影响了业务,很不值得。
因此平时一定要在做数据后进行转储,并且能定期将前台数据备份到后台不同介质中,防止MP损坏等意外发生后能够及时恢复业务。
6.5机房环境不符合要求
环境不符合信产部通信机房环境要求;
温度过高或过低、湿度过大或过小、灰尘大、振动大、接地不良等。
机房里的通讯设备及辅助设备。
1.严格按照信产部通信机房环境要求对机房定期进行检查整理,形成制度;
2.定期清洗板件、防尘网。
4K一体机出现5框POWA起不来,用户无法使用业务
因该机房灰尘较重,设备长时间运行后,板积灰很多,导致MTT板电路短路,进而影响该框电源板工作,使该单元通讯中断。
观察机架的电缆连接,未见异常和错误之处。
第四框右边POWER_A故障指示灯点亮,此板已故障。
拔出此故障板,插好其他单板,设备工作正常。
故障消除,通讯恢复正常。
机房防尘和除尘是一个基本的日常维护工作,如果机房里灰尘太多,会导致单板或线缆接触不良。
长时间积尘,还会导致电路老化,形成短路等现象,这个局“板积灰很多”,是没有做好机房环境整理的结果。
6.6线缆松动
部分单元通信中断,业务受影响。
部分单元,与这些单元相关的话路、信令等。
1.工程实施后注意检查电缆,避免松动;
2.在进行日常维护、设备卫生清理后注意检查电缆,避免松动;
3.定期检查,保证电缆整齐、规。
XX局交换机故障
到现场看设备的状态,发现,MPPP板亮红灯,说明MP与PP的通信出了问题,把MP到MPPP的通信线重新插了一下,告警消失。
本局可能是在日常维护中碰到了线缆,导致线缆松动,因此在日常维护中,要注意检查线缆是否插紧,是否绑扎好,在出了故障以后,除了检查数据、单板外,还要检查后背板上的线缆。
7.机房停电
1.机架停电,来电后设备加电,违反交换机各机框的上电顺序,导致板件损坏或数据加载错误,影响业务。
2.后台停电,服务器中断,非正常关机,来电后计算机起不来,或者某些程序运行不起来。
计费服务器等不能提供实时的服务,鉴权服务器不能提供实时的服务等。
1.本模块;
如果是中继模块则影响到出入局;
如果是中心模块则影响到模块间通信;
2.本服务器,立即计费、鉴权、IP超市等。
1.交换设备要有后备电源,并且保证使用正常,后备电源要有足够的容量,能够支持设备运行的时间足够长;
2.后台服务器要配有UPS,防止计算机突然掉电;
3.对于有实时业务的服务器,要和交换设备共用电源,配备逆变器供电;
3.定期数据备份,防止突然停电导致MP故障或后台服务器故障后数据丢失,以便及时恢复;
4.重要单板适量备份,以便由于突然停电造成单板损坏后能够迅速更换部件,恢复业务;
5.按照电池维护规程进行,定期充放电。
XX局交换机XX远端模块MMF后背板故障
用户反映近期停电频繁,XX远端模块的MMF层电源板处打火,收号器不能工作,用户不能呼出。
与用户到现场对后背板烧MMF进行更换,接上电源,该层板件正常,进行呼叫试验也正常。
程控交换设备是精密的电子设备,由于频繁的停电,造成设备经常非正常掉电上电,容易造成设备的损坏,因此对于这种经常停电的机房,尤其需要配备后备电源,并保证其能够正常工作。
XX局ZXJ10设备起不来,有一个模块局间用户无法通话,大概有2000用户无法打。
用户反映,昨晚下雨雷击后停电,现在发电后设备已有电,接线员说各单板状态RUN灯看着正常。
安排人员前往现场,发现有一块COMM板(MPPP)有告警,复位倒换后正常。
由于设备是非正常开机的,单板的运行可能会受到影响,产生不可预见的后果,导致业务不通。
案例3:
XX局交换机配套电池损坏
确认是电池寿限问题,只有100多门。
建议客户自行购买电池更换。
电池也需要维护,需要定期充放电,否则时间长了会失去作用。
8.误操作
8.1数据配置误操作
数据制作生效后,部分业务或全部业务异常。
部分用户或全局用户。
1.做数据前进行数据备份;
2.做数据要求仔细、传数据前需认真检查、对于每个操作要理解它的含义;
3.加强技术培训和学习;
4.数据要规配置。
XX局接入网从汇接局进来的不能接通。
XX局接入网局到中兴汇接局的中继建立在3号模块上,分布在3块DTI板上,3号模块上同时还有到长途的中继,打开话务统计查看,正常。
试着复位COMM板和倒换3号模块的MP,没有任何改善。
从回送的信令来看,可能是进行了中继鉴权或是呼转。
查看中继上的标志位,发现此中继果真将呼叫鉴权上打了勾,去掉后恢复正常。
查看操作维护日志,为28日上午10点多改了中继标志位。
用户在做数据时,可能不理解这些标志的含义,导致问题。
因此需要在理解的情况下进行数据的配置,不能盲目进行操作。
XX局部分模块打不通,部可以打通,通过现场故障复现,发现是部分局向中继出向闭塞,导致局用户呼出困难。
怀疑和七号数据有关,仔细检查,发现该局的其他局向都是准直联,但是在交换局配置中都配成了直联,重新修改上述数据,然后传2#模块全部表,传完后测试一切正常,故障隐患消除。
这是一起数据与实际情况不符合的案例,在进行数据配置时,要能够了解现场组网情况,以便数据与实际相符,避免不必要的故障。
8.2硬件操作不规
操作后部分业务或全部业中断。
根据用户误操作的对象,影响的围也不一样,可能是部分用户也可能是全局性的。
1.在操作前做好充分的准备,并作好应急措施;
2.加强对操作人员的培训,提高技术水平;
3.操作要规,特别是MP、网板、ASIG板等重要板件的操作,严格按照中兴通讯提供的现场操作规进行;
XX局XX端局的某远端用户单元中断。
确认原因为用户为解决该远端用户单元15A单体监控不到的问题,现场加载了某旧版本PMSP程序,导致PMSP不能运行,更换PMSP,故障解除;
用户在进行程序加载时,没有用合适的版本,而是用了以前版本的单板程序。
现场的单板版本,除特殊说明,都要用主版本所带的版本,否则会出现单板版本与MP版本不匹配的情况,出现异常。
XX局ZXJ10V10MP倒换后出入局全阻,中断不到30分钟
给2#模块传送全部表,倒换复位2#MP,故障仍存在。
复位2#模块主备MP,MP启动正常后,业务全部恢复正常。
主备MP倒换时间间隔太短,造成MP呼叫区数据吊死,从而导致中继数据吊死,出入局业务全阻。
ZXJ10V10要求,由于涉及到主备MP的数据同步,因此MP主备复位的间隔时间要在5分钟以上,而现场没有按照规进行操作,导致MP存数据紊乱,业务不正常。
9.未购买维保服务
故障发生后,不能及时、有效的得到中兴通讯技术服务条款中规定的服务;
本局业务。
在设备保修期即将结束时,请与中兴通讯当地办事处签订维保合同。
XX局的ZXJ10V4每隔10分钟左右会全部自动重启一次,影响话务。
该设备早已过保修期,用户没有与中兴通讯签订维保协议,中兴通讯只能提供支持。
在设备过了保修期后,用户应尽快与中兴通讯签订维护协议,以便在发生故障后能得到及时有效的支持。