中兴交换机故障分析诊断.docx

上传人:b****5 文档编号:6247010 上传时间:2023-01-04 格式:DOCX 页数:12 大小:22.82KB
下载 相关 举报
中兴交换机故障分析诊断.docx_第1页
第1页 / 共12页
中兴交换机故障分析诊断.docx_第2页
第2页 / 共12页
中兴交换机故障分析诊断.docx_第3页
第3页 / 共12页
中兴交换机故障分析诊断.docx_第4页
第4页 / 共12页
中兴交换机故障分析诊断.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

中兴交换机故障分析诊断.docx

《中兴交换机故障分析诊断.docx》由会员分享,可在线阅读,更多相关《中兴交换机故障分析诊断.docx(12页珍藏版)》请在冰豆网上搜索。

中兴交换机故障分析诊断.docx

中兴交换机故障分析诊断

ZXJ10交换机故障预防

 

中兴通讯网络事业部用服部

 

前言

随着消费者对通讯服务要求的日益提高,要求我们的通讯设备能够稳定运行,并且在出现业务中断后能迅速恢复。

目前很多故障是由于没有很好的预防导致的,如果能够进行有效预防,则可以大大降低故障发生的概率,并且即使在故障发生以后,也能尽快的恢复业务。

下面对常见的会引起重大故障的情况以及预防措施进行介绍,希望能给各个局予以参考。

1.病毒感染

故障现象:

1.服务器或操作终端反应速度慢,无法正常操作;

2.后台程序无法正常运行,报错,或自动退出;

3.计费服务器不能正常登录或计费进程不接收话单,导致立即计费、IP超市不能正常使用;

4.鉴权服务器不能提供实时的服务,造成鉴权、拦截等业务呼叫失败;

5.破坏数据库,尤其是计费库,使数据丢失;

6.话务台、网管前置机等后台终端不能正常使用。

7.计算机自动重启。

影响围:

1.影响计算机的正常操作,不能进行正常的日常维护;

2.影响实时的业务,如立即计费、鉴权等。

3.影响到话务台、网管前置机等终端。

预防措施:

1.安装中兴通讯指定的防病毒软件,并定期更新病毒库,定期进行全盘病毒扫描;

2.操作系统、数据库打最新的补丁;

3.安装中兴通讯自主研发的网络安全软件,对关键程序、系统进程实时监控,防止病毒感染;

4.后台网络与大网隔离,防止外网病毒入侵;

5.不在ZXJ10后台维护网络上安装、使用其它无关软件;

6.不使用其它媒介(U盘、移动硬盘、软盘等)对服务器和终端进行操作;

7.定期作好数据备份,包括交换机数据和计费设置数据等,以便万一出现故障后能够进行迅速恢复;

8.加强机房操作维护人员管理,强化防病毒意识。

案例1:

现象:

XX局ZXJ10V10交换机的IP前置机计费操作失败,影响结算。

处理:

检查发现前台积累大量的话单文件,无法完全及时的传送到后台,并且后台话单文件无法进行入库操作,后台计算机反应速度非常慢。

经过检查是因为计费服务器感染病毒引起的,该病毒的名字是wom.lovegate,通过杀毒,故障恢复!

点评:

该故障就是因为没有做好防病毒工作导致的,由于本局没有立即计费、IP超市、鉴权等实时业务,因此影响还不是很大,只是影响了正常结算和话单及时接收,如果存在上述业务,则影响就很大了,因此平时必须做好病毒预防工作。

案例2:

现象:

XX局ZXJ10V10交换机的计费服务器出问题,影响8个点的话吧业务。

处理:

经检查,是由于计费服务器染病毒不能正常启动,立即计费终止,话吧用户不能正常使用,杀毒后正常。

点评:

这是一起有实时计费业务的案例,对业务的影响就比较大,话吧无法营业。

2.网络风暴

故障现象:

1.交换机前后台不能正常通信。

2.前台MP自动重起;

3.MP的CPU占用率高,呼叫困难;

4.计算机速度慢,终端不能从服务器获得数据,或获取数据的速度很慢。

影响围:

1.前后台通讯;

2.前台MP;

3.后台服务器及操作终端。

预防措施:

1.后台网络与大网隔离,防止广播风暴;

2.作好防病毒工作。

3.操作系统、数据库打最新的补丁;

案例:

现象:

XX局ZXJ10交换机MP不能正常启动。

处理:

询问现场情况,两个MP均不能正常启动,和服务器通讯中断,将后台网络断开并重启MP后,正常。

点评:

事后经分析相关跟踪文件,发现是网络风暴引起的,该交换机的后台维护系统与其它网络相连,当有网络风暴产生时,会直接影响到MP与后台的通讯,并影响到MP本身的工作。

3.传输故障

故障现象:

1.模块间通信中断;

2.模块间通信瞬断;

3.远端用户单元通信阻断;

4.局间业务中断;

5.模块间、局间杂音等。

影响围:

1.模块间业务;

2.局间业务。

预防措施:

1.加强传输设备的定期检查维护,对于隐患要及时排除;

2.对传输设备进行割接或维护后,要立即对经过该传输设备的所有业务进行测试,及时排除故障,消除隐患;

3.用户出现业务故障后,不仅要检查交换设备,还要迅速检查传输设备,以减少影响的时间;

4.在作传输设备割接等工作前,通知到相关的设备主管部门,以做好防和通信保障措施。

案例1:

现象:

XX分公司XX端局ZXJ10下挂一个模块中断,影响约五百用户。

处理:

经过了解现场情况,该中断的模块用户可以互相拨打,DTI板状态正常,在DDF上给DTI环回也正常。

查传输通道有问题,处理后,模块间通信恢复

点评:

由于现场及时检查了传输,使得问题较快定位。

案例2:

现象:

XX局ZXJ10反映拨打一个局向不通。

处理:

局可以正常拨打,该局向不能呼入呼出。

经查,系传输中断,处理后,恢复正常。

点评:

这是一起传输问题引起局间不通的案例,因此,首先保障传输安全,才能保障通信畅通。

4.对端设备问题

故障现象:

1.对端误操作,数据配置错误,导致业务不通;

2.对端设置了电路闭塞,导致中继不通;

3.对端做了电路自环,影响中继业务和信令;

4.对端做了升级、重组网、搬迁等中断业务的操作,影响本端业务。

影响围:

视对端的操作情况而影响不一样,可能会影响本端部分用户,或某个局向的业务。

预防措施:

1.在修改数据时要考虑到对各邻接局向的影响;

2.在某个局进行设备割接、升级等工作前,能够通知到其它各邻接局,使各方能有所准备;

3.出现故障后,及时与对端局沟通,双方配合,缩短中断时间。

案例:

现象:

XX局某个局向业务中断

处理:

经了解该局出中继为PRA,对端局做数据时将对应PRA中继的30B+D用户置为欠费。

让对端局将该30B+D用户欠费标志取消后正常。

点评:

这是一起对端误操作的案例,在这起案例中,对端局在修改数据时没有考虑到对其它局的影响(也可能是误操作),从而导致不通,因此在做数据时要考虑到对邻接局向的影响,并且在修改数据后要及时拨打测试,一旦出现故障需尽快查明原因,并进行恢复处理。

5.雷击

故障现象:

雷击后,部分单板损坏、部分后背板损坏、部分线缆损坏,导致该模块部分单元或整个模块不通。

故障围:

本模块部分用户或全部用户。

预防措施:

1.保证设备接地良好,接地电阻符合邮电部机房环境规;

2.按中兴通讯提供的防雷改造方案,对设备进行防雷改造;

3.对于雷击多发地区,要准备备板备件,以便雷击后能迅速进行部件的更换;

4.设备所在的机房要符合邮电部相关机房防雷规。

案例:

现象:

XX局ZXJ10模块间通信阻断,有1000多用户只能部通信。

处理:

检查发现,因雷击导致COMMA板故障,影响模块间通讯,更换故障单板,问题解决。

点评:

该局没有做防雷改造,机房也没有很好的防雷措施,导致雷击时更易出现设备损坏,庆幸的是,现场及时提供了备板,使中断时间不是太长。

6.日常维护

6.1服务器C盘空间不足

故障现象:

1.程序运行错误,不能正常运行;

2.计算机启动后程序不能正常运行,或速度很慢。

影响围:

不能进行正常的后台操作维护。

预防措施:

1.作好日常检查工作,检查服务器C盘(系统盘)的剩余空间,保证C盘剩余空间不能少于500M;

2.不要在计算机上,尤其是C盘上安装其它软件;

案例:

现象:

XX局服务器数据库出错,后台无法运行。

处理:

现场检查时发现,C盘的空间只有200M左右,空间已不能使程序正常的运行了,且交换机的运行程序目录也已被删除(可能是在处理中误删除了),只能重新对后台进行安装,安装过程中还出了一些报错,经过处理,最终安装成功,故障消除。

点评:

由于C盘空间太小,本来只需要删掉一些无关的程序即可,但用户在现场处理时又将C盘上ZXJ10维护系统目录误删除,导致故障围加大。

本故障的根源是在C盘上安装了太多的程序,导致C盘剩余空太小造成的,因此如果平时能注意C盘空间,在出问题后能正常处理,则不会出现该案例中的一系列问题。

6.2服务器数据库空间不足

故障现象:

数据库满,相关的业务中止。

影响围:

后台服务器、相关业务。

预防措施:

1.合理分配数据库空间,对于计费库,要根据话单量进行数据库空间的分配,保证可以保存三个月以上的话单;

2.定期检查数据库空间,对于即将满的数据库要分析原因,如果是本身空间分配比较小,则要做扩库操作,如果是因为过期数据没有及时删除,则需要进行及时的清理。

3.不要在计算机上安装其它软件,占用硬盘空间。

案例:

现象:

XX局ZXJ10V10大面积话吧出现拨号完之后立马出现忙音现象。

处理:

检查发现计费服务器130的计费库已满,一年前的话单还存在。

将计费库由4000M扩到6000M,并将过期话单清除后故障解决。

点评:

由于硬盘空间和数据库空间有限,随着话单的不断增加,总有一天硬盘空间或数据库空间会不够,因此,在日常维护中,要定期检查硬盘和数据库空间,对于过期话单,要及时清理。

该局的计费库空间其实是足够的,主要是历史话单太多,没有及时清理,如果能够及时清理话单,本次话吧不能拨打的情况可以避免。

6.3数据未及时备份

故障现象:

后台数据库或者后台服务器崩溃后不能及时进行数据的恢复,延长了业务中断时间。

影响围:

全局业务或计费系统。

预防措施:

1.定期人工备份交换机的后台数据和计费设置数据,数据备份到不同的介质;

2.定期人工备份IP超市系统数据;

3.设置交换机后台数据自动备份功能;

案例:

现象:

XX局,立即计费系统无法正常工作。

处理:

查询数据库,发现JYSYS被置为可疑状态。

经过长时间的努力,最终解决问题。

该局用户没有养成备份数据的习惯,另外计算机也可能染有病毒。

点评:

出现问题后,一个简单的有效的方法就是重装服务器,将备份数据恢复即可,但由于用户没有养成备份数据的习惯,现场的计费设置数据还是很久以前备份的,已经没有使用价值,如果重新设置则工作量太大,并且也记不清到底是怎样的设置了,因此现场只能是解决JFSYS置疑问题,从而花去了大量的时间,影响了立即计费等业务。

在本次故障处理中,也发现了计算机存在病毒,这也是导致计算机数据库故障的原因之一。

6.4数据未及时转储

故障现象:

当MP重启或设备突然掉电,造成数据不正确(恢复到转储前的数据),影响业务。

影响围:

根据未转储的数据不同,而造成的影响也不一样。

预防措施:

1.通常是ZXJ10V4.X交换机有此问题,ZXJ10A型交换机数据配置后,数据存于存中,必须进行转储才能将数据保存到硬盘文件中,因此,进行数据修改后,需要及时进行数据转储。

2.对于ZXJ10V10交换机,动态数据会定时转储,但如果做了动态数据后需要重启MP,则也需要进行动态数据转储,防止动态数据失。

案例:

现象:

XX局MP数据丢失,所有无法入局,出局正常。

处理:

A及B两地专网交换机MP出现过倒换,而用户没有养成转储数据的习惯;这就导致数据丢失,造成局码不对,通过创建本局局码及升位本局局码等手段将局码改成正确局码,大部分业务恢复。

点评:

该局是一个ZXJ10V4.X版本的交换机,由于没有及时转储,造成数据丢失,花了好多时间和精力进行补救,并且还影响了业务,很不值得。

因此平时一定要在做数据后进行转储,并且能定期将前台数据备份到后台不同介质中,防止MP损坏等意外发生后能够及时恢复业务。

6.5机房环境不符合要求

故障现象:

环境不符合信产部通信机房环境要求;温度过高或过低、湿度过大或过小、灰尘大、振动大、接地不良等。

影响围:

机房里的通讯设备及辅助设备。

预防措施:

1.严格按照信产部通信机房环境要求对机房定期进行检查整理,形成制度;

2.定期清洗板件、防尘网。

案例:

现象:

4K一体机出现5框POWA起不来,用户无法使用业务

处理:

因该机房灰尘较重,设备长时间运行后,板积灰很多,导致MTT板电路短路,进而影响该框电源板工作,使该单元通讯中断。

观察机架的电缆连接,未见异常和错误之处。

第四框右边POWER_A故障指示灯点亮,此板已故障。

拔出此故障板,插好其他单板,设备工作正常。

故障消除,通讯恢复正常。

点评:

机房防尘和除尘是一个基本的日常维护工作,如果机房里灰尘太多,会导致单板或线缆接触不良。

长时间积尘,还会导致电路老化,形成短路等现象,这个局“板积灰很多”,是没有做好机房环境整理的结果。

6.6线缆松动

故障现象:

部分单元通信中断,业务受影响。

影响围:

部分单元,与这些单元相关的话路、信令等。

预防措施:

1.工程实施后注意检查电缆,避免松动;

2.在进行日常维护、设备卫生清理后注意检查电缆,避免松动;

3.定期检查,保证电缆整齐、规。

案例:

现象:

XX局交换机故障

处理:

到现场看设备的状态,发现,MPPP板亮红灯,说明MP与PP的通信出了问题,把MP到MPPP的通信线重新插了一下,告警消失。

点评:

本局可能是在日常维护中碰到了线缆,导致线缆松动,因此在日常维护中,要注意检查线缆是否插紧,是否绑扎好,在出了故障以后,除了检查数据、单板外,还要检查后背板上的线缆。

7.机房停电

故障现象:

1.机架停电,来电后设备加电,违反交换机各机框的上电顺序,导致板件损坏或数据加载错误,影响业务。

2.后台停电,服务器中断,非正常关机,来电后计算机起不来,或者某些程序运行不起来。

计费服务器等不能提供实时的服务,鉴权服务器不能提供实时的服务等。

影响围:

1.本模块;如果是中继模块则影响到出入局;如果是中心模块则影响到模块间通信;

2.本服务器,立即计费、鉴权、IP超市等。

预防措施:

1.交换设备要有后备电源,并且保证使用正常,后备电源要有足够的容量,能够支持设备运行的时间足够长;

2.后台服务器要配有UPS,防止计算机突然掉电;

3.对于有实时业务的服务器,要和交换设备共用电源,配备逆变器供电;

3.定期数据备份,防止突然停电导致MP故障或后台服务器故障后数据丢失,以便及时恢复;

4.重要单板适量备份,以便由于突然停电造成单板损坏后能够迅速更换部件,恢复业务;

5.按照电池维护规程进行,定期充放电。

案例1:

现象:

XX局交换机XX远端模块MMF后背板故障

处理:

用户反映近期停电频繁,XX远端模块的MMF层电源板处打火,收号器不能工作,用户不能呼出。

与用户到现场对后背板烧MMF进行更换,接上电源,该层板件正常,进行呼叫试验也正常。

点评:

程控交换设备是精密的电子设备,由于频繁的停电,造成设备经常非正常掉电上电,容易造成设备的损坏,因此对于这种经常停电的机房,尤其需要配备后备电源,并保证其能够正常工作。

案例2:

现象:

XX局ZXJ10设备起不来,有一个模块局间用户无法通话,大概有2000用户无法打。

处理:

用户反映,昨晚下雨雷击后停电,现在发电后设备已有电,接线员说各单板状态RUN灯看着正常。

安排人员前往现场,发现有一块COMM板(MPPP)有告警,复位倒换后正常。

点评:

由于设备是非正常开机的,单板的运行可能会受到影响,产生不可预见的后果,导致业务不通。

案例3:

现象:

XX局交换机配套电池损坏

处理:

确认是电池寿限问题,只有100多门。

建议客户自行购买电池更换。

点评:

电池也需要维护,需要定期充放电,否则时间长了会失去作用。

8.误操作

8.1数据配置误操作

故障现象:

数据制作生效后,部分业务或全部业务异常。

影响围:

部分用户或全局用户。

预防措施:

1.做数据前进行数据备份;

2.做数据要求仔细、传数据前需认真检查、对于每个操作要理解它的含义;

3.加强技术培训和学习;

4.数据要规配置。

案例1:

现象:

XX局接入网从汇接局进来的不能接通。

处理:

XX局接入网局到中兴汇接局的中继建立在3号模块上,分布在3块DTI板上,3号模块上同时还有到长途的中继,打开话务统计查看,正常。

试着复位COMM板和倒换3号模块的MP,没有任何改善。

从回送的信令来看,可能是进行了中继鉴权或是呼转。

查看中继上的标志位,发现此中继果真将呼叫鉴权上打了勾,去掉后恢复正常。

查看操作维护日志,为28日上午10点多改了中继标志位。

点评:

用户在做数据时,可能不理解这些标志的含义,导致问题。

因此需要在理解的情况下进行数据的配置,不能盲目进行操作。

案例2:

现象:

XX局部分模块打不通,部可以打通,通过现场故障复现,发现是部分局向中继出向闭塞,导致局用户呼出困难。

处理:

怀疑和七号数据有关,仔细检查,发现该局的其他局向都是准直联,但是在交换局配置中都配成了直联,重新修改上述数据,然后传2#模块全部表,传完后测试一切正常,故障隐患消除。

点评:

这是一起数据与实际情况不符合的案例,在进行数据配置时,要能够了解现场组网情况,以便数据与实际相符,避免不必要的故障。

8.2硬件操作不规

故障现象:

操作后部分业务或全部业中断。

影响围:

根据用户误操作的对象,影响的围也不一样,可能是部分用户也可能是全局性的。

预防措施:

1.在操作前做好充分的准备,并作好应急措施;

2.加强对操作人员的培训,提高技术水平;

3.操作要规,特别是MP、网板、ASIG板等重要板件的操作,严格按照中兴通讯提供的现场操作规进行;

案例1:

现象:

XX局XX端局的某远端用户单元中断。

处理:

确认原因为用户为解决该远端用户单元15A单体监控不到的问题,现场加载了某旧版本PMSP程序,导致PMSP不能运行,更换PMSP,故障解除;

点评:

用户在进行程序加载时,没有用合适的版本,而是用了以前版本的单板程序。

现场的单板版本,除特殊说明,都要用主版本所带的版本,否则会出现单板版本与MP版本不匹配的情况,出现异常。

案例2:

现象:

XX局ZXJ10V10MP倒换后出入局全阻,中断不到30分钟

处理:

给2#模块传送全部表,倒换复位2#MP,故障仍存在。

复位2#模块主备MP,MP启动正常后,业务全部恢复正常。

主备MP倒换时间间隔太短,造成MP呼叫区数据吊死,从而导致中继数据吊死,出入局业务全阻。

点评:

ZXJ10V10要求,由于涉及到主备MP的数据同步,因此MP主备复位的间隔时间要在5分钟以上,而现场没有按照规进行操作,导致MP存数据紊乱,业务不正常。

9.未购买维保服务

故障现象:

故障发生后,不能及时、有效的得到中兴通讯技术服务条款中规定的服务;

影响围:

本局业务。

预防措施:

在设备保修期即将结束时,请与中兴通讯当地办事处签订维保合同。

案例:

现象:

XX局的ZXJ10V4每隔10分钟左右会全部自动重启一次,影响话务。

处理:

该设备早已过保修期,用户没有与中兴通讯签订维保协议,中兴通讯只能提供支持。

点评:

在设备过了保修期后,用户应尽快与中兴通讯签订维护协议,以便在发生故障后能得到及时有效的支持。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 视频讲堂

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1