ZXJ10防瘫预案.docx
《ZXJ10防瘫预案.docx》由会员分享,可在线阅读,更多相关《ZXJ10防瘫预案.docx(38页珍藏版)》请在冰豆网上搜索。
ZXJ10防瘫预案
ZXJ10防瘫预案
第一章前言
1.1适用范围
本手册适用的人员为:
在中兴通讯ZXJ10设备工程现场的所有人员(包括中兴通讯各用服处、用服部、开发部、测试部和运营商设备维护人员)。
本手册适用的时间为:
节假日期间(包括春节、元旦、五一、十一以及其它已经要求封网的重要日期)、由于不可抗因素导致的故障。
1.2重要性
鉴于节假日的重要性,现场人员必须按照本手册的要求对设备进行操作,尤其强调不允许的操作决不能擅自操作。
现场人员应该每天定期检查设备的运行状况,及时发现存在的隐患,并报告给后方技术支持人员,作相应处理。
现场人员应该每天定期采集系统运行的数据,并对数据进行分析。
对异常数据必须立即汇报,根据后方技术支持人员的分析、操作意见作相应处理。
比如节假日的特殊性,系统的负荷增大,出现故障的几率增大。
一旦出现故障,现场人员必须按照故障处理流程向后方汇报,并按照后方技术支持人员的意见,积极稳妥进行相应操作,在最短时间内解决故障。
第二章准备工作
2.1进行一次详细的日常维护工作
参照下附“ZXJ10综合关口局交换设备日常维护手册”进行各项目检查,并做好记录。
日常维护说明
必须按照月维护和季维护规范来进行一次严格的检查,以便及时排除隐患。
2.2建立完善的机房维护制度
2.2.1机房工作制度
●保持机房内的整齐、清洁、有序,做到:
进门换鞋,地面清洁,设备无尘,终端排列正规,仪表准确,工具就位,资料齐全,一切有序。
●不准在机房内吸烟、吃东西、玩游戏,不准在机房内大声喧哗。
●不得在机房内乱摆放私人物品,不做与工作无关的事。
●不将易燃易爆等物品带入机房,无关人员不经批准不得进入机房。
●针对设备的操作必须佩带防静电手环。
●爱惜机房内的公共财物。
●不得泄露有关机密,做好保密工作。
●做好各种原始记录的登记、统计工作,保证技术资料和原始记录齐全、完整、符合实际。
●工作人员在机房值班时,必须严守岗位,发现重大障碍和事故应及时处理及上报。
●机房管理要有领导负责,人人执行,定期检查,不断改进。
2.2.2交接班制度
做好上下班之间的交接工作,是保障通信不间断的一项重要制度,要求每个工程维护人员必须严格遵守。
●值班人员在上下班时,必须认真交接,做到责任明确、手续清楚、上下衔接。
●交班人员在下班前要把本值班情况介绍清楚,接班人员在上班前要认真接班。
●交接班时要求做到:
设备运行状况、工具、仪器仪表等情况清楚,各种图纸资料记录等清楚。
●接班人未到,交班人应坚守岗位,直到接班人的到来并完成交接后方可离班。
●交接完毕后,双方应在值班记录上签字,作为书面记录,表示设备已移交接班人维护。
●如在交接班时出现设备故障,交班人及接班人应共同承担维护维修设备的义务,不可推搪责任。
2.2.3机房维护工具准备
1.工具
测试手机、螺丝刀(一字及十字大、中、小各一把)、拔片器、介刀、老虎钳、尖嘴钳、斜口钳、活动扳手一套、死扳手一套、镊子、35瓦电烙铁、焊锡丝、绝缘胶布等
2.仪器仪表
数字万用表、信令仪等
所有仪器、仪表在使用前要进行检修、校准,以保证仪器仪表的完好性。
2.3运行数据收集
至少采集前2周的数据供分析,以便及时发现设备隐患,及时解决或采取预防措施。
2.3.1BHCA、CPU占有率:
通过查询话务统计中的‘系统性能统计任务’结果,查询每天忙时(9:
00~10:
00)每个模块的BHCA和CPU占有率。
2.3.2全局各类话务负荷
通过查询话务统计中的‘全局各类继续’的统计任务结果,采集每天忙时(9:
00~10:
00)的各种呼叫的统计值。
2.3.3七号链路负荷
通过查询话务统计中的‘7号信令统计’结果,查询每天忙时(9:
00~10:
00)的统计结果,并采集“占用百分比”的最大值的局向的值。
2.3.4中继负荷
通过查询话务统计中的各局向的中继统计结果,查询每天忙时(9:
00~10:
00)各主要局向中继的的统计值(包括ERL、电路利用率等)。
2.4日志文件及告警数据的收集
注:
以下采集的文件请统一打包压缩为一个文件:
命名:
地点_月日_设备_日志文件
例如:
长沙_0821_ZXJ10_日志文件
2.4.1前台MP的TRACE目录中的log文件
注:
前台MP中TRACE目录中不一定有log文件,因为log文件已经发给129服务器的C:
\TRACE\MPFILE目录,但在前后台通信中断的情况下LOG文件还是放在前台MP中TRACE目录下,所以除了拷贝129服务器上的LOG文件还需拷贝前台MP中的LOG文件。
将所有的LOG文件压缩成一个文件,文件命名格式:
地点_月日_设备号_模块号__LOG
如:
长沙_0821_ZXJ10_2#_LOG
2.4.2129服务器的C:
\ZXJ10\SERRUN.LOG文件
采集后的文件命名格式:
地点_月日_设备_129SERRUNLog
如:
长沙_0610_ZXJ10_129SERRUNLog
2.4.3计费服务器130C:
\ZXJ10\SERRUN.LOG和BILRECV.LOG文件
采集后的文件命名格式:
地点_月日_设备_130SERRUNLog
地点_月日_设备_130BILRECV.LOG
如:
长沙_0610_ZXJ10_130SERRUNLog
长沙_0610_ZXJ10_130BILRECV.LOG
2.4.4服务器的维护日志
采集后文件命名格式:
地点_月日_设备_维护日志
如:
长沙_0610_ZXJ10_维护日志
2.4.5服务器SQL日志
129服务器SQL日志如下例命名:
长沙_0610_ZXJ10_129SQLLOG
130服务器SQL日志如下例命名:
长沙_0610_ZXJ10_130SQLLOG
采集方法如下:
通过『资源管理器』,将log文件夹内的的所有文件打包压缩命名。
2.4.6告警库采集
利用安装版本中INSTALL\RIGHT\DBBAK.EXE工具,将告警库备份为文本文件和SQL文件。
如下例命名压缩文件:
长沙_0610_ZXJ10_ALARM
2.5数据分析
2.5.1性能统计数据分析
性能统计采集的指标较多,主要关注:
网络接通率、应答率、BHCA、CPU占有率、话务量等指标。
如果指标明显偏离正常值(可以查看前一段时间正常情况下统计的结果),必须引起足够重视,并及时排查。
2.5.2告警数据分析
重要告警伴随故障已经发生,特别是实时告警,指明了现有故障。
对历史告警信息也要重视,往往从历史告警中能够发现系统存在的隐患。
2.5.3日志分析
查看各日志是否存在新的异常记录。
有利于分析定位故障。
如现场分析有困难,联系中兴维护工程师协助分析处理。
2.6分析报告
机房维护人员须递交系统运行状态报告,报告主要包括以下部分:
✧值班日记(每天一次)
✧基本业务测试报告(每天按此报告测试)
✧系统运行性能统计分析报告(每三天一次)
2.7话务分流及话务限制
2.7.1话务分流
ZXJ10应能合理分配各局向的话务负荷的能力,以便在端局、传输或其他运营商GW出现故障时能够紧急合理分流话务,最大限度减少损失。
2.7.2合理设置迂回路由
ZXJ10到各主要局向应设置迂回路由,以便在直达路由不通的情况下,将话务自动指向迂回路由,保证业务不受影响。
迂回路由的设置在中继管理中的出局路由链中设置。
特别要注意的是,互为备用的局,在收到对方来的呼叫时,该局码指向的路由不能设置另一作为备用的局向的路由作为迂回路由,否则将有可能造成这两个互为备用局之间死循环。
2.7.3话务均分方式
对于网间,各运营商一般有2个或多个GW,到各GW之间的话务应是负荷分担。
2.7.4话务不均分方式
在正常情况下均采用以上话务负荷均分方式。
但在某种特殊情况下,可能要采用负荷不均分的方式。
负荷不均分数据设置可以通过出局路由组、出局路由链、出局路由链组相结合的方式来实现。
号码分析结果与路由选择关系见下图所示。
从图中可以看出,出局路由组、出局路由链组中的路由之间和路由链之间均为轮选方式,因此理论上对于某个中继组(路由)的话务分担可以精确到1/12*20=1/240。
由于出局路由链之间虽然是轮选关系,但不会重选,因此要通过出局路由连中的出局路由组之间的优选关系来弥补。
2.7.5话务限制
当CPU占有率、BHCA值或资源占有率过高时,交换机的运行将不会正常。
为了保证ZXJ10在话务高峰期MP的正常工作,系统具有根据CPU、BHCA、资源的阀值来限制入局呼叫,以减少MP负荷。
这种限制方式是针对整个模块的入局呼叫限制,不限制模块间的呼叫。
并且CPU、BHCA、资源的阀值是可调整的,其数据设置如下:
在后台告警界面选择某个模块节点,此时界面右边第四个页面显示为“呼叫限制管理”,选择“呼叫限制管理”页面,就可以对该模块进行呼叫限制阀值进行管理,界面如图所示。
表格的纵坐标为CPU占有率(%),占有率取值范围为0~100,有三个阀值。
表格的横坐标为资源占有率(%),占有率取值范围为0~100,有三个阀值。
CPU占有率和资源占有率,分成四个区段,二者组合成零、一、二、三、四级呼叫限制(见图中的呼叫限制状态图)。
BHCA有四个阀值,分成五个区段,对应上述五种呼叫限制。
前台所处的呼叫限制由上述二者的最高限制决定。
表格中的值为呼叫限制的级别。
零级限制为对所有呼叫均不限制;一级限制为限制25%的呼叫;二级限制为限制50%的呼叫;三级限制为限制75%呼叫;四级限制为限制全部呼叫。
其中,重要用户除四级呼叫限制外,均不限制。
单击“读取阀值”按钮可从前台获得该模块CPU占有率和资源占有率的各级阀值设定。
单击“设定阀值”按钮发命令设定CPU占有率、资源占有率、BHCA的各级阀值。
2.7.6话务控制
除了上面描述的系统呼叫限制可以限制呼叫外,还可以通过话务控制功能来定向限制某中继组的入局呼叫,以便通过限制次重要局向的入局呼叫,保证重要局向的入局呼叫。
具体数据的制作参照话务控制使用说明文档,见下面的附件。
2.7.7制定性能预警数据
为了能及时发现设备的一些性能指标出现异常,可以通过话务统计中超越阀值输出来设定,对于一些重要局向的统计任务以及系统性能统计任务(BHCA、CPU)设置超越阀值输出任务,这样只要设备运行过程中这些指标小于设定的阀值,告警系统将会出通知消息告警,以便维护人员及时发现故障并及时处理。
相关设置方法图示如下:
第三章操作规范
为了保证系统的稳定运行,杜绝因人为因素引起的故障,在话务高峰或从早晨6:
00到23:
00之间不得进行可能危害设备运行的操作。
特别强调,节假日晚上12点前后,话务量会大幅度提高,在此期间不要对系统作任何操作。
3.1严格禁止的行为、操作
●任何情况下,不得将维护台作为办公平台使用;
●任何情况下,不得将通过服务器和维护台实现上网的功能;
●任何情况下,不得将笔记本电脑或其它非系统内的机器经常性或长时间接入局域网或和内部机器对接;
●因工作需要,在确保笔记本电脑(或其它机器)没有病毒、黑客探测程序等有害软件的情况下,可短暂接入局域网。
但拷贝文件时,不得在机器上设置完全共享目录;
●任何情况下,不得将不明软盘、硬盘或其它存储器用于本系统中;
●不明情况下,不得拔插任何网线。
●不得随意更改各主域控制器用户的登录密码,特别是Administrator和ZXJ10的登录密码。
若有需要,需与中兴通讯当地用服处或网络事业部用户服务部联系。
3.2在话务高峰期尽量避免的操作(设备故障时除外)
●按链路或按局向进行7号信令跟踪
●在不明原因的情况下对LINK进行去激活操作
●对任何板件的复位操作
●对主备用板件的倒换
●对前台进行传送全部表
●起用话务统计中的即时话务观察
●重起服务器(包括129服务器、计费服务器、鉴权服务器)
●动态数据管理中对电路状态观察时选择动态观察
●在不明情况下在动态数据管理中的电路状态观察中对电路进行电路闭塞,以及在NO7数据管理中对7号电路进行维护闭塞或硬件闭塞。
3.3在话务高峰期可以进行的操作
●按号码进行7号信令跟踪
●呼叫业务观察与检索
●告警数据查看
●话务统计任务结果查看
●维护日志查看
●传送变化表
●动态数据管理中除上面提到的以外的操作
●后台数据备份
3.4值班人员职责
值班人员必须按第二章第2.3节、2.5节、2.6节内容进行运行数据的收集,并对运行数据进行分析形成分析报告,如发现系统有故障,按下面的故障紧急处理流程进行处理,同时按第二章第2.4节内容进行日志和告警数据收集,以便进行故障的深入分析。
3.5典型故障处理
3.5.1全局呼叫困难,所有局向或大部分局向的接通率下降大于30%。
通过话务统计数据观察如发现大部分局向的网络接通率下降大于30%,应及时打开即时话务观察工具,观察失败类型,有无大量的本地资源不可用的失败码,如有表示本局资源(包括内存资源和模块间话路)不够用或有内存资源被虚占的情况。
此时应采取紧急措施:
1、从后台告警中检查当前所有告警是否存在某个模块的所有的485监控单元的告警,而其他单元或单板无告警。
这些单元包括:
SYCK、CKI、DSNI、FBI、CFBI、CKCD、POWERB、POWERC、POWERA、POWERP。
如有的话应立即将该模块上的MON板或PMON板插拔一下。
否则该模块的模块间话路将被闭塞,而对端模块显示正常,这样就导致其他模块照样能够呼叫该模块,而该模块收到这样的呼叫后由于找不到模块间话路,返回失败,导致呼损。
2、通过基本数据管理中的探针工具,观察模块间的话路(观察方法见日常维护手册),是否有模块间话路异常闭塞现象(通信时隙除外),如有通过动态数据管理中的T网时隙观察,将其解闭,如无法解闭,复位对应的FBI板。
3、观察后台告警是否有呼叫限制告警,并注意查看该告警的原因值。
a)如是BHCA呼叫限制,表示该模块已达到系统设置的处理能力,此时在告警中的呼叫限制管理中查看BHCA值设置的阀值是否过小,正常情况下应为200K,在综合关口局中要求设置为300K。
如发现BHCA一级限制阀值设置正确,表明该模块的呼叫量确实过高,应考虑进行入局话务分流,要求上级局减少对该模块的话务量。
如该告警在话务闲时仍然不能消除,说明MP存在问题,须马上进行MP倒换,在倒换之前复位备用MP。
如仍不能恢复,同时复位主备MP。
b)如呼叫限制告警的原因是CPU呼叫限制或资源呼叫限制,应马上进行倒换,在倒换之前先复位备用MP。
如倒换不起重用,应对主备MP进行同时复位。
4、从后台告警中观察不到任何当前告警,或当前告警中的告警只是一些次要的告警,如个别的2M告警或个别的LINK中断告警,同时通过即时话务观察工具按出中继号为0过滤,如发现有大量的出中继号为0的话务数据,且失败类型为本地资源不可用,应马上倒换所有模块的MP,在倒换之前应先复位备用的MP。
倒换顺序1#模块、2#模块、所有的外围模块。
3.5.2部分局向或个别局向网络接通率突然下降或阻塞
1、网络接通率下降但并未完全阻塞
a)话务统计结果观察故障时段的该局向的话务量,是否每线话务量大于0.7ERL。
如是说明该局向话务量相当与中继数来说已经超负荷,尤其是当每线话务量达到0。
9ERL以上时,网络接通率肯定会下降,此时应考虑进行话务分流。
分流分入局分流和出局分流两种,分流方法见2.7节中的内容。
b)如发现该局向话务量并不是很大,每线ERL数小于30%,说明该局向中继存在问题,此时要分别观察是入局接通率下降还是出局接通率下降。
入局接通率下降的情况,打开即时话务数据,过滤出中继号为0的话务数据,如有大量的出中继号为0的数据,且失败类型为本地资源不可用,马上倒换入中继所在模块的MP,在倒换之前复位备用MP。
如失败类型为中继忙,请检查出局中继是否太忙或有闭塞情况,如是闭塞,在7号动态数据管理中对其进行信令解闭、复原等操作,如还不能恢复,联系对方配合检查。
2、某个局向完全阻断
a)过后台告警查看是否有该局向的信令点不可达的告警,如有,检查是否有该局向的2M告警,如有是否是LINK所在2M。
如是检查传输,并和对端局联系配合检查。
b)无2M告警,对该局向的链路数据重新删除传变化表,然后重新配置该局向的链路数据,再传变化表。
是否能够恢复,如还不能恢复,进行链路自环,自环方法:
物理上LINK所在2M收发自环,并在动态数据管理中的7号数据管理中进行链路自环,然后传变化表,如该LINK能够处于服务状态,表明本端正常,联系对端配合检查,要注意的是自环完成后一定要去除自环状态。
如自环后仍不能处于服务状态,复位STB板,如还不行,更换STB板,如还不行倒换MP。
c)如链路正常,信令局向可达,通过告警查看是否有2M告警,如无通过动态数据管理检查中继电路状态,是否全部闭塞,如是进行信令解闭操作、电路复原操作、维护解闭操作、硬件解闭操作,是否能够恢复,如不能恢复联系对端配合检查。
d)如后台无任何该局向的2M告警及LINK告警,且中继也无闭塞现象,检查该局向的中继数据和MTP数据中的PCM系统数据是否正确,以及在号码分析中指向该局向的局码数据对应的出局路由链组是否设置正确。
如正确,对中继所在模块的MP进行传送全部表,如还不行,复位备用MP然后倒换MP。
3.5.3换网双故障
通过后台告警查看该模块是否中断,即在告警界面中该模块是否被打上红叉,如是表明该模块已瘫痪,按第四章中的中心模块瘫痪和中继模块瘫痪来处理。
如MP工作状态正常,查看SYCK或则CKCD是否工作正常,如工作不正常,比如无时钟输出,更换SYCK或CKCD,如SYCK、CKCD工作正常,更换相应的板件(按以下顺序):
交换网板、DSNI、COMMMPPP、POWERB(或POWERC)。
能否恢复,如不能恢复更换MP。
第四章故障紧急处理
4.1ZXJ10故障等级分类
现场人员必须每天定期检查系统的运行状态,及时发现存在的隐患。
当出现故障时,要根据故障级别的定义及系统检查的结果,准确快速判断故障级别,立即汇报。
故障级别定义
4.1.1一级故障(重大故障)
4.1.1.1呼叫处理和系统操作
整个系统瘫痪
整个系统再装入
整个系统连续再启动
全局30%的中继电路退出服务
一个局向的中继群退出服务
交换模块部分中断或限制主要服务
全局10%以上的用户退出服务
整个系统无法恢复成初始状态
整个系统无法进行人机操作
信令转接点故障
4.1.1.2计费和数据库
丧失计费功能
计费数据丢失或错误
计费或系统数据库受到破坏需要初始化操作
4.1.1.3使用产品造成的对人身安全的危害
火灾
人身伤害
4.1.2二级故障
4.1.2.1呼叫处理和系统操作
管理模块、系统模块丧失诊断功能
主处理机备机故障
双音板故障
SYZ板离线
丧失关键的报警功能
七号信令点不可达
4.1.2.2计费和数据库
计费或系统数据库受到破坏,但不需要通过初始化操作改正
操作界面问题严重影响用户使用
4.1.3三级故障
偶尔发生系统再启动
软件或硬件故障连续不断地影响某一类型的用户服务,包括:
用户板处理机故障、测试板处理机故障、单交换网故障、数字中继板故障、单音板故障、SYC故障、七号信令链路故障、主备机通信阻断、SYZ板严重故障。
处理机短暂的故障导致同步丢失(每天二次或更多)
交换机与集中操作维护中心(OMC)链路接口故障
4.1.4四级故障
软件或硬件故障仅断续的影响某一类或多类型的用户的服务,包括:
DTMF处理机板故障、MFC处理机板故障、SYZ板普通故障。
数据文件错误影响服务
处理机短暂的故障导致同步丢失
外围设备诊断故障
服务分析、记录文件、操作测试、维护程序、网络管理不准确
不影响服务的不准确软件
测试设备故障
电路板测试有时通不过但不影响服务
4.2故障处理流程
4.2.1参与故障处理人员角色及职责
现场人员:
在中兴通讯ZXJ10设备工程现场的所有人员,包括中兴通讯各用服处人员、用服部人员、网络规划部人员、开发部人员、测试部人员、节假日值守人员、运营商设备维护人员。
用户维护人员:
运营商设备维护人员。
用服经理及用服人员:
用服经理负责组织用服人员处理现场故障,用服人员负责现场故障的恢复,同时收集现场故障信息及日志记录文件等
工程经理:
紧急故障处理用服部接口人。
按片区划分,确保本片区紧急故障按时关闭;负责与办事处的沟通工作,包括故障关闭、降级等;负责故障现场的研发改进的工程实施;
项目经理:
紧急故障处理研发部门接口人。
负责组织相关研发人员协助处理现场故障;负责组织现场故障分析定位;负责组织产品质量原因的故障分析改进;
4.2.2紧急故障处理流程
图41紧急故障处理流程
当确认为重大故障,按重大故障处理流程处理。
4.2.3重大故障处理流程
图42重大故障处理流程
4.2.4重大故障定位说明
故障定位的原则:
由于定位故障需要作一些测试、检查,为了避免将故障进一步扩大,首先应检查最有可能导致系统重大故障且不对系统作重大操作的项目。
4.2.4.1故障现象:
全局业务中断
故障原因:
中心模块瘫痪
1.检查过程:
(1)测量一次电源输入是否正常;
(2)检查P电源、POWB、POWS输出是否正常;
(3)检查控制层各单板、网络层各单板、时钟SYCK是否正常;
(4)检查1#、2#模块MP运行是否正常。
2.处理过程:
(1)一次电源输入不正常请局方协助处理;
(2)P电源输出不正常需及时更换返修。
(3)更换控制层、网络层相应单板;对于SYCK不正常,根据“SYCK/CKCD/CKDR无输出”处理流程进行处理;
(4)MP运行不正常根据“中心模块MP故障”处理流程进行处理。
中心模块MP故障
1.检查过程:
(1)通过后台告警查看有没有MP掉电、MP启动告警、主备MP不同步、MP内存分配不足告警等相关告警;
(2)查看主用MP状态灯是否正常,如果是硬故障,故障时一般会亮红灯、运行灯常亮或闪动不正常;如果是软故障,故障时一般会不断重启,运行灯常亮;
(3)检查控制层其余单板是否对MP有影响,;
(4)查看129服务器中C:
\TRACE\MPFILE中及MP中TRACE目录下有没有新产生的error.log和r01smem.log,如果有的话,拷出分析;
2.处理过程:
(1)如果主用MP故障后没有倒换,关掉主用MP;如果备用MP还没有倒换成主用,复位备用MP;
(2)重启主用MP;
(3)如主用MP关电重起仍然不能正常工作,更换该MP;
(4)调整局容量,消除MP内存分配不足的告警;
(5)根据error.log和r01smem.log分析的结果做进一步的处理。
中心网双故障
1.检查过程:
(5)通过后台告警查看关于交换网及相关告警;
(1)查看网板状态灯是否正常,正常情况下:
RUN等慢闪,主用板的主用等常亮,备用板的备用等常亮;
(2)检查网络层其余单板是否对网板有影响,可以通过插拔其他板来判断;
(3)检查时钟是否正常,对于32/64K网板,还要检查CKCD工作是否正常;
(4)通过后台版本升级查看网板的加载程序对不对;
2.处理过程:
(1)复位倒换网板;
(2)倒换SYCK,倒换CKCD;
(3)重新设置正确的网板加载程序;
(4)更换网板