电信北电PASSPORT应急预案与基础管理PASSPORT应急预案.docx
《电信北电PASSPORT应急预案与基础管理PASSPORT应急预案.docx》由会员分享,可在线阅读,更多相关《电信北电PASSPORT应急预案与基础管理PASSPORT应急预案.docx(53页珍藏版)》请在冰豆网上搜索。
电信北电PASSPORT应急预案与基础管理PASSPORT应急预案
北电PASSPORT设备应急预案
我省北电ATM网由25台PASSPORT7K/15K设备组成,全网在用电路约1700余条,省级大客户100余户,是我省主用的ATM网。
全网拓扑如下:
为保证北电PASSPORT设备大客户电路正常通信,且在故障发生时能够迅速进行业务抢通,故障定位,特制定如下应急预案:
南昌
一、南昌JXNC15K01、JXNC07K01设备板卡情况
JXNC15K01
0
1
2
3
4
5
6
7
CP
CP
4pOC3
MmAtm
4pOC3
SmIrAtm
16pOC3
SmIrAtm
16pOC3
SmIrAtm
1pOC12
SmLrAtm
NONE
8
9
10
11
12
13
14
15
NONE
NONE
4pOC3
SmIrAtm
4pOC3
SmIrAtm
NONE
NONE
NONE
NONE
JXNC07K01
0
1
2
3
4
5
6
7
CP
2pOC3
MmAtm2
NONE
32pE1
Msa
32pE1
Msa
NONE
8
9
10
11
12
13
14
15
NONE
NONE
NONE
2p
Eth100
BaseT
2p
Eth100
BaseT
2p
Eth100
BaseT
6p
Eth10
BaseT
CP
二、处理流程图
三、南昌JXNC15K01、JXNC07K01设备故障场景设计
1、JXNC15K01机框故障场景
当机框出现时钟系统或交换矩阵不同步状态告警信息时,需对相关部件进行检查判断。
A.时钟(NS)不同步情况
(1)检查NS的状态
>dns
NS
adminState=unlocked
operationalState=disabled
usageState=idle
clockSyncState=freeRun
activeReference=
standbyReference=
(2)检查NS的配置
>d-pns
NS
primaryReference=Lp/1Sdh/0
secondaryReference=
tertiaryReference=
useableReferences=notDegraded
ssmProtocol=disabled
请注意上面结果的黑体部分“useableReferences=notDegraded”。
这个参数意味着链路由于某种原因发生降质并表现为degraded状态时,NS将不在把该链路登记为一个可用的时钟参考源。
因此,NS就会把这种状态宣布为一个不可用状态,如上所示。
对于上述的情况,可以在配置时钟参考源的时候,更改useableReferences=enabled。
如出现clockSyncState=synchronizing信息,则按照如下步骤进行排查。
>d–psw
>ospcsShowCards
>dshca/*ins,productcode
>dlp/x/*clocking
>dns
>d–pns
●确认时钟线路没有发生环路
●对CP进行切换,指令switchoverlp/0,并确定其状态(此步骤将中断业务,慎用)
clockSyncState=Synchronized恢复,则说明是CP晶震故障
clockSyncState=synchoronizing未恢复,拨打北电技术服务支持热线800-810-5000
B.交换矩阵(Fabric)不同步情况
交换矩阵由于运行中板卡或是服务链路的某些原因,会引起其工作不正常,导致其中一条不可用。
(以fabric/x为例)
>lockshfabric/x
>startshfabric/xtest等到至测试完毕
>unlockshfabric/x
如果总线在测试过程中非正常退出,需要更换新的交换矩阵或是机框,来解决此问题。
C.机框不可用情况
当PASSPORT15K单节点机框发生故障时,为保障下挂的7K节点用户能正常通信,可以采用7K节点临时上联其他邻近地市的15K节点方法解决。
但这需要预先调配好5*6对155M和做好网络规划、数据备份等工作。
示意图如下:
参数配置参见北电附录:
2、JXNC15K01CP卡故障场景
当CP卡出现红色告警显示灯,则说明CP卡出现硬件故障,但由于有备用CP卡,不影响节点正常通信,只需紧急更换损坏的CP卡即可。
如果是文件系统不同步,则按下面操作步骤处理:
文件系统(FS)不同步
文件系统正常情况
dfs
Fs
adminState=unlocked
operationalState=enabled
usageState=active
volumeName=JXNC15K01
activeDisk=FsDisk/0
syncStatus=Synchronized
syncProgress=100%
capacity=4294770688bytes
freeSpace=2339176448bytes
usage=45%
如果是新插入的CP板卡,或是CP板卡都正常,并且磁盘都可用,但是同步状态为不同步,可以使用同步命令进行同步操作:
>synchronizeFs
>dfs
Fs
adminState=unlocked
operationalState=enabled
usageState=active
volumeName=JXNC15K01
activeDisk=FsDisk/0
syncStatus=Synchronizing
syncProgress=1%直至同步到100%,syncStatus值为Synchronized
capacity=4294770688bytes
freeSpace=2339176448bytes
usage=45%
如果出现不同步的情况,首先要对不能正常工作的CP进行处理:
对存在问题的CP板卡进行重新启动,如0槽的CP板卡进行重新启动
>resetshcard/0(该步骤需技术支持确认同意方可实施)
接下来,锁定0槽CP的磁盘,并检查测试状态
>lockfsdisk/0
>dispfsdisk/0test
FsDisk/0Test
adminState=locked
operationalState=disabled
usageState=idle
testCount=1
duration=60minutes
type=filesystemCheck
causeOfTermination=neverStarted
natureOfError=noErrorDetected
severity=noError
elapsedTime=0minutes
testExecutionCount=0
ok2005-01-0415:
56:
29.43
设置测试属性,开始测试
>setfsdisk/0testtypediskRead
>startfsdisk/0test
>unlockfsdisk/0
如果无法恢复正常,由此得出结论,CP板卡的磁盘损坏,需要及时更换磁盘。
3、JXNC15K014pOC3Mm卡故障场景
4POC3(多模)卡用于PASSPORT15K与7K的155M互联中继,与PASSPORT7K上的2POC3(多模)卡配套使用,设备编号位NTHR17DA。
当该卡发生硬件损坏时,可以通过两种方式进行抢通。
第一种方式,利用单多模转换器将PASSPORT7K的2POC3(多模)卡通过单多模转换后与4POC3(单模)卡进行互联,在网管上进行数据更改。
具体方式如下图所示:
事先准备:
A.平常准备好稳定的应急交流电源,可以方便地引到机架旁边,最好是从UPS或逆变器提供。
B.平常单多模转换器上的两端光纤做好联接。
C.从一个有空余端口的4POC3上预设一个端口、做好数据配置和标记。
操作步骤:
A.按右图示意,联上单多模转换器,激活4POC3端口参数,确认客户业务恢复;
B.同时从备件中心调4PMmOC3备件。
C.备件送达后,在与用户沟通确定时间后,将连接切换到新的4PMmOC3上,确认客户业务恢复;
D.坏件送修并跟踪。
E.向客户和上级部门提交故障情况报告。
第二种方式,利用传输设备进行故障抢通,具体方式如下所示:
操作步骤:
A.按上图示意,利用传输上多模转电口转换器经DX10G传输转成155M单模连接至PP15K
B.同时从备件中心调4PMmOC3备件。
C.备件送达后,在与用户沟通确定时间后,将连接切换到新的4PMmOC3上,确认客户业务恢复;
D.坏件送修并跟踪。
E.向客户和上级部门提交故障情况报告。
4、JXNC15K014pOC3Sm卡故障场景
4POC3(单模)卡主要用于155M中继互联和155M用户接入,设备编号为NTHR21DA。
板卡出现告警信息时,判断故障点。
如传输中继没有问题,可先在网管上对板卡进行测试,或用尾纤对该板的各个端口进行自环测试。
若自环仍有告警,则在厂家的远程指导下热插拔该板再次测试,测试仍有问题可先更换槽位测试,否则更换相应备用板先恢复通信。
在备用板卡暂不到位情况下,可以将该板卡上电路割接至其他4POC3(单模)卡或16POC3板卡上,也可以利用单多模转换器割接至4POC3(多模)卡。
中继故障处理与4pOC3Mm卡故障场景相同。
1)确认端口故障,还是板卡故障;
2)将故障板卡锁定,lockshelfcard/4,将4pOC3板卡从槽道中拔出。
3)检查板卡物理状态,板卡进风口是否被大面积堵塞了。
4)清除后,再次插入原端口,观察。
5)如果问题依旧存在,将4pOC3板卡从槽道中拔出。
6)选择一个新槽位,再将板卡插入到新槽位上,观察。
7)如果问题依旧存在,需要检查交换机运行温度。
可以通过检查交换矩阵运行温度来检
查交换机温度。
命令为:
dispshfa/*oper
8)如果温度大于32~35℃时,需要首先降低交换机运行温度。
按照相应清除步骤对交换机进行除尘降温。
9)如果问题依旧存在,需要更换板卡。
10)坏件送修并跟踪。
11)向客户和上级部门提交故障情况报告。
5、JXNC15K0116pOC3Sm卡故障场景
16POC3卡主要用于155M中继互联和155M用户接入,设备编号为NTHW21AA。
该板卡出现异常时,可通过与4POC3(单模)卡相同的故障判断顺序进行故障定位。
在备用板卡暂不到位情况下,可以将该板卡上电路割接至其他4POC3(单模)卡或利用单多模转换器割接至4POC3(多模)卡。
中继故障处理与4pOC3Mm卡故障场景相同。
1)确认端口故障,还是板卡故障;
2)将故障板卡锁定,lockshelfcard/5,将16pOC3板卡从槽道中拔出。
3)检查板卡物理状态,板卡进风口是否被大面积堵塞了。
4)清除后,再次插入原端口,观察。
5)如果问题依旧存在,将16pOC3板卡从槽道中拔出。
6)选择一个新槽位,再将板卡插入到新槽位上,观察。
7)如果问题依旧存在,需要检查交换机运行温度。
可以通过检查交换矩阵运行温度来检
查交换机温度。
命令为:
displayshelffabric/*oper
8)如果温度大于32~35℃时,需要首先降低交换机运行温度。
按照相应清除步骤对交换机进行除尘降温。
9)如果问题依旧存在,需要更换板卡。
10)坏件送修并跟踪。
11)向客户和上级部门提交故障情况报告。
6、JXNC15K01电源模块故障场景
北电PASSPORT设备电源模块采用2+1冗余备份保护模式供电。
在正常情况下2块电源模块供电保证机框的正常运行,当其中一块电源模块出现故障时,备份的电源模块会自动切换。
当2块电源模块出现故障时,机框内部分板卡得不到正常供电,停止运行。
操作步骤:
A.查看电源模块指示灯状态。
亮绿色表示正常,亮黄色表示有告警,亮红色表示有故障。
B.更换故障电源模块,确认网管上无告警信息。
C.坏件送修并跟踪。
D.向客户和上级部门提交故障情况报告。
7、JXNC07K01机框故障场景
A.总线(Bus)不同步情况
查看总线Bus情况
>dispshbus/*
jxnc07k01>dshbus/*
==|========================================================
#|JXNC07K01JXNC07K01
|ShelfBus/xShelfBus/y
==|============================(A)===========(B)===========
1|adminStateunlockedunlocked
2|operationalStateenabledenabled
3|usageStateactiveactive
如Bus总线异常,可按以下操作步骤进行处理
>lockshbus/x
>startshbus/xtest等到至测试完毕
>unlockshbus/x
如果总线在测试过程中非正常退出,需要对节点进行进一步处理。
准备该节点所需要的备用板卡。
并报北电技术支撑要求进行支撑。
A.机框不可用情况
当PASSPORT7K单节点机框发生故障时,为保障下挂用户能快速恢复通信,可以通过传输线路将用户接入至附近7K节点设备上。
示意图如下:
参数配置参见北电附录:
8、JXNC07K01CP卡故障场景
当CP卡出现红色告警显示灯,则说明CP卡出现硬件故障,但由于有备用CP卡,不影响节点正常通信,只需紧急更换损坏的CP卡即可。
如果是文件系统不同步,同JXNC15K01方式处理。
8、JXNC07K012POC3Mm卡故障场景
2POC3(多模)卡主要用于PASSPORT7K设备上2M电路汇聚,与PASSPORT15K设备互联,设备编号为NTNQ65AA。
由于PASSPORT7K设备上仅此一块互联板卡,当板卡出现损坏时,将造成PASSPORT7K设备与15K设备的通信,发生全阻故障。
因此,该板卡发生故障时,只能等待备件的更换。
9、JXNC07K0132PMSAE1卡故障场景
MSA卡是一种32端口的E1接入板卡,设备编号为NTNQ69BA。
它一般用于大客户分支网点的接入,接入带宽最高为2M。
当该板卡出现端口故障时,可以将物理接入线路移到另外一个物理端口,并通过网管进行数据变更即可恢复。
当判断整块物理板卡损坏时,可以通过更换物理备件恢复。
如备件板卡暂不到位,可以将损坏板卡的电路割接至其他MSA卡空余端口。
如没有其他MSA卡端口冗余,则只能通过其他网络方式(如36170网、SDH数字电路、迈普设备等)进行抢通。
10、JXNC07K01电源模块故障场景
JXNC07K01设备出现电源模块故障,可参考JXNC15K01电源模块故障场景处理。
两者工作机制一样。
A.查看电源模块指示灯状态。
亮绿色表示正常,亮黄色表示有告警,亮红色表示有故障。
B.更换故障电源模块,确认网管上无告警信息。
C.坏件送修并跟踪。
D.向客户和上级部门提交故障情况报告。
11、中继故障场景
通常ATM中继(Trunk)是ATM接口下一条VC电路。
在NortelMSSATM网络内,ATM接口设定为PNNI。
而与其它网络连接时,ATM接口设定为IISP。
其中VCI和VPI的值时可以随意设定,只要是在允许范围之内。
中继(Trunk)构造和关联的示意图,如下:
A.ATM中继(Trunk)状态是正常,有流量,但是用户电路无法迂回至此条中继上。
1、首先检查ATM中继(Trunk)的Atmif下是否有PNNI设置,并且在运行状态下正常。
检查命令如下:
>datmif/203pnnircc
AtmIf/23PnniRcc
adminState=unlocked
operationalState=enabled
usageState=active
type=lowestLevelHorizLink
negotiatedVersion=version1point0
helloState=twoWayInside
remoteNodeId=28A0458********
remoteNodeName=SHSHPP7K02
remotePortId=655361
remoteInterfaceName=Atmif/10
helloPacketsRx=24339
helloPacketsTx=24368
mismatchedHelloPacketsRx=1
badHelloPacketsRx=0
>datmif/23pnnisig
AtmIf/23PnniSig
adminState=unlocked
operationalState=enabled
usageState=active
lastTxCauseCode=0
lastTxDiagCode=00
lastRxCauseCode=0
lastRxDiagCode=00
currentConnections=0
peakConnections=0
successfulConnections=0
failedConnections=0
txPdus=0
rxPdus=0
currentPmpConnections=0
peakPmpConnections=0
successfulPmpConnections=0
failedPmpConnections=0
2、如果没有PNNI部件,添加该部件,并激活。
命令如下:
PROV>addAtmIf/xxPnni
PROV>checkpr
PROV>actpr
PROV>save–f(name)pr
PROV>confpr
PROV>commitpr
PROV>endpr
3、如果有PNNI部件,但是所显示状态不正常,需要再查看Atmif下VC状态:
>latmif/200vcc/*
AtmIf/200Vcc/0.18
4、以上结果说明端口上ATMPNNI路由配置正常并加载成功,且产生了VCC/0.18路由控
制信道Rcc(RoutingControlChannel)电路,但是没有产生VCC/0.5信令Sig(Signalling)
电路。
原因是与对端相连接的ATM端口没有配置加载PNNI路由部件。
5、登录到相应的远端交换机上,添加PNNI部件并激活,问题可以解决。
B.正在使用的ATM中继(Trunk)中断,且不可用。
1、检查trunk状态,查看trunk状态是否正常;
2、检查atmif状态,查看atmif状态是否正常;
3、检查板卡状态,查看板卡状态是否正常;
4、检查端口状态,查看端口状态是否正常;
5、对端口进行测试(以OC3为例):
>locklp/xsdh/y
>startlp/xsdh/ytest
>displp/xsdh/ytest
>dlp/2sdh/0test
>Lp/2Sdh/0Test
adminState=unlocked
operationalState=enabled
usageState=idle
purpose=?
type=manual
frmSize=1024bytes
frmPatternType=ccitt32kBitPattern
customizedPattern=55555555Hex
dataStartDelay=0seconds
displayInterval=5minutes
duration=1.00minutes
elapsedTime=1.00minutes
timeRemaining=0.00minutes
causeOfTermination=testTimeExpired
bitsTx=426614784
bytesTx=53326848
frmTx=52077
bitsRx=426614784
bytesRx=53326848
frmRx=52077
6、如果bitsTx和bitsRx的值一致,说明网络有物理环路。
检查出环路位置,并拆除此环路。
7、如果bitsTx和bitsRx的值不一致,可以在端口上做环路,确保光功率为接收范围为:
-8db~-28db,λ=1310。
再做测试。
bitsTx和bitsRx的值必须一致。
否则端口存在问题。
8、检查端口下vc4或pa部件状态,检场是否正常。
>displp/xsdh/yvc4/0或pa/0
9、在atmif下添加测试的vcc电路进行测试,如下:
PROV>addatmif/xvcc/y.yyytest
>startatmif/xvcc/y.yyytest
10、更换本节点中继光端口,例如:
从3槽0口移动至4槽1口上:
PROV>dispatmif/30interfacename
atmif/30interfacename=lp/3sdh/0vc4/0
PROV>setatmif/30interfacenamelp/4sdh/1vc4/0
11、登录到远端交换机上,对于相应的中继端口,依据上面1~9的步骤顺序依次检查;
12、更换到新的中继端口;
13、再对有问题的端口和板卡做进一步排查和处理。
C.传输系统故障
请传输部门进行故障查找,对重要电路进行路由迂回。
路由迂回指令如下:
12、ATM电路故障场景
ATM业务由于涉及比较多的业务层面,因此在进行故障排除时相对其他业务的难度较大。
我们在这里推荐根据ATM业务层面来对ATM业务进行逐层次的排查,更多细节请参考NPT:
ATMMonitoringandTroubleshooting
1、物理层的故障排除
物理层的业务排除是指对承载ATM业务的各种业务板卡或者端口,比如:
STM-1、STM-4、2M,进行故障排除。
要保障ATM业务层面上能够正常运行,我们必须首先确认物理层面的各种状态运行正常。
确认物理层运行正常
这里