JUNIPER ERX宽带接入服务器日常维护.docx
《JUNIPER ERX宽带接入服务器日常维护.docx》由会员分享,可在线阅读,更多相关《JUNIPER ERX宽带接入服务器日常维护.docx(24页珍藏版)》请在冰豆网上搜索。
JUNIPERERX宽带接入服务器日常维护
1.概述
本文档主要介绍JUNIPERBRAS服务器ERX1400硬件/软件方面的日常维护,描述了BRAS在日常运行中可能出现的故障及解决方法。
本文档适合用JUNIPER产品-BAS的网络管理员,网络日常维护人员。
2.硬件介绍
ERX1440配置的ERX1440机框具有14个槽位,系统路由及交换模块占用中间两个槽位,其余12个槽位可以配置不同类型的接口模块。
每一组接口模块有两部分组成:
前卡为LINEMODULE线路模块,后卡为I/OMODULEI。
前卡负责数据包的查找及转发,后卡负责各种类型的物理端口连接。
ERX-1400的系统路由及交换模块(SRP)的交换能力为10Gbps全双工。
ERX-1400的路由及交换模块(SRP)在一台ERX上有两个,它们共享一块SRP的接口板(SRP后板)。
SRP模块主要完成系统的路由学习/系统的数据线速交换/设备状态管理及完成系统软件配置。
SRP后板主要由CONSOLE端口及带外网管以太口和系统外部时钟接口等组成。
SRP同时会将一份系统软件及路由表下载到线路模块上。
ERX1400的SRP以热备份方式工作即一块SRP工作在PRIMARY状态下,另一块SRP工作在SLAVE状态下,当主用SRP出现故障时,备用SRP自动取得所有的系统控制。
ERX-1400的电源采用直流供电,一共有两路-48V输入,每一路要求30A,
两路电源按负载均担方式工作。
ERX-1400的风扇系统在整个机框的顶部。
接口模块的工作状态:
每一组接口模块的前卡有三个指示灯---POWER/LINK/FAIL。
正常情况下只有POWER及LINK灯长亮(绿色)。
如果FAIL灯长亮(红色),表明该接口模块的前卡没有正常工作,需要进一步诊断。
3.常见故障及排除方法
·Linecard工作异常
现象:
FAIL灯长亮,ONLINE灯不亮
解决措施:
如果用命令SHOWHARDWARE确认该模块一直处于“booting”状态,可以用RELOADSLOTX将该模块重启。
·更换不同类型的Linecard
如果安装该Linecard的槽位以前安装过不同类型的模块,则新安装的模块不能被系统识别,需要用以下命令进行恢复:
SLOTERASE(注意:
该命令同时将相关的软件配置擦除)
SLOTACCEPT
·用户无法拨号
一般在排除接入部分的问题后,在BRAS上可能的原因有:
1.BRAS地址池耗尽,用命令SHOWIPLOCALPOOL确认。
2.用户账号被锁,用TESTAAAUSERNAMEUSERPASSWORD确认。
3.拨号软件工作异常。
·无法用TELNET远程登陆BRAS
可能的原因有:
默认的VTY端口被占满。
用CLEARLINE<1-5>使某个连接断开。
系统受到TCPSYN攻击。
可以用SHOWIPTRAFFIC确认是否系统受到大量TCPSYN,如果是可以通过访问列表(ACL)来控制非法的TCP连接。
定义ACL:
IPAccessListadmin:
permitip202.103.219.640.0.0.31any
permitip202.103.227.1920.0.0.63any
permitiphost192.168.0.254any
permitiphost202.103.224.74any
denyipanyany
应用ACL在vty上:
进入linevty04
access-classadminin
4.JUNIPERBRAS常用命令
1.SHOWHARDWARE检查系统硬件的工作状态
2.SHOWENVIRONMENT检查系统运行环境
ERX_zhenhai#shoen
Pleasewait。
。
。
chassis:
14slot(id0x3,rev。
0x0)
fabric:
10Gbps(rev。
8)
fans:
ok
nvs:
ok(488MBflashdisk,28%full)
power:
Aok,Bok
srpredundancy:
switch-on-errorenabled,auto-syncenabled,insync
slots:
ok
online:
14610
standby:
7
empty:
023589111213
lineredundancy:
none
temperature:
ok
timing:
primary
primary:
internalSCoscillator(ok)
secondary:
internalSCoscillator(ok)
tertiary:
internalSCoscillator(ok)
auto-upgradeenabled
systemoperational:
yes
3.SHOWSUBSCRIBERS[SUMMARY]检查在线的用户
4.SHOWSUBSCRIBERSUSERNAMEzh86294722检查特定用户(用户名/IPADDRESS/ATMPVC等。
5.SHOWUTILIZATION(SHOWPROCESS)
观察系统资源利用情况
6.SHOWATMVCATM10/0151022检查某个特定的PVC工作状态
7.SHOWATMVC检查所有PVC工作状态
8.SHOWIPROUTE|INCLUDEATM10/0检查从端口ATM10/0拨号上来的上的IP路由(可以统计该端口的在线用户)
9.SHOWPPPINTERFACE检查PPP端口的工作状态:
DOWN表示该端口上目前无拨号用户,UP为该端口上有一个拨号用户
10.shpppoeintatm10/2。
1830观察PPPOE的会话过程中的数据包统计
11.Showiplocalpool
12.COPYRUNNING-CONFIGZHENHAI。
CNF将运行配置拷贝道FLASH上名为ZHENHAI。
CNF的文件(注意:
*。
CNF为二进制文件)
COPYRUNNING-CONFIGTEST:
/BACKUP。
CNF
将运行配置COPY到主机名为TEST的FTP服务器上,文件名为BACKUP。
CNF
13.在BRAS上建立主机TEST(需进入CONFIG模式):
hostTEST1。
1。
1。
1ftpanonymous163
1。
1。
1。
1为远端FTPSERVER地址。
14.RELOAD系统重起。
15.LOGOUTSUBSCRIBERALL[USER]将所有[部分]拨号用户强行断开连接
16.在BRAS上增加ADSL用户端口(PPPOE拨号):
1.进入配置模式CONFIGT
2.创建ATM子接口INTERFACEATM10/0。
152000
3.建立PVCATMPVC152000152000AAL5SNAP
4.将ATM子接口的封装设为PPPOEENCAPPPPOE
5.创建ATM子接口的子接口INTERFACEATM10。
0。
152000。
1
6.将该子接口的封装设为PPPENCAPPPP
7.启动PPP的PAP认证pppauthenticationpap
8.配置该子接口默认属性profileanyzhenhai
ERX700/ERX1400配置及故障诊断
(1)
本文主要分为三部分:
系统部分描述的是软件升级以及硬件诊断及故障处理、配置部分总结了常用的ERX上不同业务的相关配置,同时对可能出现的配置故障行了分析,提供了相关的解决方法、安全部分是有关ERX安全防范配置。
所有描述的配置内容来源于ERX配置手册,如果有不一致的地方以ERX配置手册为准。
1系统部分
1.1ERX模块工作状态描述
ERX的模块主要有SRP和linemodule及i/omodule组成,工作状态描述的是SRP和linemodule的运行情况。
正常情况下除了备用的SRP状态是standby以外,所有模块的工作状态应为online。
通过showversion可以得到各个模块的工作状态:
ERX-1400-CN#showversion
JuniperEdgeRoutingSwitchERX-1400
Copyright(c)1999-2003JuniperNetworks,Inc.Allrightsreserved.
SystemRelease:
erx_5-0-3.rel
Version:
5.0.3release-0.0[BuildId1625](December30,200317:
41)
Systemrunningfor:
6days,16hours,16minutes,18seconds
(sinceWEDJUL07200418:
40:
26UTC)
running
slotstatetypeadminsparereleaseslotuptime
------------------------------------------------------------------------
0------------------
1inactiveGEenabled---erx_5-0-3.rel6d16h:
11m:
16s
2------------------
3onlineFE-8enabled---erx_5-0-3.rel6d16h:
11m:
17s
4hardwareerrorOC3/OC12/DS3-ATMenabled---erx_5-0-3.rel---
5------------------
6onlineSRP-10Geenabled---erx_5-0-3.rel6d16h:
14m:
48s
7standbySRP-10Geenabled---erx_5-0-3.rel---
8notpresentOC3-4Aenabled---erx_5-0-3.rel---
9------------------
10------------------
11notrespondingOC3/OC12/DS3-ATMenabled---erx_5-0-3.rel---
12------------------
13onlineGEenabled---erx_5-0-3.rel6d16h:
11m:
17s
以下是对各个工作状态的描述:
ØInactive,通常是由于该槽位的i/omodule未连接引起的。
ØHardwareerror,这表明该linemodule没有通过上电自检,一般是该模块有硬件问题,通过硬件诊断可以得到log申请case(步骤见下节)。
ØNotpresent,如果原先正常工作的linemodule被拔离该槽位会出现该状态。
通过配置模式下的sloterasex可以将该信息清除。
(操作前需确认板卡是否在槽位上)
ØNotresponding,通常是SRP无法与该linecard建立控制连接通道,可能是linecard有故障,可以通过
操作模式下的reloadslotx对该模块重启,如果故障依旧,需要通过硬件诊断确认。
需要注意的是sloterasex会同时清空相关槽位的所有配置,应用之前需要确认。
而reloadslotx只是将某个linecard进行重启操作,不会影响配置文件。
1.2如何对LINEMODULE实施硬件诊断
板卡在工作时出现异常,如果无法通过重启/更换槽位等方法恢复工作时,只有通过更换新的模块。
通过硬件诊断可以得到模块的故障信息。
在所有linecard和SRP上都有一个RJ45的接口,诊断时需要将console线连接到该接口上。
ERX的console线
由一根直通网线(蓝色)以及两个DB-9到RJ45的转换接头(crossover和straitthrough各一个)组成。
进行硬件诊断用的console线需要一根直通网线及一个crossover的DB-9到RJ45的转换接头。
首先将terminal调整到19.2kbps,打开termial的日志功能,将需要诊断的模块重机框中拔出,连接console线后将模块插回机框。
此时该linecard进行上电自检,当出现倒计数时键入空格键,terminal会提示:
2/1/0?
选择0,该linecard将刷新板卡上的flash(内含系统软件)。
正常情况下,linecard会启动到boot##提示,同时linecard上的online等点亮,表明该linecard通过诊断已经恢复工作。
该过程需要耗时3分钟左右。
如果linecard通过上述诊断最终出现fail灯常亮,表明该模块有硬件故障,取得日志文件后申请返修。
除了对板卡进行硬件诊断外,我们还可以通过showreboot-history可以迅速了解模块故障或重启的原因:
ERX-1400-CN#shreboot
***Entry1***
timeofreset:
THUJUL08200416:
47:
18UTC
runstate:
unknown
imagetype:
boot
location:
slot(4)
builddate:
0x3ff1aed1TUEDEC30200316:
58:
57UTC
resettype:
userreboot,task"scheduler",reason"notspecified"
***Entry2***
timeofreset:
THUJUL08200416:
45:
36UTC
runstate:
unknown
imagetype:
boot
location:
slot(4)
builddate:
0x3ff1aed1TUEDEC30200316:
58:
57UTC
resettype:
powercycle
观察某个linemodule的resettype,如果出现反复重启并且是“powercyclye”
那么可能是该linecard与机框接触不良,或者是由于该linecard上的DC-DC模块出现故障。
前者可以通过更换槽位,如果更换之后同样出现类似的log表明该模块的电源模块有问题,直接提起返修即可。
1.3软件升级问题及系统配置的恢复
ERX的系统软件是存放在内部flash上的一个单一的.rel文件。
该文件通过ftp方式从ftpserver上拷贝后生成。
在ftpserver上的升级文件由一个xxx.rel文件(例如erx-5-0-3.rel)和多个.exe文件组成,该.rel文件是一个索引文件,内部描述了所有模块软件(subsystem)的名称和大小,通常情况下我们不能对该文件修改。
默认情况下我们得到的升级文件包含支持各个类型linecard的模块文件,同时在ftp拷贝生成ERXflash上的.rel系统软件也包含了所有subsystem,该.rel就是一个full版本的系统软件。
Full版本占用的flash空间较大,系统启动加载需要的时间也较长。
我们可以通过生成partial版本的.rel系统文件来减少启动时间。
目前在ERX上使用较多的linecard有:
oc3/oc12-atm、ge/fe它们分别支持4端口oc-3-atm/1端口oc-12-atm和1端口ge/8端口fei/omodule。
所以在拷贝时我们可以不需要加载oc3、coc12、dpfe等subsystem模块软件。
在配置模式下配置exclude-subsystem可以实现:
exclude-subsystemct3
exclude-subsystemut3a
exclude-subsystemut3f
exclude-subsystemct1
exclude-subsystemoc3
exclude-subsystemdpfe
exclude-subsystemoc12p
exclude-subsystemoc3-4p
exclude-subsystemoc3-4a
exclude-subsystemcoc12
exclude-subsystemct3-12
exclude-subsystemoc12s
通常在进行ftp拷贝时会得到如下提示:
“copysourcenotvalid”,一种可能是由于ftpserver的帐号设置和erx上的host配置不匹配引起的,另外如果需要拷贝的subsystem文件在ftpserver上不存在也可能引起该现象。
如果ERX上有两个SRP,在reload之前必须进行同步操作:
ERX-1400-CN#synchronize
Pleasewait…………………….
ERX-1400-CN#
虽然此时ERX提示同步完成,我们必须通过showutilization进行确认。
当standby的SRP的利用率为0%时才表明同步操作真正完成,可以进行重启了
为了确保新软件的正常运行,一般建议通过reloadslotx将standby的SRP先进行重启(不影响业务,耗时3分钟左右),此后如果showversion显示新的软件已经被备用SRP运行,说明软机没有问题,此时可以重启主用的SRP。
升级失败的对策:
主要现象是SRP一直在启动状态,且业务中断。
如果有两块SRP可以尝试将有问题的SRP拔出机框,即强行切换到备用SRP的方式进行恢复。
如果只有一块SRP那么只能通过如下方式和顺序进行恢复:
Ø重启SRP(关电/插拔均可)
Øconsole出现倒计数时键入mb,强行进入boot模式
Ø用出厂配置尝试重启:
boot##bootconfigurefactory-defaults然后boot##reload。
Ø如果系统启动成功并且是新的软件版本说明配置文件有问题,此时可以通过配置恢复方式(见以下相关配置)进行配置恢复。
Ø如果出厂配置时系统仍启动失败表明新的系统软件有问题或者flash有故障。
Ø尝试恢复到以前的软件版本:
boot##bootsystemold.rel然后重启。
Ø如果启动失败则我们不得不需要对flash进行初始化操作:
boot##flash-diskinitilize格式化flash
boot##ipaddressx.x.x.xx.x.x.x配置以太口(SRPI/O上)ip
boot##hosttestx.x.x.xftp配置host
boot##copytest:
/erx-x.relerx-x.rel重传系统软件
Ø然后重启后恢复配置。
系统配置的恢复:
方法一、将f拷贝到flash上,在配置模式下bootconfigurefonce然后重启。
方法二、将backup.scr拷贝到flash上,在操作模式下,通过configurefilebackup.scr恢复系统配置。
方法一速度较快但需要重启系统,方法二不需重启系统但是需要确保所有模块已经处于online状态才可以进行恢复。
软件升级的步骤:
Ø备份配置:
hostftpserverx.x.x.xftpxxxxxx配置host
copyrunning-configuref
showconfig>backup.scr
copyfftpserver:
/f
copybackup.scrftpserver:
/backup.scr
Ø从ftpserver拷贝系统软件到erx的flash上
copyftpserver:
/erx-5-0-3.relerx-5-0-3.rel
Ø在配置模式下指定新软件
bootsystemerx-5-0-3.rel
Ø在操作模式下进行配置同步
synchronize
Ø重启备用SRP
reloadslotxx是备用SRP的所在的槽位
Ø重启主用SRP(此时业务中断,时间在5~15分钟)
reloadslotxx是主用SRP的所在的槽位
设备升级正常但是拨号业务无法恢复:
现象是大部分拨号用户无法进行拨号连接(提示用户名口令错),这可能是由于在重启erx时大量的拨号用户在线但是erx没有及时发出拆线记录(例如突然断电重启erx),这样在radius上这些用户都还处于连接状态,同时radius对用户帐号进行了限制,同一帐号只允许一个session。
用以下命令可以观察到radiusserver拒绝了大部分用户的连接请求:
baseradius
showradiusstatisticsdelta
SZ_ERX1400_LQF#showradiusstatisticsdelta
RADIUSAuthenticationStatistics
--------------------------------
Statistic202.102.13.66
--------------------------------
UDPPort1812
RoundTripTime1
AccessRequests15200
RolloverRequests0
Retransmissions0
AccessAccepts0
AccessRejects15200
AccessChallenges0
MalformedResponses0
BadAuthenticators0
RequestsPending0
RequestTimeouts0
UnknownResponses0
PacketsDropped0
解决的方法是通知radius管理员清除这些用户的拨号记录(可以按照radiusclient的地址进行清除)。
ERX700/ERX1400配置及故障诊断
(2)
2配置部分
2.1拨号配置(出现NOSERVICE时的处理)
atm拨号端口典型配置:
interfaceatm12/0
atmclockinternalchassis
atmvc-per-vp4096
atmoamflush
!
interfaceatm12/0.332point-to-point
atmpvc332332aal5snap000
encapsulationpppoe
pppoeacName