交换机运行维护与故障排查.docx
《交换机运行维护与故障排查.docx》由会员分享,可在线阅读,更多相关《交换机运行维护与故障排查.docx(68页珍藏版)》请在冰豆网上搜索。
交换机运行维护与故障排查
交换机运行维护与故障排查
RG-S5760系列交换机运行维护与故障排查
前言
本文针对RG-S5760系列交换机产品,介绍如何进行运行维护、自检、产品故障的定位与排除,供客支工程师在实际工作中参考。
内容简介
编号章节名内容简介
1运行维护及自检介绍产品日常维护与自检的方法、输出信息解释、产
品出现紧急故障时所采用的恢复方法。
2基本功能维护针对基本故障,介绍故障的处理逻辑、方法以及案例。
3硬件转发功能维护这部分主要是对交换机的硬件转发原理,以及部分底层命令信息收集的指导,以及在判断软件问题时常需要收集的信息。
4协议功能维护针对功能模块故障,介绍故障的处理逻辑、方法以及案例。
阅读在阅读本文档之前,希望您能够基本了解该产品所涉及的技术原理。
参考文档如下:
RG-S5760系列交换机用户手册
锐捷交换机软件版本升级操作指导
1运行维护及自检
1.1产品状态自检
1.1.1产品自检一览表
硬件诊断项目及命令
诊断项目及命令说明
设备指示灯观察所有的系统运行灯及模块灯的运行状况,status状态灯常亮,插入模块的模块指示灯常亮,具体信息请参考《安全智能万兆多层交换机交换机RG-S5760硬件说明书V1.0.pdf》。
Showdevice查看模块运行状况,由于S5760不支持扩展模块,从设备列表中是否正常连接其他设备。
风扇电源状态由于S5760暂不提供show命令,通过指示灯以及外观检查
系统状态诊断项目及命令
诊断项目及命令说明
showcpu查看CPU利用率,RGOS10.x以后提供对功能模块的CPU占用信息的详细描述。
Showcpu-protect【】查看设备CPP保护的阀值以及协议报文送CPU的队列优先级,对于硬件的丢弃送CPU的报文速率暂时无法显示。
Showmemory内存利用率,RGOS10.X平台提供对功能模块的Memory暂用信息详细描述,Memory占用见各功能模块介绍部分。
Showlogging查看日志信息,正常情况下无严重出错日志记录,查看有无端口频繁震荡等情况。
Showmac-address-table查看交换机MAC地址表,观察交换机学习MAC地址的情况,默认情况下MAC的老化时间为300s。
Showarp查看交换机的ARP地址表,观察交换机学习ARP地址的情况,重点关注ARP地址的老化时间。
Showclock查看系统的日期和时间信息。
如果发现系统时间有误,可及时调整。
Showrunning显示交换机当前生效的配置参数。
当用户完成一组配置之后,如果需要验证配置是否正确,则可以执行showrunning命令查看当前生效的参数。
对于某些正在生效的配置参数,如果与缺省工作参数相同,则不显示。
对于某些参数,虽然用户已经配置,但如果这些参数对应的功能没有生效,则不显示。
Showversion显示系统的版本信息。
用户可以通过该命令查看软件的版本信息、发布时间、交换机的基本硬件配置、设备运行时间等信息。
接口状态诊断项目及命令
断项目及命令说明
showinterface1、以太网端口是否协商出了半双工?
端口默认为自协商,如果此时协商出的结果为半双工,很可能两端配置不一致,是否存在一端强制一端协商的情况,将两端配置成一致。
如果厂商兼容问题需深入排查解决。
2、端口是否有大量的错误报文,包括收和发,是否迅速增加检查线路,中间连接的光电转换器;检查两端配置是否一致?
3、光电复用接口是否up
4、端口流量信息,观察是否有广播报文环路等状况。
Showvlan互联Trunk端口的两端设备允许通过的VLAN配置为一致,并且两端PVID配置为一致。
Showspanning-treeinterfacexxx确认和PC连接的端口设置为EdgePort或者BPDUfilter(BPDUguard)开启。
和非交换机设备连接的链路开启BPDUfilter(BPDUguard)。
Showinterfacestatus互联Trunk端口的两端设备允许通过的VLAN配置为一致,并且两端PVID配置为一致。
协议状态诊断项目及命令
协议状态诊断项目及命令说明
showipprotocols显示设备目前正在运行的路由协议进程及具体参数。
Showvrrp握手时间是否设置成3秒?
两端的vrrp握手时间是否一致?
两端master或slave状态是否正确?
是否出现都是两边master的状态?
是否和思科的PVST+互通?
对于兼容性问题请参考《MSTP+VRRP维护白皮书》
Showiprouter确认路由表数量,路由表是否有频繁震荡的情况,缺省路由是否正常
Showipospfneighbor查看设备OSPF邻居建立状态,进一步的信息可以在功能维护部分详细排查。
1.1.2设备启动自检信息
设备启动过程log信息:
设备的启动。
Ruijie#reload
Processedwithreload?
[no]y
*Oct2
Systembootstrap...
NorFlashID:
0x00010049,SIZE:
2097152Byte
PressCtrl+BtoenterBootMenu......
LoadCtrlProgram...
//BOOT只在交换机产品中存在,类似于PC机中的BIOS,位于产品的ROM芯片中,用于系统引导功能,系统上电后CPU的第一条指令就会跳转到这里执行,此后完成系统硬件初始化,然后引导CTRL运行。
Executingprogram,launchat:
0x01000000
CtrlVersion:
RGOS10.3(4),Release(43933)
1NANDchips(chipsize:
33554432)detected
PressCtrl+CtoenterCtrlMenu......
MainProgramFileNamergos.bin,LoadMainProgram...
//CTRL只在交换机产品中存在,由BOOT程序引导运行,主要加载交换机中的交换芯片驱动包,支撑产品的TFTP功能方便主程序的下载升级(在S86等机箱式产品中还用于主控板和线卡间的同步功能),然后加载系统MAIN程序运行的功能。
也位于产品的ROM芯片中。
Executingprogram,launchat:
0x00010000
RuijieGeneralOperatingSystemSoftware
ReleaseSoftware(tm),RGOS10.3(4),Release(43933),CompiledThuAug28
21:
09:
23CST2008byngcf49
Copyright(c)1998-2008byRuijieNetworks.
AllRightsReserved.
DecompilingorReverseEngineeringisNotAllowed.
*Oct2516:
51:
13:
%7:
1NANDchips(chipsize:
33554432)detected
//设备主程序加载完毕后,会检测设备是否配置堆叠,堆叠选举功能会占用较长时间,启动时间还和堆叠成员数相关,如果而没有堆叠建议将堆叠配置删除。
StackSystemiselecting....................
*OctA2516:
S5S3:
09:
%DEVICE-5-ECHANGED:
DERVICES5760
(1)isUP.
//堆叠选举完成,配置加载成功后,主设备显示启动完毕,进入运行模式。
堆叠的备份设备进入CTRL模式,无法配置
*Oct2516:
53:
24:
%SYS-5-WARMSTART:
Systemwarmstart.
Ruijie>
Ruijie>
如果设备在软件启动过程中遇到软件崩溃,需要捕获详细的debug信息,可以在ctrl模式下打开ctrl层的debug调试开关。
Executingprogram,launchat:
0x01000000
CtrlVersion:
RGOS10.3(4),Release(43933)
1NANDchips(chipsize:
33554432)detected
PressCtrl+CtoenterCtrlMenu
======CtrlMenu("Ctrl+Z"toupperlevel)======
************************************************
TOPmenuitems.
************************************************
0.Tftputilities.
1.XModemutilities.
2.RunMain.
3.RunanExecutablefile.
4.Filemanagementutilities.
5.Scatteredutilities.
************************************************
Pressakeytorunthecommand:
//输入CTRL+Q,进入命令行配置模式。
HotCommands:
------------------------------------------------------------
Ctrl>help
Totalcommands:
debugOpenorClosethetftpdebugswitch.
setmainSetMainfilename.
versionShowcurrentversioninformation.
reloadReloadtools.
setbaudSetCTRLBaudratetools.
formatFormatflashfilesystem.
renameRenameorMoveafile.
rmRemoveafile.
lsListinformationaboutthefiles.
loadLoadmainorabinaryfilefromfilesystem.
xmupUploadfile/FlashROMthroughXModem.
xmdownDownloadprogramsthroughXModem.
helpDumpcommandlistORshowacommand'sdetails
tftpDownloadprogramsthroughTFTP.
hotcmdListcurrenthotcommands.
quitQuitfromCLIcommandline.
Ctrl>Ctrl>helpdebug
Syntax:
debug(-on|-off)
UsageDetails:
on:
Openfsetdebugmessage.
off:
Closefsetdebugmessage.
Examples:
debug-on
debug-off
Ctrl>Ctrl>debug–on
Ctrl>Ctrl>quit
1.2系统灾难恢复
1.2.1系统密码恢复
RG-S5760交换机初始无密码,如密码忘记,通过以下步骤进行恢复:
在设备使用过程中,如果忘记密码,可以采取如下步骤恢复密码。
1.加电启动,同时按住“ctrl”和“c”键进入ctrl模式,通过Xmoden将配置文件config.text下载到PC。
*Oct252
Systembootstrap...
NorFlashID:
0x00010049,SIZE:
2097152Byte
PressCtrl+BtoenterBootMenu......
LoadCtrlProgram...
Executingprogram,launchat:
0x01000000
CtrlVersion:
RGOS10.3(4),Release(43933)
1NANDchips(chipsize:
33554432)detected
PressCtrl+CtoenterCtrlMenu
======CtrlMenu("Ctrl+Z"toupperlevel)======
************************************************
TOPmenuitems.
************************************************
0.Tftputilities.
1.XModemutilities.
2.RunMain.
3.RunanExecutablefile.
4.Filemanagementutilities.
5.Scatteredutilities.
************************************************
Pressakeytorunthecommand:
1
======CtrlMenu("Ctrl+Z"toupperlevel)======
************************************************
XModemutilities.
************************************************
0.UpgradeCTRL.
1.UpgradeMainprogram.
2.Downloadaspecialfiletofilesystem.
3.Downtomemoryandjumptorun.
4.UploadafiletoPC.
************************************************
Pressakeytorunthecommand:
4
Plzenterthefilename:
config.text
Now,beginuploadspecialfilethroughXModem...
Startingxmodemtransfer.PressCtrl+Ctocancel.
Transferringtest...
1152bytes192bytes/sec00:
00:
060Errors
OK,uploadfilesuccessfully!
2.将下载的配置文件删除密码字段部分,回到主菜单文件操作项,删除配置文件
config.text。
3.加载主程序,启动交换机配置文件,系统恢复为无配置状况,再将配置文件重新粘贴添加。
1.2.2版本升级及回退
相关内容请参考《锐捷交换机RGNOS10.2版本升级操作指导》。
1.3故障处理基本逻辑
1.3.1流程图
1.3.2流程介绍
流程简介
S5760系列交换机产品问题,通常可以遵循上述流程进行故障定位。
硬件问题分为设备本身、互联设备的问题和线路连接问题。
开机无法通过自检;
设备接口损害或者雷击烧毁;风扇噪音或停转;电源无输出或警示灯长亮;
此类故障排查可参考《安装手册》。
对于比较明显的硬件故障可以直接定位,对于确认的高端产品硬件故障按照硬件故障处
理流程处理,有些硬件故障无法直接定位在配置和软件排查过程中可能深入分析后才能确认。
配置/环境/已知问题
首先查询交换机现有版本的release及《锐捷交换机预警通告》,《锐捷交换机FAQ》,通过结合网络环境以及配置分析,确认是否为现有版本上已知的BUG或功能限制,并同TAC确认解决方式。
排除上述问题的可能性后,则对配置功能进行深入分析,针对某功能的特性、设备兼容等专项故障维护,参见后续故障排查章节。
软件问题
如配置正确,现场工程师经过多方排查(参见后续故障排查章节),仍无法解决问题,提供充分必要的数据分析信息,在服务事件管理系统提交CASE,请TAC工程师协助处理。
1.4网络联通性
1.4.1Ping
功能简介Ping功能用来检查IP网络连接及主机是否可达。
通常,如果不能Ping到某台主机,则不能对这台主机进行Telnet或者FTP操作。
Ping是通过向目的地发送ICMPECHO-REQUEST报文,如果到目的地网络连接正常,目的地主机接收到ICMPECHO-REQUEST报文后,向源主机响应ICMPECHO-REPLY报文。
可以用Ping命令测试网络连接是否出现故障或网络线路质量等,其输出信息包括:
目的地对每个ECHO-REQUEST报文的响应情况,如果在超时时间内没有收到响应报文,则输出“·····”,否则输出“!
!
!
!
!
”
最后的统计信息,包括发送报文个数,接收到响应报文个数,响应报文数百分比和响应时间的最小,最大和平均值
功能示例
Ping不可达的输出
S5760#ping192.168.197.5
Sending5,100-byteICMPEchoesto192.168.197.5,timeoutis2seconds:
.....
Successrateis0percent(0/5)
Ping可达的输出
S5760#ping192.168.197.1
Sending5,100-byteICMPEchoesto192.168.197.1,timeoutis2seconds:
!
!
!
!
!
Successrateis100percent(5/5),round-tripmin/avg/max=1/4/10ms
功能维护
如果出现无法Ping通的情况,可以通过以下方法来确认问题的所在:
查看目的地址的所属接口是否是UP的
查看链路中是否存在IP地址冲突
查看是否正确的学习到对端的MAC地址
查看从本机到目的地址是否存在路由
查看目的网络是否存在回程路由
如果上述步骤中都没有发现问题,则可以打开Debugippacket,Debugipicmp,Debugiperror调试开关来查看报文的收发流程。
Debug命名请参考《S5760命令参考手册》。
1.4.2Traceroute
功能简介Traceroute命令用来测试数据包从发送主机到目的地所经过的网关,主要用于检查网络连接是否可达,以及辅助分析网络在何处发生了故障。
Traceroute命令的执行过程:
首先发送一个TTL为1的数据包,因此第一跳发送回一个ICMPTTL-expired超时报文以指明此数据包不能被发送(因为TTL超时),之后此数据包被重新发送,TTL为2,同样第二跳返回TTL超时,这个过程不断进行,直到到达目的地。
执行这些过程的目的是记录每一个ICMPTTL超时报文的源地址,以提供一个IP数据包到达目的地所经历的路径。
功能示例
S5760#Traceroute61.154.22.36
Tracingtherouteto61.154.22.36
1192.168.12.10msec0msec0msec
2192.168.9.24msec4msec4msec
3192.168.9.18msec8msec4msec
4192.168.0.104msec28msec12msec
5202.101.143.1304msec16msec8msec
6202.101.143.15412msec8msec24msec
761.154.22.3612msec8msec22msec
从上面的结果可以清楚地看到,从源地址要访问IP地址为61.154.22.36的主机,网1络数据包都经过了哪些网关(1-6),同时给出了到达该网关所花费的时间。
功能维护
网络中某些网关不通的Traceroute例子:
S5760#Traceroute–d202.108.37.42
Tracingtherouteto202.108.37.42
1192.168.12.10msec0msec0msec
2192.168.9.20msec4msec4msec
3192.168.110.116msec12msec16msec
4***
561.154.8.12912msec28msec12msec
661.154.8.178msec12msec16msec
761.154.8.25012msec12msec12msec
8218.85.157.22212msec12msec12msec
9218.85.157.13016msec16msec16msec
10218.85.157.7716msec48msec16msec
11202.97.40.6576msec24msec24msec
12202.97.37.653