博科300光纤交换机故障诊断及管理方法.docx
《博科300光纤交换机故障诊断及管理方法.docx》由会员分享,可在线阅读,更多相关《博科300光纤交换机故障诊断及管理方法.docx(13页珍藏版)》请在冰豆网上搜索。
博科300光纤交换机故障诊断及管理方法
一、博科300,5100,6500系列光纤交换机基本故障处理
1、License
某些功能需要License才能正常工作。
多个交换机不能使用同一个License,请使用licenseshow命
令查看,确保License已正确安装。
交换机功能运行不正常
可能原因和建议措施
可能未安装License,请确定已安装的License。
1)连接到交换机,并以拥有管理员权限的用户名登录。
2)输入licenseshow命令,查看当前交换机上所安装License的列表。
2、时间不同步故障
建立NTP有助于同步交换机的消息日志和Fabric内其他交换机的端口日志,这将使查找定位问题更
为方便。
可能原因和建议措施:
在Fabric中,交换机上未建立NTP(NetworkTimeProtocol)。
建议在所有SAN和metaSAN的Fabric中的交换机都建立NTP
3、交换机消息日志
交换机消息日志(RAS日志)包含了交换机或Fabric中所发事件的消息,这是一个了解交换机或
Fabric运行状态的有效工具,每周检查RAS日志非常必要,可以在早期发现问题,避免小问题成为大问题。
以下是交换机消息日志中一些常见的问题:
系统消息日志不准确
可能原因和建议措施:
在极少数情况下,用TC(TrackChange)功能追踪到的事件会上报错误的系统消息日志。
例如,用户输入正确的用户名和密码,但无法登录,这是因为用户数量已满。
然而,查看系统消息日志,发现报告登录成功。
如果交换机用户达到了最大用户数,即使输入正确的用户名和密码,登录还是会失败。
但在这个例子中,TC向系统消息日志错误地上报了此事件,导致显示登录成功。
这种现象仅发生在已达到最大用户数的情况下,其他情况下系统消息日志反映的都是真实情况。
在交换机日志中出现MQ错误
可能原因和建议措施:
MQ错误是一个消息队列错误,通过寻找M和Q两个字母后是否伴随数字来辨别是否有MQ错误。
MQ
错误会导致设备从交换机的NS(NameServer)上断开,或者致使交换机无法接入Fabric中。
如下所示,在MC错误消息中,MC后面跟着一个数字:
2004/08/24-10:
04:
42,[MQ-1004],218,,ERROR,ras007,mqRead,queue=raslog-test-string0123456-raslog,queueID=1,type=2
MC错误非常罕见,并且很难解决,需要与博科技术支持工程师合作来解决这个问题。
当遇到一个MQ
错误,通过输入supportsave命令来获取交换机的调试信息,然后提交supportsave命令输出的数据给博
科技术支持工程师做进一步分析。
在交换机日志中出现I2C总线错误
可能原因:
I2C总线错误通常表明存在有岀现故障的硬件、设备安装不当或插片安装不当,具体的项目会列在错
误信息中。
一些CPT(Chip-Port)和EM(EnvironmentalMonitor)消息中包含有I2C相关的消息。
如果I2C消息并未表示岀特定的硬件失效,依然需要调试硬件,因为这是最可能的原因。
4、交换机开机以及滚动重启检测
企业级平台模式在初始化启动后又重新启动
可能原因和建议措施:
该问题发生在企业级平台上的主备CP刀片启动过程中。
如果备CP在获得HA同步并且其功能并未齐
全之前,主CP上出现故障,那么备CP将无法采取积极措施成功执行主备自动切换功能。
滚动重启检测
当交换机或企业级平台连续岀现意外重启时,就会发生滚动重启。
系统未检测到滚动重启之前,将
持续重启。
滚动重启检测(RollingRebootDetection,RRD发生时,交换机处于稳定状态。
这样就可以收集最小的supportSave输出并发送给服务支持供应商进行数据分析。
在RRD模式中,同样支持USB设备。
运行usbstorage-e命令,开启USB设备。
运行supportsave-U-dMySupportSave命令,收集结果。
不是每次重启都会激活RRD特性。
重启分类
在交换机和企业级平台上会产生两种类型的重启:
预期型和突发型。
命令初始化而导致的重启就是
预期型重启,这类重启往往会被RRD特性忽略。
这类命令包括:
reboot
haFailover
fastBoot
firmwareDownload
在某一时间段内,如果重启历史记录中一直显示突发性重启原因,那么RRD特性将会被激活,并阻
断重启。
RRD特性激活的时间取决于交换机。
以下就是突发型重启:
――复位
—交换机或CP的动力循环
—Linux重启命令
—硬件看门狗超时
—与心跳丢失有关的重启
――软件故障:
内核崩溃
—一旦系统检测到内部致命性且其无法进行安全恢复的错误,一般而言,系统会输岀一条错误信息给控制台,转储堆栈跟踪进行调试,然后再执行自动重启。
—在发生内核崩溃以后,系统没有足够的时间写入重启原因,从而导致重启原因为空。
这被视为复位案例。
——软件故障
—软件看门狗
—ASSERT
—软件恢复失败
此类问题与HA重启有关。
当交换机无法恢复至稳定状态时,此问题就会出现。
HASM日志包含此类故
障的更加详细和具体的信息,例如:
――故障恢复失败:
出现在自动切换故障并且CP必须重启时。
――备CP对切换未准备就绪时进行的故障切换:
出现在主CP需要故障切换,但备CP对接管主控权
未准备就绪时。
――未完成LS转移时进行的故障切换:
岀现在逻辑交换机事务还未处理完成时。
软件重启失败
此类问题与HA重启相关。
当交换机无法加载固件至可用状态时,此问题就会出现。
HASM日志包含此
类故障的更加详细和具体的信息,例如:
――系统应用超时:
CP未能在分配的时间内完成切换。
――LS配置超时和失败:
逻辑交换机配置失败和超时。
在激活RRD后,以拥有管理员权限的用户登录。
运行supportShow或supportSave命令,收集一定
量的数据解决问题。
二、博科300光纤交换机基本故障处理
1链路问题
可以通过观察交换机的端口指示灯状态对链路问题进行排查。
端口指示灯闪烁
可能原因和建议措施:
指示灯的颜色和闪烁频率代表着不同的状态。
要确定端口指示灯或电源状态指示灯上所指示的故障及建议的解决方案,请参见表1。
表1交换机指示灯状态说明
LED指示灯名称
LED指示灯状态
硬件状态
建议操作
电源LED指示灯(仅博
熄灭
主电源线没有连接、没有上电或
请确保供电正常,并且电源线与正在供电
科300)
电源故障。
的电源正确连接。
绿色、常亮
电源正常。
无需处理。
电源状态LED指示灯
熄灭
系统关闭或内部电源故障。
1.请查看系统是否上电。
2.请联系博科技术支持工程师。
绿色、常亮
电源正常。
无需处理。
系统状态LED指示灯
熄灭
系统关闭或无电源输入。
1.请查看电源输入是否正常。
2.请查看系统是否上电完成。
3.请联系博科技术支持工程师。
绿色、常亮
1
系统正常运行。
无需处理。
黄色、常亮(超过5
系统岀错。
1.请使用串口重新启动系统。
秒)
2.请检查系统控制台上的故障。
3.请联系博科技术支持工程师。
黄色/绿色、闪烁
单电源故障、风扇故障或环境不
请查看管理网口和错误日志,并进行相应
满足交换机要求等因素可能会
处理。
LED指示灯名称
LED指示灯状态
硬件状态
建议操作
引发此状态。
以太网速率LED指示灯
熄灭
端口速率为10Mbit/s。
无需处理。
绿色、常亮
端口速率为100Mbit/s。
无需处理。
以太网链路指示
灯
熄灭
无链路或链路断开。
如果此端口未使用,则无需处理。
如果此端口正在使用,请修复链路。
—
黄色/绿色、常
亮
链路已建立。
无需处理。
1—.
黄色/绿色、闪
烁
链路中有数据传输。
无需处理。
端口状态LED指示
灯
熄灭
无信号或光载波。
请确认收发器已正确安装且线缆已
正确连接。
绿色、缓慢闪
烁(2秒闪一次)
端口在线,但由于回环线
缆或不相容的交换机连接而产
生分段。
无需处理。
绿色、快速闪
烁(0.5秒闪一次)
端口在线且正在进行内部
回环诊断测试。
无需处理。
绿色、无规则
闪烁
端口在线,存在帧正在通
过端口。
无需处理。
绿色、常亮
1
端口在线且与设备相连,
但无流量。
无需处理。
黄色、缓慢闪
烁(2秒闪一次)
由于诊断或使用了
portdisable关闭端口,端口关
闭。
验证没有进行诊断测试,诊断测试
完毕后,执行portenable命令重新开启
端口。
黄色、快速闪
端口故障。
请检查管理网口和错误日志,并进
LED指示灯名称
LED指示灯状态
硬件状态
建议操作
烁(0.5秒闪一次)
行相应处理。
黄色、常亮(超
端口正以4Gbit/s的速率
无需处理。
过5秒)
接收光或信号载波,但处于离线
状态。
电源和风扇模块
熄灭
电源和风扇模块未上电完
请确保供电正常,并且电源线与正
LED指示灯(仅博科
成或无电源供电。
在供电的电源正确连接。
5100,6500系列)
绿色、常亮
电源和风扇模块正常运
无需处理。
行。
绿色、闪烁
电源和风扇模块故障。
1.请确保电源线正确连接。
说明:
2.请更换电源和风扇模块。
当交换机第一次上电时,
电源和风扇模块LED指示灯会出
现此状态。
端口指示灯长亮
可能原因和建议措施:
该端口指示灯长亮时不同的颜色代表着不同的状态。
要确定端口指示灯或电源状态指示灯上所指示
的故障及建议的解决方案,请参见表1。
端口指示灯不亮
可能原因和建议措施:
如果端口指示灯不亮,说明没有检测到信号。
请检查电缆和SFP接口来确定物理故障。
2、链路故障
当服务器、存储设备或交换设备连接到交换机上,但两台设备间的链路不通时,会发生链路故障,阻碍设备与交换机之间的通信。
如果通过输入switchshow命令或者观察指示灯发现链路连接错误,可进行以下操作步骤。
实现可用速率匹配
说明:
实现可用速率的操作步骤如下。
1使用portcfgshow命令,可查看所有端口的端口速率。
2)输入switchshow命令,以确定端口上是否有光模块。
3)根据两个设备能够共用的端口速率,使用portcfgspeed命令将速率修改为1Gbit/s(仅
(仅SNS2224和
支持)、2Gbit/s、4Gbit/s、8Gbit/s、10Gbit/s(仅SNS2248支持)或16Gbit/s
支持),通过设置速率能够使匹配成功。
4)输入portlogshow或者portLogdump命令。
5)查看该命令的输岀:
time
task
event
port
cmd
14:
38:
51.976
args
SPEE
sn
NC
00
000001,00000000,00000001
000002,00000000,00000001
在“event"列,“sn"表示速率匹配。
在“cmd'列,“NC'表示完成匹配。
如果这些字段没有岀现,请继续第6步的操作。
6)请通过输入portcfgspeed(序列号/端口号)和speed_level命令来完成速率匹配。
switch:
admin>portcfgspeed
Speed_Level
Usage:
portCfgSpeedPortNumber
-1Gbps-2Gbps-4Gbps-8Gbps
ax-AutoNegotiate+enhancedretries
环路初始化失败检查
1证端口是L_Port。
输入switchshow命令。
检查输岀的最后字段,验证交换机端口是否为L_Port。
如果一个环路设备连接到交换机,交换机端
口必须初始化为L_Port。
检查端口是否处于上线状态,如果不是上线状态,请检查是否岀现了链路故障问题。
上线状态下L_Port举例:
AreaPortMediaSpeedStateProto
(outputtruncated)
66
66--
N8
No_Module
67
67
id
AN
No_Sync
68
68
id
N2
Online
LPort13
public
2)如果环路设备所在端口不是L_Port,检查环路是否初始化。
输入portlogshow或portlogdump命令,显示交换机上所有端口的端口日志。
如果正在寻找一个特
定端口,输入portlogdumpport命令。
检查LISA(LoopInitializationSoftAssigned)框架0x11050100的第四项参数:
switch:
admin>portlogdumpport4
timetaskeventportcmdarg
s
11:
40:
02.078PORTRx32320
22000000,00000000,ffffffff,11050100
ReceivedLISAframe
输出中显示的“LISAframe”表明环路初始化已完成。
3)输入portcfglport命令,跳过点对点的初始化。
在环路初始化的LISA阶段之后,交换机转为点对点的初始化。
但这种改变可能会对版本较低的HBA
造成影响。
点对点初始化失败检查
1输入switchshow命令,确认该端口被激活,且有一个模块是同步的。
如果光纤设备和其他交换机连接到这个交换机上,交换机的端口必须处于联机状态。
2)输入portlogshow或者portlogdump命令。
3)验证端口状态项中“event"的参数是否为“pstate",“cmcT项中“AC'表示端口已完成点对点的初始化。
switch:
admin>portlogdumpport4
timetaskeventportcmd
args
11:
38:
21.726INTRpstate4AC
4)跳过环路初始化阶段。
该端口被激活,并且根据对端设备成为F_Port或者E_Port。
如果对端设备是主机或目标设备,端口
就应该为F_Port。
如果对端设备是另一个交换机,端口就应该是E_Port。
如果主机或目标设备有问题,输入portcfggport,强行将端口转变为点对点端口。