Quidway S6500 硬件问题处理指导书V10.docx

上传人:b****5 文档编号:12542100 上传时间:2023-04-20 格式:DOCX 页数:16 大小:28.67KB
下载 相关 举报
Quidway S6500 硬件问题处理指导书V10.docx_第1页
第1页 / 共16页
Quidway S6500 硬件问题处理指导书V10.docx_第2页
第2页 / 共16页
Quidway S6500 硬件问题处理指导书V10.docx_第3页
第3页 / 共16页
Quidway S6500 硬件问题处理指导书V10.docx_第4页
第4页 / 共16页
Quidway S6500 硬件问题处理指导书V10.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

Quidway S6500 硬件问题处理指导书V10.docx

《Quidway S6500 硬件问题处理指导书V10.docx》由会员分享,可在线阅读,更多相关《Quidway S6500 硬件问题处理指导书V10.docx(16页珍藏版)》请在冰豆网上搜索。

Quidway S6500 硬件问题处理指导书V10.docx

QuidwayS6500硬件问题处理指导书V10

产品名称Productname

密级Confidentialitylevel

QuidwayS6500

内部公开

产品版本Productversion

Total11pages共11页

 

QuidwayS6500硬件问题处理指导书

(仅供内部使用)

Forinternaluseonly

 

拟制:

S6500维护组

日期:

2006-05-30

审核:

日期:

审核:

日期:

批准:

日期:

 

华为三康技术有限公司

Huawei-3ComTechnologiesCo.,Ltd.

版权所有XX

Allrightsreserved

修订记录Revisionrecord

日期

修订版本

修改描述

作者

2006-05-03

1.00

初稿完成

S6500维护组

2006-05-30

1.01

修订部分文字错误

S6500维护组

目录

1综述5

2硬件问题排查方法5

2.1从日志、系统记录中能打印、记录的硬件故障5

2.1.1►log日志中显示cam错误类信息:

5

2.1.2►启动过程中,串口打印下列任何一条信息:

5

2.1.3►系统温度告警信息:

6

2.1.4►电源告警信息:

7

2.1.5►风扇告警信息:

7

2.2转发ASIC芯片异常检测方法。

7

2.2.1►使用命令查看转发ASIC状态(注意查看所有单板的状态)7

2.2.2►如果没有发现任何异常信息,那么使用复位芯片来尝试是否能恢复,如果能恢复,则说明6500转发ASIC芯片有问题,具体方法为:

8

2.2.3►如果以上均没有发现异常或者不能恢复业务,那么可能有其它原因:

8

2.3系统管理类硬件异常8

2.3.1►主控板启动提示内存检测异常:

8

2.3.2►主控板BOOTROM其中自检信息任何一项不是OK:

9

2.3.3►主控板启动到解压缩后长时间无法进入命令行:

9

2.3.4►主控板反复重启9

2.3.5►业务板无法加载,无加载信息9

2.3.6►业务板加载成功后不久又重启,周而复始出现10

2.3.7►业务板异常重起,不定期再次重启:

10

2.3.8►IPC异常类问题处理10

2.4网络流量异常问题的排查方法:

11

2.4.1►丢包或网络延迟问题(A类单板):

11

2.4.2►丢包或网络延迟问题(非A类单板)12

2.4.3►电口无法up13

2.4.4►SFP光口直连不up14

2.4.5►GBIC端口无法正常显示光模块信息14

QuidwayS6500硬件问题处理指导书

关键词:

S6500硬件维护

摘要:

指导开局、用服人员定位、维护设备用。

缩略语:

缩略语

中文解释

说明

A类单板

CXE芯片系列单板

FT48/FT48A,GB8U/GB8UA,GT8U/GT8UA,FS24/FS24A,FM24/FM24A。

非A类单板

BCM芯片系列单板

除了A类板之外的所有单板

1

综述

该指导书针对6500系列产品日常出现的一些硬件故障的现象以及判定方法做相关总结,提供一些基本的现场分析和排除手段,为判定是否为硬件问题提供必要排查指导。

同时规范返修件处理过程和信息记录,以便单板返修定位。

2硬件问题排查方法

如果设备出现故障,怀疑单板有硬件问题,请先行收集displaydiag信息,然后进行一些基本的操作。

不要轻易复位、更换单板!

如果情况特别紧急,也必须保证先收集displaydiag信息。

2.1从日志、系统记录中能打印、记录的硬件故障

6500在软件对一些硬件故障进行了检测,可以通过告警等信息显示出来。

这类故障有如下几种:

►log日志中显示cam错误类信息:

%Aug2206:

14:

292005QuidwayDEV/5/DEV_LOG:

ServiceboardCamDetect

Error!

TheCamNumberis:

1

这个信息表示CAM存在错误。

看到这个错误信息,请立即检查网络是否存在环路。

果没有环路,那么可以确认单板存在问题。

►启动过程中,串口打印下列任何一条信息:

BoardEthInitERRinSysmint

BoardDrv_SysMInitERRinSysmint

BoardDrv_DevInfoInitERRinSysmint

BoardulBalInitERRinSysmint

BoardCXECreateERRinSysmint

BoardGetBridgeMacERRinSysmint

BoardGetVRPMacERRinSysmint

BoardCreateGBICERRinSysmint!

BoardDrv_PortStat_InitERRinSysmint

BoardRxTx_InitERRinSysmint

BoardDrv_FL2_InitERRinSysmint

BoardL3Drv_FORWARDERL3_InitERRinSysmint

BoardDrv_QSS_InitERRinSysmint

BoardSRPUSWTDetectErrorinHDDI

这些信息表示单板初始化出现错误,无法完成模块注册。

请检查设备型号与软件版本是否一致,如果一致,那么基本可以判定是单板硬件问题。

►系统温度告警信息:

严格讲这个不能算硬件故障,但考虑到温度过高对系统有巨大的硬件伤害,也将此现象作为硬件故障一种类型。

%Sep814:

33:

412005QuidwayDEV/5/DEV_LOG:

Slot=0;

BoardtemperatureistoohigherinFrame0Slot0,TypeisLS83SRPC

请查看系统温度是否正常:

displayenvironment

Systemtemperatureinformation(degreecentigrade):

----------------------------------------------------

BoardTemperatureLowerlimitUpperlimit

0901080

4661080

温度过高一般是由于防尘网长时间没有清洗导致,可以通过清洗防尘网解决。

其它问题需要根据实际情况判定原因。

如果是风扇停转导致问题,请按照(2.1.5)风扇故障的方法进行处理。

如果是读出温度为“error”,则需要检测单板上是否使用有问题的光模块。

一般情况下单板温度应该在60度以下,如果单板长时间工作在60度以上,也存在一定的隐患,需要按照上面的步骤进行处理。

►电源告警信息:

%Sep814:

33:

412005QuidwayDEV/5/DEV_LOG:

Slot=0;

ap1.3.6.1.4.1.2011.2.23.1.12.1.1:

powerIDis1

请检查电源是否正常。

插拔看是否能恢复。

如果不能恢复,则只能更换。

►风扇告警信息:

%Apr2901:

46:

162006QuidwayDEV/5/DEV_LOG:

Slot=0;

Fan1failed

#Apr2901:

46:

212006QuidwayDEV/2/FANSTATECHANGETONORMAL:

Slot=0;Trap1.3.6.1.4.1.2011.2.23.1.12.1.7:

fanIDis1

检查风扇是否插入牢固。

如果插拔风扇框后还无法恢复,且使用手在机箱右侧感觉没有出风,或者系统温度明显升高,请通过更换风扇框解决。

2.2转发ASIC芯片异常检测方法。

在硬件故障中,A类单板该类问题目前发生概率比较高。

判断方法为:

►使用命令查看转发ASIC状态(注意查看所有单板的状态)

debrxtxmemslot(所有在位单板槽位号)

Slot0:

infomationofModuleRxTx

DebugRxTxmemallocison!

Addressofrecovercounter:

1617054,reservedmemory:

FF80000

ShadowofSwichChip0:

ed59208,resettimes:

0(重点观测点)

ShadowofSwichChip1:

e43b084,resettimes:

0(重点观测点)

…………………………..…………………………………………….

如果在重点观测点发现数据在不断增加,为3分钟增加一次以上,那么硬件工作状态异常,但不一定就是硬件有缺陷或者故障,可能是网络环路或流控攻击等导致,需要联系二线人员分析进一步原因。

►如果没有发现任何异常信息,那么使用复位芯片来尝试是否能恢复,如果能恢复,则说明6500转发ASIC芯片有问题,具体方法为:

逐一复位各个单板上的芯片,其中6506、6506R主控板有两个ASIC芯片,FT48单板也有两个ASIC芯片,其它单板均为一个芯片,具体复位芯片命令为:

[6506]en

[6506-testdiag]resetswitchengine槽位号芯片号

芯片复位命令对业务没有负面影响。

复位一个芯片后,请立即检查业务是否恢复!

不要将所有芯片都进行复位后,再检查业务,这样无法判断是复位哪个芯片恢复,也就无法判断哪个单板芯片工作异常。

出现这一类的故障,请不要直接更换单板,咨询二线确认问题的进一步原因,然后再做处理。

►如果以上均没有发现异常或者不能恢复业务,那么可能有其它原因:

如果检查配置没有问题,检查相应的软件信息(ARP、MAC、路由、CPU等)是否正常,如果一切正常,可以采用更换端口,单板割接,主备倒换等方法确认是否硬件问题。

2.3系统管理类硬件异常

►主控板启动提示内存检测异常:

Starting.....

RAMLine....ERROR

以上信息表示内存单元自检出现错误信息,需要检查是否内存条插入不牢固导致。

可以将内存条拔出,然后再插入,确认是否恢复正常。

如果无法恢复,则可以判定内存条存在问题,需要更换同等规格类型的内存条。

►主控板BOOTROM其中自检信息任何一项不是OK:

60X_SDRAMDatalinesselftest.............................OK!

60X_SDRAMAddresslinesselftest........................OK!

60X_SDRAMfastselftest...................................OK!

PleasecheckLEDs.....................LEDsselftestfinished!

Switchchipselftest......................................OK!

CPLDselftest.............................................OK!

TheswitchMacaddressis.....................00E0.FC13.0AE0

任何一项自检提示不正确,表示该单板存在硬件异常,需要更换单板。

►主控板启动到解压缩后长时间无法进入命令行:

重新启动,在BOOTROM中删除配置文件,然后检查启动文件是否与产品类型一致,如果一致,复位重启依旧出现无法进入命令行情况,即可确认硬件有问题。

另外注意,如果升级系统app文件时没有采用bin加载,请删除该文件再使用bin模式加载文件,确认是否可以正常。

►主控板反复重启

重新启动,在BOOTROM中删除配置文件,然后检查启动文件是否与产品类型一致。

如果一致,复位重启依旧出现反复重启的情况,即可确认硬件有问题。

另外,如果升级系统时,.app文件时没有采用bin模式加载,也可能造成类似问题。

请删除该.app文件,然后使用bin模式重新加载.app文件,检查该主控板是否可以正常启动。

►业务板无法加载,无加载信息

使用displayboot检查加载文件是否正确,是否在flash中存在。

如果存在,且其它业务板已经加载成功,那么基本可以判定该业务板有问题,需要进一步更换槽位测试。

如果在其它槽位依旧无法加载且无加载信息,基本确认业务板BOOTROM启动过程有问题,需要更换单板。

同样,如果升级系统时,.app文件时没有采用bin模式加载,也可能造成类似问题。

使用bin模式重新加载.app文件,检查该业务板是否可以正常启动。

►业务板加载成功后不久又重启,周而复始出现

如果是软件版本是1XXX、2XXX、3XXX系列,建议先在主控板上收集诊断信息。

然后更换业务板槽位,重新启动。

建议更换槽位时,拔掉该单板上所有连接的网线,然后检查启动文件是否与产品类型一致。

如果启动文件于产品类型一致,并且其它槽位单板已经加载成功,即可确认硬件有问题。

同样,如果升级系统时,.app文件时没有采用bin模式加载,也可能造成类似问题。

使用bin模式重新加载.app文件,检查该业务板是否可以正常启动。

►业务板异常重起,不定期再次重启:

%Sep814:

36:

502005QuidwayDEV/5/DEV_LOG:

Slot=0;

BoardstatechangetoFAULTinFrame0Slot4,TypeisLS81GB8U

如果为1XXX、2XXX、3XXX版本请检查重起原因,查看方法是:

[6506-hidecmd]_displayresver

请将显示信息保存下来,供研发分析。

如果是0XX系列版本,则建议先下发[6506]undomonitorinnreboot-lpu,再观察是否还会重启,并

收集诊断信息,供研发分析。

2.3.1►IPC异常类问题处理

故障现象:

无法对业务板进行控制或者调试。

例如,使用displayinterface无法查看业务板端口详细收发报文统计信息,displaycpu无法查看业务板信息,跨单板操作不成功等。

处理步骤:

第一步,使用命令收集无法控制的业务单板任务状态信息:

[6506隐含模式]taskinfs业务板槽位号async

第二步,使用命令收集主控板单板任务状态信息,方法为:

[6506隐含模式]taskinfs主控板槽位号async

第三步,如果主控板为SalineceI/II,使用命令查看底层ipc信息:

[6506-testdiag]debugipc主控板槽位号

如果业务板为非A类单板,命令为:

[6506-testdiag]debugbcmipcstaget槽位号

第四步,如果主控板为SalineceI/II,可以使用命令复位主控板IPC物理芯片:

[6506-testdiag]reset9785

复位后,检查是否可以管理控制业务板,如果恢复则说明是原先IPC物理芯片有异常,可以不更换单板。

2.4网络流量异常问题的排查方法:

►丢包或网络延迟问题(A类单板):

对于A类单板,软件做了很好的监控机制题。

如果是硬件问题,只要处理到第一步即可判定出问题的原因。

第一步:

检查芯片是否存在复位,如果存在,请检查芯片复位原因。

第二步:

检查cpu是否高,stp、vrrp是否在切换,ospf是否稳定、网络协议是否正常等。

第三步:

使用debug命令检查芯片报文转发情况:

【6506诊断模式】debugqedis槽位号芯片号

如果发现如下错误,需要判定是网络侧流量导致,还是芯片故障导致:

CXE-16discardcounters:

INQoverflow:

0

ALFIFOoverflow:

0

Bufmemoverflow:

0

RLIdiscard:

12312312---->这个有大量统计一般是由于网络流量大导致。

RLEdiscard:

1283976---->如果这个数值很大,可以通过执行rdramdisable命令解决。

MC_BC_limitdiscard:

0

TTLscoping:

0

WFHBD:

2634313245---->端口限速或CPU遭到攻击导致

MACerror:

2342432---->MAC层存在错误报文,常见原因是流控攻击或端口半双工导致。

第四步:

检查端口状态,是否存在半双工,端口是否存在大量错误报文,物理链路等是否正常。

►丢包或网络延迟问题(非A类单板)

第一步:

检查cpu是否高,stp、vrrp是否在切换,ospf是否稳定、网络协议是否正常等。

查端口状态,是否存在半双工,端口是否存在大量错误报文,物理链路等是否正常。

第二步,检查单板内部互连端口是否正常,特别是HG。

【隐含模式】bcm槽位号芯片号ps

[Quidway-testdiag]bcm41ps

speed/linkautoSTPlrninter

portEnalinkduplexscanneg?

statepausediscrdopsface

ge0Enup1GFDSWYesForwardNoneFAGMII

ge1Enup1GFDSWYesForwardNoneFAGMII

ge2Endown1GFDSWYesForwardTXRXNoneFAGMII

ge3Endown1GFDSWYesForwardTXRXNoneFAGMII

ge4Endown1GFDSWYesForwardTXRXNoneFAGMII

ge5Endown1GFDSWYesForwardTXRXNoneFAGMII

ge6Endown1GFDSWYesForwardTXRXNoneFAGMII

ge7Endown1GFDSWYesForwardTXRXNoneFAGMII

ge8Endown1GFDSWYesForwardTXRXNoneFAGMII

ge9Endown1GFDSWYesForwardTXRXNoneFAGMII

ge10Endown1GFDSWYesForwardTXRXNoneFAGMII

ge11Endown1GFDSWYesForwardTXRXNoneFAGMII

hg0Endown10GFDSWNoForwardNoneFAXGMII

如果出现Endown,则表示单板内部互连hg无法up,硬件故障,需要更换单板。

第三步,查看是否存在大量内部转发错误报文统计。

该类统计只表明端口流量较大导致拥塞丢包,不说明硬件存在问题,

[Quidway-testdiag]bcm槽位号芯片号show/c/erdisc

a、端口ACL规则丢弃。

例如端口没有启动LACP,接收到LACP报文自动丢弃

[SW6506-testdiag]bcm41show/c/erdisc

GRFILDR.ge2:

59,374+17,9139,058/s

GRDROP.ge2:

59,374+17,9139,058/s

b、出端口HOL动作丢弃,如上CPU报文流量太大,在CMIC口产生HOL:

[SW6506-testdiag]bcm41show/c/erdisc

GHOLD13.ge2:

88,264+43,9338,849/s

GRDROP.ge2:

1,082,842+43,9338,849/s

c、报文找不到出端口丢弃,如报文没有匹配到正常的L2表、vlan表、modid:

[SW6506-testdiag]bcm41show/c/erdisc

GRDROP.ge2:

1,082,842+43,9338,849/s

►电口无法up

第一步,先通过其他端口,确认网线是否正常。

如果是网线问题,更换网线。

第二步,在本交换机上找另外一个空端口,并且将两个端口的模式配置为一致,通过网线将两个端口互连。

如果空余端口和其他端口可以正常UP,但是与该端口无法正常UP,可以判断该端口存在异常。

通过shut/undoshut命令,尝试是否可以恢复。

如果仍然无法恢复,而且单板是FT48,请执行phyreset命令,对相应端口操作。

如果恢复,可以通过将phymonitor命令打开,问题解决。

如果仍然无法解决,可以确认是端口的硬件损坏,需要更换端口和更换单板。

第三步,如果上述步骤确认单板的硬件正常,故障原因就是对接问题,请分别调整互连设备的端口配置模式,找到最终匹配的配置。

►SFP光口直连不up

第一步,首先通过光功率测试确认光功率是否正常。

如果光功率异常,可以判断是光模块或光纤存在问题。

请尝试更换光模块或光纤解决问题。

第二步,在本交换机找另外一个空端口,并且将两个端口的模式配置为一致,通过网线将两个端口互连。

如果空余端口和其他端口可以正常UP,而与该端口无法正常UP,可以判断该端口存在异常。

通过shut/undoshut命令,尝试是否可以恢复。

如果仍然无法恢复,而且单板是FS24或FM24,请执行phyreset命令,对相应端口操作,如果恢复,可以通过将phymonitor命令打开,问题解决。

如果仍然无法解决,可以确认是端口的硬件损坏,需要更换端口和更换单板。

第三步,如果上述步骤确认单板的硬件正常,故障原因就是对接问题,请分别调整互连设备的端口配置模式,找到最终匹配的配置。

2.4.1►GBIC端口无法正常显示光模块信息

第一步,检查该端口业务是否正常。

同时使用displayenvironment查看是否能正确读出温度信息.查看其它端口是否也无法读出模块信息,检查是否存在非华为推荐的光模块插入单板

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1