数通低端交换机故障基本定位指导书0306A.docx

上传人:b****2 文档编号:2372859 上传时间:2022-10-29 格式:DOCX 页数:11 大小:29.57KB
下载 相关 举报
数通低端交换机故障基本定位指导书0306A.docx_第1页
第1页 / 共11页
数通低端交换机故障基本定位指导书0306A.docx_第2页
第2页 / 共11页
数通低端交换机故障基本定位指导书0306A.docx_第3页
第3页 / 共11页
数通低端交换机故障基本定位指导书0306A.docx_第4页
第4页 / 共11页
数通低端交换机故障基本定位指导书0306A.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

数通低端交换机故障基本定位指导书0306A.docx

《数通低端交换机故障基本定位指导书0306A.docx》由会员分享,可在线阅读,更多相关《数通低端交换机故障基本定位指导书0306A.docx(11页珍藏版)》请在冰豆网上搜索。

数通低端交换机故障基本定位指导书0306A.docx

数通低端交换机故障基本定位指导书0306A

资料编码

产品名称

数通低端以太网交换机

使用对象

业软、无线、固网工程师

产品版本

VRP3.10

编写部门

数通技术服务部OEM产品服务部

资料版本

数通低端交换机故障基本定位指导书

(供业软、无线、固网工程师使用)

拟制:

赵建波

日期:

2006-3-6

审核:

许宝祥

日期:

2006-3-6

审核:

日期:

批准:

日期:

华为技术有限公司

版权所有XX

修订记录

日期

修订版本

描述

作者

关键词:

低端交换机

摘要:

在低端交换机出现故障影响业务时,快速故障定位和实现紧急恢复并采集必要信息供研发定位问题

缩略语清单:

参考资料清单:

第1章低端交换机应用紧急恢复方案

1.1方案说明

低端交换机应用紧急恢复方案,是针对低端交换机在运行过程中或者操作过程中可能出现的紧急问题,如设备僵死、接口故障等而制定的操作指导,其目的是在设备发生故障时,提供紧急维护的手段。

本方案中同时提供了一些预防措施,使得在故障发生前及时发现故障的苗头,在故障发生后,降低故障对系统的影响。

1.2出现某方向报文不能转发

1、查看ARP表项(MAC),确认是否有该方向的ARP(MAC)表项;

2、查看相应接口状态、物理和协议是否都up,接口是否收到大量错包;

3、确认对端设备是否修改了配置导致两端协商出现问题。

4、进行镜像抓包,做简单的报文分析。

1.3日常维护检查项

物理链路检查项。

端口检查项:

方法:

用displayintface命令查看端口信息

双工和速率模式是否协商正确

更改模式进行协商

InputError统计是否增长

主要检查线路状态

OutputError统计是否增长

检查双工状态

流量是否超过接口带宽或限制带宽

进行合理优化

软件故障检查项.

检查项目

命令行

备注

查看接口工作状态

[Quidway]displayinterfce

正常工作接口链路层协议应该为UP

查看链路是否接通

[Quidway]pingx.x.x.x

链路层协议UP的链路都应该能够Ping通对端。

通用检查项.

检查项目

命令行

备注

CPU利用率

[Quidway]displaycpu

正常情况下,CPU利用率小于50%

内存使用率

[Quidway]displaymemory

正常情况小于60%,S3026系列小于70%

设备上调试功能

[Quidway]displaydebugging

正常运行时应该全部关闭

设备上的日志信息

[Quidway]displaylogbuffer

正常情况下没有端口大量UP/Down的信息,没有环路告警,没有大量的stp状态切换的告警,没有大量病毒告警,没有IP冲突,Ip和mac移动告警,没有路由断链告警,没有大量的VRRP切换告警

检查配置的合理性

displaycurrenet-configuration

去掉不必要的三层接口、镜像、流重定向、vlan;不要用trunkvlanall。

互联的端口pvid的一致性

查看当前配置和保存配置

[Quidway]displaysaved-configuration

[Quidway]displaycurrent-configureation

确保当前配置和保存配置一致,配置可远程登时必须要有密码

查看isolateuser-vlan的配置

[Quidway]displaycurrent-configuration

检查用户是否有模拟Isolateuser-vlan的配置,如果有,修改成端口隔离或者正确的isolatevlan的方式

检查配置端口的vlan配置

[Quidway]displaycurrent-configuration

尽量避免端口上trunkall的配置,减小不必要的vlan内广播报文影响带宽,甚至冲击交换机cpu

检查接口工作状态

[Quidway]displayinterface

检查各个接口是否正常UP

检查设备上任务状态

[Quidway_hidecmd]displaytask

没有任务处于suspend状态(S3552除SAM任务外;3526除FrWl外)

检查设备上STP运行状态

[Quidway_hidecmd]displaystp

检查端口STP状态是否正常,确保配置STP的接入层交换机接用户端口配置成边缘端口,并建议启动BDDUguard,启动的STP的二层网络建议配置根桥和备份根桥

检查接口报文统计

[Quidway]displayinterface

如果错误包很多,查找原因

网络连通性检查

[Quidway]pingx.x.x.x

[Quidway]tracertx.x.x.x

能够正确的到达目的的

查看系统运行版本,运行时间

[Quidway]displayver

[Quidway]_displayver

没有公告过停用的版本,产看总的运行时间,和用户确认没有出现过自动重启

查看当前系统时间

[Quidway]displayclock

要求系统时间和当前时间差值在10分钟之内,便于对照日志信息

查看boot-loader里面指定的启动文件

displayboot-loader

dir

要求指定的启动文件在设备的文件系统中存在

查看防病毒acl配置

[Quidway]displaycurrent-configuration

查看配置文件,要求配置防病毒ACL

检查环回检测状态

[Quidway]displayloopback-detection

确保不存在环路端口。

查看配置,无特殊情况,关闭交换机设备互联口的环路检测受控功能,打开接用户端口的环路检测。

路由检查项.

检查分项目

检查方法

备注

路由表

[Quidway]displayiprouting-table

根据网络设计目标,对于给定的目的地址判断是否能有合适的路由

通过检查网络中多台设备路由表,检查网络中是否有路由环路等恶性路由故障

OSPF路由协议

[Quidway]displayospfpeer

检查邻居状态是否稳定在FULL状态

路由隐患检查

检查配置与路由表

协议检查:

如网络中是否使用相同的ospfrouterid

路由汇聚:

汇聚于发布时有无可能导致路由环路,应该精确发布之应该发布的路由

转发检查项.

检查分项目

检查方法

备注

查看硬件路由表项

[Quidway]displayhwfib

正常应该小余16条,如果发现大于16条,建议优化组网配置,将路由减少(仅3526E适用)

查看动态路由协议配置

[Quidway]displayospf

[Quidway]diplayrip

在S3526E如果启动了动态路由协议,建议配置路由过滤(只发布路由,不引入路由,避免路由条数过多)

转发稳定性

[Quidway]disipstatistics

观察是否有大量的丢包现象

常见转发业务检查项.

检查分项目

检查方法

备注

S3526EFC

查看mac地址个数

[Quidway]displaymaccount

正常的二层网络,mac地址个数不应该超过4K

查看arp表项和IPFDB表形

[Quidway]displayarp

[Quidway]displayipfdball

正常情况下,arp表项应该全部包含在IPFDB表项中,IPFDB表项中仅多三层接口的IP(仅3526E适用)

VRRP

[Quidway]displayVRRP

检查VRRP主备状态是否稳定正确

抽查接入设备ARP表是否正常

查看异常堆栈信息

(S3050)

[Quidway_hidecmd]_dismemC0700000300

(other)

[Quidway_hidecmd]_dismem80500000300(3026C)

正常情况下没有异常堆栈信息

查看各个端口上CPU的报文

displayswitchpacket

Cpu占用率高;连续几次disswpack查看各个端口上送CPU的报文情况,正常情况不应该超过200个/S

S3552/S3528

查看文件系统是否有异常文件

dir

disptask-switchreserved

dispexception20verbose

正常情况下文件系统中应该没有exception.log、taskswitch.log

查看驱动的关键全局变量

[Quidway_hidecmd]ipshowv

正常情况下显示的g_bNSFULL应该为0,否则说明路由表满,可能存在软件转发,导致cpu占用率高

查看端口ACL下发情况

[Quidway_hidecmd]_drv_qosshowportruleportnumber

可以显示ACL在端口硬件芯片的下发情况

1.4说明

由于低端交换机本身在网络中所处位置是转发数据的角色,维护工作应以日常维护为主,尽量在故障发生前解决问题。

 

第2章低端交换机数据采集指导

2.1采集基本信息(必须)

1、[Quidway]displaydiag

❑该命令用于搜集交换机基本信息是否正常。

请执行两次,中间间隔10~15秒。

在紧急恢复业务的情况下,请务必采集此信息。

然后,再考虑重起设备。

4、物理指示灯状态及相关电缆连接状态。

5、组网图。

组网图信息非常重要,务必反馈。

6、问题复现条件和操作方法。

7、如果可能,请收集对端设备的配置、版本和相关信息。

8、如果用其他设备替代华为设备运行正常,则需要收集其他设备的相关信息。

2.2收集信息如下

故障

收集信息步骤

收集的相关信息

挂死

1、从上行设备能否ping通故障识别的管理地址。

能ping通的话,尝试能否Telnet进行收集信息;

2、不能Telnet故障设备时,从Console能否进行查看故障设备并收集相关的信息;

3、当这两种方法均不能进行查看故障设备时,请优先恢复业务,然后收集相关信息并致电800。

 

discpu

disdia(两遍)

STP

1、如果STP状态不正确,查看端口UP/Down状态以及配置;

2、查看STP状态;

3、请先收集相关的信息并致电800。

disstpbrief或者

disstpinterface

disdia(两遍)

VRRP

1、如果VRRP状态不正确,如:

双Master,检查互连设备间的链路,重点是走VRRP心跳报文的;

2、请先收集相关的信息并致电800。

disvrrp

disvrrpstatistics

disdia(两遍)

链路聚合

1、针对链路聚合不正常,先查看链路是否正常。

用disinte/ge<端口>查看几条链路的速度和双工是否进行了强制;

2、如果进行了上述的相关配置,请先收集相关的信

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1