1、数通低端交换机故障基本定位指导书0306A资料编码产品名称数通低端以太网交换机使用对象业软、无线、固网工程师产品版本VRP3.10编写部门数通技术服务部OEM产品服务部资料版本数通低端交换机故障基本定位指导书(供业软、无线、固网工程师使用)拟 制:赵建波日 期:2006-3-6审 核:许宝祥日 期:2006-3-6审 核:日 期:批 准:日 期:华 为 技 术 有 限 公 司版权所有 XX修订记录日期修订版本描述作者关键词:低端交换机摘 要:在低端交换机出现故障影响业务时,快速故障定位和实现紧急恢复并采集必要信息供研发定位问题缩略语清单:参考资料清单:第1章 低端交换机应用紧急恢复方案1.1
2、方案说明低端交换机应用紧急恢复方案,是针对低端交换机在运行过程中或者操作过程中可能出现的紧急问题,如设备僵死、接口故障等而制定的操作指导,其目的是在设备发生故障时,提供紧急维护的手段。本方案中同时提供了一些预防措施,使得在故障发生前及时发现故障的苗头,在故障发生后,降低故障对系统的影响。1.2 出现某方向报文不能转发1、 查看ARP表项(MAC),确认是否有该方向的ARP(MAC)表项;2、 查看相应接口状态、物理和协议是否都up,接口是否收到大量错包;3、 确认对端设备是否修改了配置导致两端协商出现问题。4、 进行镜像抓包,做简单的报文分析。1.3 日常维护检查项物理链路检查项。端口检查项:
3、方法:用display intface命令查看端口信息 双工和速率模式是否协商正确更改模式进行协商Input Error统计是否增长主要检查线路状态Output Error统计是否增长检查双工状态流量是否超过接口带宽或限制带宽进行合理优化软件故障检查项.检查项目命令行备 注查看接口工作状态Quidwaydisplay interfce正常工作接口链路层协议应该为UP查看链路是否接通Quidway ping x.x.x.x链路层协议UP的链路都应该能够Ping通对端。通用检查项.检查项目命令行备 注CPU利用率Quidwaydisplay cpu正常情况下,CPU利用率小于50内存使用率Quid
4、waydisplay memory 正常情况小于60%,S3026系列小于70%设备上调试功能Quidwaydisplay debugging正常运行时应该全部关闭设备上的日志信息Quidwaydisplay logbuffer 正常情况下没有端口大量UP/Down的信息,没有环路告警,没有大量的stp状态切换的告警,没有大量病毒告警,没有IP冲突,Ip 和mac移动告警,没有路由断链告警,没有大量的VRRP切换告警检查配置的合理性display currenet-configuration去掉不必要的三层接口、镜像、流重定向、vlan;不要用trunk vlan all。互联的端口pvid的
5、一致性查看当前配置和保存配置Quidwaydisplay saved-configurationQuidwaydisplay current-configureation确保当前配置和保存配置一致,配置可远程登时必须要有密码查看isolate user-vlan的配置Quidwaydisplay current-configuration检查用户是否有模拟Isolate user-vlan的配置,如果有,修改成端口隔离或者正确的isolate vlan的方式检查配置端口的vlan配置Quidwaydisplay current-configuration尽量避免端口上trunk all的配置,
6、减小不必要的vlan内广播报文影响带宽,甚至冲击交换机cpu检查接口工作状态Quidwaydisplay interface检查各个接口是否正常UP检查设备上任务状态Quidway_hidecmddisplay task没有任务处于suspend状态(S3552除SAM任务外;3526除FrWl外)检查设备上STP运行状态Quidway_hidecmddisplay stp检查端口STP状态是否正常,确保配置STP的接入层交换机接用户端口配置成边缘端口,并建议启动BDDU guard,启动的STP的二层网络建议配置根桥和备份根桥检查接口报文统计Quidwaydisplay interface如
7、果错误包很多,查找原因网络连通性检查Quidwayping x.x.x.xQuidwaytracert x.x.x.x能够正确的到达目的的查看系统运行版本,运行时间Quidwaydisplay verQuidway_display ver没有公告过停用的版本,产看总的运行时间,和用户确认没有出现过自动重启查看当前系统时间Quidwaydisplay clock要求系统时间和当前时间差值在10分钟之内,便于对照日志信息查看boot-loader里面指定的启动文件display boot-loaderdir要求指定的启动文件在设备的文件系统中存在查看防病毒acl配置Quidwaydisplay c
8、urrent-configuration查看配置文件,要求配置防病毒ACL检查环回检测状态Quidwaydisplay loopback-detection 确保不存在环路端口。查看配置,无特殊情况,关闭交换机设备互联口的环路检测受控功能,打开接用户端口的环路检测。路由检查项.检查分项目检查方法备 注路由表Quidwaydisplay ip routing-table根据网络设计目标,对于给定的目的地址判断是否能有合适的路由通过检查网络中多台设备路由表,检查网络中是否有路由环路等恶性路由故障OSPF路由协议Quidwaydisplay ospf peer检查邻居状态是否稳定在FULL状态路由隐
9、患检查检查配置与路由表协议检查:如网络中是否使用相同的ospf router id路由汇聚:汇聚于发布时有无可能导致路由环路,应该精确发布之应该发布的路由转发检查项.检查分项目检查方法备 注查看硬件路由表项Quidwaydisplay hwfib正常应该小余16条,如果发现大于16条,建议优化组网配置,将路由减少(仅3526E适用)查看动态路由协议配置Quidwaydisplay ospfQuidwaydiplay rip在S3526E如果启动了动态路由协议,建议配置路由过滤(只发布路由,不引入路由,避免路由条数过多)转发稳定性Quidwaydis ip statistics观察是否有大量的丢
10、包现象常见转发业务检查项.检查分项目检查方法备 注S3526EFC查看mac地址个数Quidwaydisplay mac count正常的二层网络,mac地址个数不应该超过4K查看arp表项和IPFDB表形Quidwaydisplay arpQuidwaydisplay ipfdb all正常情况下,arp表项应该全部包含在IPFDB表项中,IPFDB表项中仅多三层接口的IP(仅3526E适用)VRRPQuidwaydisplay VRRP检查VRRP主备状态是否稳定正确抽查接入设备ARP表是否正常查看异常堆栈信息(S3050)Quidway_hidecmd_dis mem C0700000
11、300(other)Quidway_hidecmd_dis mem 80500000 300(3026C)正常情况下没有异常堆栈信息查看各个端口上CPU的报文display switch packetCpu占用率高;连续几次dis sw pack 查看各个端口上送CPU的报文情况,正常情况不应该超过200个/S S3552/S3528查看文件系统是否有异常文件dirdisp task-switch reserveddisp exception 20 verbose正常情况下文件系统中应该没有exception.log、taskswitch.log查看驱动的关键全局变量Quidway_hidec
12、mdip showv正常情况下显示的g_bNSFULL应该为0,否则说明路由表满,可能存在软件转发,导致cpu占用率高查看端口ACL下发情况Quidway_hidecmd_drv_qos showportrule portnumber 可以显示ACL在端口硬件芯片的下发情况1.4 说明由于低端交换机本身在网络中所处位置是转发数据的角色,维护工作应以日常维护为主,尽量在故障发生前解决问题。第2章 低端交换机数据采集指导2.1 采集基本信息(必须)1、Quidwaydisplay diag 该命令用于搜集交换机基本信息是否正常。请执行两次,中间间隔1015秒。在紧急恢复业务的情况下,请务必采集此信
13、息。然后,再考虑重起设备。4、物理指示灯状态及相关电缆连接状态。5、组网图。组网图信息非常重要,务必反馈。6、问题复现条件和操作方法。7、如果可能,请收集对端设备的配置、版本和相关信息。8、 如果用其他设备替代华为设备运行正常,则需要收集其他设备的相关信息。 2.2 收集信息如下故障收集信息步骤收集的相关信息挂死1、 从上行设备能否ping通故障识别的管理地址。能ping通的话,尝试能否Telnet进行收集信息;2、 不能Telnet故障设备时,从Console能否进行查看故障设备并收集相关的信息;3、 当这两种方法均不能进行查看故障设备时,请优先恢复业务,然后收集相关信息并致电800。dis
14、 cpudis dia(两遍)STP1、 如果STP状态不正确,查看端口UP/Down状态以及配置;2、 查看STP状态;3、 请先收集相关的信息并致电800。dis stp brief或者dis stp interfacedis dia(两遍)VRRP1、 如果VRRP状态不正确,如:双Master,检查互连设备间的链路,重点是走VRRP心跳报文的;2、 请先收集相关的信息并致电800。dis vrrpdis vrrp statisticsdis dia(两遍)链路聚合1、 针对链路聚合不正常,先查看链路是否正常。用dis int e/ge查看几条链路的速度和双工是否进行了强制;2、 如果进行了上述的相关配置,请先收集相关的信
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1