服务器常见的十四个故障 分析解决方案.docx
《服务器常见的十四个故障 分析解决方案.docx》由会员分享,可在线阅读,更多相关《服务器常见的十四个故障 分析解决方案.docx(11页珍藏版)》请在冰豆网上搜索。
服务器常见的十四个故障分析解决方案
性
S7510E
S7506E
S7506E
-V
S7506E-S
S7503E
S7503E-S
S7502E
整机交换容量
1152G/768Gbps
768Gbps
768Gbps
384Gbps
480Gbps
288Gbps
192Gbps
背板容量
≥2.4Tbps
≥1.6Tbps
≥1.6Tbps
≥1.6Tbps
≥1Tbps
≥600Gbps
≥400Gbps
IPv4包转发率
780M/492Mpps
492Mpps
492Mpps
288Mpps
276Mpps
180Mpps
144Mpps
槽位数量
12
8
8(垂直插槽)
8
5
3
4
业务槽位数量
10
6
6
6
3
2
2
冗余设计
电源、主控冗余
电源、主控冗余
电源、主控冗余
电源、主控冗余
电源、主控冗余
电源、单主控
电源、主控冗余
二层特性
支持IEEE802.1P(CoS优先级)
支持IEEE802.1Q(VLAN)
支持IEEE802.1d(STP)/802.1w(RSTP)/802.1s(MSTP)
支持IEEE802.1ad(QinQ),灵活QinQ和Vlanmapping
支持IEEE802.3x(全双工流控)和背压式流控(半双工)
支持IEEE802.3ad(链路聚合)和跨板链路聚合
支持IEEE802.3(10Base-T)/802.3u(100Base-T)
支持IEEE802.3z(1000BASE-X)/802.3ab(1000BaseT)
支持IEEE802.3ae(10Gbase)
支持IEEE802.3af(PoE)
支持IEEE802.3at(PoE+)
支持RRPP(快速环网保护协议)
支持跨板端口/流镜像
支持端口广播/多播/未知单播风暴抑制
支持JumboFrame
支持基于端口、协议、子网和MAC的VLAN划分
支持SuperVLAN
支持PVLAN
支持MulticastVLAN+
支持点到点单VLAN交叉连接、双VLAN交叉连接
全部依靠VLAN-ID进行转发,不涉及MAC地址学习
支持最大VLANMAPING/灵活QinQ表项
全面支持1:
1,2:
1,1:
2,2:
2VLANMAPPING能力
支持GVRP
支持LLDP
IPv4路由特性
支持ARPProxy
支持DHCPRelay
支持DHCPServer
支持静态路由
支持RIPv1/v2
支持OSPFv2
支持IS-IS
支持BGPv4
支持OSPF/IS-IS/BGPGR(GracefulRestart优雅重启)
支持等价路由
支持策略路由
支持路由策略
IPv6路由特性
支持ICMPv6
支持ICMPv6重定向
支持DHCPv6
支持ACLv6
支持OSPFv3
支持RIPng
支持BGP4+
支持IS-ISv6
支持手工隧道
支持ISATAP
支持6to4隧道
支持IPv6和IPv4双栈
组播
支持IGMPv1/v2/v3
支持IGMPv1/v2/v3Snooping
支持IGMPFilter
支持IGMPFastleave
支持PIM-SM/PIM-DM/PIM-SSM
支持MSDP
支持AnyCast-RP
支持MLDv2/MLDv2Snooping
支持PIM-SMv6、PIM-DMv6、PIM-SSMv6
ACL/QoS
每单板最大支持16KACL
支持标准和扩展ACL
支持基于VLAN的ACL
支持Ingress/EgressACL
支持Ingress/EgressCAR,粒度可达8Kbps
支持两级Meter能力
支持VLAN聚合CAR,MAC聚合CAR功能
支持流量整形(TrafficShaping)
支持802.1P/DSCP优先级Mark/Remark
支持层次化QoS(H-QoS),支持三级队列调度
支持队列调度机制,包括SP、WRR、SP+WRR、CBWFQ
支持每端口8队列
支持拥塞避免机制,包括Tail-Drop、WRED
支持N:
2Mirroring
MPLS/VPLS
支持L3MPLSVPN
支持L2VPN:
VLL(Martini,Kompella)
支持MCE
支持MPLSOAM
支持VPLS,VLL
支持分层VPLS,以及QinQ+VPLS接入
支持P/PE功能
支持LDP协议
安全机制
支持EAD安全解决方案
支持Portal认证
支持MAC认证
支持IEEE802.1x和IEEE802.1xSERVER
支持AAA/Radius
支持HWTACACS,支持命令行认证
支持SSHv1.5/SSHv2
支持ACL流过滤机制
支持OSPF、RIPv2及BGPv4报文的明文及MD5密文认证
支持命令行采用分级保护方式,防止未授权用户的非法侵入,为不同级别的用户有不同的配置权限
支持受限的IP地址的Telnet的登录和口令机制
支持IP地址、VLANID、MAC地址和端口等多种组合绑定
支持uRPF
支持主备数据备份机制
支持故障后报警和自恢复
支持数据日志
系统管理
支持FTP、TFTP、Xmodem
支持SNMPv1/v2/v3
支持sFlow流量统计
支持RMON
支持NTP时钟
支持NetStream流量统计功能
可靠性
支持主控板1+1冗余备份
支持电源1+1冗余备份
采用无源背板设计
所有单板支持热插拔
支持VRRP
支持EthernetOAM(802.1ag和802.3ah)
支持MACTracert
支持RRPP
支持GracefulRestartforOSPF/BGP/IS-IS
支持DLDP
支持VCT
支持Smart-Link
支持热补丁
环境要求
温度范围:
0℃~45℃
相对湿度:
10%~95%(非凝结)
安规和EMC认证
通过了CE、FCCPART15、TUV-GS、UL-CUL、ICES003和VCCI的认证
电源
DC:
–48V~–60V
AC:
100V~240V
POE电源
支持内置PoE电源(S7506E-S不支持)
外形尺寸(宽×高×深)(mm)
436x708x420
436x575x420
436x930x420
436x575x420
436x441x420
436x175x420
436x175x420
满配重量(kg)
≤96kg
≤77kg
≤94kg
≤77kg
≤63kg
≤27kg
≤27kg
服务器常见的十四个故障分析解决方案
一、造成服务器无法启动的主要原因:
市电或电源线故障(断电或接触不良)
电源或电源模组故障
内存故障(一般伴有报警声)
CPU故障(一般也会有报警声)
主板故障
其它插卡造成中断冲突
二、服务器无法启动?
检查电源线和各种I/O接线是否连接正常。
检查连接电源线后主板是否加电。
将服务器设为最小配置(只接单颗cpu,最少的内存,只连接显示器和键盘)直接短接主板开关跳线,看看是否能够启动。
检查电源,将所有的电源接口拔下,将电源的主板供电口的绿线和黑线短接,看看电源是否启动。
如果判断电源正常,则需要用替换法来排除故障,替换法是在最小化配置下先由最容易替换的配件开始替换(内存、cpu、主板)
三、系统频繁重启?
造成系统频繁重启的原因:
电源故障(替换法判断解决)
内存故障(可从BIOS错误报告中查出)
网络端口数据流量过大(工作压力过大)
软件故障(更新或重装操作系统解决)
四、服务器死机故障判断处理:
服务器死机故障比较难以判断,一般分为软件和硬件两个方面:
软件故障
硬件故障
软件故障
首先检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因。
电脑病毒的原因。
系统软件的bug或漏洞造成的死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助。
软件使用不当或系统工作压力过大,可以请客户适当降低服务器的工作压力来看看是否能够解决
硬件故障
硬件冲突
电源故障或电源供电不足,可以通过对比计算服务器电源所有的负载功率的值来作出判断。
硬盘故障(通过扫描硬盘表面来检查是否有坏道)
内存故障(可以通过主板BIOS中的错误报告和操作系统的报错信息来判断)
主板故障(使用替换法来判断)
CPU故障(使用替换法)
板卡故障(一般是SCSI/RAID卡或其他pci设备也有可能造成系统死机,可用替换法判断处理)
注意:
系统死机故障需要在处理完后需要在一段时间内进行一定压力的拷机测试来尽一步检查故障是否彻底解决。
五、安装操作系统时提示找不到硬盘?
故障原因:
无物理硬盘设备
硬盘线缆连接问题
没有安装硬盘控制器驱动或驱动不相符
六、如何获得驱动程序?
使用随机光盘制作相应驱动
七、为什么用正确的驱动仍然无法加载硬盘控制器驱动?
查看是否启用了hostraid功能。
八、新购买的一块硬盘,安装到机器上之后,机器自检无法通过?
将新的硬盘取下,机器是否可以自检通过;
检查新增加的硬盘的ID号是否与原来的硬盘的ID号相同,如果硬盘的ID号相同的话,自检将无法通过。
九、如何格式化SCSI硬盘?
有操作系统的情况:
使用磁盘管理工具格式化;
无操作系统的情况:
在SCSI管理控制界面格式化;
以ADAPTECRaid卡为例:
开机-出现CTRL+A信息时,按CTRL+A进入-选中通道A
-选中SCSIUTILITY-将检测到硬盘-选中要检测的硬盘
-选中FORMAT可对硬盘进行全面格式化
选中VERIFY可对硬盘进行检测,检查是否有坏道
注意:
在格式化硬盘时不能中断或停电,不然会损坏磁盘
十、在Aisino系列中有RAID卡机器,当其中一个硬盘不能正常工作RAID报警,但系统能正常运行,怎么办?
用一个新硬盘,确保容量大于或等于不能正常工作的硬盘,最好用相同型号的硬盘替换即可。
RAID卡相关常见故障
第一类:
RAID卡本身有问题
经常表现为RAID信息丢失,硬盘经常掉线,不能做REBUILD,开机自检时检测不到硬盘或时间长。
典型故障A:
作完RAID1,安装操作系统,一切正常,但第二次重启系统时,发出报警声,经检查发现一块硬盘掉线,REBUILD后,又恢复正常,但重启后又掉线。
怀疑为硬盘故障,校验硬盘后均无问题。
最后更换RAID卡,故障解决。
典型故障B:
机器经常死机,且有时候启动速度非常慢。
观察系统日志,发现在系统启动时有这样一个错误提示:
设备/devices/scsi/port0在传输等待的时间内没有响应。
更换RAID卡后,恢复正常。
第二类:
硬盘本身问题
表现为硬盘掉线,在RAID阵列中的状态为DEAD,或者在作REBUILD时,作到某一进度就不能继续
典型故障:
硬盘掉线后,做REBUILD时,作到20%时出现错误提示无法继续进行。
在确认掉线硬盘,硬盘盒及SCSI电缆都能正常工作后,对在线硬盘进行校验,发现有坏道,修复硬盘,重做REBUILD,恢复正常。
第三类:
硬盘盒或模组的接触问题
此类问题经常表现为RAID卡根本检测不到硬盘,此类问题比较简单,但在处理硬盘盒相关机器时,需要注意一些问题。
典型故障:
RIAD卡中检测不到硬盘,把SCSI电缆接到主板的ULTRA160接口上,故障依旧,拔出硬盘盒(不包括硬盘盒后面的托架)更换,故障依旧,更换硬盘,还是不行。
最后卸下硬盘盒后面的托架(非热插拔部分),发现后托架上80PIN接口上的一根针弯曲,校直弯针,恢复正常。
十一、在服务器上使用的SCSI硬盘,为什么硬盘的ID号不能设置为7?
SCSI控制器中,默认将ID=7设置为硬盘控制器占,所以硬盘的ID号不能设置为7
十二、为什么开机自检无法通过?
解决方法:
机器切断电源,将机箱打开,用“COMSCLEAR”跳线的跳线帽将“COMSCLEAR”跳线的另外两个针短接(跳线参看主板说明书)
机器加电,自检,等机器自检完闭,报CMOS已被清除,然后将机器电源关掉,把跳线复原即可
机器重新开机
十三、物理内存插槽报错
解决方法:
开机-按F2进入“SETUP”-“ADVANCED”--“MEMORYCONFIGURATION”回车-“CLEARDIMMERRORS”直接回车
十四、为什么处理器报错或自检过程中只找到一个处理器?
解决方法:
开机--〉按F2键,进入"SETUP"
1、依次"MAIN"--〉"PROCESSOR"--〉"CLEARPROCESSORERRORS[]":
将此选项值设置为"YES";
2、依次"ADVANCED"--〉"RESETCONFIGURATIONDATA[]":
将此选项的值设置为"YES";
3、依次"SERVER"--〉"PROCESSORRESET[]":
将此选项的值设置为"YES";
4、依次"SERVER"--〉"SYSTEMMANAGEMENT":
回车--〉"CLEAREVENTLOG[]":
将此选项 的值设置为"YES"
5、按F10,保存退出