工程师手册PC平台V10.docx
《工程师手册PC平台V10.docx》由会员分享,可在线阅读,更多相关《工程师手册PC平台V10.docx(53页珍藏版)》请在冰豆网上搜索。
工程师手册PC平台V10
上海天玑科技股份有限公司
工程师手册
PCServer平台
技术中心符满仓
2009‐10‐15
版本:
1.0
文档信息
文档名称:
工程师工作手册-PC平台
文档所属部门:
上海天玑科技股份有限公司维保服务部
当前版本:
1.0发布日期:
2009/10/15文件级别:
✝普通秘密✝机密✝绝密
文档起草人:
符满仓
起草日期:
2009/10/12
文档负责人:
符满仓
责任人接管日期:
2009/10/12
复审人:
复审日期:
分发名单
来自From
日期
电话/传真
给To
行动*
截止日期
电话/传真
各地PC工程师
阅读
版本记录
版本编号
版本日期
修改者
说明
Version1.0
2009/10/12
符满仓
PCServer平台工作手册
文档摘要
本文档为PC平台工程师手册,包括“常见故障及处理流程”、“PC平台信息收取方法”。
产权说明
本文件中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容,除另有特别注明,版权均属上海天玑科技有限责任公司所有,受到有关产权及版权法保护。
任何个人、机构未经上海天玑科技有限责任公司的书面授权许可,不得复制或引用本文件的任何片断,无论是通过电子形式或非电子形式。
文档目的本文档的主要目的是指导工程师的日常工作,使其工作有规可循。
第一章常见故障建议处理流程
1.DISK故障的判断及处理
故障编号
PC0001
主机类型
■HP□IBM□DELL□其他
故障名称
PC主机硬盘故障
故障级别
■一般故障□严重故障□重大故障
故障描述
活动LED指示灯
(1)
联机LED指示灯
(2)
故障LED指示灯(3)
条件
灭
灭
灭
存在以下一种或多种情况:
1、驱动器未配置为阵列的一部分;
2、驱动器已配置为阵列的一部分,但它是当前未被访问或重建的更换驱动器;
3、驱动器已配置为联机备用驱动器;
如果驱动器连接到阵列控制器,则可以联机更换驱动器。
灭
灭
琥珀色
由于硬盘驱动器故障或子系统通信故障,驱动器已置为脱机状态。
需要更换驱动器。
亮、灭或闪烁
亮
灭
驱动器处于联机状态且以配置为阵列的一部分。
如果阵列的配置已考虑容错,阵列中其它所有驱动器都处于联机状态,并且接收到故障前兆警报或正在升级驱动器容量,则可以联机更换驱动器。
亮或闪烁
闪烁
灭
禁止卸下驱动器。
驱动器正在重建或正在扩展容量。
亮
灭
灭
禁止卸下驱动器。
该驱动器正被访问,但
(1)它尚未配置为阵列的一部分;
(2)它是更换的驱动器且尚未开始重建;(3)它在POST期间旋转加速
亮、灭或闪烁
亮或灭
闪烁
已接收到该驱动器的故障前兆警报。
请尽快更换驱动器
闪烁
闪烁
闪烁
禁止卸下驱动器。
存在以下一种或多种情况:
1、该驱动器属于阵列配置实用程序正在选择的阵列;2、已选定HPSIM中的驱动器标识;3、正在更新驱动器固件。
故障编号
PC0002
主机类型
□HP■IBM□DELL□其他
故障名称
PC主机硬盘故障
故障级别
■一般故障□严重故障□重大故障
故障描述
:
LED指示灯名称
含义
HarddiskdriveactivityLED:
WhenthisLEDisflashing,itindicatesthattheassociatedharddiskdriveisinuse.
HarddiskdrivestatusLED:
WhenthisLEDislitcontinuously
itindicatesthattheassociatedharddiskdrivehasfailed.
TheinterpretationofaflashingstatusLEDdependsontheSCSIcontrollerthatisconnectedtothehot-swapdrive,asfollows:
WhenthedriveisconnectedtotheintegratedSCSIcontrollerwithRAIDcapabilities,aflashingstatusLEDindicatesthatthedriveisasecondarydriveinamirroredpairandthedriveisbeingsynchronized.
WhenthedriveisconnectedtoanoptionalServeRAID™controller,aslowlyflashing(oneflashpersecond)statusLEDindicatesthatthedriveisbeingrebuilt.WhentheLEDisflashingrapidly(threeflashespersecond),itindicatesthatthecontrollerisidentifyingthedrive.
故障编号
PC0003
主机类型
□HP□IBM■DELL□其他
故障名称
PC主机硬盘故障
故障级别
■一般故障□严重故障□重大故障
故障描述
活动LED指示灯
状态指示灯
条件
灭
灭
主机未加电,或者主机未能识别硬盘
灭
亮
色绿
主机未进行数据对些
亮且闪烁
亮
绿色
主机进行数据读写或者和其他RAID组成员进行数据同步
亮或闪烁
亮
琥珀色
RAID组成员故障或者掉线
灭
亮
琥珀色
硬盘故障
故障处理方法
●询问、观察并初步分析故障情况,尤其是数据安全相关情况。
●强烈建议用户对数据进行备份。
●确认数据无安全隐患后再进行操作,否则需要进行风险分析,按相关流
程进行处理。
●通过RAID卡管理界面或者存储管理软件等对硬盘的状态以及RAID的
配置情况进行分析。
●确认无异常情况后,进行硬盘更换,若有两块硬盘先后掉线,需按单
块以及掉线顺序进行更换或者强制Online。
●根据指示灯以及系统相关情况确认故障恢复情况。
●恢复系统并协助用户恢复业务。
●和用户沟通故障情况以及大致处理过程,提出相应建议。
●填写现场服务报告,关闭CALL
编写人员
符满仓
编写日期
2009年10月12日
2.IOcard故障的判断及处理
2.1NIC常见故障定位及故障处理
故障编号
PC0004
主机类型
■HP■IBM■DELL■其他
故障名称
NIC常见故障定位及故障处理
故障级别
□一般故障■严重故障□重大故障
故障描述
●主机未能正确识别网卡
●主机和其他网络设备不能正常通信
●网络传输数据是丢包率高
故障处理方法
●定位故障原因(使用ping、tracert/traceroute等命令从不同节点定位、缩小故障范围)
●通过ipconfig/ifconfig等命令判断网络配置信息是否正确
●尝试使用“修复”,“servicenetworkrestart”手段重新启动网络功能。
●通过网卡指示灯、交换机端口指示灯判断链路物理问题
●重新插拔网卡,确认物理故障
编写人员
符满仓
编写日期
2009年10月12日
2.2SCSI卡常见故障定位及故障处理
故障编号
PC0005
主机类型
■HP■IBM■DELL■其他
故障名称
SCSI卡常见故障定位及故障处理
故障级别
□一般故障■严重故障□重大故障
故障描述
●主机自检时未能发现硬盘或者SCSI卡
●主机自检时报SCSI相关错误
●主机无法正常访问通过该SCSI卡连接的外部设备。
●其他故障
故障处理方法
●询问、观察并初步分析故障情况,尤其是数据安全相关情况。
●建议用户对数据进行备份。
●确认数据无安全隐患后再进行操作,否则需要进行风险分析,按相关流
程进行处理。
●查看主机自检时SCSI卡是否通过,进入SCSI卡控制界面查看配置信息
●重新插拔SCSI卡
●通过主机自带检测工具对SCSI卡进行检测。
●恢复系统并协助用户恢复业务。
●根据指示灯以及系统相关情况确认故障恢复。
●和用户沟通故障情况以及大致处理过程,提出相应建议。
●填写现场服务报告,关闭CALL。
编写人员
符满仓
编写日期
2009年10月12日
2.3RAID卡常见故障定位及故障处理
故障编号
PC0006
主机类型
■HP■IBM■DELL■其他
故障名称
RAID卡常见故障定位及故障处理
故障级别
□一般故障■严重故障□重大故障
故障描述
●主机自检过程中未能发现RAID卡
●主机自检过程中报RAID卡或者相关辅件故障(电池、Cache)
●主机光通道诊断工具中“DSAD”指示灯呈红色(IBM)
●主机安装操作系统或者读写文件时出现文件系统方面的报错可考虑RAID
卡故障
●主机开机后,未能检测到任何硬盘
●其他故障
故障处理方法
●询问、观察并初步分析故障情况,尤其是数据安全相关情况。
●建议用户对数据进行备份。
●确认数据无安全隐患后再进行操作,否则需要进行风险分析,按相关流程
进行处理。
●通过RAID卡管理界面或者存储管理软件等(ServerRaid、SmartStart
DellOpenManageArrayManager)对硬盘的状态以及RAID的配置情况进
行分析。
●确认为固件Bug还是硬件故障
●牢记RAID上数据线接入通道,根据FRU更换同一型号或者可替换的部件。
●启动设备,在RAID卡自检界面或者进入RAID卡管理界面,将RAID
信息从硬盘导入RAID卡(此步骤一定要小心谨慎,否则可能会丢失数据)。
●恢复系统并协助用户恢复业务。
●根据指示灯以及系统相关情况确认故障恢复。
●和用户沟通故障情况以及大致处理过程,提出相应建议。
●填写现场服务报告,关闭CALL。
编写人员
符满仓
编写日期
2009年10月12日
3.CPU、VRM、MotherBord故障的判断及处理
3.1CPU故障的判断及处理
故障编号
PC0007
主机类型
■HP■IBM■DELL■其他
故障名称
CPU故障
故障级别
□一般故障□严重故障■重大故障
故障描述
●主机不能启动
●主机光通道诊断工具“CPU”指示灯为琥珀色(IBM)
●主机前面板“内部运行故障指示灯”为琥珀色(HP部分机型)
●主机前面板“CPU模块报警指示灯”为琥珀色(HP高端机型)
●主机无输出信号
●主板上CPU故障指示灯为琥珀色
●主机出现离奇且间隔时间较长的不稳定故障可参考CPU故障
●其他故障
注:
CPU较其他任何部件都要更加稳定,极少出现故障
故障处理方法
●询问、观察并初步分析故障情况,尤其是业务运行相关情况。
●和用户协商在条件允许的情况下,对故障相关部件进行检测
●(可通过主机自带检测工具,相关软件,或者对相关部件重新插拔
更换位置)
●请确认CPU的相关参数和主机是否匹配以及CPU插槽是否正确
●若无条件进行检测或者难以判断,需要收集故障信息通过二线或
者专用软件进行分析
●IBM设备尤其注意先对主板以及BIOS等等的FW进行升级后在确认故障。
●更换故障部件
●恢复系统并协助用户恢复业务。
●根据指示灯以及系统相关情况确认故障恢复。
●和用户沟通故障情况以及大致处理过程,提出相应建议。
●填写现场服务报告,关闭CALL。
编写人员
符满仓
编写日期
2009年10月12日
3.2VRM故障的判断及处理
故障编号
PC0008
主机类型
■HP■IBM■DELL■其他
故障名称
VRM故障
故障级别
□一般故障□严重故障■重大故障
故障
描述
●主机不能启动
●主机光通道诊断工具“VRM”指示灯为琥珀色(IBM)
●主机前面板“内部运行故障指示灯”为琥珀色(HP部分机型)
●主机无输出信号
●主板上VRM故障指示灯为琥珀色
●主机不能启动
●其他故障
故障
处理
方法
●询问、观察并初步分析故障情况,尤其是业务运行相关情况。
●和用户协商在条件允许的情况下,对故障相关部件进行检测
●(可通过主机自带检测工具,相关软件,或者对相关部件重新插
拔,更换位置)
●更换故障部件
●恢复系统并协助用户恢复业务。
●根据指示灯以及系统相关情况确认故障恢复。
●和用户沟通故障情况以及大致处理过程,提出相应建议。
●填写现场服务报告,关闭CALL。
编写人员
符满仓
编写日期
2009年10月12日
3.3MotherBord故障的判断及处理
故障编号
PC0009
主机类型
■HP■IBM■DELL■其他
故障名称
MotherBord故障
故障级别
□一般故障□严重故障■重大故障
故障
描述
●主机不能启动
●主机自检过程中异常缓慢
●主机未出现任何报警或报错信息,但无法启动或无输出信号
●主机无输出信号
●主机经常死机或者重新启动可以参考主板故障处理
●其他故障
故障
处理
方法
●询问、观察并初步分析故障情况,尤其是业务运行相关情况。
●和用户协商在条件允许的情况下,对故障相关部件进行检测
●(可通过主机自带检测工具,相关软件,或者对相关部件最小化处理)
●更换主板
●恢复系统并协助用户恢复业务。
●根据指示灯以及系统相关情况确认故障恢复。
●和用户沟通故障情况以及大致处理过程,提出相应建议。
●填写现场服务报告,关闭CALL。
编写人员
符满仓
编写日期
2009年10月12日
4.FAN故障的判断及处理
故障编号
PC0010
主机类型
■HP■IBM■SUN■其他
故障名称
FAN故障
故障级别
■一般故障□严重故障□重大故障
故障描述
●主机液晶屏幕报“FANnisFault”之类的错误信息(DELL部分机型)
●主机“内部运行故障指示灯“报警(HP部分机型)
●主机光通道诊断工具“FAN”指示灯为琥珀色(IBM)
●主机前面板风扇图样的指示灯报警(DELL早期机型、HP部分机型)
故障处理方法
●询问、观察并初步分析故障情况,尤其是业务运行相关情况。
●和用户协商在条件允许的情况下,对故障相关部件进行检测
●可通过主机自带检测工具,相关软件,或者重新插拔确认故障
风扇位置(需注意StandbyFAN和SmartFan)
●更换故障部件
●恢复系统并协助用户恢复业务。
●根据指示灯以及系统相关情况确认故障恢复。
●和用户沟通故障情况以及大致处理过程,提出相应建议。
●填写现场服务报告,关闭CALL。
编写人员
符满仓
编写日期
2009年10月12日
5.Memory故障的判断及处理
故障编号
PC0011
主机类型
■HP■IBM■SUN■其他
故障名称
Memory故障
故障级别
□一般故障■严重故障□重大故障
故障描述
●主机无输出信号
●主机内存指示灯报警(IBM光通道诊断工具,HP运行状态指示灯报警可参考)。
●主机启动自检过程中长鸣。
●主机自检过程中未能通过内存检测或检测出内存大小和实际不符。
故障处理方法
●询问、观察并初步分析故障情况,尤其是业务运行相关情况。
●和用户协商在条件允许的情况下,对故障相关部件进行检测
●(可通过主机自带检测工具,相关软件或者内存重新插拔更换位置)
●检测或者更换故障部件时切记内存组合顺序以及数量
●更换故障内存条
●恢复系统并协助用户恢复业务。
●根据指示灯以及系统相关情况确认故障恢复。
●和用户沟通故障情况以及大致处理过程,提出相应建议。
●填写现场服务报告,关闭CALL。
编写人员
符满仓
编写日期
2009年10月12日
6.Power故障的判断及处理
故障编号
PC0012
主机类型
■HP■IBM■SUN■其他
故障名称
Power故障
故障级别
□一般故障■严重故障□重大故障
故障描述
●主机宕机且无法加电
●主机加电点无法启动
●主机液晶屏幕报“PSnisFault”类似的错误信息(DELL)
●主机前面板“闪电标志”的指示灯呈琥珀色(HP)
故障处理方法
●询问、观察并初步分析故障情况,尤其是业务运行相关情况。
●和用户协商在条件允许的情况下,停机,对障部件进行重新插拔。
●更换故障部件
●恢复系统并协助用户恢复业务。
●根据指示灯以及系统相关情况确认故障恢复。
●和用户沟通故障情况以及大致处理过程,提出相应建议。
●填写现场服务报告,关闭CALL。
编写人员
符满仓
编写日期
2009年10月13日
7、HPProLiant系列服务器-使用SmartStart光盘配置阵列卡过程
HPProLiant系列服务器-使用SmartStart光盘配置阵列卡过程
本文说明了HPProLiantML系统、DL系列服务器使用SmartStart光盘配置阵列卡过程。
进行测试的机器为ML370G3,加的阵列卡为SmartArray642阵列卡,本测试文档可以适用与ML(外加阵列卡)和DL(机器集成的阵列卡)系列的服务器,使用的导航光盘为SmartStart7.3CD。
1.机器的配置信息
2.使用导航光盘启动服务器,出现提示同意信息后,选择同意,进入下图的界面。
点击页选框的"Maintenance",然后点击"Launcharrayconfigurationutility......>",即可进入阵列卡的配置。
3.进入阵列卡的配置程序ArrayConfigurationUtility,简称ACU,加载阵列卡配置程序。
4.进入到配置界面。
左侧列出检测到的阵列卡,中间列出阵列卡的信息,右侧配置阵列卡。
图示的左侧列出检测到控制卡为:
SmartArray642ControllerinSlot2。
如果点击下方的RescanControllers,可以重新搜索控制器。
中间列出控制器的详细信息。
SmartArray642Controller….,当前机器的硬盘为36.4GB。
右侧选项为
∙CreateArray:
创建阵列
∙Refresh:
刷新
∙ExpressConfiguration:
快速配置
∙ConfigurationWizards:
使用配置向导进行阵列的配置
5.选择右边的"CreateArray"来创建阵列,选择需要加入到阵列的硬盘
6.选择"OK"出现的的界面,能看到,已经把硬盘加到"ArrayA"中,空间的大小为"34727MB"
同时,可以在右边看到新的三个选项"CreateLogicalDrive","Deletet","MoreInformation"
选择"CreateLogicalDrive"
7.进入到"CreateLogicalDrive"的界面,可以看到最右边出现做阵列的一些设置,都选为默认FaultTolerance:
RAID的级别为RAID0
∙StripeSize:
RAID条带化的大小:
128KB
∙Size:
阵列第大小
"MaxBoot"有两个选项a:
Disableb:
Enable最大的引导空间
"ArrayAccelerator"有两个选项a:
Disableb:
Enable阵列加速器设置
8.选择"OK",提示"Save"保存。
9.选择"Save",保存,出现的提示信息。
10:
选择"OK",正在保存配置信息
11.保存完出现的界面。
阵列卡配置到此完成了,后面为查看配置信息。
12.进入"ControllerSettings"的界面,可以看到四个选项,依次为:
∙ExpandPriority:
扩展优先权
∙RebuildPriority:
重建优先权
∙CacheRatio:
读写比例
∙SurfaceScanDelay:
搜索的延迟时间
13.选择"LogicalDrive1(34727MB,RAID0),选择"MoreInformation",可以看到配置阵列的详细信息
8、HPProLiant服务器-在不破坏原有系统的情况下配置RAID
在已经安装操作系统的服务器上,通常会有这样的需求,如:
添加硬盘配置新阵列,扩容阵列,阵列级别迁移,以及添加HOTSPARE硬盘这样的配置操作,前提条件是不破坏当前阵列和阵列上的数据,这样就需要使用ACU(ConfigureAvailableUtility)工具来进行在线配置。
ACU可以通过两种方式安装在操作系统下:
●1.使用SMARTSTARTCD引导安装操作系统
●2.在操作系统下安装PSP(proliantsupportpark)包,具体安装方法在这里不再赘述(请参考相关ACU安装文档)。
注:
任何针对数据的操作都需要提前做好重要数据的备份工作。
●加硬盘配置新阵列方式如下
a.在ACU中识别到新得硬盘后,点createarray创建新阵列
b.在ceartearray中添加新识别到得硬盘,点ok后创建出一个新阵列arrayB