小型机培训课程.docx
《小型机培训课程.docx》由会员分享,可在线阅读,更多相关《小型机培训课程.docx(22页珍藏版)》请在冰豆网上搜索。
小型机培训课程
小型机
日常维护/故障定位/故障排除
培训手册/操作指南
第一章、机房环境及物理检查
一、机房内环境要求
1.温度与湿度:
最佳工作温度:
20-25摄氏度
极限工作温度:
10-40摄氏度
湿度:
8-80%(在23摄氏度条件下)
如果不是工作在最佳温度,请注意改善机房环境
2.同时机房要保证清洁.
机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。
二、电源要求
电压:
要求电压稳定,尖峰电压会损坏设备
电压范围:
220V+/-10%,即200-240V,50-60Hz
电源功率:
视机器类型和系统配置而定
电源线:
标准的零,地,火三相电,其中零,地电压不得超过3.0V.
电源接驳:
用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.
三、硬件检查
检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。
服务器状态检查:
1.当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。
2.当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。
可以通过查询相关机型的ServiceGuide查到相应告警原因,情况严重的,则要立即通知技术专家进行问题排查。
7133状态检查:
磁阵前面板上有7133机柜的状态灯(与电源灯并排)和各硬盘的状态灯(一排小灯,与各硬盘位置一一对应)。
1.当机柜的状态灯出现橙黄色时,说明有硬件告警,此时要检查磁柜的电源、接线、硬盘等。
如果有硬件故障则立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。
2.当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时或SSA环路出现问题时,则硬盘状态灯将熄灭,或者呈闪烁状态:
以1~3秒的频率有规律地、不停地闪烁
第二章、系统日常维护流程
2.1系统启动
系统启动正常顺序如下:
首先对外设(磁盘阵列、磁带库等)加电。
待所有外设加电自检完成后,主机加电正常起机。
主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色POWER键起机.
启动主机HACMP,启动后可用命令tail-f/tmp/hacmp.out来检查启动情况,在HACMP未完全启动前不要进行下一步。
检查服务器的网络地址,路由表(可用netstat-i,netstat-rn等),检查文件系统,逻辑卷(可用mount,lsvg-o等)。
检查各项应用是否工作正常。
2.2系统关闭
停止HACMP(smittyclstop)。
查看HACMP的状态,检查服务器的网络地址,路由表(可用netstat-i,netstat-rn等),检查文件系统,逻辑卷(可用mount,lsvg-o等)。
在HACMP未完全停止前不要进行下一步。
关闭主机(shutdown–F)。
重启系统可以使用:
shutdown-Fr
如有必要的话,按磁盘阵列前方的白色按钮关闭磁盘阵列。
2.3查看系统的错误记录
在系统运行时,一些系统错误会记录在errlog中,其中有些错误还会在终端上显示。
检查错误日志可用以下命令:
#errpt|more查看系统所有的记录
IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTION
E85C5C4C0426104399PSCFGLFTSOFTWAREPROGRAMERROR
2BFA76F60426104099TSSYSPROCSYSTEMSHUTDOWNBYUSER
9D4CF6E70426104399TOerrdemonERRORLOGGINGTURNEDON
1E2AC07E0426103999TOerrdemonERRORLOGGINGTURNEDOFF
1E5EER4T0423132999TOclstrmgrOPERATORNOTIFICATION
其中
IDENTIFIER为错误编号,当需要检查详细信息时常会用到。
TIMESTAMP为时间标签,它记录的是出错时间,其格式:
月月日日时时分分年年
T为Type,它记录的是错误类型
P:
为永久错误,需引起注意
T:
为临时错误。
C为Class,它记录的是错误种类,如
H:
Hardware
S:
Software
O:
Errlogercommandmessages
U:
undetermined
RESOURCE_NAME为错误来源
DESCRIPTION为错误描述
#errpt-aj查看系统详细记录内容
其中IDENTIFIER为错误编号,如#errpt-aj0426104399
#errpt-dH查看系统所有的硬件出错记录
2.4系统与数据备份
有效及时的系统备份是系统管理的非常重要的一环。
当系统出现故障时,特别是文件系统被严重损坏或硬盘损坏时,常需要使用系统备份来恢复系统。
在以下情况下应做系统备份:
1、新装机。
在硬件及系统软件安装完成后,应做系统备份。
2、软件改动。
系统软件或应用软件有改动时,应做系统备份。
3、定期备份。
对系统进行定期备份,最好每两或三个月做一次备份。
系统备份操作介绍:
在命令行中输入smittymksysb,可见到以下画面:
按F4键,见到以下画面:
通过上下键选择备份的目标设备(选/dev/rmt0磁带机),
按回车,见到以下画面:
再按回车,开始备份,直到见到以下画面,表示备份完成:
备份注意事项:
进行系统备份无须停止业务,业务可以继续进行。
建议客户进行定期的系统备份(使用命令smittymksysb)。
客户也可根据需要利用SMIT对系统的特定的VG或FS进行备份。
smittymksysb只备份rootvg中mount起来的文件系统,其它文件系统或数据并没有做备份,所以数据备份需要另外完成(建议客户使用TAR格式)
在条件允许的情况下,最好有一盘以上备份带,以防止磁带损坏。
系统备份过程中有时候会提示有些/tmp目录下的文件无法备份,显示如下:
Creatinglistoffilestobackup...
Backingup34025files..............................
1694of34025files(4%)..............................
2733of34025files(8%).........backup:
0511-449Anerroroccurredaccessing./
tmp/sh34736.1:
Afileordirectoryinthepathnamedoesnotexist.
backup:
0511-449Anerroroccurredaccessing./tmp/sh34736.2:
Afileordirector
yinthepathnamedoesnotexist.
backup:
0511-449Anerroroccurredaccessing./tmp/sh34736.3:
Afileordirector
yinthepathnamedoesnotexist.
.....................
15458of34025files(45%)..............................
31920of34025files(93%)...........
0512-003mksysbmaynothavebeenabletoarchivesomefiles.
ThemessagesdisplayedontheStandardErrorcontainedadditional
information.
这是正常现象,备份成功。
2.5系统恢复
当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统,在与客户进行蹉商后,可将最近一次的系统备份带倒回机器内以全面恢复系统到最近一次做备份时的系统环境,然后可将当日的数据备份再倒回系统内。
至此,系统可恢复正常运行。
此后,客户应当与工程师再进行整个事件的全面分析与回顾,以期找到故障发生的原因,并采取相应措施以杜绝类似事件再次发生。
2.6DUMP
当系统运行出现软件故障导致系统down机时,机器的液晶显示器会出现888102xxx0c0(xxx可能为700或其它),AIX常会将当时系统的运行情况记录下来,这就是DUMP。
当DUMP产生后,请将磁带放入磁带机,用命令#snap-a-o/dev/rmt0将DUMP文件拷贝到磁带设备/dev/rmt0中。
注明磁带机的blocksize,DUMP产生的日期和机器的型号及序列号。
同时,请用#errpt-a>/tmp/err.log将errorlog记在/tmp/err.log中,并将/tmp/err.log和/tmp/hacmp.*拷贝到软盘或磁带上。
将磁带和软盘交给工程师。
2.7日常检查服务器状态的项目及其相关命令
1运行lsdev命令配以各种参数,所列各种设备状态都应为Available。
#lsdev–C–H–Sa列出系统中可用设备。
#lsdev–Ccprocessor列出系统中的所有CPU。
#lsdev–Ccmemory列出系统中的所有内存。
#lsdev–Ccdisk列出系统中的所有硬盘。
#lsdev-Ccadapter|grepent列出系统中的所有网卡
#lsdev-Ccadapter|grepscsi列出系统中的所有SCSI卡。
#lsdev-Ccadapter|grepssa列出系统中的所有SSA卡。
2lspv命令
#lspv显示系统中可用的PV。
#lspvhdiskn显示hdiskn的具体信息。
#lsdev–Ccpdisk显示磁盘阵列的硬盘的具体信息。
对SSA硬盘的检测:
在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运行以下命令“lsdev–Ccpdisk“,应该可以看到所有SSA硬盘,并且状态应为Available.。
3lsattr命令
#lsattr–E–lmem0列出系统中内存mem0的大小,本项目中内存有4GB。
4lsvg命令
#lsvg列出系统中所有的vg。
#lsvgrootvg列出rootvg的详细信息。
#lsvg–o列出激活的vg
5oslevel命令
#oslevel显示操作系统版本信息。
6netstat命令
#netstat–in显示系统中各网卡的配置。
可查看网卡的IP配置好了没有。
7通过运行#diag命令运行硬件诊断程序检测主机内所有硬件,检测结果为“Notroublefound”显示各部分工作正常。
8使用#diag命令(选择:
TaskSelection->SSAServiceAids)对SSA硬盘链路连接的校验,可以通过SSA工具里的LinkVerification来检测。
如有必要,可以用CertifyDisk运行硬盘诊断部分进行硬盘的表面分析测试,由1%至100%,检测结果显示主机内置硬盘的所有扇区均读写正常。
9lsps–a查看PAGINGSPACE的使用情况,如果使用率超过70%,就需要采取措施。
10lsvg–o|lsvg–il|grep–istale查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施
11有否发给root用户的错误报告(mail)。
12检查双机状态:
lssrc–gcluster检查ha三个工作进程是否激活,/usr/sbin/cluster/clstat–a检查双机状态是否up,并检查hacmp.out日志,看是否有异常信息。
13用vmstat,topas,sar命令检查系统性能,检查cpu\memoyr\IO,是否存在性能瓶颈。
14检查能否顺利进入CDE界面,如果不能进入的话,要检查/etc/hosts表中有否错误的项目。
15用smittyssaraid查看磁盘阵列RAID盘的状态是否是Good。
如果是degrade或其他状态表示RAID盘出现问题了
16用sysdumpdev–l查看系统的DUMP设置是否正常。
17用instfix–ik|grepML当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。
一般要求433操作系统补丁要打到10以上,5.1操作系统补丁要打到5以上
18使用df–kP查看磁盘空间占用率,请确保以下文件系统的占用率高于80%立即上报:
//var/usr/home/tmp/zxindata/zxinbak,其余文件系统的占用率高于95%立即上报
也可以到各文件系统下使用组合命令:
find.–size+2048–octime1–execls–l{}\;查出大于1M或一天之内修改过的文件。
2.8性能监控与调优
通过命令vmstat1来观察.
kthrmemorypagefaultscpu
---------------------------------------------------------------
rbavmfrerepipofrsrcyinsycsussyidwa
命令解析:
vmstat命令的输出可以反映系统整体运行状况,包括cpu、内存、虚拟页面、系统进程和系统调用情况。
检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值.
检查MEM是否为瓶颈,分别检查Memory的两项数值和Page的六项数值.
通过命令sar–mu–PALL来观察。
命令解析:
sar可以用来收集反映系统运行状况,在这里主要是查看CPU的运行状况,CPU是否负载均衡,是否存在分配不均的情况。
通过命令psgv|more来观察。
PIDTTYSTATTIMEPGINSIZERSSLIMTSIZTRS%CPU%MEMCOMMAND
0-A4:
2071214516xx0145040.05.0swapper
1-A1:
3310378952790443276825360.029.0/etc/init
命令解析:
ps可以用来查看进程的当前状态。
在这里通过参数的配搭,可以观察目前正在运行的进程所耗的时间,CPU和memory量.其中,%CPU表示进程所占用的CPU资源情况,%MEM表示进程所占用的内存情况。
主要检查是否有标示为的僵尸进程耗用系统资源,以及informix数据库的oninit进程的系统消耗情况。
在机器上用dd命令进行磁盘阵列的写操作校验,与此同时用iostat1–dhdiskX观察磁盘。
Disks:
%tm_actKbpstpsKb_readKb_wrtn
命令解析:
iostat可以用来查看系统的 I/O的输入输出情况,在这里主要查看阵列上的硬盘的每秒读写量,同时估算磁盘阵列读写速度
。
通过命令netstat–a进行查看。
ActiveInternetconnections(includingservers)
ProtoRecv-QSend-QLocalAddressForeignAddress(state)
命令解析:
netstat可以用来查看系统的网络情况,在这里主要是查看网络客户端连接的情况和开销,检查参数为state,如有死连接,state状态为fin_wait,这样耗用系统网络资源,从而导致网络性能下降构成瓶颈。
2.9安全工作守则
a.系统定期进行系统备份,系统盘建议镜像。
b.当有系统变更或进行操作系统补丁安装的时候,必须作一次系统备份。
c.在7133和shark发现有硬盘故障的时候,请提醒客户注意当天的数据备份。
在更换硬盘的时候,请确认当天数据备份已经完成。
d.在更换敏感的电子元件,时候一定要防静电。
e.在插拔外围设备的时候,请把外围设备下电。
f.在进行主机微码升级时候,请留意微码的完整性。
g.在进行文件删除的时候,请留意当前路径是否正确。
h.在进行文件解压缩的时候,请留意参数和路径。
第三章、故障定位、故障排除
根据我们在实际商用系统中碰到问题,我们总结出了以下几种常见故障及其定位方式和解决方法。
3.1硬件故障
硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:
致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:
其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:
主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等
注:
I/O柜和CEC柜一般在比较高端的小型机才有,如M80,低端的是合一的。
这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照ServiceGuide查的错误原因,如果是工作状态下出现这些硬件损坏,则系统将被挂起或宕机。
其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括:
网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备
这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。
故障定位和排除:
以上硬件故障信息都可以使用:
液晶屏上的错误码或:
errpt–dH查看到
根据错误码确定是什么硬件出了故障,对商用系统来讲,由于是双机系统,如果损坏机器是主机可以将此服务器切换成备机,然后修复故障机器,恢复系统。
3.2磁阵故障
磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括:
磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等
都可能造成7133的异常。
7133磁阵的问题是最复杂的,一般有物理损坏的原因也有环境原因,这是主因,如接线、插盘位置不符合要求、未及时查看系统告警等造成系统中断等辅因。
按照我们的经验,不管是什么硬件故障导致7133故障,系统都会产生告警,如果能及时发现问题并采取措施,一般都能防止故障的发生。
故障定位:
7133硬件故障也可以使用:
errpt–dH查看到
伴随的错误码有:
B4C006180115140004PHssa0RESOURCEUNAVAILABLE
FE9E93570401082304PHssa0DISKOPERATIONERROR
FE9E93571205000803PHpdisk3DISKOPERATIONERROR
03913B941122031103UHLVDDHARDWAREDISKBLOCKRELOCATIONACHIEVED
613E5F381121125103PHLVDDI/OERRORDETECTEDBYLVM
625E6B9A0401090004PHssa0ADAPTERDETECTEDOPENSERIALLINK
26CA120B0206081104PHssa0CACHESTORAGECARD
所有的错误码都预示着7133有异常,红色部分则表示肯定出现了硬件故障,需要立即进行检查并采取措施,否则磁阵将很快不能访问。
对于蓝色部分:
625E6B9A0401090004PHssa0ADAPTERDETECTEDOPENSERIALLINK
表示ssa出现了开环,出现开环不仅影响IO性能,也增加了风险,即如果另一个环路也出现问题,将不能访问磁阵。
开环一般有两种情况:
1)如果625E6B9A报错比较频繁,如每天几次,则表示系统很有可能出了硬件故障,虽然不会导致访问磁阵失败,但需要立即查出原因并解决。
查错方法可以参考下面的描述。
2)如果625E6B9A错误偶尔报一次,则要具体情况具体对待,有可能是读写忙出现的误报,也按下面方法进行排查,如果没有查出具体的原因,则可以继续观察。
26CA120B0206081104PHssa0CACHESTORAGECARD
该错误一般是在:
SSA卡带writecache并打开FastWrite,而ssa卡上用于writecache供电的可充电镍镉电池达到或接近安全寿命的情况下产生的。
这类错误产生将影响IO写性能,并且由于在FastWrite打开的情况下,主备机需要同步ssa卡上的writecache,所以甚至会影响到主备机同步。
具体解决方法可参考下文。
故障排除:
对于红色部分错误的问题排除,一般可以使用diag命令进行进一步诊断:
#diag->TaskSelection->SSAServiceAids->LinkVerification
检查环路中是否出现了?
?
?
的盘符或状态不是good的硬盘
或使用:
#smittyssaraid->ListAllDefinedSSARAIDArrays
查看磁盘阵列RAID盘的状态是否是Good。
如果是degrade或其他状态表示RAID盘出现问题了
这时候不建议再进行单独硬盘的Certify,而是赶紧通知准备好相同型号和大小的硬盘(至少两块)到现场进行进一步的诊断和坏盘更换。
625E6B9A0401090004PHssa0ADAPTERDETECTEDOPENSERIALLINK
的排查方法:
1、要求将7133中未插硬盘的槽位全部插上dummy盘。
(dummy盘:
哑元盘,就是那个空壳子,相当于代替SSA硬盘装在磁盘阵列的塑料模型,当磁盘阵列的16个槽位没有被SSA硬盘插满时才用到.)
2、看看Loop状态:
diag--->TaskSelection-->SSAServiceAids-->LinkVerification.正常AdapterPort下的两列数字是连续不间断的排列,且Status都为good,如果Physical列有?
?
?
?
?
?
?
符号.或Status不是good,则说明已经存在硬盘或链