IBMP750小型机日常维护手册范本.docx
《IBMP750小型机日常维护手册范本.docx》由会员分享,可在线阅读,更多相关《IBMP750小型机日常维护手册范本.docx(15页珍藏版)》请在冰豆网上搜索。
IBMP750小型机日常维护手册范本
IBMP750小型机
日常维护手册
一、服务器硬件运行状态检查
1.当服务器处于启动和正常工作状态时,其前面板上的状态灯(与电源灯并排)和各硬盘的状态灯(一排小灯,与各硬盘位置一一对应)应显示为绿色。
2.当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查服务器的电源、接线、硬盘等。
如果有硬件故障则需要立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。
3.当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时,则硬盘状态灯将熄灭,或者呈闪烁状态:
以1~3秒的频率有规律地、不停地闪烁。
如果发现有服务器硬件状态灯不正常的情况,请及时联系我公司工程师,以便及时进行诊断并解决故障。
二、HMC(硬件管理平台)管理与操作
HMC的两种访问途径:
1、在机房直接通过显示器和键盘进行管理维护等相关操作
2、通过web远程访问,登录HMCweb管理界面,访问地址为:
https:
//
1、登录HMC
1.1浏览器访问连接HMC后,首页界面如下图所示。
1.2点击下图所示,进入HMC验证登录界面。
1.3输入用户名与口令,登录HMC。
用户名:
hscroot
口令:
1.4成功登录到HMC管理界面如下图所示。
2、注销HMC
在HMCconsole右上角有(hscroot|help|logoff),单击logoff,会出现如下图所示注销界面:
选择Logoff,系统返回到HMC初始登录界面状态。
3、重启HMC
左边导航栏中选择HMCManagementshutdownorRestart,如下图所示,对HMC进行正常重启及关机操作。
请谨慎对HMC进行关机和重启操作!
4、状态栏功能
状态栏位于HMC左下角位置,如下图所示,负责监控并反映管理系统资源状态和HMC状态。
单击每个图标状态可以列出详细状态,你可以查到更详细的帮助信息:
:
非法操作,如果任何被管理的主机执行了非法操作,这个图标将会变亮。
:
黄灯警告,如果任何被管理的主机有错误并有黄灯被点亮,这个图标也将会变亮
:
报错日志:
日志中有报错信息,这个图标将会变亮,此项与
:
摘要,摘要中会将有用信息做统计并显示在工作栏中。
5、ServiceManagement
导航栏中ServiceManagement强大的管理功能给用户日常维护提供了更简单直观的界面,如下图所示,
但日平时最常用的子项是ManageServiceableEvents,如下图步骤可以对HMC所管理的设备进行日常错误及时直观的观察,以确保IBM小型机能正常工作,下图就是基本的操作方法图示:
ServiceManagementManageServiceableEvents
6、ServicePlans-分区管理与操作
6.1如何查看小型机资源配置:
如上图红色标注所示,选中所需查看主机(备注:
请不要同时选中多台主机及多个分区),在下拉菜单中选中“Properties”,打开参数窗口,通过“Properties”可以查看主机运行状态,CPU,存,I/0等重要硬件系统参数,如下图所示。
同理,在分区区域中先中每分区后的Properties选项,便可以直观方便的掌握分区状态和资源配置信息。
6.2如何开关机及激活分区:
关机。
开机。
Operation项中主要包含小型机及分区开关机,及消除报警灯这两项功能,如虽要对小型机下电操作,请先将图15中的分区Deactivate(建议:
最好在操作系统中按照正常流程将操作系统shutdown),最后再将主机poweroff。
注意:
非特殊情况,无专业人员指导,严禁进行开关机操作!
6.3手动消除黄灯警告
如下两图所示,Operations中LEDstatus,及DeactivateAttentionLED两项中所指,针对不同分区或主机所报出的警告黄灯,进行特定的消除黄灯操作。
6.4如何打开控制终端(TerminalWindow)
在HMC上对分区操作系统进行操作,可以通过分区下拉菜单ConsoleWindow-OpenTerminalWindow对选中分区进行操作,如图所示,操作界面如同telnet界面。
在HMC中同一分区只允许打开一个TerminalWindow,如试图打开第二个窗口,系统提示如图17所示界面。
三、AIX系统日常维护
1、查看系统的错误记录
很重要,应该定期查看,如发现有硬件(H)类型的报错,应该及时关注。
在系统运行时,一些系统错误会记录在errlog中,其中有些错误还会在终端上显示。
检查错误日志可用以下命令:
#errpt|more查看系统所有的记录
IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTION
E85C5C4C0426104399PSCFGLFTSOFTWAREPROGRAMERROR
2BFA76F60426104099TSSYSPROCSYSTEMSHUTDOWNBYUSER
9D4CF6E70426104399TOerrdemonERRORLOGGINGTURNEDON
1E2AC07E0426103999TOerrdemonERRORLOGGINGTURNEDOFF
1E5EER4T0423132999TOclstrmgrOPERATORNOTIFICATION
其中
IDENTIFIER为错误编号,当需要检查详细信息时常会用到。
TIMESTAMP为时间标签,它记录的是出错时间,其格式:
月月日日时时分分年年
T为Type,它记录的是错误类型
P:
为永久错误,需引起注意
T:
为临时错误。
C为Class,它记录的是错误种类,如
H:
Hardware
S:
Software
O:
Errlogercommandmessages
U:
undetermined
RESOURCE_NAME为错误来源
DESCRIPTION为错误描述
#errpt-aj查看系统详细记录容
其中IDENTIFIER为错误编号,如#errpt-aj0426104399
#errpt-dH查看系统所有的硬件出错记录
2、日常检查服务器状态的项目及其相关命令
2.1运行lsdev命令配以各种参数,所列各种设备状态都应为Available。
#lsdev–C–H–Sa列出系统中可用设备。
#lsdev–Ccprocessor列出系统中的所有CPU。
#lsdev–Ccmemory列出系统中的所有存。
#lsdev–Ccdisk列出系统中的所有硬盘。
#lsdev-Ccadapter|grepent列出系统中的所有网卡
#lsdev-Ccadapter|grepscsi列出系统中的所有SCSI卡。
#lsdev-Ccadapter|grepssa列出系统中的所有SSA卡。
2.2lspv命令
#lspv显示系统中可用的PV。
#lspvhdiskn显示hdiskn的具体信息。
#lsdev–Ccpdisk显示磁盘阵列的硬盘的具体信息。
2.3lsattr命令
#lsattr–E–lmem0列出系统中存mem0的大小,本项目中存有4GB。
2.4lsvg命令
#lsvg列出系统中所有的vg。
#lsvgrootvg列出rootvg的详细信息。
#lsvg–o列出激活的vg
2.5oslevel命令
#oslevel显示操作系统版本信息。
2.6netstat命令
#netstat–in显示系统中各网卡的配置。
可查看网卡的IP配置好了没有。
2.7diag命令
通过运行#diag命令运行硬件诊断程序检测主机所有硬件,检测结果为“Notroublefound”显示各部分工作正常。
2.8lsps查看页面空间
lsps–a查看PAGINGSPACE的使用情况,如果使用率超过70%,就需要采取措施。
2.9查看LV(卷)状态
lsvg–o|lsvg–il|grep–istale查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施
2.10查看mail
#mail,查看有否发给root用户的错误报告(mail)。
3、检查文件系统
查看有没有“满”的文件系统。
文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。
如/(根文件系统)满则会导致用户不能登录。
#df-k(查看AIX的基本文件系统)
Filesystem1024-blocksFree%UsedIused%IusedMountedon
/dev/hd424576145295%259922%/
/dev/hd26144002806896%2296715%/usr
/dev/hd9var8192454045%64932%/var
/dev/hd31679361579686%891%/tmp
/dev/hd116384533268%140235%/home
除/usr文件系统,其他文件系统都不应太满,一般不超过80%。
4、性能监控与调优
4.1通过topas来观察
topas能够将系统的全局信息,包括CPU、存、磁盘、网络、文件系统、事件队列、文件等信息,排列在一个统一的界面上进行展示。
bash-4.3#topas
TopasMonitorforhost:
localhostEVENTS/QUEUESFILE/TTY
WedFeb2210:
42:
002017Interval:
2CswitchReadch
SyscallWritech
CPUUser%Kern%Wait%Idle%ReadsRawin
WritesTtyout
ForksIgets
NetworkBPSI-PktsO-PktsB-InB-OutExecsNamei
RunqueueDirblk
Waitqueue
DiskBusy%BPSTPSB-ReadB-WritMEMORY
PAGINGReal,MB
Faults%Comp
FileSystemBPSTPSB-ReadB-WritSteals%Noncomp
PgspIn%Client
PgspOut
NamePIDCPU%PgSpOwnerPageInPAGINGSPACE
PageOutSize,MB
Sios%Used
%Free
NFS(calls/sec)
SerV2WPARActiv
CliV2WPARTotal
SerV3Press:
"h"-help
CliV3"q"-quit
SerV4
4.2通过命令vmstat1来观察.
kthrmemorypagefaultscpu
---------------------------------------------------------------
rbavmfrerepipofrsrcyinsycsussyidwa
命令解析:
vmstat命令的输出可以反映系统整体运行状况,包括cpu、存、虚拟页面、系统进程和系统调用情况。
检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值.
检查MEM是否为瓶颈,分别检查Memory的两项数值和Page的六项数值.
4.3通过命令sar–mu–PALL来观察。
命令解析:
sar可以用来收集反映系统运行状况,在这里主要是查看CPU的运行状况,CPU是否负载均衡,是否存在分配不均的情况。
4.4通过命令psgv|more来观察。
PIDTTYSTATTIMEPGINSIZERSSLIMTSIZTRS%CPU%MEMCOMMAND
0-A4:
2071214516xx0145040.05.0swapper
1-A1:
3310378952790443276825360.029.0/etc/init
命令解析:
ps可以用来查看进程的当前状态。
在这里通过参数的配搭,可以观察目前正在运行的进程所耗的时间,CPU和memory量.其中,%CPU表示进程所占用的CPU资源情况,%MEM表示进程所占用的存情况。
主要检查是否有标示为的僵尸进程耗用系统资源,以及informix数据库的oninit进程的系统消耗情况。
4.5通过命令iostat1–dhdiskX观察磁盘
在机器上用dd命令进行磁盘阵列的写操作校验,与此同时用iostat1–dhdiskX观察磁盘。
Disks:
%tm_actKbpstpsKb_readKb_wrtn
命令解析:
iostat可以用来查看系统的I/O的输入输出情况,在这里主要查看阵列上的硬盘的每秒读写量,同时估算磁盘阵列读写速度。
4.6通过命令netstat–a进行查看。
ActiveInternetconnections(includingservers)
ProtoRecv-QSend-QLocalAddressForeignAddress(state)
命令解析:
netstat可以用来查看系统的网络情况,在这里主要是查看网络客户端连接的情况和开销,检查参数为state,如有死连接,state状态为fin_wait,这样耗用系统网络资源,从而导致网络性能下降构成瓶颈。
以上所有命令及参数的相关含义和详细信息,请参考AIX命令大全。