系统日常维护文档格式.docx
《系统日常维护文档格式.docx》由会员分享,可在线阅读,更多相关《系统日常维护文档格式.docx(11页珍藏版)》请在冰豆网上搜索。
其中IDENTIFIER为错误编号,当需要检查详细信息时常会用到。
TIMESTAMP为时间标签,它记录的是出错时间,其格式:
月月日日时时分分年年
T为Type,它记录的是错误类型
P:
为永久错误,需引起注意
T:
为临时错误。
C为Class,它记录的是错误种类,如
H:
Hardware
S:
Software
O:
Errlogercommandmessages
U:
undetermined
RESOURCE_NAME为错误来源
DESCRIPTION为错误描述
#errpt-aj<
IDENTIFIER>
查看系统详细记录内容
其中IDENTIFIER为错误编号,如#errpt-aj0426104399
#errpt-dH查看系统所有的硬件出错记录
1.4系统与数据备份
有效及时的系统备份是系统管理的非常重要的一环。
当系统出现故障时,特别是文件系统被严重损坏或硬盘损坏时,常需要使用系统备份来恢复系统。
在以下情况下应做系统备份:
1、新装机。
在硬件及系统软件安装完成后,应做系统备份。
2、软件改动。
系统软件或应用软件有改动时,应做系统备份。
3、定期备份。
对系统进行定期备份,最好每两或三个月做一次备份。
系统备份操作介绍:
在命令行中输入smittymksysb,可见到以下画面:
mksysb–miX/dev/rmt0
按F4键,见到以下画面:
通过上下键选择备份的目标设备(选/dev/rmt0磁带机),
按回车,见到以下画面:
再按回车,开始备份,直到见到以下画面,表示备份完成:
备份注意事项:
进行系统备份无须停止业务,业务可以继续进行。
建议客户进行定期的系统备份(使用命令smittymksysb)。
客户也可根据需要利用SMIT对系统的特定的VG或FS进行备份。
smittymksysb只备份rootvg中mount起来的文件系统,其它文件系统或数据并没有做备份,所以数据备份需要另外完成(建议客户使用TAR格式)
在条件允许的情况下,最好有一盘以上备份带,以防止磁带损坏。
系统备份过程中有时候会提示有些/tmp目录下的文件无法备份,显示如下:
Creatinglistoffilestobackup...
Backingup34025files..............................
1694of34025files(4%)..............................
2733of34025files(8%).........backup:
0511-449Anerroroccurredaccessing./
tmp/sh34736.1:
Afileordirectoryinthepathnamedoesnotexist.
backup:
0511-449Anerroroccurredaccessing./tmp/sh34736.2:
Afileordirector
yinthepathnamedoesnotexist.
0511-449Anerroroccurredaccessing./tmp/sh34736.3:
.....................
15458of34025files(45%)..............................
31920of34025files(93%)...........
0512-003mksysbmaynothavebeenabletoarchivesomefiles.
ThemessagesdisplayedontheStandardErrorcontainedadditional
information.
这是正常现象,备份成功。
1.5系统恢复
当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统,在与客户进行蹉商后,可将最近一次的系统备份带倒回机器内以全面恢复系统到最近一次做备份时的系统环境,然后可将当日的数据备份再倒回系统内。
至此,系统可恢复正常运行。
此后,客户应当与IBM工程师再进行整个事件的全面分析与回顾,以期找到故障发生的原因,并采取相应措施以杜绝类似事件再次发生。
1.6DUMP
当系统运行出现软件故障导致系统down机时,机器的液晶显示器会出现888102xxx0c0(xxx可能为700或其它),AIX常会将当时系统的运行情况记录下来,这就是DUMP。
当DUMP产生后,请将磁带放入磁带机,用命令#snap-a-o/dev/rmt0将DUMP文件拷贝到磁带设备/dev/rmt0中。
注明磁带机的blocksize,DUMP产生的日期和机器的型号及序列号。
同时,请用#errpt-a>
/tmp/err.log将errorlog记在/tmp/err.log中,并将/tmp/err.log和/tmp/hacmp.*拷贝到软盘或磁带上。
将磁带和软盘交给IBM工程师。
1.7日常检查服务器状态的项目及其相关命令
1运行lsdev命令配以各种参数,所列各种设备状态都应为Available。
#lsdev–C–H–Sa列出系统中可用设备。
#lsdev–Ccprocessor列出系统中的所有CPU。
#lsdev–Ccmemory列出系统中的所有内存。
#lsdev–Ccdisk列出系统中的所有硬盘。
#lsdev-Ccadapter|grepent列出系统中的所有网卡
#lsdev-Ccadapter|grepscsi列出系统中的所有SCSI卡。
#lsdev-Ccadapter|grepssa列出系统中的所有SSA卡。
2lspv命令
#lspv显示系统中可用的PV。
#lspvhdiskn显示hdiskn的具体信息。
#lsdev–Ccpdisk显示磁盘阵列的硬盘的具体信息。
对SSA硬盘的检测:
在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运行以下命令“lsdev–Ccpdisk“,应该可以看到所有SSA硬盘,并且状态应为Available.。
3lsattr命令
#lsattr–E–lmem0列出系统中内存mem0的大小,本项目中内存有4GB。
4lsvg命令
#lsvg列出系统中所有的vg。
#lsvgrootvg列出rootvg的详细信息。
5oslevel命令
#oslevel显示操作系统版本信息。
6netstat命令
#netstat–in显示系统中各网卡的配置。
可查看网卡的IP配置好了没有。
7通过运行#diag命令运行硬件诊断程序检测主机内所有硬件,检测结果为“Notroublefound”显示各部分工作正常。
8对SSA硬盘链路连接的校验,可以通过SSA工具里的LinkVerification来检测。
如有必要,可以用#diag运行硬件诊断程序的硬盘诊断部分进行硬盘的表面分析测试,由1%至100%,检测结果显示主机内置硬盘的所有扇区均读写正常。
lspg–a查看PAGINGSPACE的使用情况,如果使用率超过70%,就需要采取措施。
lsvg–o|lsvg–il|grep–i
查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施
检查系统硬件情况:
设备故障灯是否有亮,有无其他否异常情况。
有否发给root用户的错误报告(mail)。
检查hacmp.out,smit.log等系统文档。
用vmstat,topas命令检查系统性能,检查有否性能瓶颈。
检查能否顺利进入CDE界面,如果不能进入的话,要检查/etc/hosts表中有否错误的项目。
用smittyssaraid查看磁盘阵列RAID盘的状态是否是Good。
用sysdumpdev–l查看系统的DUMP设置是否正常。
用instfix–ik|grepML当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。
用lscfg–vp|grepalter查看微代码(Microcode)是否满足稳定运行的需要。
1.8AIX维护常用命令简介
1、关机
shutdown[-option][+timemessage]
当shutdown不带任何参数时,机器会向连在其上的所有终端发出一条关机信息,接着在一分钟后关闭所有终端,杀掉所有在系统上运行的进程,卸除所有文件系统,最后关闭系统。
你也可以在shutdown后加上一些参数,它们分别是:
-F:
快速关机,没有任何警告信息(warning)
-r:
关机后重起
-m:
使系统关闭后进入维护(maintenance)模式
-k:
虚假关闭系统,即系统没有真的关闭
例子:
#shutdown+2Thesystemwillnotbeavailableuntiltomorrow
这时,系统会向所有终端广播下列信息:
shutdown:
PLEASELOGOFF!
!
Systemmaintenanceisinprogress.
Allprocesseswillbekilledin2minutes.
Thesystemwillnotbeavailableuntiltomorrow.
2、文件或目录处理
ls[-option][name]
这条命令的功用是列出文件或目录下之文件名称。
当不带任何参数时,列出目前目录下之文件名。
它也可以有多个参数,其参数的意义分别是:
-a:
列出包含以.起始的隐藏档在内的所有文件名
-t:
依照文件最后修改时间之顺序,依序列出文件名
列出目前目录下之文件名及其类型。
“/”结尾表示为目录名称,“*”结尾表示为执行档,“@”结尾表示为symbliclink
-l:
列出目录下所有文件之许可权、拥有者、文件大小、修改时间及名称
-lg:
同上,并显示出文件之拥有者群组名称
-R:
显示出目录下,以及其所有子目录之文件名
#ls-l/dev
brw-rw----1rootsystem13,0Jan2402:
25fd0
brw-rw----1rootsystem13,64Jan2402:
25fd1
crw-rw----1rootsystem13,0Jan2402:
25rfd0
crw-rw----1rootsystem13,64Jan2402:
25rfd1
......
crwxr-xr-x1rootsystem20,0Jan2402:
25rmt0
crwxr-xr-x1rootsystem20,1Jan2402:
25rmt0.1
在这里,第一栏的第一列有两种情况:
横线或有字母。
横线表示文件,字母表示设备。
其中c表示裸设备,它是顺序读写的,设备本身没有buffer;
b表示块设备,块设备是随机读写的,设备本身有buffer功能。
而在第一栏的第二列到第十列中,系统列出了该文件/设备的读写权限。
其中第二到四列表示owner的权限,r表示可读,w表示可写,x表示可执行;
第五到七列表示同组成员的权限;
第八到十列表示一般成员的权限。
这九列权限也可以用一个三位阿拉伯数字表示,如上面rfd0的权限为660,rmt0的权限为755。
当你的权限足够高时,可以通过chmod命令来修改文件/设备的权限。
你还可在第三栏中看到该文件/设备的owner是谁,在第四栏中看到它是属于哪一个组的。
而第五栏中的两个数字分别表示该设备的MajorNo.与MinorNo。
MajorNo.相同表示同一种机器,MinorNo.表示机器的不同部分或不同型号。
最后一栏是文件/设备的名称。
3、获取设备信息
#lsdev[-option]
在AIX系统中,有两个关于设备的数据库----Predefined与Customized。
Predefined数据库中记录了AIX系统本身可以支持的所有设备种类;
Customized数据库中则记录了目前你的系统已配置/安装的设备类型。
Customized数据库中又有两类设备。
一种叫Defined设备;
另一种叫Available设备。
Defined设备是指它的驱动程序已安装,但系统还没有找到该设备。
Available设备则是指系统已找到该设备及其驱动程序,因此你可以直接使用这个设备。
这条命令的参数如下:
-P:
查看系统Predefined数据库中的设备
-H:
输出时,在第一行加上各列的Title
-c:
指出要查询的设备类型
-C:
查看系统Customized数据库中的设备
#lsdev-PH
查看系统可以支持的所有设备,其输出如下:
classtypesubclassdescription
adapterethernetisaIBMISAEthernetAdapter
adapterppasioStandardI/OParallelPortAdapter
adaptertokenringmcaToken-RingHigh-PerformanceAdapter
disk400mbscsi400MBSCSIDiskDrive
diskosdiskscsiOtherSCSIdisk
memorymemorysysMemoryCard
printer4029parallelIBM4029LaserPrinter
printerosprs232Otherserialprinter
tape150mbscsi150MB?
-InchTapeDrive
ttyttyrs232AsynchronousTerminal
adapterner810pciStandardSCSII/OController
#lsdev-Pctape
查看系统可以支持的所有磁带机类型,其输出如下:
tape1200mbscsi1.2GB?
tape150mbscsi150MB?
#lsdev-CH>
dev.txt
查看系统内各个设备的信息,并把它输出到dev.txt中。
用#videv.txt可以看到如下信息:
namestatuslocationdescription
sys0Available00-00SystemObject
bus0Available00-00PCIBus
bus1Available00-10ISABus
ppa0Available00-00-0PStandardI/OParallelPortAdapter
lp0Available00-00-0P-00IBM4201ModelProprinterII
sa0Available00-00-S1StandardI/OSerialPort1
tty0Available00-00-S1-00AsynchronousTerminal
mem0Available00-0D16MBMemoryCard
scsi0Available00-01SCSII/OController
hdisk0Available00-01-00-0,0400MBSCSIDiskDrive
rmt0Defined00-01-00-5,C150MB?
ent0Available00-02EthernetAdapter
#lsdev-Ccmemory
查看所有属于memory设备的信息,其输出如下:
mem0Available00-0D16MBMemoryCard
mem1Available00-0432MBMemoryCard
4、获取设备的具体信息
#lsattr[-option][resourcename]
这条命令是用来获取某一设备的具体信息的。
每个逻辑设备在系统中都有一个LocationCode,这个号码因设备的类型及与之所连的适配卡而定。
从ODM库中提取customized设备的信息。
-E:
看设备的具体属性。
-l:
列出逻辑设备名。
-c:
按类来列出设备。
#lsattr-Elsys0
查看系统本身的配置信息。
其输出如下:
keylocknormalStateofsystemkeylockatboottimeFalse
maxbuf20I/OBUFFERCACHETrue
5mail命令
AIX操作系统具有周期性检测的功能。
检测出的硬件错误会作为邮件发给root用户,标题为“diagnoea”
6文件系统相关命令
列出所有的文件系统lsfs
列出所有mount了的文件系统mount
查看各文件系统的使用情况df-k