小型机日常检查维护和备份.docx
《小型机日常检查维护和备份.docx》由会员分享,可在线阅读,更多相关《小型机日常检查维护和备份.docx(23页珍藏版)》请在冰豆网上搜索。
小型机日常检查维护和备份
三、日常检查维护
1.文件系统是否满
方法:
df–k可以以K为单位检查文件系统的使用率。
(90%以上,需要调整)
df–m–g
root@smk_exchange2:
>df-m
FilesystemMBblocksFree%UsedIused%IusedMountedon
/dev/hd44096.004012.763%61521%/
/dev/hd28192.006277.6924%414373%/usr
/dev/hd9var8192.007947.953%70951%/var
/dev/hd32048.001929.646%1021%/tmp
/dev/hd140960.0040451.162%17751%/home
/proc-----/proc
/dev/hd10opt40960.0040756.111%85681%/opt
root@smk_exchange2:
>df-g
FilesystemGBblocksFree%UsedIused%IusedMountedon
/dev/hd44.003.923%61521%/
/dev/hd28.006.1324%414373%/usr
/dev/hd9var8.007.763%70951%/var
/dev/hd32.001.886%1021%/tmp
/dev/hd140.0039.502%17751%/home
/proc-----/proc
/dev/hd10opt40.0039.801%85681%/opt
root@smk_exchange2:
>
“Iused”是什么意思?
已使用的i-node,i-node是分配给文件系统的文件节点,它决定文件系统中文件和文件夹的总数。
节点,文件系统下,每个文件,目录都需要的,如果节点用完了,就是该文件系统还有空间,也不能再往里面放东西了,节点和文件,目录一一对应的。
2.检查系统出错日志
使用errpt来检查:
#errpt
#errpt–a
#errpt–a|more
#errpt–a|tail-50
#errpt–a>errpt.txt
清除现有的log:
#errclear0
#errclear7(保留7天)
errpt命令将从错误日志中的条目生成一个错误报告,但是它并不进行错误日志分析;对于错误分析,可以使用diag命令。
可以考虑下面的示例,其中通过执行errpt-a命令生成了一个错误报告:
#errpt-a
---------------------------------------------------------------------------
LABEL:
LVM_SA_STALEPP
IDENTIFIER:
EAA3D429
Date/Time:
TueDec 623:
24:
37CST2005
SequenceNumber:
441
MachineId:
00C7CD9E4C00
NodeId:
lpar20
Class:
S
Type:
UNKN
ResourceName:
LVDD
Description
PHYSICALPARTITIONMARKEDSTALE
DetailData
PHYSICALVOLUMEDEVICEMAJOR/MINOR
0000000000000000
PHYSICALPARTITIONNUMBER(DECIMAL)
227
LOGICALVOLUMEDEVICEMAJOR/MINOR
8000000A00000005
SENSEDATA
00C7CD9E00004C0000000107706A336C00000000000000000000000000000000
---------------------------------------------------------------------------
.
(linesommited)
.
#
根据错误的类型,errpt-a报告可能包含下面的信息:
LABEL——事件的预定义名称。
IDENTIFIER——事件的数值标识符。
Date/Time——事件的日期和时间。
SequenceNumber——事件的唯一编号。
MachineID——您的系统处理器单元的标识编号。
NodeID——您的系统的助记名称。
Class——错误的一般来源。
可能的错误类型包括:
H——硬件。
S——软件。
O——信息性消息。
U——未定的。
Type——所发生的错误的严重程度。
可能的错误类型包括:
PEND——设备或组件的可用性损失是急迫的。
PERF——设备或组件的性能已下降到可接受的级别以下。
PERM——出现了不可恢复的情况。
如果错误类型为这个值,那么通常是最严重的错误,并且很可能意味着出现了硬件设备或者软件模块的故障。
如果错误类型为PERM之外的其他值,通常并不表示故障,但是对这些错误进行了记录,以便可以使用诊断程序对它们进行分析。
TEMP——在出现多次不成功的尝试之后,所恢复到的状态。
这种错误类型也可以用于记录信息性条目,如DASD设备的数据传输统计信息。
UNKN——无法确定错误的严重程度。
INFO——错误日志条目是信息性的,并且不是某个错误所产生的结果。
ResourceName——检测到错误的资源的名称。
对于软件错误,这是某个软件组件或可执行程序的名称。
对于硬件错误,这是某个设备或系统组件的名称。
它并不表示该组件出现故障或者需要更换。
相反,它用于确定合适的诊断模块以用于对错误进行分析。
ResourceClass——检测到故障的资源的一般类别(例如,磁盘的设备类别)。
ResourceType——检测到故障的资源的类型。
LocationCode——设备的路径。
最多可能有四个字段,分别是抽屉、插槽、连接器和端口。
VPD——关键的产品数据。
这个字段的内容(如果存在)可能各不相同。
设备的错误日志条目通常返回有关设备制造商、序列号、工程变更级别、以及只读存储级别的信息。
Description——错误的汇总信息。
ProbableCause——一些可能的错误原因的列表。
UserCauses——由用户错误所导致错误的可能原因的列表。
用户所导致的错误可能包括不正确插入的磁盘、未能开启的外部设备(如调制解调器和打印机)。
InstallCauses——因为不正确的安装或者配置过程所导致错误的可能原因列表。
这种类型的错误包括硬件和软件不匹配、电缆的不正确安装或电缆连接变松,以及未能正确配置的系统。
FailureCauses——可能的硬件或者软件故障列表。
Actions——对于纠正故障的推荐操作的描述。
对于硬件错误,这将导致运行诊断程序。
DetailedData——针对每个错误日志条目的、唯一的故障数据,如设备检测数据。
可以考虑下面的示例错误输出,这是运行不带任何标志的errpt命令的错误输出:
#errpt
IDENTIFIERTIMESTAMPTCRESOURCE_NAME DESCRIPTION
A6DF45AA 1207112405IORMCdaemon Thedaemonisstarted.
2BFA76F6 1205155605TSSYSPROC SYSTEMSHUTDOWNBYUSER
9DBCFDEE 1207112305TOerrdemon ERRORLOGGINGTURNEDON
192AC071 1205155505TOerrdemon ERRORLOGGINGTURNEDOFF
291D64C3 1202154105IHsysplanar0 platform_dumpindicatorevent
BFE4C025 1202154105PHsysplanar0 UNDETERMINEDERROR
291D64C3 1202154105IHsysplanar0 platform_dumpindicatorevent
291D64C3 1202145005IHsysplanar0 platform_dumpindicatorevent
EAA3D429 1202144505USLVDD PHYSICALPARTITIONMARKEDSTALE
BFE4C025 1202144505PHsysplanar0 UNDETERMINEDERROR
F6A86ED5 1202144105PSent7 SERVICECALLFAILED
F6A86ED5 1202144105PSent6 SERVICECALLFAILED
#
C:
Class——可能的错误类型
T:
Type——所发生的错误的严重程度。
(见上面)
如果错误类别值为H,并且错误类型值为PERM(在这个示例中,标识符BFE4C025就是这种情况),则说明系统碰到了硬件问题,并且无法对其进行恢复。
可能存在与这种错误类型相关联的诊断信息。
如果错误类别值为H,并且错误类型值为PEND,则表示因为系统检测到大量的错误,以使得某个硬件马上将变得不可用。
如果错误类别值为S,并且错误类型值为PERM(在这个示例中,标识符F6A86ED5就是这种情况),则说明系统碰到了与软件相关的问题,并且无法对其进行恢复。
如果错误类别值为S,并且错误类型值为TEMP,则表示系统碰到了与软件相关的问题。
在经过几次尝试之后,系统能够对该问题进行恢复。
如果错误类别值为O,则表示已经记录了一个信息性消息(在这个示例中,标识符A6DF45AA、9DBCFDEE和192AC071就是这种情况)。
当您怀疑出现了硬件问题的时候,可以使用diag命令来帮助查找问题。
3.检查系统合法/非法登陆情况
使用Last命令来检查来自登陆的地方和登录的时间。
4.检查系统是否有巨大的Core文件生成
使用find/-namecore–print来检查。
当进程在异常终止运行时,系统会把该进程对应的地址空间中的数据写到core文件中(这个过程被称为dump),以便程序员对其进行分析,找出进程异常终止的原因。
缺省情况下,异常终止的进程在启动它的当前目录下产生core文件。
在AIX4.3.3中,所有的core文件的文件名都是core,如果不只一个程序产生dump或者相同的程序dump多次,它们都会产生相同文件名的core文件,那么就会丢失比较早的core文件。
从AIX5.1开始,改变了core文件的命名方法,使得每一个core文件拥有惟一的文件名,从而避免了新的core文件覆盖旧的core文件,这个特色更加有助于程序员调试和跟踪运行失败的程序。
对Core文件,一般直接删除就可以了。
5.系统性能检查:
a)CPU性能:
使用Vmstat,topas来检查
由vmstat命令生成的以下报告示例包含栏标题及其描述:
kthr:
内核线程状态在采样间隔期间每秒钟更改一次。
r:
置于运行队列中的内核线程数目。
b:
置于等待队列(等待资源、等待输入/输出)的内核线程数目。
memory内存:
关于使用虚拟内存和实内存的信息。
如果虚拟页已经被访问的话,虚拟页可以被认为是活动的。
一页为4096个字节。
avm:
活动虚拟页。
fre:
空闲列表的大小。
注:
大部分实内存都用作文件系统数据的高速缓存。
对于保持较小的空闲列表,这是很正常的。
page页:
关于缺页故障和调页活动的信息。
这些是间隔的平均值,以秒为单位给出。
re:
页面调度程序输入/输出列表。
pi:
从调页空间调度进的页面。
po:
调出到调页空间的页面。
fr:
释放的页(页面替换)。
sr:
通过页替换算法扫描的页面。
cy:
按页替换算法的时钟周期。
faults故障:
采样间隔平均每秒的捕获和中断率。
in:
设备中断
sy:
系统调用。
cs:
内核线程上下文切换。
Cpu:
CPU使用时间故障百分比。
us:
用户时间。
sy:
系统时间。
id:
CPU空闲时间。
wa:
CPU空闲时间,在此期间系统有未完成的磁盘/NFSI/O请求。
b)内存使用情况:
也是使用topas,vmstat来检查
#topas
(按C两次)
CPUUser%Kern%Wait%Idle%
20.10.30.099.5
10.00.00.0100.0
00.00.10.099.9
30.00.00.0100.0
1).CPU使用情况:
这个分部显示一个条形图表来表示累积的CPU使用情况。
如果有多个CPU,按c键两次就可显示CPU列表。
仅按c键一次会关闭这个分部。
User% :
这显示以用户方式执行的程序所使用的CPU的百分数。
(缺省按用户%排序)
Kern% :
这显示以内核方式执行的程序所使用的CPU的百分数。
Wait% :
这显示用于等待IO的时间的百分数。
Idle% :
这表示CPU空闲时间的百分数。
Kernel:
说明:
操作系统的内核占用的CPU时间比率。
操作系统作为基础软件,为应用程序支持和服务的同时,本身的运行也需要一定的CPU和内存资源(顺便提到内存资源,后面不再阐述这个内容了),特别是内存资源,系统负载越重,相应的内核占用的CPU和内存资源也会越多。
一般来说,内核占用的CPU时间不会太多的。
一般小于应用的CPU使用率。
User:
说明:
用户进程占用的CPU时间比率。
这个为CPU使用率的关键数值。
该使用率反映了用户在操作系统基础上运行的各种软件占用的CPU时间比率的总和。
一般来说,如果User+Kernel连续大于70%,即可以认为系统可能存在CPU上的严重性能问题。
Wait
说明:
CPU处于等待状态占CPU时间的比率。
CPU的等待一般都为等待IO的响应,众所周知,目前计算机的主要瓶颈都在IO。
应用程序执行的时候,需要读写磁盘等外部存储的数据,进程就会发起IO请求后等待IO完成。
这个等待的过程占用CPU时间就是wait。
当这个值很高的时候,就说明IO来不及响应很多的IO请求,这个时候,就只能从IO层面想办法优化了。
Idle:
说明:
CPU空闲时间比率,这个就不用说了吧。
就是CPU多少时间比率在闲着。
CPU占用率出问题的主要可能原因:
数据库服务器执行某一个SQL或者存储过程(存储过程就是封装起来的sql程序包而已)需要大量的运算(一般为软件设计不合理)。
或者应用程序中存在异常的地方,比如死循环,或者其他写程序时的逻辑错误导致。
一般程序出错会导致一个CPU被全部占用,比如上述的20%占用的原因就是一个交易程序长期占用一个CPU全部时间片(系统共计5个CPU)。
2).网络接口情况
此分部显示了热门网络接口的列表。
所显示接口的最大数目是正被监视的热门接口数目,正如-n标志指定的那样。
如果其它分部也被显示,则将显示接口的一个较小数目。
按n键可关闭此分部。
再按一次n键就会显示一行所有网络接口活动的报告摘要。
Interf:
网络接口的名称。
KBPS :
在监视时间间隔内每秒钟以KB为单位的总吞吐量。
这个字段是每秒接收到的千字节和发送的千字节的总和。
I-Pack:
在监视时间间隔内每秒钟接收到的数据包的数目。
O-Pack:
在监视时间间隔内每秒钟发送的数据包的数目。
KB-In :
在监视时间间隔内每秒钟接收到的千字节的数目。
KB-Out:
在监视时间间隔内每秒钟发送的千字节的数目。
当此分部首先显示热门网络接口列表时,按KBPS字段对列表排序。
但是,可以按其它字段对列表排序,只要把光标移到想要的那一栏顶部就可以了。
排序仅对最多16个网络适配器有效。
lo0是IP协议栈内部的“假”网卡,即本机自回馈接口
当我们发现网络拥堵时(出现网卡传输失效的报错,即网卡发送数据包失败。
或者网络响应明显变慢的时候,如果CPU没有问题,那么请检查网络流量)发现某一个网卡的KBPS持续大于四位数,甚至五位数时(这个值要是网卡千兆还是百兆而定)。
就要看看这个网卡是什么网卡,在处理什么业务了。
在命令行执行netstat–in查看对应en*接口的ip地址,通过ip地址看看是带官网卡还是生产服务网卡流量高。
然后通过netstat–ven*看看网卡的详细工作状态,出现了多少错包,冲突包,crc校验错或者网络重置过等信息。
上述信息请详细看netstat–ven*的输出.如果出现大量crc,错包的话,可能网线有问题或者接触不良。
如果上述均正常,而网络反应慢,则有可能是交换机拥堵。
网络出现问题的可能原因:
通过百兆的带管网加载大量数据(以前出现过),大量队列的长时间的ftp传输,或者网线,交换机问题等。
3).物理磁盘情况
此分部显示了热门物理磁盘的列表。
所显示物理磁盘的最大数目是正被监视的热门物理磁盘数目,正如-d标志指定的那样。
如果其它分部也被显示,则将显示物理磁盘的一个较小数目。
按d键可关闭这个分部。
再按一次d键就会显示一行所有物理磁盘活动的报告摘要。
Disk :
物理磁盘的名称。
Busy% :
表示物理磁盘活动时间的百分比(驱动器带宽使用)。
KBPS :
在监视时间间隔内每秒钟读和写的千字节的数目。
此字段是KB-Read和KB-Writ的总和。
TPS :
每秒钟发送到物理磁盘的传输的数目。
传输是对物理磁盘的I/O请求。
多个逻辑请求可组合成对磁盘的单个I/O请求。
传输大小不确定。
KB-Read:
每秒钟从物理磁盘读取的千字节的数目。
KB-Writ:
每秒钟写到物理磁盘的千字节的数目。
当此分部首先显示热门物理磁盘列表时,按KBPS字段对列表排序。
但是,可以按其它字段对列表排序,只要把光标移到想要的那一栏顶部就可以了。
排序仅对最多128个物理磁盘有效。
一般主要看磁盘的Busy%,当磁盘的Busy%持续大于85%时,即认为磁盘相当繁忙,已经可能要出问题了。
当然,自己知道已经确定要产生大量IO操作的内容则不必在意,等其完成即可。
出现问题的原因:
应用服务器上面写日志进程或者查询日志的进程大量读写日志,导致磁盘繁忙率高,或者其他程序频繁读写磁盘导致。
系统中hdisk0,hdisk1一般为系统盘,内置SCSI磁盘的相对IOPS是较低的。
很容易满负荷运行。
4).WLM(WorkloadManager)类
此分部显示了热门工作量管理(WLM)类的列表。
所显示WLM类的最大数目是正被监视的热门WLM类数目,正如-w标志指定的那样。
如果其它分部也被显示,则将显示WLM类的一个较小数目。
按w键可关闭此分部。
对于每一个类会显示下列字段:
%CPU使用情况:
在监视时间间隔内WLM类的平均CPU使用情况。
%Mem使用情况:
在监视时间间隔内WLM类的平均内存使用情况。
%BlkI/O :
在监视时间间隔内WLM类的块I/O的平均百分比。
当这个分部首先显示热门WLM类列表时,就按CPU%字段来对列表排序。
但是,可以按其它字段来对列表排序,只要把光标移到想要的那一栏顶部就可以了。
工作负载管理器(WLM)可以控制系统上的作业使用的资源。
缺省WLM配置模板存在于每个安装的AIX操作系统上。
以下过程更新了WLM配置模板用以在共享的服务器上实现资源管理策略。
5).进程类
此分部显示了热门进程的列表。
所显示进程的最大数目是正被监视的热门过程数目,正如-p标志指定的那样。
如果其它分部也被显示,则将显示进程的一个较小数目。
按p键可关闭此分部。
按监视时间间隔内进程的CPU使用情况来对进程排序。
P键可以查看detail。
NAME :
在进程中执行的可执行程序的名称。
名称已被除去任何路径名和参数信息并被截断到9个字符的长度。
PID :
进程的进程标识。
%CPU :
在监视时间间隔内进程的平均CPU使用情况。
第一次显示进程时,这个值表示整个进程阶段平均CPU使用情况。
PgSp :
分配给此进程的调页空间的大小。
这可被认为是进程覆盖区的一种表达式,但并不包括用来保持可执行程序和它依赖的任何共享库的内存。
单位:
MB
owner :
(如果WLM部分被关闭)拥有此进程的用户的用户名。
工作量管理(WLM)类(如果WLM部分被打开):
进程所属的WLM类。
6).事件/队列
显示所选系统全局事件的每秒频率、线程运行和等待队列的平均大小:
Cswitch :
在监视时间间隔内每秒上下文切换的数量。
Syscalls:
在监视时间间隔内每秒执行的系统调用的数量。
Reads