小型机日常检查维护和备份.docx

资源描述

小型机日常检查维护和备份.docx

《小型机日常检查维护和备份.docx》由会员分享，可在线阅读，更多相关《小型机日常检查维护和备份.docx（23页珍藏版）》请在冰豆网上搜索。

小型机日常检查维护和备份.docx

小型机日常检查维护和备份

三、日常检查维护

1．文件系统是否满

方法：

df–k可以以K为单位检查文件系统的使用率。

（90%以上，需要调整）

df–m–g

root@smk_exchange2:

>df-m

FilesystemMBblocksFree%UsedIused%IusedMountedon

/dev/hd44096.004012.763%61521%/

/dev/hd28192.006277.6924%414373%/usr

/dev/hd9var8192.007947.953%70951%/var

/dev/hd32048.001929.646%1021%/tmp

/dev/hd140960.0040451.162%17751%/home

/proc-----/proc

/dev/hd10opt40960.0040756.111%85681%/opt

root@smk_exchange2:

>df-g

FilesystemGBblocksFree%UsedIused%IusedMountedon

/dev/hd44.003.923%61521%/

/dev/hd28.006.1324%414373%/usr

/dev/hd9var8.007.763%70951%/var

/dev/hd32.001.886%1021%/tmp

/dev/hd140.0039.502%17751%/home

/proc-----/proc

/dev/hd10opt40.0039.801%85681%/opt

root@smk_exchange2:

“Iused”是什么意思？

已使用的i-node,i-node是分配给文件系统的文件节点,它决定文件系统中文件和文件夹的总数。

节点，文件系统下，每个文件，目录都需要的，如果节点用完了，就是该文件系统还有空间，也不能再往里面放东西了，节点和文件，目录一一对应的。

2．检查系统出错日志

使用errpt来检查:

#errpt

#errpt–a

#errpt–a|more

#errpt–a|tail-50

#errpt–a>errpt.txt

清除现有的log:

#errclear0

#errclear7（保留7天）

　errpt命令将从错误日志中的条目生成一个错误报告，但是它并不进行错误日志分析；对于错误分析，可以使用diag命令。

　　可以考虑下面的示例，其中通过执行errpt-a命令生成了一个错误报告：

#errpt-a

---------------------------------------------------------------------------

LABEL:

LVM_SA_STALEPP　　　　　　　　　　　　　　　　　　　　　　

IDENTIFIER:

EAA3D429　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

Date/Time:

TueDec　623:

24:

37CST2005　　　　　　　　　　　　　　　

SequenceNumber:

441　　　　　　　　　　　　　　　　　　　　　　　　　　　

MachineId:

00C7CD9E4C00　　　　　　　　　　　　　　　　　　　　　　　

NodeId:

lpar20　　　　　　　　　　　　　　　　　　　　　　　　　　

Class:

Type:

UNKN　　　　　　　　　　　　　　　　　　　　　　　　　　　

ResourceName:

LVDD　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

Description　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

PHYSICALPARTITIONMARKEDSTALE　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

DetailData　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

PHYSICALVOLUMEDEVICEMAJOR/MINOR　　　　　　　　　　　　　　　　　　　　

0000000000000000　　　　　　　　　　　　　　　　　　　　　　　　　　　　

PHYSICALPARTITIONNUMBER（DECIMAL）　　　　　　　　　　　　　　　　　　　　

　　　　　　　　　227　　　　　　　　　　　　　　　　　　　　　　　　　　

LOGICALVOLUMEDEVICEMAJOR/MINOR　　　　　　　　　　　　　　　　　　　　　

8000000A00000005　　　　　　　　　　　　　　　　　　　　　　　　　　　　

SENSEDATA　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

00C7CD9E00004C0000000107706A336C00000000000000000000000000000000

---------------------------------------------------------------------------

（linesommited）

　　根据错误的类型，errpt-a报告可能包含下面的信息：

　　LABEL——事件的预定义名称。

　　IDENTIFIER——事件的数值标识符。

　　Date/Time——事件的日期和时间。

　　SequenceNumber——事件的唯一编号。

　　MachineID——您的系统处理器单元的标识编号。

　　NodeID——您的系统的助记名称。

　　Class——错误的一般来源。

可能的错误类型包括：

　　H——硬件。

　　S——软件。

　　O——信息性消息。

　　U——未定的。

　　Type——所发生的错误的严重程度。

可能的错误类型包括：

　　PEND——设备或组件的可用性损失是急迫的。

　　PERF——设备或组件的性能已下降到可接受的级别以下。

　　PERM——出现了不可恢复的情况。

如果错误类型为这个值，那么通常是最严重的错误，并且很可能意味着出现了硬件设备或者软件模块的故障。

如果错误类型为PERM之外的其他值，通常并不表示故障，但是对这些错误进行了记录，以便可以使用诊断程序对它们进行分析。

TEMP——在出现多次不成功的尝试之后，所恢复到的状态。

这种错误类型也可以用于记录信息性条目，如DASD设备的数据传输统计信息。

　　UNKN——无法确定错误的严重程度。

　　INFO——错误日志条目是信息性的，并且不是某个错误所产生的结果。

　　ResourceName——检测到错误的资源的名称。

对于软件错误，这是某个软件组件或可执行程序的名称。

对于硬件错误，这是某个设备或系统组件的名称。

它并不表示该组件出现故障或者需要更换。

相反，它用于确定合适的诊断模块以用于对错误进行分析。

　　ResourceClass——检测到故障的资源的一般类别（例如，磁盘的设备类别）。

　　ResourceType——检测到故障的资源的类型。

　　LocationCode——设备的路径。

最多可能有四个字段，分别是抽屉、插槽、连接器和端口。

　　VPD——关键的产品数据。

这个字段的内容（如果存在）可能各不相同。

设备的错误日志条目通常返回有关设备制造商、序列号、工程变更级别、以及只读存储级别的信息。

　　Description——错误的汇总信息。

　　ProbableCause——一些可能的错误原因的列表。

　　UserCauses——由用户错误所导致错误的可能原因的列表。

用户所导致的错误可能包括不正确插入的磁盘、未能开启的外部设备（如调制解调器和打印机）。

　　InstallCauses——因为不正确的安装或者配置过程所导致错误的可能原因列表。

这种类型的错误包括硬件和软件不匹配、电缆的不正确安装或电缆连接变松，以及未能正确配置的系统。

　　FailureCauses——可能的硬件或者软件故障列表。

　　Actions——对于纠正故障的推荐操作的描述。

对于硬件错误，这将导致运行诊断程序。

　　DetailedData——针对每个错误日志条目的、唯一的故障数据，如设备检测数据。

　　可以考虑下面的示例错误输出，这是运行不带任何标志的errpt命令的错误输出：

#errpt

IDENTIFIERTIMESTAMPTCRESOURCE_NAME　DESCRIPTION　　　　　　　　　　

A6DF45AA　1207112405IORMCdaemon　　　Thedaemonisstarted.　　　　

2BFA76F6　1205155605TSSYSPROC　　　　SYSTEMSHUTDOWNBYUSER　　　　

9DBCFDEE　1207112305TOerrdemon　　　ERRORLOGGINGTURNEDON　　　　

192AC071　1205155505TOerrdemon　　　ERRORLOGGINGTURNEDOFF　　　

291D64C3　1202154105IHsysplanar0　　platform_dumpindicatorevent　

BFE4C025　1202154105PHsysplanar0　　UNDETERMINEDERROR　　　　　　

291D64C3　1202154105IHsysplanar0　　platform_dumpindicatorevent　

291D64C3　1202145005IHsysplanar0　　platform_dumpindicatorevent

EAA3D429　1202144505USLVDD　　　　　PHYSICALPARTITIONMARKEDSTALE

BFE4C025　1202144505PHsysplanar0　　UNDETERMINEDERROR

F6A86ED5　1202144105PSent7　　　　　SERVICECALLFAILED

F6A86ED5　1202144105PSent6　　　　　SERVICECALLFAILED

Class——可能的错误类型

Type——所发生的错误的严重程度。

（见上面）

　　如果错误类别值为H，并且错误类型值为PERM（在这个示例中，标识符BFE4C025就是这种情况），则说明系统碰到了硬件问题，并且无法对其进行恢复。

可能存在与这种错误类型相关联的诊断信息。

　　如果错误类别值为H，并且错误类型值为PEND，则表示因为系统检测到大量的错误，以使得某个硬件马上将变得不可用。

　　如果错误类别值为S，并且错误类型值为PERM（在这个示例中，标识符F6A86ED5就是这种情况），则说明系统碰到了与软件相关的问题，并且无法对其进行恢复。

　　如果错误类别值为S，并且错误类型值为TEMP，则表示系统碰到了与软件相关的问题。

在经过几次尝试之后，系统能够对该问题进行恢复。

　　如果错误类别值为O，则表示已经记录了一个信息性消息（在这个示例中，标识符A6DF45AA、9DBCFDEE和192AC071就是这种情况）。

　　当您怀疑出现了硬件问题的时候，可以使用diag命令来帮助查找问题。

3．检查系统合法/非法登陆情况

使用Last命令来检查来自登陆的地方和登录的时间。

4．检查系统是否有巨大的Core文件生成

使用find/-namecore–print来检查。

当进程在异常终止运行时，系统会把该进程对应的地址空间中的数据写到core文件中（这个过程被称为dump），以便程序员对其进行分析，找出进程异常终止的原因。

缺省情况下，异常终止的进程在启动它的当前目录下产生core文件。

　　在AIX4.3.3中，所有的core文件的文件名都是core，如果不只一个程序产生dump或者相同的程序dump多次，它们都会产生相同文件名的core文件，那么就会丢失比较早的core文件。

从AIX5.1开始，改变了core文件的命名方法，使得每一个core文件拥有惟一的文件名，从而避免了新的core文件覆盖旧的core文件，这个特色更加有助于程序员调试和跟踪运行失败的程序。

对Core文件，一般直接删除就可以了。

5．系统性能检查：

a）CPU性能：

使用Vmstat,topas来检查

由vmstat命令生成的以下报告示例包含栏标题及其描述：

　　kthr：

内核线程状态在采样间隔期间每秒钟更改一次。

　　r：

置于运行队列中的内核线程数目。

　　b：

置于等待队列（等待资源、等待输入／输出）的内核线程数目。

　　memory内存：

关于使用虚拟内存和实内存的信息。

如果虚拟页已经被访问的话，虚拟页可以被认为是活动的。

一页为4096个字节。

　　avm：

活动虚拟页。

　　fre：

空闲列表的大小。

　　注:

大部分实内存都用作文件系统数据的高速缓存。

对于保持较小的空闲列表，这是很正常的。

　　page页：

关于缺页故障和调页活动的信息。

这些是间隔的平均值，以秒为单位给出。

　　re：

页面调度程序输入／输出列表。

　　pi：

从调页空间调度进的页面。

　　po：

调出到调页空间的页面。

　　fr：

释放的页（页面替换）。

　　sr：

通过页替换算法扫描的页面。

　　cy：

按页替换算法的时钟周期。

　　faults故障：

采样间隔平均每秒的捕获和中断率。

　　in：

设备中断

　　sy：

系统调用。

　　cs：

内核线程上下文切换。

　　Cpu：

CPU使用时间故障百分比。

　　us：

用户时间。

　　sy：

系统时间。

　　id：

CPU空闲时间。

　　wa：

CPU空闲时间，在此期间系统有未完成的磁盘/NFSI/O请求。

b）内存使用情况：

也是使用topas,vmstat来检查

#topas

（按C两次）

CPUUser%Kern%Wait%Idle%

20.10.30.099.5

10.00.00.0100.0

00.00.10.099.9

30.00.00.0100.0

1）.CPU使用情况:

这个分部显示一个条形图表来表示累积的CPU使用情况。

如果有多个CPU，按c键两次就可显示CPU列表。

仅按c键一次会关闭这个分部。

User% :

这显示以用户方式执行的程序所使用的CPU的百分数。

（缺省按用户%排序）

Kern% :

这显示以内核方式执行的程序所使用的CPU的百分数。

Wait% :

这显示用于等待IO的时间的百分数。

Idle% :

这表示CPU空闲时间的百分数。

Kernel：

说明：

操作系统的内核占用的CPU时间比率。

操作系统作为基础软件，为应用程序支持和服务的同时，本身的运行也需要一定的CPU和内存资源（顺便提到内存资源，后面不再阐述这个内容了），特别是内存资源，系统负载越重，相应的内核占用的CPU和内存资源也会越多。

一般来说，内核占用的CPU时间不会太多的。

一般小于应用的CPU使用率。

User：

说明：

用户进程占用的CPU时间比率。

这个为CPU使用率的关键数值。

该使用率反映了用户在操作系统基础上运行的各种软件占用的CPU时间比率的总和。

一般来说，如果User+Kernel连续大于70%，即可以认为系统可能存在CPU上的严重性能问题。

Wait

说明：

CPU处于等待状态占CPU时间的比率。

CPU的等待一般都为等待IO的响应，众所周知，目前计算机的主要瓶颈都在IO。

应用程序执行的时候，需要读写磁盘等外部存储的数据，进程就会发起IO请求后等待IO完成。

这个等待的过程占用CPU时间就是wait。

当这个值很高的时候，就说明IO来不及响应很多的IO请求，这个时候，就只能从IO层面想办法优化了。

Idle：

说明：

CPU空闲时间比率，这个就不用说了吧。

就是CPU多少时间比率在闲着。

CPU占用率出问题的主要可能原因：

数据库服务器执行某一个SQL或者存储过程（存储过程就是封装起来的sql程序包而已）需要大量的运算（一般为软件设计不合理）。

或者应用程序中存在异常的地方，比如死循环，或者其他写程序时的逻辑错误导致。

一般程序出错会导致一个CPU被全部占用，比如上述的20%占用的原因就是一个交易程序长期占用一个CPU全部时间片（系统共计5个CPU）。

2）.网络接口情况

此分部显示了热门网络接口的列表。

所显示接口的最大数目是正被监视的热门接口数目，正如-n标志指定的那样。

如果其它分部也被显示，则将显示接口的一个较小数目。

按n键可关闭此分部。

再按一次n键就会显示一行所有网络接口活动的报告摘要。

Interf:

网络接口的名称。

KBPS :

在监视时间间隔内每秒钟以KB为单位的总吞吐量。

这个字段是每秒接收到的千字节和发送的千字节的总和。

I-Pack:

在监视时间间隔内每秒钟接收到的数据包的数目。

O-Pack:

在监视时间间隔内每秒钟发送的数据包的数目。

KB-In :

在监视时间间隔内每秒钟接收到的千字节的数目。

KB-Out:

在监视时间间隔内每秒钟发送的千字节的数目。

当此分部首先显示热门网络接口列表时，按KBPS字段对列表排序。

但是，可以按其它字段对列表排序，只要把光标移到想要的那一栏顶部就可以了。

排序仅对最多16个网络适配器有效。

lo0是IP协议栈内部的“假”网卡，即本机自回馈接口

当我们发现网络拥堵时（出现网卡传输失效的报错，即网卡发送数据包失败。

或者网络响应明显变慢的时候，如果CPU没有问题，那么请检查网络流量）发现某一个网卡的KBPS持续大于四位数，甚至五位数时（这个值要是网卡千兆还是百兆而定）。

就要看看这个网卡是什么网卡，在处理什么业务了。

在命令行执行netstat–in查看对应en*接口的ip地址，通过ip地址看看是带官网卡还是生产服务网卡流量高。

然后通过netstat–ven*看看网卡的详细工作状态，出现了多少错包，冲突包，crc校验错或者网络重置过等信息。

上述信息请详细看netstat–ven*的输出.如果出现大量crc，错包的话，可能网线有问题或者接触不良。

如果上述均正常，而网络反应慢，则有可能是交换机拥堵。

网络出现问题的可能原因：

通过百兆的带管网加载大量数据（以前出现过），大量队列的长时间的ftp传输，或者网线，交换机问题等。

3）.物理磁盘情况

此分部显示了热门物理磁盘的列表。

所显示物理磁盘的最大数目是正被监视的热门物理磁盘数目，正如-d标志指定的那样。

如果其它分部也被显示，则将显示物理磁盘的一个较小数目。

按d键可关闭这个分部。

再按一次d键就会显示一行所有物理磁盘活动的报告摘要。

Disk ：

物理磁盘的名称。

Busy% ：

表示物理磁盘活动时间的百分比（驱动器带宽使用）。

KBPS ：

在监视时间间隔内每秒钟读和写的千字节的数目。

此字段是KB-Read和KB-Writ的总和。

TPS ：

每秒钟发送到物理磁盘的传输的数目。

传输是对物理磁盘的I/O请求。

多个逻辑请求可组合成对磁盘的单个I/O请求。

传输大小不确定。

KB-Read：

每秒钟从物理磁盘读取的千字节的数目。

KB-Writ：

每秒钟写到物理磁盘的千字节的数目。

当此分部首先显示热门物理磁盘列表时，按KBPS字段对列表排序。

但是，可以按其它字段对列表排序，只要把光标移到想要的那一栏顶部就可以了。

排序仅对最多128个物理磁盘有效。

一般主要看磁盘的Busy%,当磁盘的Busy%持续大于85%时，即认为磁盘相当繁忙，已经可能要出问题了。

当然，自己知道已经确定要产生大量IO操作的内容则不必在意，等其完成即可。

出现问题的原因：

应用服务器上面写日志进程或者查询日志的进程大量读写日志，导致磁盘繁忙率高，或者其他程序频繁读写磁盘导致。

系统中hdisk0，hdisk1一般为系统盘，内置SCSI磁盘的相对IOPS是较低的。

很容易满负荷运行。

4）.WLM（WorkloadManager）类

此分部显示了热门工作量管理（WLM）类的列表。

所显示WLM类的最大数目是正被监视的热门WLM类数目，正如-w标志指定的那样。

如果其它分部也被显示，则将显示WLM类的一个较小数目。

按w键可关闭此分部。

对于每一个类会显示下列字段：

%CPU使用情况:

在监视时间间隔内WLM类的平均CPU使用情况。

%Mem使用情况:

在监视时间间隔内WLM类的平均内存使用情况。

%BlkI/O :

在监视时间间隔内WLM类的块I/O的平均百分比。

当这个分部首先显示热门WLM类列表时，就按CPU%字段来对列表排序。

但是，可以按其它字段来对列表排序，只要把光标移到想要的那一栏顶部就可以了。

工作负载管理器（WLM）可以控制系统上的作业使用的资源。

缺省WLM配置模板存在于每个安装的AIX操作系统上。

以下过程更新了WLM配置模板用以在共享的服务器上实现资源管理策略。

5）.进程类

此分部显示了热门进程的列表。

所显示进程的最大数目是正被监视的热门过程数目，正如-p标志指定的那样。

如果其它分部也被显示，则将显示进程的一个较小数目。

按p键可关闭此分部。

按监视时间间隔内进程的CPU使用情况来对进程排序。

P键可以查看detail。

NAME ：

在进程中执行的可执行程序的名称。

名称已被除去任何路径名和参数信息并被截断到9个字符的长度。

PID :

进程的进程标识。

%CPU :

在监视时间间隔内进程的平均CPU使用情况。

第一次显示进程时，这个值表示整个进程阶段平均CPU使用情况。

PgSp :

分配给此进程的调页空间的大小。

这可被认为是进程覆盖区的一种表达式，但并不包括用来保持可执行程序和它依赖的任何共享库的内存。

单位：

owner :

（如果WLM部分被关闭）拥有此进程的用户的用户名。

工作量管理（WLM）类（如果WLM部分被打开）:

进程所属的WLM类。

6）.事件／队列

显示所选系统全局事件的每秒频率、线程运行和等待队列的平均大小：

Cswitch :

在监视时间间隔内每秒上下文切换的数量。

Syscalls:

在监视时间间隔内每秒执行的系统调用的数量。

Reads

展开阅读全文