小型机日常检查维护和备份.docx

上传人:b****6 文档编号:8593565 上传时间:2023-02-01 格式:DOCX 页数:23 大小:74.74KB
下载 相关 举报
小型机日常检查维护和备份.docx_第1页
第1页 / 共23页
小型机日常检查维护和备份.docx_第2页
第2页 / 共23页
小型机日常检查维护和备份.docx_第3页
第3页 / 共23页
小型机日常检查维护和备份.docx_第4页
第4页 / 共23页
小型机日常检查维护和备份.docx_第5页
第5页 / 共23页
点击查看更多>>
下载资源
资源描述

小型机日常检查维护和备份.docx

《小型机日常检查维护和备份.docx》由会员分享,可在线阅读,更多相关《小型机日常检查维护和备份.docx(23页珍藏版)》请在冰豆网上搜索。

小型机日常检查维护和备份.docx

小型机日常检查维护和备份

三、日常检查维护

1.文件系统是否满

方法:

df–k可以以K为单位检查文件系统的使用率。

(90%以上,需要调整)

df–m–g

root@smk_exchange2:

>df-m

FilesystemMBblocksFree%UsedIused%IusedMountedon

/dev/hd44096.004012.763%61521%/

/dev/hd28192.006277.6924%414373%/usr

/dev/hd9var8192.007947.953%70951%/var

/dev/hd32048.001929.646%1021%/tmp

/dev/hd140960.0040451.162%17751%/home

/proc-----/proc

/dev/hd10opt40960.0040756.111%85681%/opt

root@smk_exchange2:

>df-g

FilesystemGBblocksFree%UsedIused%IusedMountedon

/dev/hd44.003.923%61521%/

/dev/hd28.006.1324%414373%/usr

/dev/hd9var8.007.763%70951%/var

/dev/hd32.001.886%1021%/tmp

/dev/hd140.0039.502%17751%/home

/proc-----/proc

/dev/hd10opt40.0039.801%85681%/opt

root@smk_exchange2:

>

“Iused”是什么意思?

已使用的i-node,i-node是分配给文件系统的文件节点,它决定文件系统中文件和文件夹的总数。

节点,文件系统下,每个文件,目录都需要的,如果节点用完了,就是该文件系统还有空间,也不能再往里面放东西了,节点和文件,目录一一对应的。

 

2.检查系统出错日志

使用errpt来检查:

#errpt

#errpt–a

#errpt–a|more

#errpt–a|tail-50

#errpt–a>errpt.txt

清除现有的log:

#errclear0

#errclear7(保留7天)

 errpt命令将从错误日志中的条目生成一个错误报告,但是它并不进行错误日志分析;对于错误分析,可以使用diag命令。

  可以考虑下面的示例,其中通过执行errpt-a命令生成了一个错误报告:

#errpt-a

---------------------------------------------------------------------------

LABEL:

LVM_SA_STALEPP                      

IDENTIFIER:

EAA3D429                                                            

Date/Time:

TueDec 623:

24:

37CST2005               

SequenceNumber:

441                           

MachineId:

00C7CD9E4C00                       

NodeId:

lpar20                          

Class:

S                            

Type:

UNKN                           

ResourceName:

LVDD                                                              

Description                                

PHYSICALPARTITIONMARKEDSTALE                                                          

DetailData                                

PHYSICALVOLUMEDEVICEMAJOR/MINOR                    

0000000000000000                            

PHYSICALPARTITIONNUMBER(DECIMAL)                    

         227                          

LOGICALVOLUMEDEVICEMAJOR/MINOR                     

8000000A00000005                            

SENSEDATA                                  

00C7CD9E00004C0000000107706A336C00000000000000000000000000000000

---------------------------------------------------------------------------

.

(linesommited)

.

#

  根据错误的类型,errpt-a报告可能包含下面的信息:

  LABEL——事件的预定义名称。

  IDENTIFIER——事件的数值标识符。

  Date/Time——事件的日期和时间。

  SequenceNumber——事件的唯一编号。

  MachineID——您的系统处理器单元的标识编号。

  NodeID——您的系统的助记名称。

  Class——错误的一般来源。

可能的错误类型包括:

  H——硬件。

  S——软件。

  O——信息性消息。

  U——未定的。

  Type——所发生的错误的严重程度。

可能的错误类型包括:

  PEND——设备或组件的可用性损失是急迫的。

  PERF——设备或组件的性能已下降到可接受的级别以下。

  PERM——出现了不可恢复的情况。

如果错误类型为这个值,那么通常是最严重的错误,并且很可能意味着出现了硬件设备或者软件模块的故障。

如果错误类型为PERM之外的其他值,通常并不表示故障,但是对这些错误进行了记录,以便可以使用诊断程序对它们进行分析。

TEMP——在出现多次不成功的尝试之后,所恢复到的状态。

这种错误类型也可以用于记录信息性条目,如DASD设备的数据传输统计信息。

  UNKN——无法确定错误的严重程度。

  INFO——错误日志条目是信息性的,并且不是某个错误所产生的结果。

  ResourceName——检测到错误的资源的名称。

对于软件错误,这是某个软件组件或可执行程序的名称。

对于硬件错误,这是某个设备或系统组件的名称。

它并不表示该组件出现故障或者需要更换。

相反,它用于确定合适的诊断模块以用于对错误进行分析。

  ResourceClass——检测到故障的资源的一般类别(例如,磁盘的设备类别)。

  ResourceType——检测到故障的资源的类型。

  LocationCode——设备的路径。

最多可能有四个字段,分别是抽屉、插槽、连接器和端口。

  VPD——关键的产品数据。

这个字段的内容(如果存在)可能各不相同。

设备的错误日志条目通常返回有关设备制造商、序列号、工程变更级别、以及只读存储级别的信息。

  Description——错误的汇总信息。

  ProbableCause——一些可能的错误原因的列表。

  UserCauses——由用户错误所导致错误的可能原因的列表。

用户所导致的错误可能包括不正确插入的磁盘、未能开启的外部设备(如调制解调器和打印机)。

  InstallCauses——因为不正确的安装或者配置过程所导致错误的可能原因列表。

这种类型的错误包括硬件和软件不匹配、电缆的不正确安装或电缆连接变松,以及未能正确配置的系统。

  FailureCauses——可能的硬件或者软件故障列表。

  Actions——对于纠正故障的推荐操作的描述。

对于硬件错误,这将导致运行诊断程序。

  DetailedData——针对每个错误日志条目的、唯一的故障数据,如设备检测数据。

  可以考虑下面的示例错误输出,这是运行不带任何标志的errpt命令的错误输出:

#errpt

IDENTIFIERTIMESTAMPTCRESOURCE_NAME DESCRIPTION          

A6DF45AA 1207112405IORMCdaemon   Thedaemonisstarted.    

2BFA76F6 1205155605TSSYSPROC    SYSTEMSHUTDOWNBYUSER    

9DBCFDEE 1207112305TOerrdemon   ERRORLOGGINGTURNEDON    

192AC071 1205155505TOerrdemon   ERRORLOGGINGTURNEDOFF   

291D64C3 1202154105IHsysplanar0  platform_dumpindicatorevent 

BFE4C025 1202154105PHsysplanar0  UNDETERMINEDERROR      

291D64C3 1202154105IHsysplanar0  platform_dumpindicatorevent 

291D64C3 1202145005IHsysplanar0  platform_dumpindicatorevent

EAA3D429 1202144505USLVDD     PHYSICALPARTITIONMARKEDSTALE

BFE4C025 1202144505PHsysplanar0  UNDETERMINEDERROR

F6A86ED5 1202144105PSent7     SERVICECALLFAILED

F6A86ED5 1202144105PSent6     SERVICECALLFAILED

#

C:

Class——可能的错误类型

T:

Type——所发生的错误的严重程度。

(见上面)

  如果错误类别值为H,并且错误类型值为PERM(在这个示例中,标识符BFE4C025就是这种情况),则说明系统碰到了硬件问题,并且无法对其进行恢复。

可能存在与这种错误类型相关联的诊断信息。

  如果错误类别值为H,并且错误类型值为PEND,则表示因为系统检测到大量的错误,以使得某个硬件马上将变得不可用。

  如果错误类别值为S,并且错误类型值为PERM(在这个示例中,标识符F6A86ED5就是这种情况),则说明系统碰到了与软件相关的问题,并且无法对其进行恢复。

  如果错误类别值为S,并且错误类型值为TEMP,则表示系统碰到了与软件相关的问题。

在经过几次尝试之后,系统能够对该问题进行恢复。

  如果错误类别值为O,则表示已经记录了一个信息性消息(在这个示例中,标识符A6DF45AA、9DBCFDEE和192AC071就是这种情况)。

  当您怀疑出现了硬件问题的时候,可以使用diag命令来帮助查找问题。

3.检查系统合法/非法登陆情况

使用Last命令来检查来自登陆的地方和登录的时间。

4.检查系统是否有巨大的Core文件生成

使用find/-namecore–print来检查。

当进程在异常终止运行时,系统会把该进程对应的地址空间中的数据写到core文件中(这个过程被称为dump),以便程序员对其进行分析,找出进程异常终止的原因。

缺省情况下,异常终止的进程在启动它的当前目录下产生core文件。

  在AIX4.3.3中,所有的core文件的文件名都是core,如果不只一个程序产生dump或者相同的程序dump多次,它们都会产生相同文件名的core文件,那么就会丢失比较早的core文件。

从AIX5.1开始,改变了core文件的命名方法,使得每一个core文件拥有惟一的文件名,从而避免了新的core文件覆盖旧的core文件,这个特色更加有助于程序员调试和跟踪运行失败的程序。

对Core文件,一般直接删除就可以了。

 

5.系统性能检查:

a)CPU性能:

使用Vmstat,topas来检查

由vmstat命令生成的以下报告示例包含栏标题及其描述:

  kthr:

内核线程状态在采样间隔期间每秒钟更改一次。

  r:

置于运行队列中的内核线程数目。

  b:

置于等待队列(等待资源、等待输入/输出)的内核线程数目。

  memory内存:

关于使用虚拟内存和实内存的信息。

如果虚拟页已经被访问的话,虚拟页可以被认为是活动的。

一页为4096个字节。

  avm:

活动虚拟页。

  fre:

空闲列表的大小。

  注:

大部分实内存都用作文件系统数据的高速缓存。

对于保持较小的空闲列表,这是很正常的。

  page页:

关于缺页故障和调页活动的信息。

这些是间隔的平均值,以秒为单位给出。

  re:

页面调度程序输入/输出列表。

  pi:

从调页空间调度进的页面。

  po:

调出到调页空间的页面。

  fr:

释放的页(页面替换)。

  sr:

通过页替换算法扫描的页面。

  cy:

按页替换算法的时钟周期。

  faults故障:

采样间隔平均每秒的捕获和中断率。

  in:

设备中断

  sy:

系统调用。

  cs:

内核线程上下文切换。

  Cpu:

CPU使用时间故障百分比。

  us:

用户时间。

  sy:

系统时间。

  id:

CPU空闲时间。

  wa:

CPU空闲时间,在此期间系统有未完成的磁盘/NFSI/O请求。

 

b)内存使用情况:

也是使用topas,vmstat来检查

#topas

(按C两次)

CPUUser%Kern%Wait%Idle%

20.10.30.099.5

10.00.00.0100.0

00.00.10.099.9

30.00.00.0100.0

1).CPU使用情况:

这个分部显示一个条形图表来表示累积的CPU使用情况。

如果有多个CPU,按c键两次就可显示CPU列表。

仅按c键一次会关闭这个分部。

User% :

这显示以用户方式执行的程序所使用的CPU的百分数。

(缺省按用户%排序)

Kern% :

这显示以内核方式执行的程序所使用的CPU的百分数。

Wait% :

这显示用于等待IO的时间的百分数。

Idle% :

这表示CPU空闲时间的百分数。

Kernel:

说明:

操作系统的内核占用的CPU时间比率。

操作系统作为基础软件,为应用程序支持和服务的同时,本身的运行也需要一定的CPU和内存资源(顺便提到内存资源,后面不再阐述这个内容了),特别是内存资源,系统负载越重,相应的内核占用的CPU和内存资源也会越多。

一般来说,内核占用的CPU时间不会太多的。

一般小于应用的CPU使用率。

User:

说明:

用户进程占用的CPU时间比率。

这个为CPU使用率的关键数值。

该使用率反映了用户在操作系统基础上运行的各种软件占用的CPU时间比率的总和。

一般来说,如果User+Kernel连续大于70%,即可以认为系统可能存在CPU上的严重性能问题。

Wait

说明:

CPU处于等待状态占CPU时间的比率。

CPU的等待一般都为等待IO的响应,众所周知,目前计算机的主要瓶颈都在IO。

应用程序执行的时候,需要读写磁盘等外部存储的数据,进程就会发起IO请求后等待IO完成。

这个等待的过程占用CPU时间就是wait。

当这个值很高的时候,就说明IO来不及响应很多的IO请求,这个时候,就只能从IO层面想办法优化了。

Idle:

说明:

CPU空闲时间比率,这个就不用说了吧。

就是CPU多少时间比率在闲着。

CPU占用率出问题的主要可能原因:

数据库服务器执行某一个SQL或者存储过程(存储过程就是封装起来的sql程序包而已)需要大量的运算(一般为软件设计不合理)。

或者应用程序中存在异常的地方,比如死循环,或者其他写程序时的逻辑错误导致。

一般程序出错会导致一个CPU被全部占用,比如上述的20%占用的原因就是一个交易程序长期占用一个CPU全部时间片(系统共计5个CPU)。

 

 

2).网络接口情况

此分部显示了热门网络接口的列表。

所显示接口的最大数目是正被监视的热门接口数目,正如-n标志指定的那样。

如果其它分部也被显示,则将显示接口的一个较小数目。

按n键可关闭此分部。

再按一次n键就会显示一行所有网络接口活动的报告摘要。

Interf:

网络接口的名称。

KBPS  :

在监视时间间隔内每秒钟以KB为单位的总吞吐量。

这个字段是每秒接收到的千字节和发送的千字节的总和。

I-Pack:

在监视时间间隔内每秒钟接收到的数据包的数目。

O-Pack:

在监视时间间隔内每秒钟发送的数据包的数目。

KB-In :

在监视时间间隔内每秒钟接收到的千字节的数目。

KB-Out:

在监视时间间隔内每秒钟发送的千字节的数目。

当此分部首先显示热门网络接口列表时,按KBPS字段对列表排序。

但是,可以按其它字段对列表排序,只要把光标移到想要的那一栏顶部就可以了。

排序仅对最多16个网络适配器有效。

  

lo0是IP协议栈内部的“假”网卡,即本机自回馈接口

当我们发现网络拥堵时(出现网卡传输失效的报错,即网卡发送数据包失败。

或者网络响应明显变慢的时候,如果CPU没有问题,那么请检查网络流量)发现某一个网卡的KBPS持续大于四位数,甚至五位数时(这个值要是网卡千兆还是百兆而定)。

就要看看这个网卡是什么网卡,在处理什么业务了。

在命令行执行netstat–in查看对应en*接口的ip地址,通过ip地址看看是带官网卡还是生产服务网卡流量高。

然后通过netstat–ven*看看网卡的详细工作状态,出现了多少错包,冲突包,crc校验错或者网络重置过等信息。

上述信息请详细看netstat–ven*的输出.如果出现大量crc,错包的话,可能网线有问题或者接触不良。

如果上述均正常,而网络反应慢,则有可能是交换机拥堵。

网络出现问题的可能原因:

通过百兆的带管网加载大量数据(以前出现过),大量队列的长时间的ftp传输,或者网线,交换机问题等。

3).物理磁盘情况

此分部显示了热门物理磁盘的列表。

所显示物理磁盘的最大数目是正被监视的热门物理磁盘数目,正如-d标志指定的那样。

如果其它分部也被显示,则将显示物理磁盘的一个较小数目。

按d键可关闭这个分部。

再按一次d键就会显示一行所有物理磁盘活动的报告摘要。

Disk  :

物理磁盘的名称。

Busy%  :

表示物理磁盘活动时间的百分比(驱动器带宽使用)。

KBPS   :

在监视时间间隔内每秒钟读和写的千字节的数目。

此字段是KB-Read和KB-Writ的总和。

TPS   :

每秒钟发送到物理磁盘的传输的数目。

传输是对物理磁盘的I/O请求。

多个逻辑请求可组合成对磁盘的单个I/O请求。

传输大小不确定。

KB-Read:

每秒钟从物理磁盘读取的千字节的数目。

KB-Writ:

每秒钟写到物理磁盘的千字节的数目。

当此分部首先显示热门物理磁盘列表时,按KBPS字段对列表排序。

但是,可以按其它字段对列表排序,只要把光标移到想要的那一栏顶部就可以了。

排序仅对最多128个物理磁盘有效。

 

 

一般主要看磁盘的Busy%,当磁盘的Busy%持续大于85%时,即认为磁盘相当繁忙,已经可能要出问题了。

当然,自己知道已经确定要产生大量IO操作的内容则不必在意,等其完成即可。

出现问题的原因:

应用服务器上面写日志进程或者查询日志的进程大量读写日志,导致磁盘繁忙率高,或者其他程序频繁读写磁盘导致。

系统中hdisk0,hdisk1一般为系统盘,内置SCSI磁盘的相对IOPS是较低的。

很容易满负荷运行。

 

4).WLM(WorkloadManager)类

此分部显示了热门工作量管理(WLM)类的列表。

所显示WLM类的最大数目是正被监视的热门WLM类数目,正如-w标志指定的那样。

如果其它分部也被显示,则将显示WLM类的一个较小数目。

按w键可关闭此分部。

对于每一个类会显示下列字段:

%CPU使用情况:

在监视时间间隔内WLM类的平均CPU使用情况。

%Mem使用情况:

在监视时间间隔内WLM类的平均内存使用情况。

%BlkI/O    :

在监视时间间隔内WLM类的块I/O的平均百分比。

当这个分部首先显示热门WLM类列表时,就按CPU%字段来对列表排序。

但是,可以按其它字段来对列表排序,只要把光标移到想要的那一栏顶部就可以了。

工作负载管理器(WLM)可以控制系统上的作业使用的资源。

缺省WLM配置模板存在于每个安装的AIX操作系统上。

以下过程更新了WLM配置模板用以在共享的服务器上实现资源管理策略。

  

 

5).进程类

此分部显示了热门进程的列表。

所显示进程的最大数目是正被监视的热门过程数目,正如-p标志指定的那样。

如果其它分部也被显示,则将显示进程的一个较小数目。

按p键可关闭此分部。

按监视时间间隔内进程的CPU使用情况来对进程排序。

P键可以查看detail。

NAME  :

在进程中执行的可执行程序的名称。

名称已被除去任何路径名和参数信息并被截断到9个字符的长度。

PID   :

进程的进程标识。

%CPU :

在监视时间间隔内进程的平均CPU使用情况。

第一次显示进程时,这个值表示整个进程阶段平均CPU使用情况。

PgSp  :

分配给此进程的调页空间的大小。

这可被认为是进程覆盖区的一种表达式,但并不包括用来保持可执行程序和它依赖的任何共享库的内存。

单位:

MB

owner :

(如果WLM部分被关闭)拥有此进程的用户的用户名。

工作量管理(WLM)类(如果WLM部分被打开):

进程所属的WLM类。

 

 

6).事件/队列

显示所选系统全局事件的每秒频率、线程运行和等待队列的平均大小:

Cswitch :

在监视时间间隔内每秒上下文切换的数量。

Syscalls:

在监视时间间隔内每秒执行的系统调用的数量。

Reads

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 表格模板 > 书信模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1