小型机日常检查维护和备份.docx-资源下载

小型机日常检查维护和备份.docx

1、小型机日常检查维护和备份三、日常检查维护1 文件系统是否满方法： df k 可以以K为单位检查文件系统的使用率。（90%以上，需要调整） df m grootsmk_exchange2:df -mFilesystem MB blocks Free %Used Iused %Iused Mounted on/dev/hd4 4096.00 4012.76 3% 6152 1% /dev/hd2 8192.00 6277.69 24% 41437 3% /usr/dev/hd9var 8192.00 7947.95 3% 7095 1% /var/dev/hd3 2048.00 1929.64

2、6% 102 1% /tmp/dev/hd1 40960.00 40451.16 2% 1775 1% /home/proc - - - - - /proc/dev/hd10opt 40960.00 40756.11 1% 8568 1% /optrootsmk_exchange2:df -gFilesystem GB blocks Free %Used Iused %Iused Mounted on/dev/hd4 4.00 3.92 3% 6152 1% /dev/hd2 8.00 6.13 24% 41437 3% /usr/dev/hd9var 8.00 7.76 3% 7095 1%

3、 /var/dev/hd3 2.00 1.88 6% 102 1% /tmp/dev/hd1 40.00 39.50 2% 1775 1% /home/proc - - - - - /proc/dev/hd10opt 40.00 39.80 1% 8568 1% /optrootsmk_exchange2:“Iused”是什么意思？已使用的i-node,i-node是分配给文件系统的文件节点,它决定文件系统中文件和文件夹的总数。节点，文件系统下，每个文件，目录都需要的，如果节点用完了，就是该文件系统还有空间，也不能再往里面放东西了，节点和文件，目录一一对应的。2 检查系统出错日志使用errp

4、t来检查 :#errpt#errpt a #errpt a |more #errpt a | tail -50 #errpt a errpt.txt清除现有的log: #errclear 0 #errclear 7 （保留7天）errpt 命令将从错误日志中的条目生成一个错误报告，但是它并不进行错误日志分析；对于错误分析，可以使用 diag 命令。可以考虑下面的示例，其中通过执行 errpt -a 命令生成了一个错误报告：# errpt -a-LABEL:LVM_SA_STALEPPIDENTIFIER:EAA3D429Date/Time:Tue Dec6 23:24:37 CST 2005S

5、equence Number: 441Machine Id:00C7CD9E4C00Node Id:lpar20Class:SType:UNKNResource Name:LVDDDescriptionPHYSICAL PARTITION MARKED STALEDetail DataPHYSICAL VOLUME DEVICE MAJOR/MINOR0000 0000 0000 0000PHYSICAL PARTITION NUMBER (DECIMAL) 227LOGICAL VOLUME DEVICE MAJOR/MINOR8000 000A 0000 0005SENSE DATA00C

6、7 CD9E 0000 4C00 0000 0107 706A 336C 0000 0000 0000 0000 0000 0000 0000 0000-.(lines ommited).#根据错误的类型，errpt -a 报告可能包含下面的信息：LABEL事件的预定义名称。IDENTIFIER事件的数值标识符。Date/Time事件的日期和时间。Sequence Number事件的唯一编号。Machine ID您的系统处理器单元的标识编号。Node ID您的系统的助记名称。Class错误的一般来源。可能的错误类型包括： H硬件。 S软件。 O信息性消息。 U未定的。Type所发生的错误的严重

7、程度。可能的错误类型包括： PEND设备或组件的可用性损失是急迫的。 PERF设备或组件的性能已下降到可接受的级别以下。 PERM出现了不可恢复的情况。如果错误类型为这个值，那么通常是最严重的错误，并且很可能意味着出现了硬件设备或者软件模块的故障。如果错误类型为 PERM 之外的其他值，通常并不表示故障，但是对这些错误进行了记录，以便可以使用诊断程序对它们进行分析。TEMP在出现多次不成功的尝试之后，所恢复到的状态。这种错误类型也可以用于记录信息性条目，如 DASD 设备的数据传输统计信息。 UNKN无法确定错误的严重程度。 INFO错误日志条目是信息性的，并且不是某个错误所产生的结果。Res

8、ource Name检测到错误的资源的名称。对于软件错误，这是某个软件组件或可执行程序的名称。对于硬件错误，这是某个设备或系统组件的名称。它并不表示该组件出现故障或者需要更换。相反，它用于确定合适的诊断模块以用于对错误进行分析。Resource Class检测到故障的资源的一般类别（例如，磁盘的设备类别）。Resource Type检测到故障的资源的类型。Location Code设备的路径。最多可能有四个字段，分别是抽屉、插槽、连接器和端口。VPD关键的产品数据。这个字段的内容（如果存在）可能各不相同。设备的错误日志条目通常返回有关设备制造商、序列号、工程变更级别、以及只读存储级别的信息。D

9、escription错误的汇总信息。Probable Cause一些可能的错误原因的列表。User Causes由用户错误所导致错误的可能原因的列表。用户所导致的错误可能包括不正确插入的磁盘、未能开启的外部设备（如调制解调器和打印机）。Install Causes因为不正确的安装或者配置过程所导致错误的可能原因列表。这种类型的错误包括硬件和软件不匹配、电缆的不正确安装或电缆连接变松，以及未能正确配置的系统。Failure Causes可能的硬件或者软件故障列表。Actions对于纠正故障的推荐操作的描述。对于硬件错误，这将导致运行诊断程序。Detailed Data针对每个错误日志条目的、唯一

10、的故障数据，如设备检测数据。可以考虑下面的示例错误输出，这是运行不带任何标志的 errpt 命令的错误输出：# errptIDENTIFIER TIMESTAMP T C RESOURCE_NAMEDESCRIPTIONA6DF45AA 1207112405 I O RMCdaemonThe daemon is started.2BFA76F6 1205155605 T S SYSPROCSYSTEM SHUTDOWN BY USER9DBCFDEE 1207112305 T O errdemon ERROR LOGGING TURNED ON192AC071 1205155505 T O e

11、rrdemon ERROR LOGGING TURNED OFF291D64C3 1202154105 I H sysplanar0 platform_dump indicator eventBFE4C025 1202154105 P H sysplanar0 UNDETERMINED ERROR291D64C3 1202154105 I H sysplanar0 platform_dump indicator event291D64C3 1202145005 I H sysplanar0 platform_dump indicator eventEAA3D429 1202144505 U S

12、 LVDD PHYSICAL PARTITION MARKED STALEBFE4C025 1202144505 P H sysplanar0 UNDETERMINED ERRORF6A86ED5 1202144105 P S ent7 SERVICE CALL FAILEDF6A86ED5 1202144105 P S ent6 SERVICE CALL FAILED#C:Class可能的错误类型T:Type所发生的错误的严重程度。(见上面)如果错误类别值为 H，并且错误类型值为 PERM（在这个示例中，标识符 BFE4C025 就是这种情况），则说明系统碰到了硬件问题，并且无法对其进行恢复

13、。可能存在与这种错误类型相关联的诊断信息。如果错误类别值为 H，并且错误类型值为 PEND，则表示因为系统检测到大量的错误，以使得某个硬件马上将变得不可用。如果错误类别值为 S，并且错误类型值为 PERM（在这个示例中，标识符 F6A86ED5 就是这种情况），则说明系统碰到了与软件相关的问题，并且无法对其进行恢复。如果错误类别值为 S，并且错误类型值为 TEMP，则表示系统碰到了与软件相关的问题。在经过几次尝试之后，系统能够对该问题进行恢复。如果错误类别值为 O，则表示已经记录了一个信息性消息（在这个示例中，标识符 A6DF45AA、9DBCFDEE 和 192AC071 就是这种情况）。当

14、您怀疑出现了硬件问题的时候，可以使用 diag 命令来帮助查找问题。3 检查系统合法/非法登陆情况使用Last命令来检查来自登陆的地方和登录的时间。 4 检查系统是否有巨大的Core文件生成使用 find / -name core print来检查。当进程在异常终止运行时，系统会把该进程对应的地址空间中的数据写到core文件中(这个过程被称为dump)，以便程序员对其进行分析，找出进程异常终止的原因。缺省情况下，异常终止的进程在启动它的当前目录下产生core文件。在AIX 4.3.3中，所有的core文件的文件名都是core，如果不只一个程序产生dump或者相同的程序dump多次，它们都会

15、产生相同文件名的core文件，那么就会丢失比较早的core文件。从AIX 5.1开始，改变了core文件的命名方法，使得每一个core文件拥有惟一的文件名，从而避免了新的core文件覆盖旧的core文件，这个特色更加有助于程序员调试和跟踪运行失败的程序。对Core文件，一般直接删除就可以了。 5 系统性能检查： a) CPU性能：使用Vmstat, topas来检查由 vmstat 命令生成的以下报告示例包含栏标题及其描述： kthr：内核线程状态在采样间隔期间每秒钟更改一次。 r ：置于运行队列中的内核线程数目。 b ：置于等待队列（等待资源、等待输入输出）的内核线程数目。 memory内

16、存：关于使用虚拟内存和实内存的信息。如果虚拟页已经被访问的话，虚拟页可以被认为是活动的。一页为 4096 个字节。 avm：活动虚拟页。 fre ：空闲列表的大小。注:大部分实内存都用作文件系统数据的高速缓存。对于保持较小的空闲列表，这是很正常的。 page页：关于缺页故障和调页活动的信息。这些是间隔的平均值，以秒为单位给出。 re ：页面调度程序输入输出列表。 pi ：从调页空间调度进的页面。 po：调出到调页空间的页面。 fr ：释放的页（页面替换）。 sr：通过页替换算法扫描的页面。 cy ：按页替换算法的时钟周期。 faults故障：采样间隔平均每秒的捕获和中断率。 in ：设

17、备中断 sy ：系统调用。 cs ：内核线程上下文切换。 Cpu：CPU 使用时间故障百分比。 us ：用户时间。 sy ：系统时间。 id ：CPU 空闲时间。 wa ：CPU 空闲时间，在此期间系统有未完成的磁盘/NFS I/O 请求。b) 内存使用情况：也是使用topas, vmstat来检查 #topas(按C两次)CPU User% Kern% Wait% Idle% 2 0.1 0.3 0.0 99.5 1 0.0 0.0 0.0 100.0 0 0.0 0.1 0.0 99.9 3 0.0 0.0 0.0 100.0 1). CPU使用情况:这个分部显示一个条形图表来表示累积的

18、CPU 使用情况。如果有多个 CPU，按 c 键两次就可显示 CPU 列表。仅按 c 键一次会关闭这个分部。User% :这显示以用户方式执行的程序所使用的 CPU 的百分数。（缺省按用户% 排序） Kern% :这显示以内核方式执行的程序所使用的 CPU 的百分数。 Wait% :这显示用于等待 IO 的时间的百分数。 Idle% :这表示 CPU 空闲时间的百分数。 Kernel：说明：操作系统的内核占用的CPU时间比率。操作系统作为基础软件，为应用程序支持和服务的同时，本身的运行也需要一定的CPU和内存资源（顺便提到内存资源，后面不再阐述这个内容了），特别是内存资源，系统负载越重，相应的

19、内核占用的CPU和内存资源也会越多。一般来说，内核占用的CPU时间不会太多的。一般小于应用的CPU使用率。User：说明：用户进程占用的CPU时间比率。这个为CPU使用率的关键数值。该使用率反映了用户在操作系统基础上运行的各种软件占用的CPU时间比率的总和。一般来说，如果User+Kernel连续大于70%，即可以认为系统可能存在CPU上的严重性能问题。Wait说明：CPU处于等待状态占CPU时间的比率。CPU的等待一般都为等待IO的响应，众所周知，目前计算机的主要瓶颈都在IO。应用程序执行的时候，需要读写磁盘等外部存储的数据，进程就会发起IO请求后等待IO完成。这个等待的过程占用CPU时间就

20、是wait。当这个值很高的时候，就说明IO来不及响应很多的IO请求，这个时候，就只能从IO层面想办法优化了。Idle：说明：CPU空闲时间比率，这个就不用说了吧。就是CPU多少时间比率在闲着。CPU占用率出问题的主要可能原因：数据库服务器执行某一个SQL或者存储过程（存储过程就是封装起来的sql程序包而已）需要大量的运算（一般为软件设计不合理）。或者应用程序中存在异常的地方，比如死循环，或者其他写程序时的逻辑错误导致。一般程序出错会导致一个CPU被全部占用，比如上述的20%占用的原因就是一个交易程序长期占用一个CPU全部时间片（系统共计5个CPU）。2). 网络接口情况此分部显示了热门网络接口

21、的列表。所显示接口的最大数目是正被监视的热门接口数目，正如 -n 标志指定的那样。如果其它分部也被显示，则将显示接口的一个较小数目。按 n 键可关闭此分部。再按一次 n 键就会显示一行所有网络接口活动的报告摘要。Interf :网络接口的名称。 KBPS :在监视时间间隔内每秒钟以 KB 为单位的总吞吐量。这个字段是每秒接收到的千字节和发送的千字节的总和。I-Pack :在监视时间间隔内每秒钟接收到的数据包的数目。 O-Pack :在监视时间间隔内每秒钟发送的数据包的数目。 KB-In :在监视时间间隔内每秒钟接收到的千字节的数目。 KB-Out :在监视时间间隔内每秒钟发送的千字节的数目。

22、当此分部首先显示热门网络接口列表时，按 KBPS 字段对列表排序。但是，可以按其它字段对列表排序，只要把光标移到想要的那一栏顶部就可以了。排序仅对最多 16 个网络适配器有效。lo0是IP协议栈内部的“假”网卡，即本机自回馈接口当我们发现网络拥堵时（出现网卡传输失效的报错，即网卡发送数据包失败。或者网络响应明显变慢的时候，如果CPU没有问题，那么请检查网络流量）发现某一个网卡的KBPS持续大于四位数，甚至五位数时（这个值要是网卡千兆还是百兆而定）。就要看看这个网卡是什么网卡，在处理什么业务了。在命令行执行netstat in 查看对应en*接口的ip地址，通过ip地址看看是带官网卡还是生产服务

23、网卡流量高。然后通过netstat v en* 看看网卡的详细工作状态，出现了多少错包，冲突包，crc校验错或者网络重置过等信息。上述信息请详细看netstat v en*的输出.如果出现大量crc，错包的话，可能网线有问题或者接触不良。如果上述均正常，而网络反应慢，则有可能是交换机拥堵。网络出现问题的可能原因：通过百兆的带管网加载大量数据（以前出现过），大量队列的长时间的ftp传输，或者网线，交换机问题等。3). 物理磁盘情况此分部显示了热门物理磁盘的列表。所显示物理磁盘的最大数目是正被监视的热门物理磁盘数目，正如 -d 标志指定的那样。如果其它分部也被显示，则将显示物理磁盘的一个较小数目。

24、按 d 键可关闭这个分部。再按一次 d 键就会显示一行所有物理磁盘活动的报告摘要。Disk ：物理磁盘的名称。 Busy%：表示物理磁盘活动时间的百分比（驱动器带宽使用）。 KBPS：在监视时间间隔内每秒钟读和写的千字节的数目。此字段是 KB-Read 和 KB-Writ 的总和。 TPS ：每秒钟发送到物理磁盘的传输的数目。传输是对物理磁盘的 I/O 请求。多个逻辑请求可组合成对磁盘的单个 I/O 请求。传输大小不确定。 KB-Read：每秒钟从物理磁盘读取的千字节的数目。 KB-Writ：每秒钟写到物理磁盘的千字节的数目。当此分部首先显示热门物理磁盘列表时，按 KBPS 字段对列表排序。

25、但是，可以按其它字段对列表排序，只要把光标移到想要的那一栏顶部就可以了。排序仅对最多 128 个物理磁盘有效。一般主要看磁盘的Busy%,当磁盘的Busy%持续大于85%时，即认为磁盘相当繁忙，已经可能要出问题了。当然，自己知道已经确定要产生大量IO操作的内容则不必在意，等其完成即可。出现问题的原因：应用服务器上面写日志进程或者查询日志的进程大量读写日志，导致磁盘繁忙率高，或者其他程序频繁读写磁盘导致。系统中hdisk0，hdisk1一般为系统盘，内置SCSI磁盘的相对IOPS是较低的。很容易满负荷运行。4). WLM(Workload Manager)类此分部显示了热门工作量管理（WLM）

26、类的列表。所显示 WLM 类的最大数目是正被监视的热门 WLM 类数目，正如 -w 标志指定的那样。如果其它分部也被显示，则将显示 WLM 类的一个较小数目。按 w 键可关闭此分部。对于每一个类会显示下列字段： % CPU 使用情况 :在监视时间间隔内 WLM 类的平均 CPU 使用情况。 % Mem 使用情况 :在监视时间间隔内 WLM 类的平均内存使用情况。 % Blk I/O :在监视时间间隔内 WLM 类的块 I/O 的平均百分比。当这个分部首先显示热门 WLM 类列表时，就按 CPU% 字段来对列表排序。但是，可以按其它字段来对列表排序，只要把光标移到想要的那一栏顶部就可以了。工作

27、负载管理器（WLM）可以控制系统上的作业使用的资源。缺省 WLM 配置模板存在于每个安装的 AIX 操作系统上。以下过程更新了 WLM 配置模板用以在共享的服务器上实现资源管理策略。5). 进程类此分部显示了热门进程的列表。所显示进程的最大数目是正被监视的热门过程数目，正如 -p 标志指定的那样。如果其它分部也被显示，则将显示进程的一个较小数目。按 p 键可关闭此分部。按监视时间间隔内进程的 CPU 使用情况来对进程排序。 P键可以查看detail。NAME ：在进程中执行的可执行程序的名称。名称已被除去任何路径名和参数信息并被截断到 9 个字符的长度。 PID :进程的进程标识。 % CPU

28、 :在监视时间间隔内进程的平均 CPU 使用情况。第一次显示进程时，这个值表示整个进程阶段平均 CPU 使用情况。 PgSp :分配给此进程的调页空间的大小。这可被认为是进程覆盖区的一种表达式，但并不包括用来保持可执行程序和它依赖的任何共享库的内存。单位：MBowner :（如果 WLM 部分被关闭）拥有此进程的用户的用户名。工作量管理（WLM）类（如果 WLM 部分被打开） :进程所属的 WLM 类。6). 事件队列显示所选系统全局事件的每秒频率、线程运行和等待队列的平均大小： Cswitch :在监视时间间隔内每秒上下文切换的数量。 Syscalls :在监视时间间隔内每秒执行的系统调用的数量。 Reads

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？