1、备份与恢复:备份与恢复第四章:第四章:性能监控与优化性能监控与优化概要概要IBMSystems&TechnologyGroup2006IBMCorporation第一章:日常维护部分IBMSystems&TechnologyGroup2003IBMCorporation4AIX系统的日常维护系统的日常维护AIXAIX系统管理日常健康检查与监控系统管理日常健康检查与监控IBMSystems&TechnologyGroup2003IBMCorporation5AIX系统管理日常健康检查与监控系统管理日常健康检查与监控机房环境检查机房环境检查电源线的母头是否为左零右火电压值是否为240V零地电压是否
2、小于1V温度(摄氏)1040湿度(%)8%80%查看硬件情况查看硬件情况检查设备故障灯,一般为红色或黄色报警灯常亮。有没有异常声响,如硬盘、风扇等。有没有破损的电缆等IBMSystems&TechnologyGroup2003IBMCorporation6AIX系统管理日常健康检查与监控系统管理日常健康检查与监控检查文件系统检查文件系统查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/(根文件系统)满则会导致用户不能登录。#df-k(查看AIX的基本文件系统)Filesystem 1024-blocks Free%Used Iused%Iused M
3、ounted on/dev/hd4 24576 1452 95%95%2599 22%/dev/hd2 614400 28068 96%22967 15%/usr/dev/hd9var 8192 4540 45%649 32%/var/dev/hd3 167936 157968 6%89 1%/tmp/dev/hd1 16384 5332 68%1402 35%/homeIBMSystems&TechnologyGroup2003IBMCorporation7AIX系统管理日常健康检查与监控系统管理日常健康检查与监控除/usr文件系统,其他文件系统都不应太满,一般不超过80%。处理方法1:找出
4、(删除)垃圾文件#du-sk*|sortrn|head查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的mountpoint,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。TechnologyGroup2003IBMCorporation8处理方法处理方法2:增加文件系统大小:增加文件系统大小#smittychfs文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。检查文件系统的完整性检查文件系统的完整性#umount
5、filesystem_name#fsckfilesystem_name#fsck-yfilesystem_name注意:文件系统必须先注意:文件系统必须先umount,再做检查和修复,否则可导致未知的,再做检查和修复,否则可导致未知的后果。后果。AIX系统管理日常健康检查与监控系统管理日常健康检查与监控IBMSystems&TechnologyGroup2003IBMCorporation9AIX系统管理日常健康检查与监控系统管理日常健康检查与监控查看卷组信息查看卷组信息lsvg-lvg_name有没有stale状态的逻辑卷。用syncvg命令修复。#smittysyncvgLV NAME T
6、YPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 48 96 2 open/syncd N/Apaging00 paging 32 64 2 open/syncd N/Ahd8 jfslog 1 2 2 open/syncd N/Ahd4 jfs 1 2 2 open/syncd /hd2 jfs 32 64 2 open/syncd /usrhd9var jfs 5 10 2 open/syncd /varhd3 jfs 4 8 2 open/syncd /tmphd1 jfs 1 2
7、2 open/syncd /homeIBMSystems&TechnologyGroup2003IBMCorporation10AIX系统管理日常健康检查与监控系统管理日常健康检查与监控检查内存交换区检查内存交换区(pagingspace)使用率使用率#lsps-s使用率不要超过70%。增加交换区,或增加内存。观察内存大小的命令:lsattrElmem0#lsps-sTotal Paging Space Percent Used 2048MB 15%#lsps aPage Space Physical Volume Volume Group Size%Used Active Auto Type
8、hd6 hdisk0 rootvg 2048MB 15 yes yes lvIBMSystems&TechnologyGroup2003IBMCorporation11AIX系统管理日常健康检查与监控系统管理日常健康检查与监控网络检查网络检查netstat-i查看网卡状态Ierrs/Ipkts和Oerrs/Opkts是否1%注:Oerrs是指从这个网卡发出去错误包数目的统计Opkts是指从这个网卡发出去的ip包个数的统计。看它们是否1%应该是指网络质量好坏。pinghost_name/IPAddress查看是否通和是否有丢包。路由表#netstat-rn查看路由表是否正确,ping各路由器是否
9、通。核对主机名#hostnameIBMSystems&TechnologyGroup2003IBMCorporation12AIX系统管理日常健康检查与监控系统管理日常健康检查与监控#ifconfig-aen0:flags=4e080863inet 172.40.10.31 netmask 0 xffff0000 broadcast 172.40.255.255lo0:flags=e08084binet 127.0.0.1 netmask 0 xff000000 broadcast 127.255.255.255inet6:1/0#ifconfig#ifconfig 用法用法ifconfig
10、en0 inet 11.0.0.1 upifconfig en0 ns 110:02.60.8c.2c.a4.98 up(还有很多)IBMSystems&TechnologyGroup2003IBMCorporation13AIX系统管理日常健康检查与监控系统管理日常健康检查与监控#lsattrElent0authm 65536 Authentication Methods Truehostname qtsms Host Name Truegateway Gateway Trueroute net,0,172.40.10.1,0,172.40.10.1 Route Truebootup_opt
11、ion no Serial Optical Network Interface Truerout6 FDDI Network Interface Trueroute属性是否有相应的路由信息。格式为:net,0,172.16.23.81如果没有缺省路由,执行命令:#chdevlinet0aroute=0,172.16.23.81其中172.16.23.81为网关如果缺省路由不正确,则先删除路由,再增加缺省路由:#chdevlinet0adelroute=net,0,133.16.23.81#chdevlinet0aroute=0,172.16.23.81IBMSystems&Technology
12、Group2003IBMCorporation14AIX系统管理日常健康检查与监控系统管理日常健康检查与监控系统故障记录系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt命令的使用(普通用户权限也可使用)IBMSystems&TechnologyGroup2003IBMCorporation15AIX系统管理日常健康检查与监控系统管理日常健康检查与监控IBMSystems&TechnologyGroup2003IBMCorporation16错误
13、日志的目的在监测到硬件、软件和操作错误时记录相应的信息在监测到硬件、软件和操作错误时记录相应的信息用户其他的相关信息被记录下来用户其他的相关信息被记录下来报告通过记录产生报告通过记录产生用户能够客户化错误信息用户能够客户化错误信息当发生某些特定的错误时,系统发出指定信息当发生某些特定的错误时,系统发出指定信息可以查询到建议操作可以查询到建议操作IBMSystems&TechnologyGroup2003IBMCorporation17通过smit产生错误报告显示所有的错误报告显示所有的错误报告#errpt打印错误报告的模板打印错误报告的模板#errpt-t按时间产生报告按时间产生报告#errp
14、t-a-smmddhhmmyy只报告硬件错误只报告硬件错误#errpt-d-H描述描述ID为为F49E2A17的错误报告的错误报告#errpt-a-jF49E2A17IBMSystems&TechnologyGroup2003IBMCorporation18报告实例#errpt IBMSystems&TechnologyGroup2003IBMCorporation19参数详解标识标识C:错误归类:错误归类H:硬件S:软件O:系统信息已经记录U:不能确定标识标识T:错误类型:错误类型PERM(并且C为H):显示系统遇到硬件问题并且无法自动修复PERD(并且C为H):系统硬件变为不可用并引起一系
15、列错误系统PERM(并且C为S):显示系统遇到软件问题并且无法自动修复TEMP(并且C为S):显示系统遇到软件问题并且已经自动修复IBMSystems&TechnologyGroup2003IBMCorporation20磁盘错误的处理诊断程序诊断程序帮助确定问题的严重性可以格式化磁盘或进行磁盘片的检查磁盘片的检查磁盘片的检查检查在磁盘上的每一个块报告磁盘全面状况总结报告三种应该更换磁盘的情况三种应该更换磁盘的情况噪声很大(Noise)经常出错错误严重IBMSystems&TechnologyGroup2003IBMCorporation21错误日志的清除root用户通过手工命令用户通过手工命令errclear直接清除错误日志直接清除错误日志#errclear10清除10天以前的所有日志#errclear-dH0清除所有硬件的错误#errclear-Ndisk0删除所有资源组为disk的记录#errclear-TUNKN0删除所有类型为unknown的记录#errclear0删除所有记录IBMSystems&TechnologyGroup2003IBMCorporation22通过err
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1