ImageVerifierCode 换一换
格式:DOCX , 页数:23 ,大小:74.74KB ,
资源ID:8593565      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/8593565.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(小型机日常检查维护和备份.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

小型机日常检查维护和备份.docx

1、小型机日常检查维护和备份三、日常检查维护1 文件系统是否满 方法: df k 可以以K为单位检查文件系统的使用率。(90%以上,需要调整) df m grootsmk_exchange2:df -mFilesystem MB blocks Free %Used Iused %Iused Mounted on/dev/hd4 4096.00 4012.76 3% 6152 1% /dev/hd2 8192.00 6277.69 24% 41437 3% /usr/dev/hd9var 8192.00 7947.95 3% 7095 1% /var/dev/hd3 2048.00 1929.64

2、6% 102 1% /tmp/dev/hd1 40960.00 40451.16 2% 1775 1% /home/proc - - - - - /proc/dev/hd10opt 40960.00 40756.11 1% 8568 1% /optrootsmk_exchange2:df -gFilesystem GB blocks Free %Used Iused %Iused Mounted on/dev/hd4 4.00 3.92 3% 6152 1% /dev/hd2 8.00 6.13 24% 41437 3% /usr/dev/hd9var 8.00 7.76 3% 7095 1%

3、 /var/dev/hd3 2.00 1.88 6% 102 1% /tmp/dev/hd1 40.00 39.50 2% 1775 1% /home/proc - - - - - /proc/dev/hd10opt 40.00 39.80 1% 8568 1% /optrootsmk_exchange2:“Iused”是什么意思?已使用的i-node,i-node是分配给文件系统的文件节点,它决定文件系统中文件和文件夹的总数。节点,文件系统下,每个文件,目录都需要的,如果节点用完了,就是该文件系统还有空间,也不能再往里面放东西了,节点和文件,目录一一对应的。2 检查系统出错日志 使用errp

4、t来检查 :#errpt#errpt a #errpt a |more #errpt a | tail -50 #errpt a errpt.txt清除现有的log: #errclear 0 #errclear 7 (保留7天)errpt 命令将从错误日志中的条目生成一个错误报告,但是它并不进行错误日志分析;对于错误分析,可以使用 diag 命令。可以考虑下面的示例,其中通过执行 errpt -a 命令生成了一个错误报告:# errpt -a-LABEL:LVM_SA_STALEPPIDENTIFIER:EAA3D429Date/Time:Tue Dec6 23:24:37 CST 2005S

5、equence Number: 441Machine Id:00C7CD9E4C00Node Id:lpar20Class:SType:UNKNResource Name:LVDDDescriptionPHYSICAL PARTITION MARKED STALEDetail DataPHYSICAL VOLUME DEVICE MAJOR/MINOR0000 0000 0000 0000PHYSICAL PARTITION NUMBER (DECIMAL) 227LOGICAL VOLUME DEVICE MAJOR/MINOR8000 000A 0000 0005SENSE DATA00C

6、7 CD9E 0000 4C00 0000 0107 706A 336C 0000 0000 0000 0000 0000 0000 0000 0000-.(lines ommited).#根据错误的类型,errpt -a 报告可能包含下面的信息:LABEL事件的预定义名称。IDENTIFIER事件的数值标识符。Date/Time事件的日期和时间。Sequence Number事件的唯一编号。Machine ID您的系统处理器单元的标识编号。Node ID您的系统的助记名称。Class错误的一般来源。可能的错误类型包括: H硬件。 S软件。 O信息性消息。 U未定的。Type所发生的错误的严重

7、程度。可能的错误类型包括: PEND设备或组件的可用性损失是急迫的。 PERF设备或组件的性能已下降到可接受的级别以下。 PERM出现了不可恢复的情况。如果错误类型为这个值,那么通常是最严重的错误,并且很可能意味着出现了硬件设备或者软件模块的故障。如果错误类型为 PERM 之外的其他值,通常并不表示故障,但是对这些错误进行了记录,以便可以使用诊断程序对它们进行分析。TEMP在出现多次不成功的尝试之后,所恢复到的状态。这种错误类型也可以用于记录信息性条目,如 DASD 设备的数据传输统计信息。 UNKN无法确定错误的严重程度。 INFO错误日志条目是信息性的,并且不是某个错误所产生的结果。Res

8、ource Name检测到错误的资源的名称。对于软件错误,这是某个软件组件或可执行程序的名称。对于硬件错误,这是某个设备或系统组件的名称。它并不表示该组件出现故障或者需要更换。相反,它用于确定合适的诊断模块以用于对错误进行分析。Resource Class检测到故障的资源的一般类别(例如,磁盘的设备类别)。Resource Type检测到故障的资源的类型。Location Code设备的路径。最多可能有四个字段,分别是抽屉、插槽、连接器和端口。VPD关键的产品数据。这个字段的内容(如果存在)可能各不相同。设备的错误日志条目通常返回有关设备制造商、序列号、工程变更级别、以及只读存储级别的信息。D

9、escription错误的汇总信息。Probable Cause一些可能的错误原因的列表。User Causes由用户错误所导致错误的可能原因的列表。用户所导致的错误可能包括不正确插入的磁盘、未能开启的外部设备(如调制解调器和打印机)。Install Causes因为不正确的安装或者配置过程所导致错误的可能原因列表。这种类型的错误包括硬件和软件不匹配、电缆的不正确安装或电缆连接变松,以及未能正确配置的系统。Failure Causes可能的硬件或者软件故障列表。Actions对于纠正故障的推荐操作的描述。对于硬件错误,这将导致运行诊断程序。Detailed Data针对每个错误日志条目的、唯一

10、的故障数据,如设备检测数据。可以考虑下面的示例错误输出,这是运行不带任何标志的 errpt 命令的错误输出:# errptIDENTIFIER TIMESTAMP T C RESOURCE_NAMEDESCRIPTIONA6DF45AA 1207112405 I O RMCdaemonThe daemon is started.2BFA76F6 1205155605 T S SYSPROCSYSTEM SHUTDOWN BY USER9DBCFDEE 1207112305 T O errdemon ERROR LOGGING TURNED ON192AC071 1205155505 T O e

11、rrdemon ERROR LOGGING TURNED OFF291D64C3 1202154105 I H sysplanar0 platform_dump indicator eventBFE4C025 1202154105 P H sysplanar0 UNDETERMINED ERROR291D64C3 1202154105 I H sysplanar0 platform_dump indicator event291D64C3 1202145005 I H sysplanar0 platform_dump indicator eventEAA3D429 1202144505 U S

12、 LVDD PHYSICAL PARTITION MARKED STALEBFE4C025 1202144505 P H sysplanar0 UNDETERMINED ERRORF6A86ED5 1202144105 P S ent7 SERVICE CALL FAILEDF6A86ED5 1202144105 P S ent6 SERVICE CALL FAILED#C:Class可能的错误类型T:Type所发生的错误的严重程度。(见上面)如果错误类别值为 H,并且错误类型值为 PERM(在这个示例中,标识符 BFE4C025 就是这种情况),则说明系统碰到了硬件问题,并且无法对其进行恢复

13、。可能存在与这种错误类型相关联的诊断信息。如果错误类别值为 H,并且错误类型值为 PEND,则表示因为系统检测到大量的错误,以使得某个硬件马上将变得不可用。如果错误类别值为 S,并且错误类型值为 PERM(在这个示例中,标识符 F6A86ED5 就是这种情况),则说明系统碰到了与软件相关的问题,并且无法对其进行恢复。如果错误类别值为 S,并且错误类型值为 TEMP,则表示系统碰到了与软件相关的问题。在经过几次尝试之后,系统能够对该问题进行恢复。如果错误类别值为 O,则表示已经记录了一个信息性消息(在这个示例中,标识符 A6DF45AA、9DBCFDEE 和 192AC071 就是这种情况)。当

14、您怀疑出现了硬件问题的时候,可以使用 diag 命令来帮助查找问题。3 检查系统合法/非法登陆情况 使用Last命令来检查来自登陆的地方和登录的时间。 4 检查系统是否有巨大的Core文件生成 使用 find / -name core print来检查。当进程在异常终止运行时,系统会把该进程对应的地址空间中的数据写到core文件中(这个过程被称为dump),以便程序员对其进行分析,找出进程异常终止的原因。缺省情况下,异常终止的进程在启动它的当前目录下产生core文件。在AIX 4.3.3中,所有的core文件的文件名都是core,如果不只一个程序产生dump或者相同的程序dump多次,它们都会

15、产生相同文件名的core文件,那么就会丢失比较早的core文件。从AIX 5.1开始,改变了core文件的命名方法,使得每一个core文件拥有惟一的文件名,从而避免了新的core文件覆盖旧的core文件,这个特色更加有助于程序员调试和跟踪运行失败的程序。对Core文件,一般直接删除就可以了。 5 系统性能检查: a) CPU性能:使用Vmstat, topas来检查 由 vmstat 命令生成的以下报告示例包含栏标题及其描述: kthr:内核线程状态在采样间隔期间每秒钟更改一次。 r :置于运行队列中的内核线程数目。 b :置于等待队列(等待资源、等待输入输出)的内核线程数目。 memory内

16、存:关于使用虚拟内存和实内存的信息。如果虚拟页已经被访问的话,虚拟页可以被认为是活动的。一页为 4096 个字节。 avm: 活动虚拟页。 fre :空闲列表的大小。 注:大部分实内存都用作文件系统数据的高速缓存。对于保持较小的空闲列表,这是很正常的。 page页:关于缺页故障和调页活动的信息。这些是间隔的平均值,以秒为单位给出。 re :页面调度程序输入输出列表。 pi :从调页空间调度进的页面。 po: 调出到调页空间的页面。 fr :释放的页(页面替换)。 sr: 通过页替换算法扫描的页面。 cy :按页替换算法的时钟周期。 faults故障:采样间隔平均每秒的捕获和中断率。 in :设

17、备中断 sy :系统调用。 cs :内核线程上下文切换。 Cpu:CPU 使用时间故障百分比。 us :用户时间。 sy :系统时间。 id :CPU 空闲时间。 wa :CPU 空闲时间,在此期间系统有未完成的磁盘/NFS I/O 请求。b) 内存使用情况:也是使用topas, vmstat来检查 #topas(按C两次)CPU User% Kern% Wait% Idle% 2 0.1 0.3 0.0 99.5 1 0.0 0.0 0.0 100.0 0 0.0 0.1 0.0 99.9 3 0.0 0.0 0.0 100.0 1). CPU使用情况:这个分部显示一个条形图表来表示累积的

18、CPU 使用情况。如果有多个 CPU,按 c 键两次就可显示 CPU 列表。仅按 c 键一次会关闭这个分部。User% :这显示以用户方式执行的程序所使用的 CPU 的百分数。(缺省按用户% 排序) Kern% :这显示以内核方式执行的程序所使用的 CPU 的百分数。 Wait% :这显示用于等待 IO 的时间的百分数。 Idle% :这表示 CPU 空闲时间的百分数。 Kernel:说明:操作系统的内核占用的CPU时间比率。操作系统作为基础软件,为应用程序支持和服务的同时,本身的运行也需要一定的CPU和内存资源(顺便提到内存资源,后面不再阐述这个内容了),特别是内存资源,系统负载越重,相应的

19、内核占用的CPU和内存资源也会越多。一般来说,内核占用的CPU时间不会太多的。一般小于应用的CPU使用率。User:说明:用户进程占用的CPU时间比率。这个为CPU使用率的关键数值。该使用率反映了用户在操作系统基础上运行的各种软件占用的CPU时间比率的总和。一般来说,如果User+Kernel连续大于70%,即可以认为系统可能存在CPU上的严重性能问题。Wait说明:CPU处于等待状态占CPU时间的比率。CPU的等待一般都为等待IO的响应,众所周知,目前计算机的主要瓶颈都在IO。应用程序执行的时候,需要读写磁盘等外部存储的数据,进程就会发起IO请求后等待IO完成。这个等待的过程占用CPU时间就

20、是wait。当这个值很高的时候,就说明IO来不及响应很多的IO请求,这个时候,就只能从IO层面想办法优化了。Idle:说明:CPU空闲时间比率,这个就不用说了吧。就是CPU多少时间比率在闲着。CPU占用率出问题的主要可能原因:数据库服务器执行某一个SQL或者存储过程(存储过程就是封装起来的sql程序包而已)需要大量的运算(一般为软件设计不合理)。或者应用程序中存在异常的地方,比如死循环,或者其他写程序时的逻辑错误导致。一般程序出错会导致一个CPU被全部占用,比如上述的20%占用的原因就是一个交易程序长期占用一个CPU全部时间片(系统共计5个CPU)。2). 网络接口情况此分部显示了热门网络接口

21、的列表。所显示接口的最大数目是正被监视的热门接口数目,正如 -n 标志指定的那样。如果其它分部也被显示,则将显示接口的一个较小数目。按 n 键可关闭此分部。再按一次 n 键就会显示一行所有网络接口活动的报告摘要。Interf :网络接口的名称。 KBPS :在监视时间间隔内每秒钟以 KB 为单位的总吞吐量。这个字段是每秒接收到的千字节和发送的千字节的总和。I-Pack :在监视时间间隔内每秒钟接收到的数据包的数目。 O-Pack :在监视时间间隔内每秒钟发送的数据包的数目。 KB-In :在监视时间间隔内每秒钟接收到的千字节的数目。 KB-Out :在监视时间间隔内每秒钟发送的千字节的数目。

22、当此分部首先显示热门网络接口列表时,按 KBPS 字段对列表排序。但是,可以按其它字段对列表排序,只要把光标移到想要的那一栏顶部就可以了。排序仅对最多 16 个网络适配器有效。lo0是IP协议栈内部的“假”网卡,即本机自回馈接口当我们发现网络拥堵时(出现网卡传输失效的报错,即网卡发送数据包失败。或者网络响应明显变慢的时候,如果CPU没有问题,那么请检查网络流量)发现某一个网卡的KBPS持续大于四位数,甚至五位数时(这个值要是网卡千兆还是百兆而定)。就要看看这个网卡是什么网卡,在处理什么业务了。在命令行执行netstat in 查看对应en*接口的ip地址,通过ip地址看看是带官网卡还是生产服务

23、网卡流量高。然后通过netstat v en* 看看网卡的详细工作状态,出现了多少错包,冲突包,crc校验错或者网络重置过等信息。上述信息请详细看netstat v en*的输出.如果出现大量crc,错包的话,可能网线有问题或者接触不良。如果上述均正常,而网络反应慢,则有可能是交换机拥堵。网络出现问题的可能原因:通过百兆的带管网加载大量数据(以前出现过),大量队列的长时间的ftp传输,或者网线,交换机问题等。3). 物理磁盘情况此分部显示了热门物理磁盘的列表。所显示物理磁盘的最大数目是正被监视的热门物理磁盘数目,正如 -d 标志指定的那样。如果其它分部也被显示,则将显示物理磁盘的一个较小数目。

24、按 d 键可关闭这个分部。再按一次 d 键就会显示一行所有物理磁盘活动的报告摘要。Disk :物理磁盘的名称。 Busy%:表示物理磁盘活动时间的百分比(驱动器带宽使用)。 KBPS:在监视时间间隔内每秒钟读和写的千字节的数目。此字段是 KB-Read 和 KB-Writ 的总和。 TPS :每秒钟发送到物理磁盘的传输的数目。传输是对物理磁盘的 I/O 请求。多个逻辑请求可组合成对磁盘的单个 I/O 请求。传输大小不确定。 KB-Read:每秒钟从物理磁盘读取的千字节的数目。 KB-Writ:每秒钟写到物理磁盘的千字节的数目。 当此分部首先显示热门物理磁盘列表时,按 KBPS 字段对列表排序。

25、但是,可以按其它字段对列表排序,只要把光标移到想要的那一栏顶部就可以了。排序仅对最多 128 个物理磁盘有效。 一般主要看磁盘的Busy%,当磁盘的Busy%持续大于85%时,即认为磁盘相当繁忙,已经可能要出问题了。当然,自己知道已经确定要产生大量IO操作的内容则不必在意,等其完成即可。出现问题的原因:应用服务器上面写日志进程或者查询日志的进程大量读写日志,导致磁盘繁忙率高,或者其他程序频繁读写磁盘导致。系统中hdisk0,hdisk1一般为系统盘,内置SCSI磁盘的相对IOPS是较低的。很容易满负荷运行。4). WLM(Workload Manager)类此分部显示了热门工作量管理(WLM)

26、类的列表。所显示 WLM 类的最大数目是正被监视的热门 WLM 类数目,正如 -w 标志指定的那样。如果其它分部也被显示,则将显示 WLM 类的一个较小数目。按 w 键可关闭此分部。对于每一个类会显示下列字段: % CPU 使用情况 :在监视时间间隔内 WLM 类的平均 CPU 使用情况。 % Mem 使用情况 :在监视时间间隔内 WLM 类的平均内存使用情况。 % Blk I/O :在监视时间间隔内 WLM 类的块 I/O 的平均百分比。 当这个分部首先显示热门 WLM 类列表时,就按 CPU% 字段来对列表排序。但是,可以按其它字段来对列表排序,只要把光标移到想要的那一栏顶部就可以了。工作

27、负载管理器(WLM)可以控制系统上的作业使用的资源。缺省 WLM 配置模板存在于每个安装的 AIX 操作系统上。以下过程更新了 WLM 配置模板用以在共享的服务器上实现资源管理策略。5). 进程类此分部显示了热门进程的列表。所显示进程的最大数目是正被监视的热门过程数目,正如 -p 标志指定的那样。如果其它分部也被显示,则将显示进程的一个较小数目。按 p 键可关闭此分部。按监视时间间隔内进程的 CPU 使用情况来对进程排序。 P键可以查看detail。NAME :在进程中执行的可执行程序的名称。名称已被除去任何路径名和参数信息并被截断到 9 个字符的长度。 PID :进程的进程标识。 % CPU

28、 :在监视时间间隔内进程的平均 CPU 使用情况。第一次显示进程时,这个值表示整个进程阶段平均 CPU 使用情况。 PgSp :分配给此进程的调页空间的大小。这可被认为是进程覆盖区的一种表达式,但并不包括用来保持可执行程序和它依赖的任何共享库的内存。 单位:MBowner :(如果 WLM 部分被关闭) 拥有此进程的用户的用户名。 工作量管理(WLM)类(如果 WLM 部分被打开) :进程所属的 WLM 类。6). 事件队列 显示所选系统全局事件的每秒频率、线程运行和等待队列的平均大小: Cswitch :在监视时间间隔内每秒上下文切换的数量。 Syscalls :在监视时间间隔内每秒执行的系统调用的数量。 Reads

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1