HPUX操作系统性能分析指南.docx
《HPUX操作系统性能分析指南.docx》由会员分享,可在线阅读,更多相关《HPUX操作系统性能分析指南.docx(16页珍藏版)》请在冰豆网上搜索。
HPUX操作系统性能分析指南
HPUX操作系统性能分析指南
HPUX系统性能检查指南
(V1.0)
中国惠普有限公司
张天
2008-7
修改记录
编号
日期
描述
版本
作者
审核
发布日期
1
2008-07-28
建立文档
1.0
1前言
1.1编写目的
1.2预期读者
基础设施系统管理员,相关运行维护技术人员。
2系统性能监控综述
2.1监控资源对象和标准
在HP的系统平台上,我们通常有4类资源需要我们的关注分别为:
CPU,内存,磁盘IO和网络。
一般来说此四类资源与系统整体性能息息相关,在日常的维护中,我们需要经常性的对这些资源的使用情况加以跟踪分析,以确定当前系统资源是否与实际业务压力相符,如果存在问题则通过系统或应用的调整加以解决。
以下为HPUX各类资源的性能阀值。
值得注意的这里的阀值并非指系统峰值而是持续值。
只有当系统持续超越这些阀值的时候才能够判断相应的资源为系统瓶颈。
MemoryBottleneck
Bothvhandandswapperactive
DiskBottleneck
Diskutilization>50%
Requestqueues>3
CPUBottleneck
CPUutilization>90%
Runqueues>3perprocessor
NetworkBottleneck
Collisions/out-boundpackets>5%
2.2分析工具
HPUX操作系统提供的用于检查系统性能的命令和工具主要分为两种:
1.标准UNIX命令和自带的性能分析工具;2.收费的性能分析软件。
常用工具:
标准UNIX命令:
检查CPU状态的命令sar–u;sar–q;top;vmstat
检查内存状态的命令vmstat,sar-b,top,swapinfo
检查IO状态的命令sar–d;sar–u;sar–b;
检查网络状态的命令netstat
收费的性能分析软件为GLANCE,是由HP提供的一个功能强大的性能分析工具,可以监控几乎所有的系统资源。
同时HP还提供OVPM和MWA等作为后台性能状态收集工具。
3监控系统总体运行状态
总体的性能状态收集一般是通过GLANCE来简单判断系统的总体性能。
值得注意的是,我们需要关注的是持续的性能峰值,对于瞬时峰值则不必太关注。
通过GLANCE的默认界面(下图)我们可以知道系统资源的大体使用情况(红色标识部分),其中我们可以看到:
CPU使用率为100%;
DISK使用率为100%;
内存使用率为75%;
SWAP使用率为59%;
由此我们可以简单的判断系统存在很大的CPU及IO压力。
从而判断了整体的性能状态和资源使用情况。
然后通过后文介绍的方法对每一种不同的资源进行具体分析。
需要注意的是下图中DISK100%,并非指系统全部硬盘,而是指使用率最高的1块或者若干块硬盘,也就是说CPU的使用率取所有的CPU使用率的平均值,而DISKIO则取最忙的硬盘的峰值。
在GLANCE监控界面的左上角可以观察到服务器名,当前系统时间,而右上角则是相关资源的当前刷新值,平均值和自从GLANCE运行起来后的该项资源所达到的最高值。
界面下方列出各个进程对资源的实际使用情况,这些进程默认是按照对CPU消耗的使用率由大到小进行排序。
除了GLANCE我们也可以通过TOP来进行判断,但是没有GLANCE直观。
此处不再举例说明。
同时通过GLANCE(热键A)我们可以用实现定义好的方法判定每一种应用对系统资源的使用情况,但是实现此功能需要进行一定的配置
4性能状态的判定流程和监命令
4.1性能状态的判定流程
一般来说我们从上图发现系统存在一定压力后,可以采用如下方式对系统各项资源进行判定,
(下图取自HPUXPERFORMANCETUNING).值得注意的是DISK使用率>50%是一个理想值,更多情况下我们通过磁盘响应时间和DISKQUEUE来判断是否存在IO瓶颈。
磁盘使用率只作为参考值而非关键标准。
上面的监控流程,主要是参考GLANCE,如果相关主机上没有GLANCE,那么可以通过VMSTAT或者SAR来进行判断。
4.2内存分析
内存作为系统重要的资源对于减少IO访问提高应用响应速度有着重要的意义。
A判断条件
.内存使用率高
.SWAP区被使用,
.持续的页面PAGEOUT(SWAP和VHAND进程持续激活)
B.相关判定命令
内存不足的判定条件主要是是否有持续的PAGEOUT和VHAND/SWAPPER进程是否持续激活所以所有的工具以观测以是否页面交换为主。
下图中红色字体为需要观测的值:
首先GLANCE中使用热键(d)观测是否对VIRTUALMEMEORY由持续读写,如果由表明系统对交换区持续访问。
其次GLANCE中使用热键(m),观测是否由大量的VM读写,同时可以观测到系统的内存使用情况。
如还有多少自由内存,及系统、应用、BUFFER等分别对系统的占用情况。
第三GLANCE中使用热键(v)观测是否相对应的交换区设备有持续且大量的读写
第四,可以观测SWAPINFO–ATM的输出,看看交换区是否有实际的使用,注意此处仅仅观测实际的交换区的情况,对于伪交换区则不考虑。
第五,通过VMSTAT可以观测到是否有持续的PO
4.3DISKIO分析
IO作为系统重要的资源对于减少IO访问提高应用响应速度有着重要的意义。
A.监控条件
.DISK使用率高
.DISKQUEUE>3
.AVSERV/AVWAIT明显变长
B.相关命令
通过GLANCE(热键d)可以判定系统整体的IO活动,此处不再举例
通过GLANCE(热键u)可以找到最忙是哪些硬盘,下图中可以看到100%忙的硬盘机器实际流量,等待队列和繁忙度等信息,通过热键(S)可以选择相应的硬盘,可以看到相关硬盘上的VG和LV信息。
如果没有GLANCE我们可以使用sar–d/sar–u来判断IO活动。
在sar-d中注意的是AVQUE(IO等列队列,此值应当小于3);AVSERV(后台IO响应时间)
HP-UXsetlservB.11.11U9000/80005/08/08
18:
59:
32device%busyavquer+w/sblks/savwaitavserv
18:
59:
33c22t1d224.510.505349450.004.62
c22t1d30.980.50240.000.40
18:
59:
34c0t6d03.000.503200.0013.52
c3t6d01.000.502160.006.80
c22t1d222.000.503036480.007.44
18:
59:
35c0t6d03.000.505420.007.73
c3t6d02.000.504380.006.48
c22t1d26.000.502833280.001.85
18:
59:
36c0t6d02.000.504240.006.38
c3t6d02.000.502160.0010.97
c22t1d23.000.503127680.000.97
18:
59:
37c0t6d07.000.50131160.0017.42
c3t6d06.000.50101040.0017.94
c22t1d22.000.503937600.000.73
18:
59:
38c0t6d02.000.502120.008.91
c3t6d01.000.50180.019.30
c22t1d22.000.502423200.000.58
18:
59:
39c0t6d00.990.50140.006.67
c3t6d00.990.50140.016.60
c22t1d24.950.503023780.001.75
18:
59:
40c3t6d01.010.50180.006.43
c22t1d24.040.505958340.000.69
18:
59:
41c0t6d00.990.50180.0010.45
c22t1d21.980.504744200.000.55
18:
59:
42c0t6d02.040.50120.0011.45
c3t6d01.020.50120.012.68
c22t1d22.040.503621900.000.48
Averagec22t1d27.290.503835620.001.95
Averagec22t1d30.100.50000.000.40
Averagec0t6d02.100.503230.0012.59
Averagec3t6d01.500.502200.0012.08
如果系统sar-u中WIO也是我们需要关注的一点,一般来说持续高的WIO(>20%).表明系统IO性能不足,造成CPU因等待IO完成而出现等待。
但IO性能不是导致WIO过高的唯一因素。
4.4CPU分析
系统CPU是整个系统的核心资源,通常也是系统的最繁忙部分,某些用户应用需要进行大量计算,导致CPU保持繁忙状态。
同时对于多CPU系统,系统应用应当保持足够的并发毒否则不能充分利用多个CPU的系统资源.
A.监控标准
.CPU使用率大于90%
.CPUQUEUE大于3
B.相关判定命令
在判断CPU压力之前我们首先要明白的是系统到底有多少CPU资源,其次CPU资源具体的使用情
况,且如果CPU压力持续高,那么我们需要搞清楚哪些应用、进程在使用CPU。
常用的工具有glance,sar–u,sar–q,vmstat,top等等。
首先glance(热键a) ,我们可以看到CPU整体的使用情况和实际压力,特别是LoadAvg的长度,
如果该数据持续接近或者大于3,表明系统压力过大,CPU可能处理不过来,此时如果能够排除是SYSTEM过多的消耗了CPU的话,则应当考虑扩容或者优化程序。
如果没有GLANCE我们可以通过sar–q来判定。
其次通过GLANCE(热键c),我们可以看到CPU的实际消耗情况。
对于一个良好的系统我们认为CPU消耗USERMODE的比例应当远远超过SYSTEMMODE最好达到4:
1的状态(最理想值)。
USERMODE=USER+NICE+REALTIME+NEGATIVENICE
如果没有GLANCE,我们也可以通过sar-u来进行分析
在下图中sar–u110表示每秒收集一次,一共十次。
最后的AVERAGE为这十次的最终平均值。
同时通过VMSTAT的输出我们也可以了解到CPU的SYS/USER百分比。
第三步我们可以通过glance(热键A)来判断每一类应用对CPU的消耗情况,此界面同样适用于分析各类应用对IO、MEM的消耗。
下图可见ORACLE类应用的实际消耗:
CPU76.4%;内存3.07GB,每个时间间隔产生943次逻辑IO,和645次物理IO.是系统资源最大的消耗者。
4.5网络
网络监控相对于其他资源的监控而言比较简单。
一般来说
我们只需要简单的通过netstat–ni,netstat–ptcp等即可。
也可以通过GLANCE查看网络状态
A.监控标准
OERRS值为0或者保持稳定COLL小于5%,PING
B.判断工具
首先可以通过netstat–ni,如下图红色字体,
#[/]netstat-ni
NameMtuNetworkAddressIpktsIerrsOpktsOerrsColl
lan2*1500nonenone00000
lan1:
11500135.64.128.0135.64.128.43210000
lan11500135.64.128.0135.64.128.331457335901183517900
lan01500192.1.1.0192.1.1.1213172039858900
lo04136127.0.0.0127.0.0.122274350222743500
在上图中我们可以看到网络的工作情况包括冲突率,错误率,进出包数量等等
其次通过GLANCE我们也可以看到相关情况(热键l)此处不在列出