Linux系统性能优化经验.docx

资源描述

Linux系统性能优化经验.docx

《Linux系统性能优化经验.docx》由会员分享，可在线阅读，更多相关《Linux系统性能优化经验.docx（12页珍藏版）》请在冰豆网上搜索。

Linux系统性能优化经验.docx

Linux系统性能优化经验

一、影响Linux性能的各种因素

1、系统硬件资源

（1）CPU

如何判断多核CPU不超线程

消耗CPU的业务：

劢态web服务、mail服务

（2）内存

●物理内存不swap的取舍

●选择64位Linux操作系统

消耗内存的业务：

内存数据库（redis/hbase/mongodb）

（3）磁盘IO

●RAID技术（RAID0/1/5/01/10）

●SSD磁盘

消耗磁盘的业务：

数据库服务器

（4）网络带宽

●网卡/交换机的选择

●操作系统双网卡绑定

消耗带宽的业务：

hadoop平台、视频业务平台

2、操作系统相关资源

（1）系统安装优化

磁盘分区、RAID设置、swap设置

（2）内核参数优化

ulimit-n（最大打开文件数）

ulimit-u（最大用户数）

（3）文件系统优化

●ext2：

linux下标准文件系统，无日志记录（inode）功能。

⏹ext3：

在ext2基础上增加了日志记录功能（inode），仅支持32000个子目录

⏹ex4：

ext3的后续版本，Linux2.6.28内核开始支持。

无限子目录支持，快速fsck。

⏹xfs：

高性能文件系统，linux3.10内核开始默认支持。

建议：

读操作频繁，同时小文件众多的应用：

首选ext4文件系统，接下来依次是xfs、ext3

写操作频繁的应用，首选是xfs，接下来依次是ext4和ext3

对性能要求丌高、数据安全要求丌高的业务，ext3是比较好的选择。

3、程序问题

此类问题需要开发人员查看代码，介入处理。

但作为运维人员需要给出程序问题的有力证据。

二、Linux性能优化工具

1、cpu性能评估工具

（1）vmstat（系统默认自带）

利用vmstat命令可以对操作系统的内存信息、进程状态、CPU活劢等进行监视。

常用方式：

vmstat23

表示每3秒更新一次输出信息，统计5次后停止输出。

下面是vmstat命令在某个系统的输出结果：

[root@node1~]#vmstat23

procs-----------memory-------------swap-------io------system-------cpu------

rbswpdfreebuffcachesisobiboincsussyidwast

000162240830467032001321100723019800

00016224083046703200101010200110000

0001622408304670320011100918019900

对上面每项的输出解释如下：

●procs

Ør列表示运行和等待cpu时间片的进程数，这个值如果长期大于系统CPU的个数，说明CPU不足，需要增加CPU。

Øb列表示在等待资源的进程数，比如正在等待I/O、或者内存交换等。

●memory

Øswpd列表示切换到内存交换区的内存数量（以k为单位）。

如果swpd的值不为

0，或者比较大，只要si、so的值长期为0，这种情况下一般不用担心，不会影响系统性能。

Øfree列表示当前空闲的物理内存数量（以k为单位）

Øbuff列表示bufferscache的内存数量，一般对块设备的读写才需要缓冲。

Øcache列表示pagecached的内存数量，一般作为文件系统cached，频繁访问的文件都会被cached，如果cache值较大，说明cached的文件数较多，如果此时IO中bi比较小，说明文件系统效率比较好。

●swap

Øsi列表示由磁盘调入内存，也就是内存进入内存交换区的数量。

Øso列表示由内存调入磁盘，也就是内存交换区进入内存的数量。

一般情况下，si、so的值都为0，如果si、so的值长期不为0，则表示系统内存不足。

需要增加系统内存。

●IO项显示磁盘读写状况

ØBi列表示从块设备读入数据的总量（即读磁盘）（每秒kb）。

ØBo列表示写入到块设备的数据总量（即写磁盘）（每秒kb）

这里我们设置的bi+bo参考值为1000，如果超过1000，而且wa值较大，则表示系统磁盘IO有问题，应该考虑提高磁盘的读写性能。

●system显示采集间隔内发生的中断数

Øin列表示在某一时间间隔中观测到的每秒设备中断数。

Øcs列表示每秒产生的上下文切换次数。

上面这2个值越大，会看到由内核消耗的CPU时间会越多。

●CPU项显示了CPU的使用状态，此列是我们关注的重点。

Øus列显示了用户进程消耗的CPU时间百分比。

us的值比较高时，说明用户进程消耗的cpu时间多，但是如果长期大于50%，就需要考虑优化程序或算法。

Øsy列显示了内核进程消耗的CPU时间百分比。

Sy的值较高时，说明内核消耗的

CPU资源很多。

根据经验，us+sy的参考值为80%，如果us+sy大于80%说明可能存在CPU资源不足。

Øid列显示了CPU处在空闲状态的时间百分比。

Øwa列显示了IO等待所占用的CPU时间百分比。

wa值越高，说明IO等待越严重，根据经验，wa的参考值为20%，如果wa超过20%，说明IO等待严重，引起IO等待的原因可能是磁盘大量随机读写造成的，也可能是磁盘或者磁盘控制器的带宽瓶颈造成的（主要是块操作）。

综上所述，在对CPU的评估中，需要重点注意的是procs项r列的值和CPU项中us、

sy和id列的值。

（2）iostat（需要安装sysstat工具包）

iostat是I/Ostatistics（输入/输出统计）的缩写，主要的功能是对系统的磁盘I/O操

作进行监视

常用方式：

iostat-c35

其中，-c表示显示CPU的使用情况，-d：

显示磁盘的使用情况。

（3）uptime命令

uptime是监控系统性能最常用的一个命令，主要用来统计系统当前的运行状况，输出的信息依次为：

系统现在的时间、系统从上次开机到现在运行了多长时间、系统目前有多少登陆用户、系统在一分钟内、五分钟内、十五分钟内的平均负载。

2、内存性能评估

（1）free命令

free命令是监控linux内存使用状况最常用的指令

常见用法：

free–m看下面的一个输出：

[root@webserver~]#free-m

totalusedfreesharedbufferscached

Mem:

8111718592502436299

-/+buffers/cache:

6437468

Swap:

818908189

“free–m”表示以M为单位查看内存使用情况，在这个输出中，我们重点关注的应该是free列与cached列的输出值，由输出可知，此系统共8G内存，系统空闲内存还有

925M，其中，BufferCache占用了243M，PageCache占用了6299M，由此可知系统缓存了很多的文件和目录，而对于应用程序来说，可以使用的内存还有7468M，当然这个7468M包含了BufferCache和PageCache的值。

在swap项可以看出，交换分区还未使用。

所以从应用的角度来说，此系统内存资源还非常充足。

一般有这样一个经验公式：

应用程序可用内存/系统物理内存>70%时，表示系统内存资源非常充足，不影响系统性能，应用程序可用内存/系统物理内存<20%时，表示系统内存资源紧缺，需要增加系统内存，20%<应用程序可用内存/系统物理内存<70%时，表示

系统内存资源基本能满足应用需求，暂时不影响系统性能。

（2）sar/pidstat

此两个命令主要用于监控全部或指定进程占用系统资源的情况，如CPU，内存、设备

IO。

三个公用参数：

-u（获取CPU状态）、-r（获取内存状态）、-d（获取磁盘）

常用组合：

sar-u3获取cpu3秒内的状态

pidstat-r–p13获取内存3秒内的状态

看看以上两个命令的差别？

请看下面的一个输出：

[root@webserver~]#sar-r23

Linux2.6.9-42.ELsmp（webserver）11/30/2008_i686_（8CPU）

09:

57:

33PMkbmemfreekbmemused%memusedkbbufferskbcachedkbcommit%commit

09:

57:

35PM897988740855689.1924942864965327865564.71

09:

57:

37PM898564740798089.1824942864965327842764.70

09:

57:

39PM899196740734889.1724944064965207821324.69

Average:

898583740796189.1824943264965287843214.70

其中：

Kbmemfree表示空闲物理内存大小，kbmemused表示已使用的物理内存空间大小，%memused表示已使用内存占总内存大小的百分比，kbbuffers和kbcached分别表示BufferCache和PageCache的大小，kbcommit和%commit分别表示应用程序当前使用的内存大小和使用百分比。

可以看出sar的输出其实与free的输出完全对应，不过sar更加人性化，不但给出了内存使用量，还给出了内存使用的百分比以及统计的平均值。

从%commit项可知，此系统目前内存资源充足。

3、磁盘性能评估

（1）iostat–d组合

iostat–d23

通过“iostat–d”命令组合也可以查看系统磁盘的使用状况，请看如下输出：

[root@webserver~]#iostat-d23

Linux2.6.9-42.ELsmp（webserver）12/01/2008_i686_（8CPU）

Device:

tpsBlk_read/sBlk_wrtn/sBlk_readBlk_wrtn

sda1.872.58114.126479462286537372

Device:

tpsBlk_read/sBlk_wrtn/sBlk_readBlk_wrtn

sda0.000.000.0000

Device:

tpsBlk_read/sBlk_wrtn/sBlk_readBlk_wrtn

sda1.000.0012.00024

对上面每项的输出解释如下：

●Blk_read/s表示每秒读取的数据块数。

●Blk_wrtn/s表示每秒写入的数据块数。

●Blk_read表示读取的所有块数

●Blk_wrtn表示写入的所有块数。

（2）pidstat-d-p318873

（3）sar-d23

通过“sar–d”组合，可以对系统的磁盘IO做一个基本的统计，请看下面的一个输出：

[root@webserver~]#sar-d23

Linux2.6.9-42.ELsmp（webserver）11/30/2008_i686_（8CPU）

11:

09:

33PMDEVtpsrd_sec/swr_sec/savgrq-szavgqu-szawaitsvctm%util

11:

09:

35PMdev8-00.000.000.000.000.000.000.000.00

11:

09:

35PMDEVtpsrd_sec/swr_sec/savgrq-szavgqu-szawaitsvctm%util

11:

09:

37PMdev8-01.000.0012.0012.000.000.000.000.00

11:

09:

37PMDEVtpsrd_sec/swr_sec/savgrq-szavgqu-szawaitsvctm%util

11:

09:

39PMdev8-01.990.0047.7624.000.000.500.250.05

Average:

DEVtpsrd_sec/swr_sec/savgrq-szavgqu-szawaitsvctm%util

Average:

dev8-01.000.0019.9720.000.000.330.170.02

对上面每项的输出解释如下：

●DEV表示磁盘设备名称。

●tps表示每秒到物理磁盘的传送数，也就是每秒的I/O流量。

一个传送就是一个I/O

请求，多个逻辑请求可以被合并为一个物理I/O请求。

●rd_sec/s表示每秒从设备读取的扇区数（1扇区=512字节）。

●wr_sec/s表示每秒写入设备的扇区数目。

●avgrq-sz表示平均每次设备I/O操作的数据大小（以扇区为单位）。

●avgqu-sz表示平均I/O队列长度。

●await表示平均每次设备I/O操作的等待时间（以毫秒为单位）。

●svctm表示平均每次设备I/O操作的服务时间（以毫秒为单位）。

●%util表示一秒中有百分之几的时间用于I/O操作。

Linux中I/O请求系统与现实生活中超市购物排队系统有很多类似的地方，通过对超市购物排队系统的理解，可以很快掌握linux中I/O运行机制。

比如：

avgrq-sz类似与超市排队中每人所买东西的多少。

avgqu-sz类似与超市排队中单位时间内平均排队的人数。

await类似与超市排队中每人的等待时间。

svctm类似与超市排队中收银员的收款速度。

%util类似与超市收银台前有人排队的时间比例。

对以磁盘IO性能，一般有如下评判标准：

正常情况下svctm应该是小于await值的，而svctm的大小和磁盘性能有关，CPU、内存的负荷也会对svctm值造成影响，过多的请求也会间接的导致svctm值的增加。

await值的大小一般取决与svctm的值和I/O队列长度以及I/O请求模式，如果svctm的值与await很接近，表示几乎没有I/O等待，磁盘性能很好，如果await的值远高于svctm的值，则表示I/O队列等待太长，系统上运行的应用程序将变慢，此时可以通过更换更快的硬盘来解决问题。

%util项的值也是衡量磁盘I/O的一个重要指标，如果%util接近100%，表示磁盘产生的I/O请求太多，I/O系统已经满负荷的在工作，该磁盘可能存在瓶颈。

长期下去，势必影响系统的性能，可以通过优化程序或者通过更换更高、更快的磁盘来解决此问题。

4、网络性能评估

（1）ping命令

请看下面的一个输出：

[root@webserver~]#ping10.10.1.254

PING10.10.1.254（10.10.1.254）56（84）bytesofdata.

64bytesfrom10.10.1.254:

icmp_seq=0ttl=64time=0.235ms

64bytesfrom10.10.1.254:

icmp_seq=1ttl=64time=0.164ms

64bytesfrom10.10.1.254:

icmp_seq=2ttl=64time=0.210ms

64bytesfrom10.10.1.254:

icmp_seq=3ttl=64time=0.178ms

64bytesfrom10.10.1.254:

icmp_seq=4ttl=64time=0.525ms

64bytesfrom10.10.1.254:

icmp_seq=5ttl=64time=0.571ms

64bytesfrom10.10.1.254:

icmp_seq=6ttl=64time=0.220ms

---10.10.1.254pingstatistics---

7packetstransmitted,7received,0%packetloss,time6000msrttmin/avg/max/mdev=0.164/0.300/0.571/0.159ms,pipe2

在这个输出中，time值显示了两台主机之间的网络延时情况，如果此值很大，则表示网络的延时很大，单位为毫秒。

在这个输出的最后，是对上面输出信息的一个总结，packetloss表示网络的丢包率，此值越小，表示网络的质量越高。

（2）netstat命令

netstat–i（查看路由情况）

netstat–r（查看网络接口状态）

（3）mtr/traceroute命令

跟踪网络路由状态，推荐使用mtr，劢态跟踪网络路由，用于排除网络问题非常方便。

三、系统性能分析标准

展开阅读全文