XX系统巡检方案xxx年度xx巡检报告doc.docx
《XX系统巡检方案xxx年度xx巡检报告doc.docx》由会员分享,可在线阅读,更多相关《XX系统巡检方案xxx年度xx巡检报告doc.docx(20页珍藏版)》请在冰豆网上搜索。
XX系统巡检方案xxx年度xx巡检报告doc
XX系统巡检报告
(xxx年度第x季度)
系统名称:
XX系统巡检日期:
编写:
编写日期:
审核:
审核日期:
批准:
批准日期:
一、概述
合同名称:
合同编号:
巡检地点:
巡检人员:
巡检时间及安排:
2
巡检目标:
检查XX系统
本期巡检重点:
1、检查数据库参数,是否有问题。
2、检查应用服务器状况是否正常。
3、监控系统的日常运行,包括操作系统,数据库,应用服务,网络。
4、监控一线操作人员登陆业务系统,业务使用系统情况。
5、检查服务器可用资源,包括内存,CPU,磁盘的使用情况,以及数据的备份情况。
建议:
在非业务时间(19:
00-24:
00之间)操作
应用服务器(A、B机分别执行)ap.bat,
数据库服务器db.bat、db_stat.bat、yw.bat、ts.bat
二、巡检方案
1数据库方面
1.1数据库服务器(硬件)基本信息:
序号
项目名称
检查方法
参考值
实际结果
1
机器名
登录数据库服务器,执行db.bat脚本中的命令ipconfig/all,在网络信息中查看机器名
DongChanYW-db1
DongChanYW-db1
2
用途(生产,测试,开发)
生产
生产
生产
3
所在城市,物理位置(机房,远程)
机房
机房
机房
4
硬件供货商
IBM
IBM
IBM
5
型号
IBM,9133-55A
IBM,8233-E8B
6
操作系统
登录数据库服务器,执行db.bat脚本中的命令ver
Windows_NT
Windows_NT
7
操作系统版本
登录数据库服务器,执行db.bat脚本中的命令echo%OS%
MicrosoftWindows[版本6.1.7601]
MicrosoftWindows[版本6.1.7601]
8
内存
登录数据库服务器,打开任务管理器,选择性能标签页
7936MB
8191MB
9
CPU个数
登录数据库服务器,打开任务管理器,选择性能标签页
4
4
10
剩余磁盘空间(in%)
登录数据库服务器,命令行打开diskmgmt.msc查看磁盘使用情况
卷文件系统状态 可用
C:
NTFS状态良好30%
卷文件系统状态 可用
C:
NTFS状态良好30%
系统保留NTFS状态良好74%
E:
NTFS状态良好60%
11
处理器数(由实例使用)
打开SQLServer服务器面板查看
4
4
12
总服务器内存(KB)
打开SQLServer服务器面板查看
3147776
3147776
13
可用性需求(系统使用时间)
正常
正常
1.2数据库配置
生产库:
序号
项目名称
检查方法
参考值
实际结果
1
实例名
打开SQLServer服务器面板,查看实例名称
DONGCHANYW-DB1
DONGCHANYW-DB1
2
数据库名
SCFDB
SCFDB
3
版本
打开SQLServer服务器面板,查看数据库版本
10.50.1600.1
10.50.1600.1
4
表空间信息
执行db_stat.bat脚本
正常
正常
1.3数据库检查内容
序号
检查项目方法
检查项目描述
参考值
实际结果
1
打开sqlserver管理面板,选择日志,检查数据库日志文件中是否有系统错误信息。
查看sqlserverlog_日期.log文件中11月31日后是否有错误码,要查看错误码的相关解释可参考sqlserver帮助文档
正常
正常
2
检查表空间使用情况,评估数据库表空间的使用情况
方法:
执行db_stat.bat脚本
执行命令后可查看到保留空间、使用空间、索引使用空间、未用空间
正常
正常
3
检查每晚的备份是否成功
目前采用虚拟机整机备份,检查备份是否正常
备份正常。
备份正常。
4
监控数据库性能:
执行db_stat_connection.bat,统计物理连接数情况,
执行db_stat_lock.bat,检查是否存在死锁,并解锁
主要关注以下几项:
1、查看物理连接数是否在正常范围内
2、检查是否存在死锁
在业务高峰期取6次快照得到以下结论:
1、当前连接的应用程序的最大连接数48在系统范围设置范围内(0-90)
2、未检测到死锁。
在业务高峰期取6次快照得到以下结论:
1、当前连接的应用程序的最大连接数23在系统范围设置范围内(0-103)
2、未检测到死锁
5
检查数据库配置信息:
执行db.bat脚本
通过提取的配置信息,结合数据库表空间使用情况,分析数据库是否满足目前的系统要求。
正常
正常
6
检查数据库基础数据方法:
执行base_data.bat脚本
通过提取的基础数据,结合业务配置流程等,分析基础数据是否满足目前的系统要求
正常
经过检测分析得到如下结论:
正常
7
查看业务繁忙时数据库cpu及内存使用情况
方法:
打开命令行,输入taskmgr.exe,打开任务管理器,选择“性能”标签项,并截图保存(根据统计语句获得业务系统统计的数据量得到每天的业务高峰时间段,在这个时间段内执行6次)。
cpu的平均使用率低于30%。
正常
正常
1.4数据库检查总结
通过对收集到的数据库信息分析得出以下结论:
1、关于数据库连接数,本系统web服务器was设置的最大数据库连接数为100个,而目前业务高峰期的数据库最大连接数为20个,也就是在当前业务高峰期间,数据库的最大连接数只占到系统设置的20%左右,完全满足系统业务需求。
2、未检测到有死锁现象,数据库运行良好。
2应用服务器方面
2.1应用服务器(硬件)基本信息:
序号
项目名称
检查方法
参考值
实际结果
1
机器名
登录应用服务器,执行ap.bat脚本中的ipconfig/all,在网络信息中查看机器名
DongChanYW-app1
DongChanYW-app1
2
用途(生产,测试,开发)
生产
生产
生产
3
所在城市,物理位置(机房,远程)
机房
机房
机房
4
硬件供货商
IBM
IBM
IBM
5
型号
IBM,9133-55A
IBM,9133-55A
6
操作系统
登录应用服务器,执行ap.bat脚本中的命令echo%OS%
Windows_NT
Windows_NT
7
操作系统版本
登录应用服务器,执行ap.bat脚本中的命令ver
MicrosoftWindows[版本6.1.7601]
MicrosoftWindows[版本6.1.7601]
8
内存
登录应用服务器,打开任务管理器性能标签
4095MB
4095MB
9
CPU个数
登录应用服务器,打开任务管理器性能标签
2
2
10
剩余磁盘空间(in%)
登录数据库服务器,命令行打开diskmgmt.msc查看磁盘使用情况
卷文件系统状态 可用
C:
NTFS状态良好30%
卷文件系统状态 可用
C:
NTFS状态良好79%
系统保留NTFS状态良好72%
E:
NTFS状态良好94%
11
可用性需求(系统使用时间)
13*7
13*7
2.2应用服务器检查内容
序号
检查项目方法
检查项目描述
参考值
实际结果
1
检查所有应用服务器标准输出和错误输出日志。
查看错误日志(E:
/IBM/WebSphere/AppServer/profiles/AppSrv01/logs/server1/ScfOut.log)中是否有错误代码,如果存在,根据日志中错误信息检查
检查是否存在错误日志
正常
正常
2
查看业务繁忙时应用服务器的CPU以及内存使用情况。
方法:
打开命令行,输入taskmgr.exe,打开任务管理器,选择“性能”标签项,并截图保存。
根据统计语句获得业务系统统计的数据量得到每天的业务高峰时间段,在这个时间段内执行6次(根据统计语句获得业务系统统计的数据量得到每天的业务高峰时间段,在这个时间段内执行数次)。
打开任务管理器性能页面,查看系统资源使用情况是否正常
CPU的平均使用率低于30%。
CPU的平均使用率低于30%。
3
查看应用服务器进程状态
方法:
执行ap.bat脚本中的
%SystemRoot%/system32/tasklist
查看当前是否有was进程在运行
正常
正常
4
主要参数/配置
方法:
1、Websphere服务器处理线程数。
打开管理控制台,依次打开目录树,应用程序服务器>server1>线程池>WebContainer,查看最大大小
2、JVM虚拟机堆大小,服务器->应用程序服务器->server1->进程定义->java虚拟机,查看初始堆大小和最大堆大小的值
3、Web容器传输链,应用程序服务器>server1>Web容器传输链>WCInboundDefault>HTTP入站通道(HTTP_2),查看最大持久请求数
4、数据源->MicrosoftSQLServerJDBCDriverApp1
查看连接数据库的服务器的IP地址,并点“测试连接”,连接成功;点“连接池属性”,查看最大连接数
检查Web容器线程池大小、Java虚拟机堆大小、
每个连接最大持久请求数、数据库连接池最大连接数
1、Web容器线程池50
2、Java虚拟机堆大小256M-1024M
3、Web容器最大持久请求数100
4、数据库连接池最大连接数100
1、Web容器线程池50
2、Java虚拟机堆大小256M-1024M
3、Web容器最大持久请求数100
4、数据库连接池最大连接数100
2.3应用服务器检查总结
通过应用服务器检查分析得出以下结论:
应用服务器各项检查正常。
3XX系统业务检查
3.1业务检查内容
1、非业务时间(建议在19:
00-24:
00之间),登录数据库服务器执行以下脚本:
:
1)通过执行脚本yw.bat可以分析得到每天的业务操作高峰大约在几点钟的每天的业务量。
2、执行表数据量统计脚本db_stat.bat,得到目前各个表数据量。
3、查看WAS连接数据库的物理连接数,可以在数据库服务器上每间隔一段时间执行
db_connection.bat查看当前数据库连接数。
或者登录Was控制台,进入性能查看器,选择数据源,查看目前连接池打开的物理连接。
3.2业务检查总结
1.最近一星期内每天每小时的业务流水量:
时间
2013-04-10
2013-04-11
2013-04-12
2013-04-13
2013-04-14
8
0
1
1
0
0
9
2
1
0
1
0
10
2
2
2
3
1
11
9
5
9
9
0
12
1
1
0
1
0
13
3
5
2
0
0
14
9
2
2
5
6
15
2
4
2
8
6
16
2
4
0
0
2
17
22
0
0
0
7
18
0
12
0
0
0
19
0
2
0
0
0
20
0
1
0
0
0
21
0
0
0
0
0
结论:
通过上表可以看出业务高峰期集中在(时间段):
10:
00—12:
00
2.最近一星期内每天的业务流水量:
日期
申请笔数
2013-04-10
9
2013-04-11
20
2013-04-12
2
2013-04-13
12
2013-04-14
6
日期
通信笔数
2013-04-10
398
2013-04-11
510
2013-04-12
27
2013-04-13
37
2013-04-14
792
结论:
通过上表可以看出日平均业务量较少
3.业务高峰期数据库连接数
执行时间
2013-04-1010:
00
2013-04-1010:
20
2013-04-1011:
00
2013-04-1014:
00
2013-04-1014:
30
2013-04-1015:
00
物理连接数
16
18
16
19
20
18
结论:
通过上表可以看出在业务高峰期数据库连接数大概为18个左右
4.数据量统计
收集数据表的数据量和统计信息,据此进行重整规则优化,必要时制定数据清理方案,需要关注的大表及记录数如下:
结论:
目前以上为纪录数均未超过20万,暂不需对历史数据迁移。
4XX系统特色检查
4.1日终批次情况检查
提取最近一周终批处理日志,分析批次运行情况,检查每一步运行是否成功,以及每一步运行时间。
1)7月-9月批次总耗时时间抽样:
日期
处理类型
是否成功
开始时间
结束时间
用时(毫秒)
2013-01-05
日终批次
成功
2013-01-0523:
00:
30
2013-01-0523:
00:
37
7142
2013-01-21
日终批次
成功
2013-01-2123:
00:
23
2013-01-2123:
00:
30
7172
2013-02-02
日终批次
成功
2013-02-0223:
00:
18
2013-02-0223:
00:
24
6641
2013-02-29
日终批次
成功
2013-02-2923:
00:
28
2013-02-2923:
00:
35
7203
2013-03-01
日终批次
成功
2013-03-0123:
00:
33
2013-03-0123:
00:
40
6250
2013-03-09
日终批次
成功
2013-03-0923:
00:
29
2013-04-0923:
00:
35
5641
2)1月-3月批次各任务的平均时间(毫秒)如下:
模块
1月
2月
3月
跌破监管下限预警
1049
1038
1052
价格波动异常预警
960
980
973
流转频率预警
39
37
42
未巡库提示
95
99
96
SCF库存信息同步CMS
402
399
403
跌破监管下限预警(监管公司设定上浮值)
45
43
39
3)1月-3月批次涉及关联系统接口通讯情况:
日期
CMS
2013-1-01
正常
2013-1-20
正常
2013-2-04
正常
2013-2-22
正常
2013-3-01
正常
2013-3-10
正常
结论:
日终批次运行正常,批次中涉及关联接口通讯正常
4.2业务统计检查
执行ts.bat,检查业务统计情况,包括按申请类型(出质入库、换货、调价、监管下限调整等)查询业务申请统计情况,分析目前动产业务系统承载能力。
业务申请统计情况:
业务类型
代码
总笔数
绑定规则修改申请
23
2
监管协议终止申请
92
59
日常入库申请
22
210
换货通知申请
90
5
调价申请(快速)
97
11
追加出质申请
07
510
提货申请
03
1
押品监管下限设定申请
25
130
换货申请
04
53
岀质入库申请
02
250
调价申请
98
72
押品监管下限调整申请
18
761
结论:
各业务种类申请数据量不大,系统能够支撑正常业务处理。
5网络通讯部分
5.1网络通信检查内容
序号
检查项目
操作命令或检查方法
参考值
实际结果
1
数据库服务器通讯检查
ping数据库服务器IP
正常发送和收到数据包
正常发送和收到数据包
2
应用服务器A通讯检查
ping应用服务器IP
正常发送和收到数据包
正常发送和收到数据包
3
应用服务器B通讯检查
ping应用服务器IP
正常发送和收到数据包
正常发送和收到数据包
4
HTTP服务器A通讯检查
pingHTTP所在服务器IP
正常发送和收到数据包
正常发送和收到数据包
5
HTTP服务器B通讯检查
pingHTTP所在服务器IP
正常发送和收到数据包
正常发送和收到数据包
5.2网络通信检查总结
6热备/冷备部分
6.1热备/冷备检查内容
序号
检查项目
操作命令或检查方法
参考值
实际结果
1
热备软件的可用性
1)在CAMA监控系统查看备份是否成功,是否定期正常运行。
2)检查备份目录下是否有近一周备份数据。
备份执行成功
虚拟机整机备份
2
备份方式及策略
1)备份方式:
每天零晨3:
00执行执行联机热备份
备份方式和策略合理
虚拟机整机备份
6.2热备/冷备检查总结
7系统性能评估
1)通过任务管理器及系统信息信息界面,检查服务器目前内存、CPU个数及频率,
通过磁盘管理器检查目前磁盘空间的使用情况。
通过任务管理器检查服务器平稳运行情况下,虚拟内存的使用情况。
分析目前内存,CPU,硬盘空间是否满足业务系统的要求。
总结:
根据获取的硬盘信息分析,应用服务器及数据库服务器部份文件系统占用磁盘空间较大,按照目前的业务增量,后续可能会导致磁盘空间不够,建议增加磁盘空间。
系统运行的线程数量没有超出CPU上限,cpu平均空闲率达到90%。
2)通过db.bat中执行sql脚本获取数据库版本
检查数据库的补丁版本及实例是否启动并正常运行
总结:
数据库运行情况良好。
3)通过db.bat中执行sql脚本获取数据库表空间使用情况
检查数据库表空间的状态是否正常,及使用情况。
总结:
数据库表空间的使用情况正常。
4)检查近期的备份是否正常,分析备份策略是否合理。
总结:
备份情况正常,备份方式和策略合理。
5)通过db.bat中的命令提起快照信息,分析数据库的发生的死锁数及缓冲池的命中率。
总结:
没有检测到互斥锁定升级,也没有检测到死锁。
缓冲池使用情况良好。
6)登录Was的控制台,检查Was的配置参数是否符合要求。
Web容器线程池:
50
Java虚拟机堆大小:
512M-1024M
Web容器传输链>WCInboundDefault>HTTP入站通道(HTTP_2)为100
数据库连接池最大连接数:
100
总结:
符合系统配置要求。
7)通过ap.bat中tasklist命令列出服务器上进程信息。
查看Websphere的进程服务和httpd的进程是否启动,如果没有启动需要手工启动。
总结:
进程启动正常。
8)通过pingip命令检查网络连通性是否正常。
总结:
从反馈的数据来观察,网络通讯正常。
9)统计分析业务量,评估目前系统情况。
总结:
XX系统最大业务量主要取决两个方面:
报文接口的承受压力和最大并发用户数,通过对比,我们可以预测,系统在当前环境下能够承载100个用户并发(1000个用户在线)访问,175个用户并发(1750个用户在线)访问时,应用服务器CPU使用率将接近100%,数据库服务器CPU使用率将接近20%。
受应用服务器CPU瓶颈影响,175个用户并发(1750个用户在线)访问将是系统最大用户并发数的峰值。
如需满足更大的在线用户量,建议提高应用服务器的配置。
由于实际生产环境采用的是集群配置,两台应用服务器。
因此并发用户最多是350,此时CPU使用率将接近100%,数据库服务器CPU使用率将接近40%,满足业务使用。
10)提取分析日终批处理运行情况,根据情况对批次进行优化。
总结:
从批次日志的数据分析,目前动产业务系统数据量相对较小,根据抽样表(详见1月-11月批次总耗时抽样表)统计,日终批次处理总时间均在秒级范围内,暂不需做进一步优化。
11)根据收集的数据评估系统的支撑能力。
总结:
从9)的业务分析中可以看到,系统在业务上完全能满足业务需求,同时在涉及整个系统性能方面的情况,如:
数据库情况,应用服务器情况以及网络情况等等都是正常且运行良好的。
12)巡检建议
XX系统:
系统性能正常,能正常支持生产运行。
13)运维人员意见