软件项目系统巡检报告.docx
《软件项目系统巡检报告.docx》由会员分享,可在线阅读,更多相关《软件项目系统巡检报告.docx(9页珍藏版)》请在冰豆网上搜索。
软件项目系统巡检报告
软件项目系统巡检报告
2019年月日
项目名称:
巡检部门:
1前言
巡检目的
为保障技术系统的平稳运行,将定期对各子系统进行巡检,并且根据巡检的实际结果给出相应建议。
本文档面向IT主管和技术维护人员,通过本文档共同完成对IT各子系统运行状况的调查与监控,使IT主管和技术维护人员充分了解网络系统运行的基本情况,并且为日常的系统网络、应用以及数据库的维护服务提供基本的参考数据。
系统组成
目前本项目技术系统主要由数据库系统、缓存集群系统、XX应用、YY应用、ZZ应用和管理平台组成。
巡检中将对各子系统分别作全面的细致检查,为日常维护提供参考数据。
巡检范围
XX应用子系统
YY应用子系统
ZZ应用子系统
管理平台应用子系统
缓存集群子系统
数据库子系统
应用日志和库表数据备份归档策略
2巡检工作汇报
XX应用子系统
XX应用
系统资源
CPU使用率检查
正常异常
内存运行状况
正常异常
磁盘空间使用率
正常异常
磁盘IO使用率
正常异常
系统时间是否准确
正常异常
应用运行健康
进程存活与进程数量
正常异常
XX应用AA日志检查
正常异常
XX应用BB日志检查
正常异常
XX应用CC日志检查
正常异常
XX应用程序版本检查
正常异常
巡检意见:
YY应用子系统
YY应用
系统资源
CPU使用率检查
正常异常
内存运行状况
正常异常
磁盘空间使用率
正常异常
磁盘IO使用率
正常异常
系统时间是否准确
正常异常
应用运行健康
进程存活与进程数量
正常异常
YY应用AA日志检查
正常异常
YY应用BB日志检查
正常异常
YY应用CC日志检查
正常异常
YY应用程序版本检查
正常异常
YY应用JVM内存使用检查
正常异常
巡检意见:
ZZ应用子系统
ZZ应用
系统资源
CPU使用率检
正常异常
内存运行状况
正常异常
磁盘空间使用率
正常异常
磁盘IO使用率
正常异常
系统时间是否准确
正常异常
应用运行健康
进程存活与进程数量
正常异常
ZZ应用AA日志检查
正常异常
ZZ应用BB日志检查
正常异常
ZZ应用CC日志检查
正常异常
ZZ应用程序版本检查
正常异常
ZZ应用网络连接数
正常异常
巡检意见:
管理平台应用子系统
管理平台
系统资源使用
CPU使用率检查
正常异常
内存运行状况
正常异常
磁盘空间使用率
正常异常
磁盘IO使用率
正常异常
系统时间是否准确
正常异常
应用运行健康
进程存活与进程数量
正常异常
平台程序版本检查
正常异常
日志文件检查
正常异常
网站访问与登录
正常异常
平台各项管理功能
正常异常
DD指标
JJ指标
正常异常
HH指标
正常异常
KK指标
正常异常
LL指标
正常异常
QQ指标
正常异常
巡检意见:
缓存集群子系统
缓存集群
系统资源使用
CPU使用率检查
正常异常
内存运行状况
正常异常
磁盘空间使用率
正常异常
磁盘IO使用率
正常异常
系统时间是否准确
正常异常
应用运行健康
各节点内存使用量
正常异常
集群服务健康状态
正常异常
缓存应用日志检查
正常异常
集群日志检查
正常异常
缓存服务的网络连接
正常异常
巡检意见:
数据库子系统
数据库服务
系统资源使用
CPU使用率检查
正常异常
内存运行状况
正常异常
磁盘空间使用率
正常异常
磁盘IO使用率
正常异常
系统时间是否准确
正常异常
应用运行健康
查看DB服务进程
正常异常
登录DB库,检查库、表的名称与数量
正常异常
DB服务的网络连接数量
正常异常
查看DB服务错误日志
正常异常
OOOOPPPP检查
正常异常
WWWEEEE检查
正常异常
RRRRRTTTT检查
正常异常
巡检意见:
日志和库表数据备份归档策略
日志和库表数据备份归档
检查配置表备份策略
正常异常
检查数据表备份策略
正常异常
XX应用日志备份与归档
正常异常
YY应用日志备份与归档
正常异常
ZZ应用日志备份与归档
正常异常
管理平台的日志备份与归档
正常异常
巡检意见:
3巡检参与人员
联系人
电话
手机
Email
4问题分析与运维建议
巡检工作中发现的问题以及对问题原因的分析
序号
问题
处理措施或建议
1
2
3
运维工作建议
1)持续提高对技术系统、网络、应用和数据库服务的监控与报警能力,及早发现系统中存在问题,可以有效避免问题影响的扩大化,将问题解决在萌芽状态。
2)定期,如每周一次,检查各个应用主机节点、DB主机节点的日志归档、数据备份策略,检视这些策略是否在有效地运行,历史数据是否按预期的时间与方式被归档处理。
检查重要数据的备份文件的有效性,确认这些备份数据是安全的且可在应急故障中用于恢复数据的。
3)定期检查或演练一下网络服务的高可用性,确保备份措施在发生了中断故障事件时,网络服务可以迅速且有效地切换到备机继续运行。
建议将该应急切换操作进行自动化的实现,或者维护好手动切换需要使用的流程文档、操作手册和注意事项等。
4)采集和监测网络中各主机节点的网卡流量,合理设计报警阈值,用以辅助发现和定位异常的网络通信流量、信息安全威胁或是故障事件。