系统健康检查服务方案资料.docx
《系统健康检查服务方案资料.docx》由会员分享,可在线阅读,更多相关《系统健康检查服务方案资料.docx(23页珍藏版)》请在冰豆网上搜索。
![系统健康检查服务方案资料.docx](https://file1.bdocx.com/fileroot1/2022-10/13/ce28acd6-b94b-4bdb-a48b-a9b13c616809/ce28acd6-b94b-4bdb-a48b-a9b13c6168091.gif)
系统健康检查服务方案资料
设备健康检查计划
XX集团股份有限公司
2009年
前言
感谢尊敬的广东XXX用户选择了XXX的服务,XXX公司秉承用户至上宗旨,坚持以技术为先导,严格按照项目流程和规范管理服务项目,竭诚为用户提供一流优质的服务。
本文档的主要内容是对客户信息系统进行系统健康检查(简称:
巡检)的计划安排。
包括服务概况、服务前期准备工作、服务具体计划、应急计划等等。
1.服务概况
1.1客户名称
广东XXX
1.2服务时间
待定
1.3服务设备
见设备清单
1.4服务内容
系统健康检测维护服务的目的在于了解被巡检系统截至到目前系统的性能状态和存在的隐患和运行风险;
检查系统的运行状况、系统配置和连接方式、系统设置的情况、系统使用环境的及系统的日志文件,进行系统的自检和检测,分析已经发现的和潜在的问题,建议必要的措施,提高系统的可用性和可靠性。
内容包括如下:
✓检查设备使用环境是否符合要求和发生显著变更,包括湿度、电压、湿度、摆设位置等
✓检查电源,信号线的连接是否牢固;检查、清洁、调节系统硬件,并为需要的设备更换元件;检查系统的硬件和系统环境配置及网络环境配置;针对客户系统现状,提出建议和意见。
✓查阅有关系统信息,检查有无出错信息,如发现出错信息,设法了解问题原因,并后续给出问题的可能原因和解决建议。
✓进行系统分析和检测,及时掌握系统的运行和安全状况,发现系统潜在问题,排除故障隐患和安全 漏洞。
✓在完成系统健康检测后,XXX服务工程师将会同XXX技术专家团队一起分析系统状况,并内向客户提交巡检分析报告和有关改进措施建议。
2.服务前期准备工作
2.1XXX巡检服务的前期准备工作:
1.负责提交巡检方案,获得客户认可
2.负责准备巡检报告模板2份,巡检报告模板请见附录。
(注:
一机一份,巡检完毕后,现场提交用户)
3.提供服务的工程师在约定时间准时到达现场
2.2客户方的前期准备工作:
1.负责环境、场地、电源、网线、终端设备等准备工作。
2.负责提供系统主机Root登陆口令(清单)。
3.负责提供系统设备IP地址(清单)。
4.负责下电设备的加电准备工作
5.负责确定下电设备加电后的连网情况
2.3双方待讨论和协商的问题:
1.Root口令以何种方式提供?
一般可采取两种方式,一是每台设备由客户来输入Root口令,另外一种方式是由客户事先临时修改Root口令,提供给服务工程师,巡检完毕后再由客户改回。
2.下电设备加电后,是否仍然具备连网条件?
如果下电设备加电后不连接网络,则需要采取串口直接连接主机的方式来进行巡检,可能会影响巡检整体速度。
3.确定巡检主机顺序?
系统健康检测不会影响在线设备的运行。
建议巡检顺序为,首先用一台终端依次检测所有连网设备,包括加电后能连网的设备,其次检测所有加电后无法连网的设备。
3.服务具体计划
任务名称
XXX责任人
客户方配合人员
计划持续时间
步骤1.现场环境勘察以及用户交流
1
服务工程师了解现场机房环境状况
服务工程师
约40分钟
2
服务工程师在开始实施巡检时,向客户了解自前一次维护服务以来所发现的异常和问题,并采取必要的措施
服务工程师
3
在对系统采取任何行动之前,确保已经采取必要的数据信息保护措施,如系统的备份或数据转存等;
服务工程师
步骤2.巡检服务
4
服务工程师收集与所服务的系统有关的系统变更、微码发布、软件升级、软件PATCH发布和系统问题的信息和资料
服务工程师
约一到二个工作日
5
依次按照巡检内容对系统设备进行逐项巡检,并填写巡检报告
服务工程师
6
巡检过程中如果发现任何系统问题,双方将协调处理
服务销售
7
巡检过程中如果发现任何突发事件,请参考本文档5。
服务销售
步骤3.服务收尾工作
8
提交现场巡检报告,客户签字
服务工程师
大约1个小时
9
请客户填写服务满意度评价表
10
双方交流
服务工程师
11
五个工作日内提交巡检分析报告
服务工程师
--
4.应急计划
本次巡检服务中的设备为在线系统,理论上讲,巡检只是对系统状态进行查看,本身不会对系统产生影响,只是在极少数情况下,系统本身已经有故障隐患,因为巡检触发,可能会影响系统的运行,必须通过事先充分准备,识别可能的风险,并进行规避和控制。
通过以下方法来尽可能减少风险:
✓服务工程师在开始实施巡检时,应首先向客户了解自前一次维护服务以来所发现的异常和问题,并采取必要的措施
✓在对系统采取任何行动之前,应确保已经采取必要的数据信息保护措施,如系统的备份或数据转存等;
✓服务工程师在巡检过程中记录操作步骤,一旦发生突发问题,也有据可查,方便问题的定位。
✓服务工程师在巡检过程中如果发现设备有重大问题,必须尽快进行处理的事件,由现场巡检工程师向本次用户通报,由用户同XXX服务销售进行协商进行处理。
5.备件计划
针对本次健康检查服务,我方主要提供对SUN系统以及ORACLE数据库的检查服务为主,如果在检查过程中,发现有备件坏,我们会第一时间跟用户通报,并从XXX广州备件库调相应备件进行更换;
如果备件更换处于合同覆盖范围,我们将不收取备件费用,如果合同未覆盖,我们将收取备件物料成本费;
为此次检查服务准备的备件清单包含但不限于:
型号
描述
数量
SunV480整机
带cpu,内存,硬盘
1
X6805A
73.4GB,10000RPM硬盘
4
ST3310
带控制器,无硬盘
1
XTA-SC1NC-73G10K
73GB,3310阵列硬盘
4
XTA-SC1NC-146G10K
73GB,3310阵列硬盘
4
6.文档信息
本文档由XXX负责起草
附录
SUN系统巡检报告及相关命令说明
ORACLE数据库巡检报告及相关命令说明
系统配置信息
SUN系统巡检报告
日期:
年月日报告编号:
客户名称
检查地点
主机型号
IP地址
主机SN
HostID
配
置
部件
型号/数量
部件
型号/数量
CPU
主板
内存
CPU/内存板
硬盘
I/O板
显卡
存储阵列
电源
磁带驱动器
SCSI型号
外扩网卡型号
其它卡型号
系统盘Raid情况
管理软件名称
版本
RAID类型
硬
件
检查项目
结果
不正常请注明原因
检查项目
结果
不正常请注明原因
显示器
□正常□不正常
光驱
□正常□不正常
键盘
□正常□不正常
软驱
□正常□不正常
鼠标
□正常□不正常
线缆
□正常□不正常
磁带机
□正常□不正常
板卡
□正常□不正常
系
统
检查项目
内容
结果
不正常请注明原因
系统指示灯状态
FrontPanelLEDS
□正常□不正常
PowerSupplyLEDS
□正常□不正常
DiskLEDS
□正常□不正常
SystemControllerBoardLEDS(CPU/Memory、I/Oetc.)
□正常□不正常
系统messages信息
cd/var/adm
grepWARNmessages*
greperrormessages*
greppanicmessages*
/var/adm/messages
□正常□不正常
/var/adm/messages.0
□正常□不正常
/var/adm/messages.1
□正常□不正常
/var/adm/messages.2
□正常□不正常
/var/adm/messages.3
□正常□不正常
硬件运行状态
/usr/platform/sun4u/sbin/prtdiag-v
□正常□不正常
文件系统利用率
df–k
df–oi
/利用率%
□正常□不正常
/usr利用率%
□正常□不正常
/var利用率%
□正常□不正常
其它分区
□正常□不正常
Ionde利用率(是否有空闲)
□正常□不正常
Swap分区
swap–s
usedkavailablek
□正常□不正常
CPU负载
sar110
%idle
□正常□不正常
内存剩余量
vmstat1
KBytes
□正常□不正常
I/O资源
iostat–En
□正常□不正常
网络接口流量
netstat–i1
□正常□不正常
网口以及IP状态
ifconfig-a
□正常□不正常
网络传输率
ping网关(1分钟)
averagems
□正常□不正常
NTP状态
ntpq-p
□正常□不正常
远程登录设置
/etc/inetd.conf
ftp
□开启□关闭
telnet
□开启□关闭
进程总数
ps–ef|wc-l
个进程
核心Patch版本
uname–a
冗余软件
DiskSuite状态(没有的不填)
metastat
输出结果是否正常
□正常□不正常
metadb
Metadb建立在有个备份
VolumeManager状态(没有的不填)
vxdisklist
输出结果是否正常
□正常□不正常
vxdglist
有磁盘组
Vxprint-ht
输出结果是否正常
□正常□不正常
高可用性软件
SunCluster状态
版本
scstat
输出结果是否正常
□正常□不正常
备注
存储
ST3310阵列
外观及指示灯
是否正常
□正常□不正常
show-config
输出结果是否正常
□正常□不正常
固件版本
SUN主机巡检相关命令及说明
检查项目
使用的命令及相关目录
内容及其说明
外观检查
无
检查机器的指示灯情况、看有无故障指示
主机的总体情况
/usr/platform/sun4u/sbin/prtdiag-v
通过该命令,可以查看到CPU的数量、主频、CACHE大小,内存、板卡、风扇转速、环境温度等情况
查看文件系统挂接情况
df-k
可以查看到文件系统的挂接、使用量等情况,如果某个文件系统使用大于85%,则要提请注意,大于90%则要对其进行清理,删除废文件,如果根文件系统使用量达到100%,会造成系统崩溃
检查系统日志文件
greppanic/var/adm/messages*greperror/var/adm/messages*grepWARN/var/adm/messages*
检查系统的日志文件,看有无panic、error、WARN等和错误有关的关键字,其中,panic关键字一般出现在操作系统因软件或硬件故障崩溃的时候,error则是系统因软件或硬件产