系统健康检查服务方案.docx
《系统健康检查服务方案.docx》由会员分享,可在线阅读,更多相关《系统健康检查服务方案.docx(35页珍藏版)》请在冰豆网上搜索。
系统健康检查服务方案
设施健康检查计划
XX企业股份有限企业
2009年
序言............................................................
错误!
不决义书签。
1.
服务概略.....................................................
错误!
不决义书签。
客户名称.......................................................
错误!
不决义书签。
服务时间.......................................................
错误!
不决义书签。
服务设施.......................................................
错误!
不决义书签。
服务内容.......................................................
错误!
不决义书签。
2.
服务先期准备工作.............................................
错误!
不决义书签。
巡检服务的先期准备工作:
........................................
错误!
不决义书签。
客户方的先期准备工作:
.........................................
错误!
不决义书签。
两方待议论和磋商的问题:
.......................................
错误!
不决义书签。
3.
服务详细计划.................................................
错误!
不决义书签。
4.
应急计划.....................................................
错误!
不决义书签。
5.备件计划.....................................................
错误!
不决义书签。
6.
文档信息.....................................................
错误!
不决义书签。
附录............................................................
错误!
不决义书签。
SUN系统巡检报告及有关命令说明..................................
错误!
不决义书签。
ORACLE数据库巡检报告及有关命令说明.............................
错误!
不决义书签。
系统配置信息....................................................
错误!
不决义书签。
ORACLE数据库系统保护检查报告...................................
错误!
不决义书签。
序言
感谢敬爱的广东XXX用户选择了XXX的服务,XXX企业秉着用户至上主旨,坚持以技术为先导,严格依据项目流程和规范管理服务项目,竭诚为用户供应一流优良的服务。
本文档的主要内容是对客户信息系统进行系统健康检查(简称:
巡检)的计划安排。
包含服务概略、服务先期准备工作、服务详细计划、应急计划等等。
1.服务概略
客户名称
广东XXX
服务时间
待定
服务设施
见设施清单
服务内容
系统健康检测保护服务的目的在于认识被巡检系统截止到目前系统的性能状态和存在的隐患和运转风险;
检查系统的运转状况、系统配置和连结方式、系统设置的状况、系统使用环境的及系统的日记文件,进行系统的自检和检测,剖析已经发现的和潜伏的问题,建议必需的举措,提升系统的可用性和靠谱性。
内容包含以下:
检查设施使用环境能否切合要乞降发生显着更改,包含湿度、电压、湿度、陈设地点等
检查电源,信号线的连结能否坚固;检查、洁净、调理系统硬件,并为需要的设施改换元件;检查系统的硬件和系统环境配置及网络环境配置;针对客户系统现状,提出建讲和建议。
查阅有关系统信息,检查有无犯错信息,如发现犯错信息,想法认识问题原由,并后续给出问题的可能原由和解决建议。
进行系统剖析和检测,实时掌握系统的运转和安全状况,发现系统潜伏问题,清除故障隐患和安全?
破绽。
在达成系统健康检测后,XXX服务工程师将会同XXX技术专家团队一同剖析系统状况,并内向客户提交巡检剖析报告和有关改良举措建议。
2.服务先期准备工作
巡检服务的先期准备工作:
1.负责提交巡检方案,获取客户认同
2.负责准备巡检报告模板2份,巡检报告模板请见附录。
(注:
一机一份,巡检完成后,
现场提交用户)
3.供应服务的工程师在约准时间准时抵达现场
客户方的先期准备工作:
1.负责环境、场所、电源、网线、终端设施等准备工作。
2.负责供应系统主机Root登岸口令(清单)。
3.负责供应系统设施IP地址(清单)。
4.负责下电设施的加电准备工作
5.负责确立下电设施加电后的连网状况
两方待议论和磋商的问题:
1.Root口令以何种方式供应
一般可采纳两种方式,一是每台设施由客户来输入Root口令,此外一种方式是由
客户预先暂时改正Root口令,供应给服务工程师,巡检完成后再由客户改回。
2.下电设施加电后,能否仍旧具备连网条件
假以下电设施加电后不连结网络,则需要采纳串口直接连结主机的方式来进行巡检,可能会影响巡检整体速度。
3.确立巡检主机次序
系统健康检测不会影响在线设施的运转。
建议巡检次序为,第一用一台终端挨次检测全部连网设施,包含加电后能连网的设施,其次检测全部加电后没法连网的设施。
3.服务详细计划
任务名称XXX责任人客户方计划连续
配合人
时间
员
步骤1.
1
服务工程师认识现场机房
服务工程师
约40分钟
现场环
环境状况
境勘察
2
服务工程师在开始实行巡
服务工程师
以及用
检时,向客户认识自前一次
户沟通
保护服务以来所发现的异
常和问题,并采纳必需的措
施
3
在对系统采纳任何行动之
服务工程师
前,保证已经采纳必需的数
据信息保护举措,如系统的
备份或数据转存等;
步骤2.
4
服务工程师采集与所服务
服务工程师
约一到二
巡检服
的系统有关的系统更改、微
个工作日
务
码公布、软件升级、软件
PATCH公布和系统问题的信
息和资料
5
挨次依据巡检内容对系统
服务工程师
设施进行逐项巡检,并填写
巡检报告
6
巡检过程中假如发现任何
服务销售
系统问题,两方将协调办理
7
巡检过程中假如发现任何
服务销售
突发事件,请参照本文档5。
步骤3.
8
提交现场巡检报告,客户签
服务工程师
大概1个
服务收
字
小时
尾工作
9
请客户填写服务满意度评
价表
10
两方沟通
服务工程师
11
五个工作日内提交巡检分
服务工程师
--
析报告
4.应急计划
本次巡检服务中的设施为在线系统,理论上讲,巡检不过对系统状态进行查察,自己不会对系统产生影响,不过在很少量状况下,系统自己已经有故障隐患,由于巡检触发,可能会影响系统的运转,一定经过预先充足准备,辨别可能的风险,并进行躲避和控制。
经过以下方法来尽可能减少风险:
服务工程师在开始实行巡检时,应第一向客户认识自前一次保护服务以来所发现的异样和问题,并采纳必需的举措
在对系统采纳任何行动以前,应保证已经采纳必需的数据信息保护举措,如系统的备份或数据转存等;
服务工程师在巡检过程中记录操作步骤,一旦发生突提问题,也有据可查,方便问题的定位。
服务工程师在巡检过程中假如发现设施有重要问题,一定赶快进行办理的事件,由现场巡检工程师向本次用户通告,由用户同XXX服务销售进行磋商进行办理。
5.备件计划
针对本次健康检查服务,我方主要供应对SUN系统以及ORACLE数据库的检查服务为主,假如在检查过程中,发现有备件坏,我们会第一时间跟用户通告,并从XXX广州备件库调相应备件进行改换;
假如备件改换处于合同覆盖范围,我们将不收取备件花费,假如合同未覆盖,我们将收取备件物料成本费;
为此次检查服务准备的备件清单包含但不限于:
型号
描绘
数目
SunV480整机
带cpu,内存,硬盘
1
X6805A
10000RPM硬盘
4
ST3310
带控制器,无硬盘
1
XTA-SC1NC-73G10K
73GB,3310阵列硬盘
4
XTA-SC1NC-146G10K
73GB,3310阵列硬盘
4
6.文档信息
本文档由XXX负责草拟
附录
SUN系统巡检报告及有关命令说明
ORACLE数据库巡检报告及有关命令说明
系统配置信息
SUN系统巡检报告
日期:
年月日报告编号:
客户名称检查地址
主机型号IP地址
主机SNHostID
零件
型号/数目
零件
型号/数目
CPU
主板
配
CPU/内存板
内存
硬盘
I/O板
置
显卡
储存阵列
电源
磁带驱动器
SCSI型号
外扩网卡型号
其余卡型号
系统盘Raid状况
管理软件名称
版本
RAID种类
检查项目
结果
不正常请注明原由
检查项目
结果
不正常请注明原由
显示器
□正常
□不正
光驱
□正常
□不正
常
常
硬
键盘
□正常
□不正
软驱
□正常
□不正
常
常
件
鼠标
□正常
□不正
线缆
□正常
□不正
常
常
磁带机
□正常
□不正
板卡
□正常
□不正
常
常
检查项目
内容
结果
不正常请注明原由
系统指示灯状态
FrontPanelLEDS
□正常□不正常
PowerSupplyLEDS
DiskLEDS
SystemControllerBoardLEDS(CPU/Memory、I/Oetc.)
□正常□不正常
□正常□不正常
□正常□不正常
系统messages信cd/var/adm
系息grepWARNmessages*
greperrormessages*
greppanicmessages*
统
/var/adm/messages
/var/adm/
/var/adm/
/var/adm/
/var/adm/
□正常□不正常
□正常□不正常
□正常□不正常
□正常□不正常
□正常□不正常
硬件运转状态
/usr/platform/sun4u/sbin/prtdiag-v
□正常
□不正常
文件系统利用率
df–k
/
利用率
%
□正常
□不正常
/usr
利用率
%
□正常
□不正常
df–oi
/var
利用率
%
□正常
□不正常
其余分区
□正常
□不正常
Ionde利用率(能否有安闲)
□正常
□不正常
Swap分区
swap–s
used
kavailable
k
□正常
□不正常
CPU负载
sar110
%idle
□正常
□不正常
内存节余量
vmstat1
KBytes
□正常
□不正常
I/O资源
iostat
–En
□正常
□不正常
网络接口流量
netstat
–i1
□正常
□不正常
网口以及IP状态
ifconfig-a
□正常
□不正常
网络传输率
ping网关(1分钟)
average
ms
□正常
□不正常
NTP状态
ntpq-p
□正常
□不正常
远程登录设置
/etc/
ftp
□开启
□封闭
telnet
□开启
□封闭
进度总数
ps–ef|wc-l
个进度
核心Patch版本
uname–a
DiskSuite
状态
metastat
输出结果能否正常
□正常
□不正常
冗
(没有的不填)
metadb
Metadb成立在
有
个备份
余
vxdisklist
输出结果能否正常
□正常
□不正常
软
VolumeManager
vxdglist
有
磁盘组
件
状态(没有的不
填)
Vxprint-ht
输出结果能否正常
□正常
□不正常
高
版本
可
scstat
输出结果能否正常
□正常
□不正常
用
SunCluster
状态
性
软
备注
件
存
外观及指示灯
能否正常
□正常
□不正常
储
ST3310阵列
show-config
输出结果能否正常
□正常
□不正常
固件版本
SUN主机巡检有关命令及说明
检查项目
使用的命令及有关目录
内容及其说明
外观检查
无
检查机器的指示灯状况、
看有无故障
指示
主机的整体情
经过该命令,能够查察到
CPU的数
/usr/platform/sun4u/sbin/prtdiag-v
量、主频、CACHE大小,内存、板卡、
况
电扇转速、环境温度等状况
能够查察到文件系统的挂接、
使用量
等状况,假如某个文件系统使用大于
查察文件系统
df-k
85%,则要提请注意,大于
90%则要
挂接状况
对其进行清理,删除废文件,假如根
文件系统使用量达到
100%,会造成
系统崩溃
greppanic/var/adm/messages*
检查系统日记
greperror/var/adm/messages*
文件
grepWARN/var/adm/messages*
检查CPU使用
sar110
状况
互换分区使用
swap-s
状况
内存使用状况vmstat1
硬盘数目及容
量
format
硬盘及其余存
iostat-E
储设施的状况
网络状况
netstat-i1
网络的IP设置
ifconfig-a
查察操作系统
uname-a
的核心版本
主机的厂商ID
hostid
号
统计系统目前
ps-ef|wc-l
进度数目
远程登录设置
grepftp/etc/
grep
telnet/etc/
网络流通状况
ping
检查SUN
CLUSTER管理
scstat
的双机系统状
态
经过Web方式
管理SUN
CLUSTER双机
检查系统的日记文件,看有无panic、error、WARN等和错误有关的重点字,此中,panic重点字一般出此刻操作
系统因软件或硬件故障崩溃的时候,error则是系统因软件或硬件产生了错误,WARN则相对关注级别较低,属于警示,这2种状况,都要依据系统的日记提示,进一步检查系统状况检查CPU的IDEL值,越大越好,这
里给出的命令是指间隔1秒,检查
10次
查察互换区(即虚构内存)的使用状况
检查内存的使用状况,特别检查此中的节余内存量,如内存节余过少,则要检查进度及应用的状况,如无异
常,则意味着系统需要更多的物理内存
经过该命令,能够查察到硬盘的容量大小、数目等状况,
这个命令能够看到硬盘的运转状况,包含:
厂商、序列号,有无运转错误
等
查察网络的包吞吐状况以及矛盾、包错误率等状况
查察系统中的IP地址设置
该命令除了能查察到操作系统的核心版本外,还能够查察到主机的硬件型号
能够查察到厂商为主机设置的独一
ID
能够查察到系统目行进度数目
能够查察系统的远程登录能否翻开
ping网络中的另一设施,往常是缺省网关,以检查网络的流通延时状况
该命令能够显示SUNCLUSTER双机系统的和配置、状态有关的信息
经过阅读其,输入主机的IP地址,
端口号为3000,能够经过Web的方
式管理SUNCLUSTER双机系统
系统
储存及冗余软件有关检查及其命令
检查项目
使用的命令及有关目录
内容及其说明
外观检查
无
检查机器的指示灯状况、看有无故障指示
经过串行口连结到阵列的串口,利用其设置
ST3x10阵列检查
无
界菜单检查,详细的参数为:
波特率
38400,
数据位8,停止位1,奇偶校验无,流控无
ST3x10阵列检查(经过
连结了ST3x10阵列的主机,假如安装了sccli
show-config
工具,经过输入sccli命令,选择了控制器
sccli工具检查)
后,在其界面下输入的命令
用VaritasVolume
检查VaritasVolumeManager
管理下硬盘的
Manager管理的硬盘检
vxdisklist
状态
查其管理下硬盘的状态
用VaritasVolume
检查VaritasVolumeManager
管理下磁盘组
Manager管理的硬盘检
vxprint-ht
的状态,包含其区分的子磁盘的、所做的卷
查其管理下磁盘组的状
等的状态
态
关于用SolsticeDiskSuite
(SDS,新的版本
用SDS管理软件管理的
改为SolarisVolumeManager
,简称SVM)
metastat
管理的磁盘,在操作系统下,输入该命令,
磁盘及其虚构设施状态
检查其管理的磁盘以及虚构磁盘(
md)的状
态
关于用SolsticeDiskSuite
(SDS,新的版本
用SDS管理软件管理的
改为SolarisVolumeManager
,简称SVM)
磁盘,检查起状态数据
metadb
管理的磁盘,在操作系统下,输入该命令,
库的状态
检查其管理数据库(用户保留
SDS的设置等)
的状态
ORACLE数据库系统保护检查报告
用户基本信息
用户名称:
联系人:
地址:
应用系统名称:
主机厂商/型号:
CPU数/硬件内存:
Oracle产品/版本:
系统运转状况检测
序
检测内容
号
报告编号:
电话/传真:
巡检时间:
操作系统/版本:
数据库服务器运转方式:
检测指令检测结果建议
1
检查alert日记,
能否有ora错误提
示
Alert文件
2数据库名
3
实例名
4数据库版本
5能否归档模式
6
安装组件
7初始化参数
8SGA区
SQL>showparameterdb_name