系统健康检查服务方案.docx
《系统健康检查服务方案.docx》由会员分享,可在线阅读,更多相关《系统健康检查服务方案.docx(24页珍藏版)》请在冰豆网上搜索。
系统健康检查服务方案
设备健康检查计划
XX集团股份
2009年
前言
感尊敬的XXX用户选择了XXX的服务,XXX公司秉承用户至上宗旨,坚持以技术为先导,严格按照项目流程和规管理服务项目,竭诚为用户提供一流优质的服务。
本文档的主要容是对客户信息系统进行系统健康检查(简称:
巡检)的计划安排。
包括服务概况、服务前期准备工作、服务具体计划、应急计划等等。
1.服务概况
1.1客户名称
XXX
1.2服务时间
待定
1.3服务设备
见设备清单
1.4服务容
系统健康检测维护服务的目的在于了解被巡检系统截至到目前系统的性能状态和存在的隐患和运行风险;
检查系统的运行状况、系统配置和连接方式、系统设置的情况、系统使用环境的及系统的日志文件,进行系统的自检和检测,分析已经发现的和潜在的问题,建议必要的措施,提高系统的可用性和可靠性。
容包括如下:
✓检查设备使用环境是否符合要求和发生显著变更,包括湿度、电压、湿度、摆设位置等
✓检查电源,信号线的连接是否牢固;检查、清洁、调节系统硬件,并为需要的设备更换元件;检查系统的硬件和系统环境配置及网络环境配置;针对客户系统现状,提出建议和意见。
✓查阅有关系统信息,检查有无出错信息,如发现出错信息,设法了解问题原因,并后续给出问题的可能原因和解决建议。
✓进行系统分析和检测,及时掌握系统的运行和安全状况,发现系统潜在问题,排除故障隐患和安全 漏洞。
✓在完成系统健康检测后,XXX服务工程师将会同XXX技术专家团队一起分析系统状况,并向客户提交巡检分析报告和有关改进措施建议。
2.服务前期准备工作
2.1XXX巡检服务的前期准备工作:
1.负责提交巡检方案,获得客户认可
2.负责准备巡检报告模板2份,巡检报告模板请见附录。
(注:
一机一份,巡检完毕后,现场提交用户)
3.提供服务的工程师在约定时间准时到达现场
2.2客户方的前期准备工作:
1.负责环境、场地、电源、网线、终端设备等准备工作。
2.负责提供系统主机Root登陆口令(清单)。
3.负责提供系统设备IP地址(清单)。
4.负责下电设备的加电准备工作
5.负责确定下电设备加电后的连网情况
2.3双方待讨论和协商的问题:
1.Root口令以何种方式提供?
一般可采取两种方式,一是每台设备由客户来输入Root口令,另外一种方式是由客户事先临时修改Root口令,提供给服务工程师,巡检完毕后再由客户改回。
2.下电设备加电后,是否仍然具备连网条件?
如果下电设备加电后不连接网络,则需要采取串口直接连接主机的方式来进行巡检,可能会影响巡检整体速度。
3.确定巡检主机顺序?
系统健康检测不会影响在线设备的运行。
建议巡检顺序为,首先用一台终端依次检测所有连网设备,包括加电后能连网的设备,其次检测所有加电后无法连网的设备。
3.服务具体计划
任务名称
XXX责任人
客户方配合人员
计划持续时间
步骤1.现场环境勘察以及用户交流
1
服务工程师了解现场机房环境状况
服务工程师
约40分钟
2
服务工程师在开始实施巡检时,向客户了解自前一次维护服务以来所发现的异常和问题,并采取必要的措施
服务工程师
3
在对系统采取任何行动之前,确保已经采取必要的数据信息保护措施,如系统的备份或数据转存等;
服务工程师
步骤2.巡检服务
4
服务工程师收集与所服务的系统有关的系统变更、微码发布、软件升级、软件PATCH发布和系统问题的信息和资料
服务工程师
约一到二个工作日
5
依次按照巡检容对系统设备进行逐项巡检,并填写巡检报告
服务工程师
6
巡检过程中如果发现任何系统问题,双方将协调处理
服务销售
7
巡检过程中如果发现任何突发事件,请参考本文档5。
服务销售
步骤3.服务收尾工作
8
提交现场巡检报告,客户签字
服务工程师
大约1个小时
9
请客户填写服务满意度评价表
10
双方交流
服务工程师
11
五个工作日提交巡检分析报告
服务工程师
--
4.应急计划
本次巡检服务中的设备为在线系统,理论上讲,巡检只是对系统状态进行查看,本身不会对系统产生影响,只是在极少数情况下,系统本身已经有故障隐患,因为巡检触发,可能会影响系统的运行,必须通过事先充分准备,识别可能的风险,并进行规避和控制。
通过以下方法来尽可能减少风险:
✓服务工程师在开始实施巡检时,应首先向客户了解自前一次维护服务以来所发现的异常和问题,并采取必要的措施
✓在对系统采取任何行动之前,应确保已经采取必要的数据信息保护措施,如系统的备份或数据转存等;
✓服务工程师在巡检过程中记录操作步骤,一旦发生突发问题,也有据可查,方便问题的定位。
✓服务工程师在巡检过程中如果发现设备有重大问题,必须尽快进行处理的事件,由现场巡检工程师向本次用户通报,由用户同XXX服务销售进行协商进行处理。
5.备件计划
针对本次健康检查服务,我方主要提供对SUN系统以及ORACLE数据库的检查服务为主,如果在检查过程中,发现有备件坏,我们会第一时间跟用户通报,并从XXX备件库调相应备件进行更换;
如果备件更换处于合同覆盖围,我们将不收取备件费用,如果合同未覆盖,我们将收取备件物料成本费;
为此次检查服务准备的备件清单包含但不限于:
型号
描述
数量
SunV480整机
带cpu,存,硬盘
1
X6805A
73.4GB,10000RPM硬盘
4
ST3310
带控制器,无硬盘
1
XTA-SC1NC-73G10K
73GB,3310阵列硬盘
4
XTA-SC1NC-146G10K
73GB,3310阵列硬盘
4
6.文档信息
本文档由XXX负责起草
附录
SUN系统巡检报告及相关命令说明
ORACLE数据库巡检报告及相关命令说明
系统配置信息
SUN系统巡检报告
日期:
年月日报告编号:
客户名称
检查地点
主机型号
IP地址
主机SN
HostID
配
置
部件
型号/数量
部件
型号/数量
CPU
主板
存
CPU/存板
硬盘
I/O板
显卡
存储阵列
电源
磁带驱动器
SCSI型号
外扩网卡型号
其它卡型号
系统盘Raid情况
管理软件名称
版本
RAID类型
硬
件
检查项目
结果
不正常请注明原因
检查项目
结果
不正常请注明原因
显示器
□正常□不正常
光驱
□正常□不正常
键盘
□正常□不正常
软驱
□正常□不正常
鼠标
□正常□不正常
线缆
□正常□不正常
磁带机
□正常□不正常
板卡
□正常□不正常
系
统
检查项目
容
结果
不正常请注明原因
系统指示灯状态
FrontPanelLEDS
□正常□不正常
PowerSupplyLEDS
□正常□不正常
DiskLEDS
□正常□不正常
SystemControllerBoardLEDS(CPU/Memory、I/Oetc.)
□正常□不正常
系统messages信息
cd/var/adm
grepWARNmessages*
greperrormessages*
greppanicmessages*
/var/adm/messages
□正常□不正常
/var/adm/messages.0
□正常□不正常
/var/adm/messages.1
□正常□不正常
/var/adm/messages.2
□正常□不正常
/var/adm/messages.3
□正常□不正常
硬件运行状态
/usr/platform/sun4u/sbin/prtdiag-v
□正常□不正常
文件系统利用率
df–k
df–oi
/利用率%
□正常□不正常
/usr利用率%
□正常□不正常
/var利用率%
□正常□不正常
其它分区
□正常□不正常
Ionde利用率(是否有空闲)
□正常□不正常
Swap分区
swap–s
usedkavailablek
□正常□不正常
CPU负载
sar110
%idle
□正常□不正常
存剩余量
vmstat1
KBytes
□正常□不正常
I/O资源
iostat–En
□正常□不正常
网络接口流量
netstat–i1
□正常□不正常
网口以及IP状态
ifconfig-a
□正常□不正常
网络传输率
ping网关(1分钟)
averagems
□正常□不正常
NTP状态
ntpq-p
□正常□不正常
远程登录设置
/etc/inetd.conf
ftp
□开启□关闭
telnet
□开启□关闭
进程总数
ps–ef|wc-l
个进程
核心Patch版本
uname–a
冗余软件
DiskSuite状态(没有的不填)
metastat
输出结果是否正常
□正常□不正常
metadb
Metadb建立在有个备份
VolumeManager状态(没有的不填)
vxdisklist
输出结果是否正常
□正常□不正常
vxdglist
有磁盘组
Vxprint-ht
输出结果是否正常
□正常□不正常
高可用性软件
SunCluster状态
版本
scstat
输出结果是否正常
□正常□不正常
备注
存储
ST3310阵列
外观及指示灯
是否正常
□正常□不正常
show-config
输出结果是否正常
□正常□不正常
固件版本
SUN主机巡检相关命令及说明
检查项目
使用的命令及相关目录
容及其说明
外观检查
无
检查机器的指示灯情况、看有无故障指示
主机的总体情况
/usr/platform/sun4u/sbin/prtdiag-v
通过该命令,可以查看到CPU的数量、主频、CACHE大小,存、板卡、风扇转速、环境温度等情况
查看文件系统挂接情况
df-k
可以查看到文件系统的挂接、使用量等情况,如果某个文件系统使用大于85%,则要提请注意,大于90%则要对其进行清理,删除废文件,如果根文件系统使用量达到100%,会造成系统崩溃
检查系统日志文件
greppanic/var/adm/messages*greperror/var/adm/messages*grepWARN/var/adm/messages*
检查系统的日志文件,看有无panic、error、WARN等和错误有关的关键字,其中,panic关键字一般出现在操作系统因软件或硬件故障崩溃的时候,error则是系统因软件或硬件产生了错误,WARN则相对关注级别较低,属于警告,这2种情况,都要根据系统的日志提示,进一步检查系统情况
检查CPU使用情况
sar110
检查CPU的IDEL值,越大越好,这里给出的命令是指间隔1秒,检查10次
交换分区使用情况
swap-s
查看交换区(即虚拟存)的使用情况
存使用情况
vmstat1
检查存的使用情况,尤其检查其中的剩余存量,如存剩余过少,则要检查进程及应用的情况,如无异常,则意味着系统需要更多的物理存
硬盘数量及容量
format
通过该命令,可以查看到硬盘的容量大小、数量等情况,
硬盘及其他存储设备的情况
iostat-E
这个命令可以看到硬盘的运行情况,包括:
厂商、序列号,有无运行错误等
网络情况
netstat-i1
查看网络的包吞吐情况以及冲突、包错误率等情况
网络的IP设置
ifconfig-a
查看系统中的IP地址设置
查看操作系统的核心版本
uname-a
该命令除了能查看到操作系统的核心版本外,还可以查看到主机的硬件型号
主机的厂商ID号
hostid
可以查看到厂商为主机设置的唯一ID
统计系统当前进程数量
ps-ef|wc-l
可以查看到系统当前进程数量
远程登录设置
grepftp/etc/inetd.confgreptelnet/etc/inetd.conf
可以查看系统的远程登录是否打开
网络流通情况
ping
ping网络中的另一设备,通常是缺省网关,以检查网络的流通延时情况
检查SUNCLUSTER管理的双机系统状态
scstat
该命令可以显示SUNCLUSTER双机系统的和配置、状态有关的信息
通过Web方式管理SUNCLUSTER双机系统
通过浏览其,输入主机的IP地址,端口号为3000,可以通过Web的方式管理SUNCLUSTER双机系统
存储及冗余软件相关检查及其命令
检查项目
使用的命令及相关目录
容及其说明
外观检查
无
检查机器的指示灯情况、看有无故障指示
ST3x10阵列检查
无
通过串行口连接到阵列的串口,利用其设置界菜单检查,具体的参数为:
波特率38400,数据位8,停止位1,奇偶校验无,流控无
ST3x10阵列检查(通过sccli工具检查)
show-config
连接了ST3x10阵列的主机,如果安装了sccli工具,通过输入sccli命令,选择了控制器后,在其界面下输入的命令
用VaritasVolumeManager管理的硬盘检查其管理下硬盘的状态
vxdisklist
检查VaritasVolumeManager管理下硬盘的状态
用VaritasVolumeManager管理的硬盘检查其管理下磁盘组的状态
vxprint-ht
检查VaritasVolumeManager管理下磁盘组的状态,包括其划分的子磁盘的、所做的卷等的状态
用SDS管理软件管理的磁盘及其虚拟设备状态
metastat
对于用SolsticeDiskSuite(SDS,新的版本改为SolarisVolumeManager,简称SVM)管理的磁盘,在操作系统下,输入该命令,检查其管理的磁盘以及虚拟磁盘(md)的状态
用SDS管理软件管理的磁盘,检查起状态数据库的状态
metadb
对于用SolsticeDiskSuite(SDS,新的版本改为SolarisVolumeManager,简称SVM)管理的磁盘,在操作系统下,输入该命令,检查其管理数据库(用户保存SDS的设置等)的状态
ORACLE数据库系统维护检查报告
报告编号:
用户基本信息
用户名称:
联系人:
/传真:
地址:
应用系统名称:
巡检时间:
主机厂商/型号:
操作系统/版本:
CPU数/硬件存:
数据库服务器运行方式:
Oracle产品/版本:
系统运行状况检测
序号
检测容
检测指令
检测结果
建议
1
检查alert日志,是否有ora错误提示
Alert文件
2
数据库名
SQL>showparameterdb_name
3
实例名
SQL>showparameterinstance_name
4
数据库版本
SQL>select*fromv$version;
5
是否归档模式
SQL>archiveloglist
6
安装组件
SQL>select*fromv$option;
7
初始化参数
SQL>showparameters
8
SGA区
SQL>showsga
9
用户检查
SQL>selectusername,account_status,default_tablespace,temporary_tablespace,createdfromdba_users
10
用户权限检查
SQL>select*fromdba_role_privs;
11
是否存在失效对象
SQL>selectowner,object_name,object_typefromdba_objectswherestatus=‘INVALID’
12
检查控制文件
SQL>select*fromv$controlfile
13
检查联机日志
SQL>select*fromv$logfile;
14
检查数据文件
SQL>select*fromv$datafile;
15
查看现有回滚段及其状态
SQL>SELECTSEGMENT_NAME,OWNER,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUSFROMDBA_ROLLBACK_SEGS;
16
是否有异常等待事例
SQL>selectevent,sum(decode(wait_Time,0,0,1))"Prev",sum(decode(wait_Time,0,1,0))"Curr",count(*)“Tot”fromv$session_Waitgroupbyeventorderby4;
17
检测连接数情况
SQL>SELECTstatus,count(*)"count"FROMv$sessionGROUPBYstatus;
selectsid,serial#,username,program,machine,statusfromv$session;
18
检查表空间使用情况
19
备份策略的讨论与实施
20
listener可用性检查
lsnrctlstatus
listener.log
21
CRS进程检查
ps–df|grepd.bin
结论:
1、alert文件:
有无错误?
2、表空间使用情况:
setlinesize300
SELECTupper(f.tablespace_name)"tablespace_name",
d.Tot_grootte_Mb"tablespace(M)",
d.Tot_grootte_Mb-f.total_bytes"used(M)",
round((d.Tot_grootte_Mb-f.total_bytes)/d.Tot_grootte_Mb*100,2)"use%",
f.total_bytes"free_space(M)",
round(f.total_bytes/d.Tot_grootte_Mb*100,2)"free%"
FROM
(SELECTtablespace_name,
round(SUM(bytes)/(1024*1024),2)total_bytes,
round(MAX(bytes)/(1024*1024),2)max_bytes
FROMsys.dba_free_space
GROUPBYtablespace_name)f,
(SELECTdd.tablespace_name,round(SUM(dd.bytes)/(1024*1024),2)Tot_grootte_Mb
FROMsys.dba_data_filesdd
GROUPBYdd.tablespace_name)d
WHEREd.tablespace_name=f.tablespace_name
ORDERBY4DESC
/
3、SharedPoolSize命中率:
selectround((sum(gets)-sum(reloads))/sum(gets)*100,1)"libiarycachehitratio%"
fromv$librarycachewherenamespace
in('SQLAREA','TABLE/PROCEDURE','BODY','TRIGGER');
4、数据字典命中率:
selectround((1-sum(getmisses)/sum(gets))*100,1)"datadictionaryhitratio%"
fromv$rowcache;
5、锁竞争:
selectsubstr(ln.name,1,25)Name,
l.gets,l.misses,
100*(l.misses/l.gets)"%Ratio(STAYUNDER1%)"
fromv$latchl,v$latchnameln
whereln.namein('cachebufferslruchain')
andln.latch#=l.latch#;
6、排序命中率:
selecta.value"Sort(Disk)",b.value"Sort(Memory)",
round(100*(a.value/decode((a.value+b.value),0,1,(a.value+b.value))),2)"%Ratio(STAYUNDER5%)"
fromv$sysstata,v$sysstatb
wherea.name='sorts(disk)'
andb.name='sorts(memory)';
7、数据缓冲区命中率:
selectround((1-(phy.value/(cur.value+con.value)))*100,1)||'%'ratio
fromv$sysstatphy,v$sysstatcur,v$sysstatcon
wherephy.name='physicalreads'andcur.name='dbblockgets'andcon.name='consistentgets';
8、v$session_wait:
selectsid,seq#,event,WAIT_TIME,SECONDS_IN_WAITfromv$session_waitwhereeventnotlike'SQL%'andeventnotlike'rdbms%';
9、回滚段的争用情况:
selectname,waits,gets,waits/gets"Ratio"
fromv$rollstata,v$rollnameb
wherea.usn=b.usn