服务器数据库维护方案.docx
《服务器数据库维护方案.docx》由会员分享,可在线阅读,更多相关《服务器数据库维护方案.docx(24页珍藏版)》请在冰豆网上搜索。
服务器数据库维护方案
@@@
服务器及网络系统维护方案
@@软件系统有限公司
@@@-11-5
1保障维护目标
@@@信息化建设管理中心机房是@@@各分公司的综合信息网络枢纽,包含多个关键业务系统,同时@@@各个业务网点也运行着多个IT设备,保障这些系统及相关的硬件设备正常运行并对外提供服务是方案的核心内容。
@@@信息化建设管理中心机房(以下简称中心机房)中包含各个收费系统,核心网络设备等多个关键业务系统,系统的稳定性、高效性、可靠性非常关键。
同时@@@各个分支机构(以下简称分支机构)均包含大量网络设备或服务器等IT设备。
以上设备原价值超过3000万元,中心机房收费系统等系统中的有效数据总和近1TB,价值无法估量。
随着集团业务的发展和信息技术的不断进步,中心机房和各分支机构对信息系统和IT设备的稳定要求越来越高。
集团IT设备中,大部分设备的使用年限均超过了设备原厂保修期,基于@@@集团目前的信息设备维护技术力量和人员配备,远远不能满足这种需求,这种缺乏专业维护所致的系统宕机及数据丢失隐患将会严重影响@@@集团在全市业务工作的开展。
维持中心网络设备的正常运转,为@@@集团更好的为广大北京市民进行服务提供高效、稳定、可靠的信息平台和技术保障,有助于提高集团的工作质量、工作效率及良好的社会服务形象,从而更好的为广大市民服务。
2保障维护内容
2.1服务器及存储硬件维护
在现场进行维护的@@软件的工程师,根据设备的不同状况采取适当的维护服务措施,主要包括:
1)对系统错误进行记录、分析,并实施故障诊断
2)通知@@相关负责人携带备件及时进行现场维修、更换
3)对系统板卡、设备的微代码升级
4)采取系统检测诊断(DiagnosticOnline/Offline)
5)对设备实行定期的预防性维护
6)提供设备维护、维修记录和报告
7)辅导掌握系统的基本操作,并给予技术支持
8)为用户提供技术培训、进行经验传授
为了更好的保障@@@集团系统硬件稳定运行,我们将在@@设备保修的基础上再为如下核心服务器设备购买IBM原厂保修服务,通过双重设备保修,保障@@@集团核心服务器设备硬件故障得到最快速最有效的保障。
设备型号
设备类型
用途
备注
P561
小型机
@@@银企互联系统数据库服务器
ORACLERAC
P561
小型机
@@@银企互联系统数据库服务器
ORACLERAC
2.2操作系统及软件维护
操作系统类型的软件维护内容主要包括:
一、系统运行状况检查
1)了解系统运行状况
2)解决客户系统软件问题
3)系统运行状况分析
4)客户同意前提下安装修正性软件(补丁)。
对于特定的系统安全性修正性软件以及IBM紧急要求的系统修正性软件可能会被随时安装
5)提供与系统软件相关的技术支持及咨询
二、远程技术支持服务
@@将通过电话和/或其它远程方式帮助@@@集团解决或解答以下与系统有关的日常运行、安装和使用等问题:
1)系统软件故障解决
2)系统软件使用问题解答
3)远程安装单个PTF或FixPack
4)远程在线诊断
三、现场技术支持
对于通过上述远程技术支持服务方式未能解决或解答的问题,@@将安排工程师提供现场支持。
四、提供修正性软件(PTF或Servicepack)
根据实际情况,为客户免费提供修正性软件(PTF或Servicepack)。
五、系统性能监测
应@@@集团要求,@@可以利用性能监测软件,每月或每季度为用户提供性能分析报告。
报告内容包括:
1)ExecutiveSummary
2)ManagementSummary
3)ResponseTime
4)ResponseTime,LocalTerminal
5)ResponseTime,PC
6)TransactionVolumes
7)TransactionAnalysis
8)Jobs
9)PrintOuts
10)ProcessorUtilization
11)ProcessorUtilization,Trend
12)Memory
13)DiskSpaceUsage
14)DiskArmsUtilization
15)CommunicationLines
16)AdditionalFacts
六、系统小版本(Release)升级
在@@@集团获得合法的系统升级软件后,@@软件将免费协助其进行系统小版本(Release)升级。
七、其他服务内容
1)提供系统软件操作方面的24小时电话答疑
2)提供系统维护、调整及安全性设置等方面的技术支持
3)对系统软件的错误进行记录、分析,为操作系统做故障诊断
4)实施系统增强和修补程序(ServicePacks&MaintenanceLevel)的分发、安装和测试
5)辅导掌握系统软件的基本操作,并给予技术支持
6)对系统软件运行实施定期预防性的维护和检查
7)提供系统优化和性能调整
8)提供设备维护、维修记录和报告
2.3数据库系统软件维护
数据库类型的软件维护内容主要包括:
一、系统运行状况检查
1)了解系统运行状况
2)解决客户系统软件问题
3)系统运行状况分析
4)客户同意前提下安装数据库补丁。
对于特定的数据库补丁以及紧急修正性补丁可能会被随时安装
5)提供与数据库软件相关的技术支持及咨询
二、远程技术支持服务
@@将通过电话和/或其它远程方式帮助@@@集团解决或解答以下与系统有关的日常运行、安装和使用等问题:
1)数据库软件故障解决
2)数据库软件使用问题解答
3)远程在线诊断
三、现场技术支持
对于通过上述远程技术支持服务方式未能解决或解答的问题,@@将安排工程师提供现场支持。
四、提供数据库补丁
根据实际情况,为客户免费提供数据库补丁。
五、系统性能监测
应@@@集团要求,@@可以利用性能监测软件,每月或每季度为用户提供数据库性能分析报告。
报告内容包括:
1)ExecutiveSummary
2)ManagementSummary
3)ResponseTime
4)ResponseTime,LocalTerminal
5)ResponseTime,PC
6)TransactionVolumes
7)TransactionAnalysis
8)Jobs
9)PrintOuts
10)ProcessorUtilization
11)ProcessorUtilization,Trend
12)Memory
13)TableSpaceUsage
14)TOPSQLs
六、数据库小版本(Release)升级
在@@@集团获得合法的系统升级软件后,@@软件将免费协助其进行数据库小版本(Release)升级。
七、其他服务内容
1)制定并执行数据库系统维护计划;
2)数据库系统维护;
3)数据库系统性能调优;
4)数据库平台的维护等;
5)数据灾难恢复;
6)数据库系统升级;
7)定期和不定期撰写数据库运行维护报告等。
2.4网络设备维护
网络设备的维护内容主要包括:
一、设备运行状况检查
1)了解设备运行状况
2)解决网络设备使用问题
3)设备系统运行状况分析
4)客户同意前提下升级网络操作系统或固件版本。
对于特定的IOS或firmware补丁以及紧急修正性补丁可能会被随时安装
5)提供与网络设备相关的技术支持及咨询
二、远程技术支持服务
@@将通过电话和/或其它远程方式帮助@@@集团解决或解答以下与系统有关的日常运行、安装和使用等问题:
1)网络设备故障解决
2)网络设备使用问题解答
3)远程在线诊断
三、现场技术支持
对于通过上述远程技术支持服务方式未能解决或解答的问题,@@将安排工程师提供现场支持。
四、提供网络系统补丁
根据实际情况,为客户免费提供网络系统补丁或固件升级。
五、网络系统性能监测
应@@@集团要求,@@可以利用性能监测软件,每月或每季度为用户提供数据库性能分析报告。
报告内容包括:
1)ExecutiveSummary
2)ManagementSummary
3)ServiceCustomerReport
4)BusinessUnitReport
5)ServiceLevelReport
6)CommunicationsTransportReport
7)TransactionAnalysis
8)ProcessorUtilization
9)ProcessorUtilization,Trend
10)Memory
六、网络系统版本(Release)升级
在@@@集团获得合法的网络系统升级软件后,@@软件将免费协助其进行版本(Release)升级。
七、其他服务内容
1)维护计划制定;
2)网络设备安全性维护;
3)网络故障处理;
4)网络性能监测;
5)网络线路维护;
6)网络设备系统升级;
7)定期和不定期撰写网络系统运行报告等。
2.5系统巡检服务
@@软件依照用户要求,每周对@@@集团所有的维护服务对象,包括服务器、存储设备、网络设备和系统等各项软硬件进行巡检工作以保障系统稳定运行,提前发现问题和故障。
2.5.1服务器及存储硬件巡检内容
1.外部环境检查
机房环境:
温度是否符合要求(10℃-40℃):
□符合要求□不符合
湿度是否符合要求(8%-80%):
□符合要求□不符合
电源参数:
相电压:
□符合要求□不符合
线电压:
□符合要求□不符合
零地电压:
□符合要求□不符合
2.系统硬件运行情况
控制面板是否正常:
□正常□不正常
钥匙是否妥善保存:
□是□否
电源情况:
□正常□不正常
风扇转动情况:
□正常□不正常
是否有备份电池寿命报警:
□是□否
检查设备故障灯是否有亮:
□有□无
有否异常情况(如硬盘、风扇异常的声音,电缆破损):
□有□无
备注:
3.检查磁盘阵列(如:
DS4700)状况,并填写下表:
序列号硬盘数量硬盘容量硬盘微码有无HotSpare何种数据保护Fast-WriteCache是否打开
2.5.2操作系统巡检内容
❒Windows巡检内容
1.操作系统环境
操作系统版本:
补丁(ServicePacks)版本:
系统软件包情况:
安装的病毒软件型号和版本:
运行的应用软件的型号和版本:
2.系统运行状态
CPU使用率是否持续大于70%:
□是□否
硬盘使用率是否大于80%:
□是□否
系统日志有没有需要修复的错误:
□是□否
有否合符要求的系统备份:
□是□否
最近一次系统备份的时间:
检查各网卡的状态、IP地址、路由表等:
□正常□不正常
检查通信状态:
□正常□不正常
病毒库是否最新:
□是□否
应用服务是否正常:
□是□否
Administrator密码是否妥善保管:
□是□否
是否连接磁盘阵列:
□是□否
磁盘阵列空间使用情况:
❒AIX巡检内容
1.操作系统环境
操作系统版本:
补丁(ServicePacks和MaintenanceLevel)版本:
系统软件包情况:
2.系统运行状态
有否硬件故障:
□有□无(硬件故障检测命令:
#errpt-dH-TPERM)
有否软件故障:
□有□无(软件故障检测命令:
#errpt-dS-TPERM)
有否发给root的错误报告:
□有□无(检查命令:
#mail)
CPU使用率是否持续大于70%:
□是□否(检查命令:
#sar110)
硬盘使用率是否大于80%:
□是□否
是否大数据读写都集中在某些硬盘上:
□是□否(检查命令:
#iostat1)
是否有“stale”状态的逻辑卷:
□是□否(检查命令:
#lsvg–l)
交换分区使用率是否超过70%:
□是□否(检查命令:
#lsps–s)
有否合符要求的系统备份:
□是□否
最近一次系统备份的时间:
磁带机是否需要清洗:
□需要□不需要
(“usr/lpp/diagnostics/bin/utape–cdrmt0–n”查看磁带机使用时数)
检查各网卡的状态、IP地址、路由表等:
□正常□不正常
检查通信状态:
□正常□不正常(测试命令:
#ping[ipaddress])
3.检测诊断
机器shutdown后以慢启动方式作自检,启动后运行diag系统诊断程序。
系统板、CPU、内存、I/O板:
□正常□不正常
网卡、SCSI卡、SSA卡:
□正常□不正常
系统其他扩展卡:
□正常□不正常
硬盘、磁盘阵列:
□正常□不正常
磁带机、磁带库:
□正常□不正常
诊断步骤:
1)#diag
2)Enter
3)选择DiagnosticRoutines
4)选择SystemVerification
5)选择AllResources
6)按F7
输出判断:
结果应为Notroublewasfound。
❒AS400巡检内容
1.系统记录信息
ProblemLog中是否有必须处理的硬件故障记录
□是□否
PAL中是否有必须处理的硬件故障记录
□是□否
SAL中是否有必须处理的硬件故障记录
□是□否
是否有其它异常信息
□是□否
是否需要安装与硬件相关的PTF
□是□否
2.操作系统环境
操作系统版本:
PTF版本:
HIPERCUMDB2
是否建议安装新的PTF:
□是□否
特许程序状况:
□正常□不正常
3.系统处理能力表现
CPU使用率是否持续大于70%□是□否
硬盘使用率是否大于80%□是□否
系统临时空间的占用是否持续增长□是□否
系统中总作业数是否过多□是□否
全部活动作业是否正常□是□否
系统作业是否有异常Joblog□是□否
Spoolfile的数量,建议清理?
□是□否
处理器性能是否被收集?
□是□否
4.系统备份和数据保护
是否有硬盘数据保护,如:
RAID/Mirror
□RAID□Mirror□无保护
是否有一年内,系统最后一次变化后的全备份□是□否
是否有一年内,系统最后一次变化后的SAVSYS□是□否
是否每天备份用户数据□是□否
是否备份系统配置□是□否
备份磁带是否异地保存□是□否
是否有双机备份,状态是否正常□是□否
OS/400QSECOFR密码是否妥善保管□是□否
SST/DSTQSECOFR密码是否妥善保管□是□否
2.5.3数据库巡检内容
❒DB2巡检内容
1.日常维护内容
检查管理服务器是否启动:
□是□否
检查DB2实例是否启动:
□是□否
表空间状态是否正常:
□正常□不正常
表和索引状态是否正常:
□正常□不正常
磁盘空间是否正常:
□正常□不正常
存储管理软件是否正常:
□正常□不正常
数据库备份是否正常:
□正常□不正常
归档日志是否正常:
□正常□不正常
缓冲池的命中率是否正常:
□大于95%□低于95%
当前运行最频繁的SQL命中率:
□大于95%□低于95%
是否有死锁情况:
□是□否
表是否需要重组:
□是□否
2.月巡检内容
数据库补丁级别:
DB2日志是否正常,有无Critical错误:
□是□否
备份和日志是否保存完好:
□是□否
数据库性能抓取:
□正常□不正常
❒Oracle巡检内容
1.日常维护内容
检查管理服务器是否启动:
□是□否
检查Oracle实例是否启动:
□是□否
检查OracleRac服务进程是否正常:
□是□否
表空间状态是否正常:
□正常□不正常
表和索引状态是否正常:
□正常□不正常
磁盘空间是否正常:
□正常□不正常
存储管理软件是否正常:
□正常□不正常
数据库备份是否正常:
□正常□不正常
归档日志是否正常:
□正常□不正常
缓冲池的命中率是否正常:
□大于95%□低于95%
当前运行最频繁的SQL命中率:
□大于95%□低于95%
是否有死锁情况:
□是□否
表是否需要重组:
□是□否
2.月巡检内容
数据库补丁级别:
Oracle日志是否正常,有无Critical错误:
□是□否
备份和日志是否保存完好:
□是□否
数据库性能抓取:
□正常□不正常
2.5.4网络设备巡检内容
❒交换机巡检内容
1.硬件设备检查项
引擎状态指示灯是否正常:
□是□否
模块状态指示灯是否正常:
□是□否
端口状态指示灯是否正常:
□是□否
CPU利用率是否正常:
□正常□不正常
内存利用率是否正常:
□正常□不正常
Buffer分配是否正常:
□正常□不正常
Crash分析是否正常:
□正常□不正常
有无明显异常Log:
□正常□不正常
冗余引擎是否正常:
□正常□不正常
冗余电源是否正常:
□正常□不正常
2.交换机链路层检查项
Spantree配置是否正常:
□正常□不正常
管理VLAN配置是否正常:
□正常□不正常
Trunk配置是否正确:
□正常□不正常
VTP配置类型:
交换机管理端口配置:
交换机管理界面是否正常访问:
□是□否
配置信息备份和日志是否保存完好:
□是□否
❒防火墙巡检内容
1.硬件设备检查项
引擎状态指示灯是否正常:
□是□否
模块状态指示灯是否正常:
□是□否
端口状态指示灯是否正常:
□是□否
CPU利用率是否正常:
□正常□不正常
内存利用率是否正常:
□正常□不正常
Buffer分配是否正常:
□正常□不正常
Crash分析是否正常:
□正常□不正常
有无明显异常Log:
□正常□不正常
冗余引擎是否正常:
□正常□不正常
冗余电源是否正常:
□正常□不正常
2.防火墙检查项
NAT和静态路由配置是否正常:
□正常□不正常
访问规则配置是否正确:
□正常□不正常
防火墙管理端口配置:
防火墙管理界面是否正常访问:
□是□否
配置信息备份和日志是否保存完好:
□是□否
3巡检报告
3.1硬件环境巡检报告
机房地点
用户名称
机柜数量
服务器数量
外部环境:
温度是否符合要求
□符合要求□不符合
湿度是否符合要求
□符合要求□不符合
电源参数:
检测项目
结果
参考值
相电压
□符合要求□不符合
线电压
□符合要求□不符合
零地电压
□符合要求□不符合
硬件运行情况:
控制面板是否正常
□正常□不正常
钥匙是否妥善保存
□正常□不正常
服务器电源情况
□正常□不正常
风扇转动情况
□正常□不正常
是否有备份电池寿命报警
□正常□不正常
检查设备故障灯是否有亮
□正常□不正常
有否异常情况
□正常□不正常
如硬盘、风扇异常的声音,电缆破损
3.2服务器巡检报告
❒AIX小型机巡检报告
主机名
业务范围
主机型号
序列号
硬件配置:
CPU、内存
硬盘
RAID方式
□RAID0□RAID1□RAID5
OS版本
系统环境检查表
检测项目
结果
参考值
硬件故障
□有□无
软件故障
□有□无
root的错误报告
□有□无
故障内容:
超额使用的文件系统
□有□无
交换分区使用率
□<70%□>70%
CPU空闲
□>20%□<20%
系统硬盘空间使用率
□<80%□>80%
系统参数设置
□正常□不正常
系统日期
□正确□错误
磁带机、磁带库
□正常□不正常
网络状态
□正常□不正常
补丁等级
□正常□不正常
返回结果:
❒PC服务器巡检报告
主机名
业务范围
主机型号
序列号
CPU、内存
硬盘
电源冗余
□有□没有
系统环境检查表
检测项目
结果
检测项目
结果
电源供电
□正常□不正常
网络
□正常□不正常
CPU占用
占用_____,是/否<75%
病毒库更新
□正常□不正常
内存占用
占用_____,是/否<80%
系统帐号
□正常□不正常
磁盘占用
操作系统盘占用______,
总共使用______。
应用服务
□正常□不正常
系统设备
□正常□不正常
系统日志
□正常□不正常
❒AS400巡检报告
主机名
业务范围
主机型号
序列号
硬件配置:
CPU、内存
硬盘
外观检查
控制面板显示
□正常(无)□不正常
电源指示灯
□正常(黄,不闪烁)□不正常
I/O卡指示灯
□正常(绿)□不正常
电缆连接
□正常□不正常
错误日志故障
近期有无故障记录:
□有□无
系统检查
MAIL故障
近期有无故障记录:
□有□无
CPU空闲
□<20%40%>□>20%60%>□>40%□>60%
错页率是否正常
□正常□不正常
硬盘空间
整体:
GB空闲:
GB
硬盘失败的数量
□无硬盘失败□有硬盘失败:
数量
RAID状态
□无RAID□正常□不正常
硬盘I/O使用率
□<80%□>80%
内置磁带机状态是否正常
□无磁带机□正常□不正常
内置光驱状态是否正常
□无光驱□正常□不正常
网卡是否正常
□正常□不正常
TCPIP状态是否