软件平台运维技术方案1总体方案文档格式.docx
《软件平台运维技术方案1总体方案文档格式.docx》由会员分享,可在线阅读,更多相关《软件平台运维技术方案1总体方案文档格式.docx(12页珍藏版)》请在冰豆网上搜索。
30分钟,手工恢复时间<
4小时。
信息资产统计服务
此项服务为基本服务,包含在运行维护服务中,帮助我们对用户现有的信息资产情况进行了解,更好的提供系统的运行维护服务。
服务内容包括:
后台管理系统数据信息统计记录
门户网站信息发布安全管理
系统新增功能接口对接及研发
软件产品型号、版本和补丁等信息统计记录
网络结构、网络路由、网络IP地址统计记录
其它附属数据的统计记录
网络、安全系统运维服务
从网络的连通性、网络的性能、网络的监控管理三个方面实现对网络系统的运维管理。
网络、安全系统基本服务内容:
序号
服务模块
内容描述
1
云服务器配置
配合用户进行,云服务器后买,安装部署,调试等工作
2
系统故障诊断
按服务级别:
7×
24小时
5×
8小时
3
电话远程技术支持
4
系统问题管理
对遇到的问题进行汇总和发布
(1)用户现场技术人员值守
**公司可根据用户的需求提供长期的用户现场技术人员值守服务,保证网络的实时连通和可用,保障系统正常运作。
现场值守的技术人员每天记录信息系统是否存在安全性及健壮性问题,网络的转发和路由是否正常进行,进行整体网络性能评估,针对网络的利用率进行优化并提出网络扩容和优化的建议。
现场值守人员还进行信息系统的日常运行状态的监控,对各种安全设备的日志检查,对重点事件进行记录,对安全事件的产生原因进行判断和解决,及时发现问题,防患于未然。
同时能够对信息系统的运行数据进行记录,形成报表进行统计分析,便于进行网络系统的分析和故障的提前预知。
具体记录的数据包括:
配置数据
性能数据
故障数据
(2)网络运行分析与管理服务
网络运行分析与管理服务是指**公司工程师通过对网络运行状况、网络问题进行周期性检查、分析后,为客户提出指导性建议的一种综合性高级服务,其内容包括:
服务内容
服务优点
向客户提供网络专家电话号码。
保证重大问题第一连线至网络专家。
网络专家与客户进行电话技术交流
以最小成本保证及时解答客户关心的技术问题,并就某一领域技术问题展开深层次沟通。
向客户提交网络问题汇总分析报告
使客户了解网络历史故障情况以及故障预防建议,最大程度减少网络故障隐患,更高效的进行网络管理。
(3)重要时刻专人值守服务
**公司深刻知道保证重要时刻系统稳定运行对客户成功尤为关键,因此,**公司可对客户提供重要时刻的专人现场值守支持,包括政府客户的重大会议期间、金融客户的年终结算日、运营商客户的生产网重大割接或其它任何客户认为可能对其业务运营产生重大影响的时刻。
如需专人值守,客户需至少提前3周与授权服务商客户服务经理联系。
对每位合约客户,授权服务商均需按事先合同约定提供专人值守服务。
客户如需超出合同约定范围的更多值守支持,需额外支付相应人力和差旅费用。
云服务器运维服务
**公司提供云服务器运维服务包括:
存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。
云服务器基本服务内容:
补丁服务
消除软件漏洞给系统带来的安全隐患,并对安装补丁所引起的系统连锁反应进行合理的平衡。
升级服务
对系统进行软件或硬件的升级,以改进、完善现有系统或消除现有系统的漏洞。
5
6
7
系统优化
对客户系统的存储设备、操作系统、提供优化服务。
**公司现场值守人员可进行监控管理的内容包括:
CPU性能管理;
内存使用情况管理;
硬盘利用情况管理;
系统进程管理;
服务器性能管理;
监控硬盘运行状态;
监控网卡状态;
系统文件系统管理;
监控存储交换机设备状态、端口状态、传输速度;
监控备份服务进程、备份情况(起止时间、是否成功、出错告警);
对存储的性能(如高速缓存、光纤通道等)进行监控。
服务器巡检作业计划书
系统管理单位:
设备名:
设备型号
设备序列号
管理IP:
检查内容
参考标准
检查结果
状态是否正常
巡检方法描述
巡检周期
运行状态
CPU状态
▅正常□异常
内存状态
磁盘状态
网卡状态
系统检查
系统日志
文件系统,包括磁盘卷剩余空间
交换分区
固件版本
补丁包版本
系统镜像
存储磁盘
存储驱动
进程状态
系统性能检查
CPU利用率
内存利用率
磁盘I/O性能
数据库运行状态
数据库安装目录
数据库进程状态
集群检查
集群进程状态
集群日志
存储检查
存储环境状态
系统故障报告
短信平台维护服务
应用系统在运行期间,**公司需要有专人职守,定期检测,保证短信平台能够正常运行。
维护要求为:
通过对短信平台的维护,分析用户的不断更新的需求,分析应用系统对服务平台性能的要求,提出系统优化扩容解决方案,保障应用系统的处理服务性能。
主要维护内容包括:
短信数据维护;
短信数据备份;
日常维护;
软件更新服务;
对短信平台健康状态检查与分析报告;
对系统用户信息进行维护和修改,添加系统用户、更改系统用户信息、权限,负责系统中管理人员、操作人员、监督人员名单的调整,以及数据同步。
系统运行保障服务
(1)从运行值班人员及时了解应用系统的运行状况,配合日常运行监测,处理突发事件,组织编写事故报告、查明事故原因。
(2)对应用系统出现的故障进行及时处理;
对用户使用过程中存在的技术问题提出可行的解决方案。
(3)研究制定系统的应急预案,并安排相关人员定期演练;
(4)负责编写规划、计划系统运行情况的总结;
(5)建立联络机制,做好和系统实施单位以及原厂商的沟通;
(6)对应用系统运行中出现的问题及时与系统实施单位和原厂商联系支持解决,以保持系统的稳定运行。
基本要求
(1)日常运维服务
针对招标公司的工作日制度,为客户提供系统级的日常维护、定期巡检、性能测试、故障排查等服务。
具体内容包括:
a.工作日服务
主要指现场值守服务,维护团队需要指派3名资深服务技术服务工程师长期值守在现场,负责对现场设备运行状态进行监视、管理和维护以及工作终端的管理和维护,通过对系统运行日志的分析提前发现并排除可能发生的潜在故障,并在全部维护服务团队支持下,在1小时内排除普通故障,2小时内排除较大故障,4小时内排除重大故障,24小时内排除特大故障。
维护期内提供技术人员进行现场监控服务。
b.故障响应服务
除了现场值守服务方式外,同时,提供7×
24小时故障响应服务具体包括:
维护期内提供电话、传真、电子邮件等方式的咨询和支持服务。
主要系统设备出现故障时,15分钟内响应,当现场维护工程师或节假日值班维护工程师无法排除故障时,1小时内中心派专业工程师赶赴现场进行故障诊断及处理,在1小时内排除普通故障,2小时内排除较大故障,4小时内排除重大故障,24小时内排除特大故障。
一般故障,正常工作日内响应。
(2)其他时间及夜间服务
当系统在非工作日出现异常时,维护团队现场人员将在1小时内赶赴现场并排除系统普通故障,特大故障将在24小时内处理完毕。
具体联系方式包括:
通过维护团队提供的7×
24小时响应服务热线;
现场维护人员通过移动通信网络(当运维管理系统具备短信故障报警通知功能时)接收到系统报警信息;
或维护人员接到服务请求电话时。
(3)临时保障服务
当遇到重大活动需要提供临时保障服务时,维护团队须在需要保障服务的前三天进驻现场,并对所有设备进行临时性安全检查,排除安全隐患,以做到万无一失。
(4)月度检查
每月对各系统及设备进行检查,进行安全系统、防病毒系统检查,进行漏洞扫描,并对检查中存在的故障及安全隐患进行处理。
每月第一周向用户单位提交上月的《月度巡检报告》,报请用户单位审批签署。
(5)季度检查
每季度对由维护团队的专业维护队伍对所有设备进行安全评估和风险分析,提交完整的安全状况评估报告,分析存在的安全漏洞情况,提出《整改方案和建议》。
(6)年度检查
每年由维护团队组织相关的专家(含硬件和软件)对整个系统进行安全检查,对每个硬件设备使用状态进行风险评估,并对下一年可能存在的问题进行风险预测,对每个设备的状态出具使用报告。
服务要求
服务队伍
要求维护团队拥有强大的技术支持力量,拥有稳定的专业化的技术支持服务队伍,完善的技术支持服务体系。
现场服务人员负责网络的监控、简单故障的解决,接听技术热线。
现场服务人员按照计划对现场工作终端、楼层设备、机房及机房设备等进行例行巡检。
技术专家负责重大故障的处理,定期对运行情况进行分析,并提出整改或优化方案和建议。
服务响应
(1)日常服务响应时间
由于针对本项目采用的驻留现场服务方式,维护团队需指派驻3名资深工程师采取同步的作息时间,因此,现场服务的响应时间为及时响应。
(2)事故分级响应服务时间
各级故障事件的最晚响应时间为:
确认时间
一级故障事件
二级故障事件
三级故障事件
四级故障事件
1小时
技术服务人员
4小时
专业工程师
技术支持专家
48小时
服务项目经理
故障事件等级划分如下:
一级故障事件:
现有的网络或系统停机,或遭到严重攻击行为或安全事件,对信息系统的业务运作有重大影响;
二级故障事件:
现有网络或系统的操作性能严重降级,或由于网络性能失常或安全事件严重影响信息系统用户业务运作;
三级故障事件:
网络或系统的操作性能受损,安全事件(例如病毒在小范围内发作),但大部分业务运作仍可正常工作;
四级故障事件:
在网络、服务器、存储、安全设备功能、安装或配置方面需要调整或优化。
本级故障事件对信息系统的业务运作几乎无影响,或影响很小。
依据事故重要性和紧急性的原则,每一级事故严格定义升级时间为2小时,其中在二级事故和一级事故应急处理过程中,要及时考虑替代恢复方案,尽可能在最短的时间内恢复业务系统。
其中三级事故的处理,驻场服务人员在事故响应1个小时内,如果不能快速判断问题所在,可以寻求整个服务团队的支持。
在一、二级事故判断中,服务人员在监控中发现问题,一方面应迅速将问题向部门领导进行反应,一方面须快速判断问题和收集事故信息,涉及到具体产品提供商或服务商内,及时告知客户协调相关厂商现场支持。
为保障业务平台的正常运行,除对突发故障的应急支持外,要充分保障日常对业务系统软硬件的应急灾备恢复预案,并通过定期的演练加强应对突发事故的意识和流程。
服务报告
维护团队定期提供服务报告,服务期结束前应提供服务年报,并对每一次重大故障和问题的原因、解决方法、完成情况等形成专门报告,及时报送用户部门和服务管理部门。
在运维服务过程中将产生不限于以下的记录和报告:
日常维护报告
系统巡检日志
系统维护记录
系统优化记录
各类优化的管理制度
故障分析处理记录
故障整改方案和建议
交接班登记表
重大故障记录报告
运维保障资源库建设
在运维工作开展前期,把有助于用户运维的相关资料进行收集整理,以确保在实际运维过程中不会由于缺少沟通或者遗漏部分环节导致的问题处理延迟,具体保障资源如下:
主机设备相关资料收集:
整理各设备相关管理人员联系方式、设备物理位置等,书面文档与电子文档相结合,以确保出现设备故障或需要远程支持时能在第一时间联系到具体负责人,及早完成设备故障处理工作。
设备操作文档收集:
整理设备有关的操作文档,并整理成册,书面文档与电子文档相结合,辅助工程师处理相关问题。
设备配置库整理汇总:
整理所有设备原始配置资料,整理入库,且在修改设备配置后及时对录入的数据进行更新,以确保设备配置的准确性及安全性。
运维知识库的建立和维护:
收集维护过程中出现的各类资料,进行分类整理入库,为维护工作提供知识库。
其他要求
项目管理
维护团队应派遣一名具有专业知识的资深管理人员负责本项目的项目管理,统筹相关工作,项目监督与情况汇报,控制工作质量和预算,执行变更和应急情况管理,并根据实际状况调整服务方人员安排,以保证此项目的正常高效运作。
质量管理
维护团队应根据本项目要求提出服务质量管理及监控具体措施,并对所提供的服务质量和标准做出明确可量化的承诺。
技术交流及培训
维护团队应提供必须的服务技能培训,并对相关技术问题进行充分交流,以提高用户技术水平,使用户能熟练使用现有系统。
培训包括不定期或面对面培训,并提供对部分用户简单故障排除方法培训。
云平台及网络环境搭建
平台服务器
云服务器配置清单
应用说明
CPU
内存
操作系统
数据盘
网络
数量
说明
应用服务器1
8H
16G
CentOS64位
200G
20M
续期
应用服务器2
应用服务器3
48G
300G
应用服务器4
新增
应用服务器5
应用服务器6
企业应用防火墙
保底带宽10Gbps
主机安全检测与防御HIDS