服务器运维应急预案文档格式.docx

上传人:b****5 文档编号:17479888 上传时间:2022-12-06 格式:DOCX 页数:4 大小:20.21KB
下载 相关 举报
服务器运维应急预案文档格式.docx_第1页
第1页 / 共4页
服务器运维应急预案文档格式.docx_第2页
第2页 / 共4页
服务器运维应急预案文档格式.docx_第3页
第3页 / 共4页
服务器运维应急预案文档格式.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

服务器运维应急预案文档格式.docx

《服务器运维应急预案文档格式.docx》由会员分享,可在线阅读,更多相关《服务器运维应急预案文档格式.docx(4页珍藏版)》请在冰豆网上搜索。

服务器运维应急预案文档格式.docx

四是突发故障处理类,下面就来详细说一说这些运维工作,让大家对运维工作有个了解。

  1、数据中心日常运维工作、日常检查  “千里之堤,溃于蚁穴”。

任何的故障在出现之前都可能会有所表现,小的隐患不消除,可能导致重大的故障出现,所以数据中心日常的例行检查工作枯燥,但也很重要,可以及时发现一些运行中的隐患。

根据数据中心承载业务重要性的不同,要对数据中心里的所有运行的设备进行例行检查。

一些数据中心设备厂商提供了检查软件,比如管软件,安全防护软件等。

可以利用这些软件对数据中心络[注]进行检查,看日志是否有异常告警,络是否出现过短时中断,端口是否出现UP/DOWN等。

通过络探测软件看络质量如何。

检查服务器应用服务是否正常,CPU内存等利用率是否正常。

对应用业务进行检查,比如如果有搜索业务,就可以通过服务器进行单词搜索,看搜索的结果和延迟是否在正常的范围之内。

这些检查每日都要重复检查,一旦有异常及时处理与消除,必要时将重要业务切换到备用环境中,然后排除后再切回。

  对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。

空调、供电系统进行运行良好,设备运行是否过热,地板、天窗、消防、监控都是检查的部分。

不合理的地方要及时进行整改,而不应该偷懒。

经常到一些数据中心,就会发现值班运维人员很多都抱着电脑在浏览页,打游戏。

对于日常检查应付一下,甚至根本不去检查,只要没有出现故障,就打游戏消耗时间,这样数据中心出现故障是迟早的事。

一旦出现故障就毛手毛脚,甚至哪个业务走的哪个设备,哪个端口哪个线都不清楚,本来一个小故障可能因为不熟悉导致大故障,因此日常检查绝不能应付,虽然需要不断重复,但却很重要,在持续的检查过程中,将会对数据中心的理解越来越深,这样每次检查都会有新的发现,在检查中进行学习。

  2、数据中心日常运维工作、应用变更  数据中心承载的业务不会是一成不变的,随着业务的多样化,经常要对业务进行调整,包括服务器和络的设置。

因此要对服务器和络设备操作很熟悉,主要需要掌握服务器命令和络协议。

要根据应用的需要,做出变更。

这时就对运维人员提出了更高的要求,不仅是对数据中心原有业务要非常熟悉,还要对新上的应用业务有正确的理解,这样才能在不影响原有业务的基础上做调整。

这样的应用变更每个月可能都要做几次,是数据中心运维人员  的必修课,突显了一个技术人员的基本技能水平。

这时要对设备操作命令比较熟悉,懂得如何实现业务,要经常和设备厂商的技术人员打交道,通过交流尽快掌握设备操作方法。

同时,由于设备厂商对应用业务缺乏了解,这就需要运维人员在应用业务和设备具体实现之间做好协调,处理。

以最快的时间和最小的代价完成应用业务部署。

  3、数据中心日常运维工作、软硬件升级  数据中心的设备一般运行周期是五年,不断地有设备需要逐渐淘汰进行更换,也有一些设备因为存在软件缺陷需要升级,因此软硬件升级也是运维工作的一部分,尤其是软硬件出现故障时,就必须要进行更换。

有时为了不影响业务,往往还需要设备厂商提供软件补丁来解决问题。

数据中心的设备成百上千,出现软硬件故障很正常,所以要不断地进行软硬件升级,这类工作往往都要在业务量最少的凌晨之后进行,运维人员通宵熬夜是常有的事,运维人员要有一个良好的身体素质,否则会吃不消。

软硬件升级时需要做好回退机制,以防升级出现问题时无法回退,业务长时间无法恢复。

当接手数据中心运维工作就会发现,怎么会有那么多的升级,几乎每个月都要有升级操作,熬夜升级工作成了运维人员的家常便饭。

  4、数据中心日常运维工作、突发故障  没有任何一个数据中心是不出故障的,在数据中心运行的过程中都会出现这样那样的问题。

这时就显示出运维人员的高技能水平,根据统计百分之八十的故障都是人为故障,所以运维人员的水平高低往往决定了一个数据中心运行的稳定程度。

另外对于突发故障,高水平的运维人员可以静下心来冷静分析故障的触发原因,迅速找到解决的方法,如果在短时间内找不到解决方法,也可以通过切换到备用设备上先恢复业务,再进行分析。

这时拥有高水平的运维人员对于一个数据中心至关重要,在关键时刻就能派上用场。

  虽然这些工作看起来有些平常,但千万别小看它们。

数据中心运维工作实际上非常重要,关乎着整个数据中心业务的正常运行。

目前市场上这类专业人才非常抢手,尤其对于具有较深故障排查水平的人才比较缺乏。

只有重视数据中心的运维工作,才能给数据中心一个平安。

  篇二:

运维应急方案  运维应急方案  目录  1234  前言................................................................................................................................3目标................................................................................................................................3组织结构........................................................................................................................3应急预警........................................................................................................................34.14.2  应急预警级别..................................................................................................3应急预警处理流程..........................................................................................44.2.1一级预警处理...........................................................................................44.2.2二级预警处理...........................................................................................54.2.3三级预警处理...........................................................................................5  5  附件................................................................................................................................6  5.1.1故障报告单...............................................................................................6  1前言  运维部负责公司业务系统运行维护工作。

  为了保障公司因业务系统的安全、平稳运行,运维部特此指定运维应急方案,通过此方案来保证系统的安全。

  2目标  ?

保障公司游戏服务器的正常运行、络的畅通。

?

严格岗位制度、明确工作职责,规范工作流程。

工作规范化,制度化,加强文档管理力度。

  3组织结构  根据运维工作的范围和性质,下设三个小组:

系统维护组应用维护组技术值班组  4应急预警  4.1应急预警级别  4.2应急预警处理流程  运维过程中出现重要故障或紧急情况时,按以下规定流程进行处理及汇报。

在遇到故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下:

  4.2.1一级预警处理  运维过程中,如果遇到一级预警,按以下流程进行处理:

  1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,  并分析故障原因。

  2.运维工程师在排查出故障后,立即着手解决。

3.在故障排除后,对所发生故障的设备进行事后跟踪。

  4.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。

  4.2.2二级预警处理  运维过程中,如果遇到二级预警,按以下流程进行处理:

  1.当通过监控或得知系统出现故障时,首先在最短的时间内查看故障点状态,  并分析故障原因。

  2.立即报告给组长,运维小组长应通过电话或当面把故障报告相关部门领导,  在故障完全排查清楚后以书面形式递交“故障报告单”。

  3.运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要  设备厂商的技术人员到现场,应立即拨打技术厂商的技术工程师联系电话,请求立即到现场进行故障排除。

  4.2.3三级预警处理  运维过程中,如果遇到三级预警,按以下流程进行处(本文来自:

WwW.cSpengBo.cOm蓬勃范文:

服务器运维应急预案)理:

  2.立即报告给运维中心主管人员,主管人员应通过电话或当面把故障报告给  相关领导部门,在故障完全排查清楚后以书面形式递交“故障报告单”。

3.运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要  设备厂商的技术人员到现场,应立即拨打技术厂商的技术工程师联系电话,请求立即到现场进行故障排除。

  4.如果因硬件设备出现故障而无法修复,需要更换时,应报运维中心主管人  员,主管人员办理硬件更换事宜。

  5.在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。

  篇三:

络运维与机房应急预案  络运维小组应急预案  随着络信息化建设的不断深入,加强机房各类设备、系统以及信息与络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。

为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。

  本预案共分为应用系统故障应急流程和机房突发事件应急流程  系统故障应急流程  一、系统故障应急流程说明  1、故障发生  系统运维服务小组可从以下途径得知故障的发生:

  1.1、运维服务中心通过管告警发现故障  1.2、维护站点通过维护巡检发现故障  1.3、用户发现故障,报给呼叫中心  1.4、驻场工程师发现故障  2、报障受理  监控系统运维服务小组得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障情况。

  3、信息研判  运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。

  4、预案启动  如需启动应急预案,则立刻通知系统突发故障应急领导小组,由领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。

  5、确认  系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关(主要是参与人员)依据经验进行调度和确认,主要有以下:

  我公司技术支持人员;

  相关厂家技术支持人员;

  我公司聘请的技术专家  6、预案执行  按照既定的预案进行突发故障抢修,如遇到问题及时向系统突发故障应急领导小组汇报。

  7、预案终止  预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后报系统突发故障应急领导小组决定。

  8、结果上报  预案中止后,相关预案参与人员将整个事件过程中的经验和教训,修改、完善事件应急预案。

然后集中上报至系统突发故障应急领导小组。

  二、系统故障应急处理流程图  机房突发事件应急流程  一、机房突发事件分类  1、自然灾害:

指地震、火灾等因自然因素引起的络与信息系统的损坏。

  2、事故灾难:

指电力中断、络损坏、软件、硬件设备故障等引起的络与信息系统的损坏。

  3、人为破坏:

指人为破坏络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的络与信息系统的损坏。

  二、应急处理人员组织机构  三、应急机构人员岗位职责  1、应急总指挥职责  1.1、保证在任何时间,及时协调应急行动所有涉及的岗位人员;

  1.2、提供必须的紧急响应设备;

  1.3、在紧急情况下全面负责紧急行动;

  1.4、在必要时向外界求救,例如:

119、110、120等。

  2、应急副总指挥职责  2.1、在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责;

  2.2、根据获得的应急信息下达命令。

  3、各相关设备负责人职责  3.1、负责尽快收集信息向应急总指挥汇报事故情况;

  3.2、负责现场临时设备抢救和对事态的控制;

  3.3、听从上级指挥人员的指挥。

  四、突发事件处理原则  1.预防为主。

立足安全防护,加强预警,重点保护基础信息络和关系信息安全、稳定的重要信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施充分发挥各方面的作用,共同构筑安全保障体系。

  2.快速反应。

突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判,果断决策,迅速处置,最大程度地减少危害和影响。

  3.分级负责。

按照“谁主管,谁负责”的原则,建立和完善安全责任制及联动工作机制。

根据各负责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责。

  4.以人为本。

把保障人员以及公共利益的安全作为首要任务。

  5.常备不懈。

加强技术储备,规范应急处置措施与操作流程,定期进行预案演练,确保应急预案切实有效,实现络与信息安全突发公共事件应急处置的科学化、程序化与规范化。

  五、机房应急开关机具体措施  机房各设备关闭顺序如下:

  六、机房日常维护  1、建立健全机房管理制度  1.1在正常工作日内,信息技术部人员负责对机房进行监控,主要职责是:

巡视络设备及系统的运行情况,发生异常情况及时处理,消除络故障隐患。

  1.2节假日期间技术人员轮流值班,负责处理有关异常情况。

  1.3机房采取来人来访登记制度,未经允许,无关人员不得进入公司机房区域。

  2、机房内严格采取防雷、防火、防尘、防静电等措施以及机房24小时监控    

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 笔试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1