运行维护管理体系和制度规范Word文档下载推荐.docx

上传人:b****5 文档编号:20937351 上传时间:2023-01-26 格式:DOCX 页数:32 大小:31.64KB
下载 相关 举报
运行维护管理体系和制度规范Word文档下载推荐.docx_第1页
第1页 / 共32页
运行维护管理体系和制度规范Word文档下载推荐.docx_第2页
第2页 / 共32页
运行维护管理体系和制度规范Word文档下载推荐.docx_第3页
第3页 / 共32页
运行维护管理体系和制度规范Word文档下载推荐.docx_第4页
第4页 / 共32页
运行维护管理体系和制度规范Word文档下载推荐.docx_第5页
第5页 / 共32页
点击查看更多>>
下载资源
资源描述

运行维护管理体系和制度规范Word文档下载推荐.docx

《运行维护管理体系和制度规范Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《运行维护管理体系和制度规范Word文档下载推荐.docx(32页珍藏版)》请在冰豆网上搜索。

运行维护管理体系和制度规范Word文档下载推荐.docx

5.5数据库系统运维服务-20-坛摶乡囂忏蒌鍥铃氈淚。

5.6中间件运维服务-21-蜡變黲癟報伥铉锚鈰赘。

5.7终端、外设运维服务-22-買鲷鴯譖昙膚遙闫撷凄。

6、应急服务响应措施-28-綾镝鯛駕櫬鹕踪韦辚糴。

6.1应急预案实施基本流程20

6.2突发事件应急策略20

7、服务管理制度规范21

7.1服务时间21

7.2行为规范22

1、总则

第一条为保障实验室系统软硬件设备的良好运行,使员

工的运维工作制度化、流程化、规范化,特制订本制度。

第二条运维工作总体目标:

立足根本促发展,开拓运维新局

面。

在企业发展壮大时期,通过网络、桌面、系统等的运维,促进

企业稳定可持续性发展。

驅踬髏彦浃绥譎饴憂锦。

第三条运维管理制度的适用范围:

运维人员。

2、编制方法

本实施细则包括运维服务全生命周期管理方法、管理标准/规

范、管理模式、管理支撑工具、管理对象以及基于流程的管理方

法。

猫虿驢绘燈鮒诛髅貺庑。

本实施细则以ITIL/ISO20000为基础,以信息化工程的运维为目

标,以管理支撑工具为手段,以流程化、规范化、标准化管理为方

法,以全生命周期的PDCA循环为提升途径,体现了对运维服务全过

程的体系化管理。

锹籁饗迳琐筆襖鸥娅薔。

3、运维部工作职责

一、负责网站运维和技术支持

(一)根据网站运营战略和目标,负责网站整体架构、栏目、应用系统等技术开发方案制定和组织开发,保障网站技术的稳定性

和先进性。

構氽頑黉碩饨荠龈话骛。

(二)负责网站栏目和应用系统的使用培训和操作使用指南编写,对用户使用过程中出现问题的沟通和解决。

(三)网站设备和软件购买计划书的拟定,包括采购数量、品牌规格、技术参数。

会同行政部进行采购。

(四)网站设备和软件操作规程和应用管理制度的制定,并负责监督执行。

(五)网站设备和软件安装、调试和验收,使用培训和维修保

养。

(六)网站日常运行过程中信息安全和技术问题的协调解决,保障网站24小时安全稳定运行。

(七)网站技术服务外包管理,主要包括技术外包开发、运行服务托管和空间域名管理。

(八)负责网站管理系统及设备保密口令的设置和保存,保密口令设置后报中心主任备案,保密口令设定后任何人不得随意更改,保密口令每季度更新一次。

輒峄陽檉簖疖網儂號泶。

(九)负责网站新程序、新系统和网站改版升级方案技术的设计开发。

二、负责网站信息和技术安全

(一)执行国家和省上有关网络信息技术安全的法律法规,与

通信管理和网络安全监管部门联络,及时处理网站信息技术安全方

面存在的问题,确保网站安全、稳定、可靠运行。

尧侧閆繭絳闕绚勵蜆贅。

(二)网站信息技术安全保密制度和工作流程的制定,落实信

息技术安全保密责任制,执行“谁主管、谁负责,谁主办、谁负

责”的原则,责任到人。

识饒鎂錕缢灩筧嚌俨淒。

(三)在服务器和计算机之间设置硬件防火墙,在服务器及工

作站上均安装防病毒软件,进行硬件和技术双保护,确保网站不受

病毒和黑客攻击。

凍鈹鋨劳臘锴痫婦胫籴。

(四)负责网站信息技术安全应急处理预案制定和实施。

(五)安排专人监控网站各频道,各页面,各版块,各栏目信息内容,建立网站信息技术安全监控值班登记制度,发现问题及时处理,并登记问题和处理结果登记;

恥諤銪灭萦欢煬鞏鹜錦。

(六)建立多机备份网站信息服务系统机制,一旦主系统遇到故障或受到攻击导致不能正常运行,可以在最短的时间内替换主系

统提供服务。

鯊腎鑰诎褳鉀沩懼統庫。

(七)建立网站系统集中式权限管理,按照岗位职责设定工作人员操作权限,针对不同应用系统、终端、操作人员,设置共享数据库信息的访问权限,并设置密码。

不同的操作人员设定不同的用户名,且定期更换,严禁操作人员泄漏密码。

硕癘鄴颃诌攆檸攜驤蔹。

4、运维服务管理体系

运维服务管理体系规定了运维活动涉及的各类实体,以及这些实

体间的相互关系。

相关的实体按照运维服务管理体系进行有机组

织,并协调工作,按照服务协议要求提供不同级别的IT运维服务。

擻輳嬪諫迁择楨秘騖。

4.1运维服务管理对象

运维服务管理对象包括基础设施、应用系统、用户、研发部门以

及IT运维部门和人员,具体内容如下:

(1)基础设施包括网络、主机系统、存储系统、安全系统等。

(2)应用系统包括uap云管理平台、cloud门户、demo、zabbix、

机房设备管理系统、vmware以及yum源等。

氬嚕躑竄贸恳彈瀘颔澩。

(3)用户包括使用如上应用系统的用户。

(4)研发部门包括Iaas平台研发部门。

(5)运维部门和人员包括内部参与运维活动的相关部门和人员,以及提供运维服务的企业和相关人员。

4.2运维系统功能框架

根据建设单位的系统结构和业务开展需要,运维工程组将工程的维护框架分为9个具体组成部分,分别为:

服务台、事件管理、工单管理、问题管理、变更管理、配置管理、工程师考核、知识库管

理、统计、系统管理等9个子项。

而具体运维流程将以此为依据开展

工作。

釷鹆資贏車贖孙滅獅赘。

4.3运维管理组织结构

本运维工程的运维管理结构位三层模式,具体如下图所示。

由工程负责人与甲方进行业务范围接洽,并将沟通结果向下传递。

工程经理负责工程的整体运维工作,包括各种制度的制定和实施。

运维工程师则在工程经理的指导下开展维护工作。

怂阐譜鯪迳導嘯畫長凉。

4.3.1运维负责人

职责:

负责工程商务、整体协调事宜。

职位描述:

1)、整体负责建设单位运维工程服务计划的制定,领导工程经

理并安排工程工作,指导工程经理完成具体维护工作,每周听取工

程经理的工作汇报,负责考核工程经理工作完成情况。

谚辞調担鈧谄动禪泻

類。

2)、协助建设单位完成新增工程的调研、方案设计并指导工程

经理进行具体实施。

4.3.2运维主管

规划、执行、完善信息化工程的运维工作,指导网络、

数据库维护工程师开展工作。

1、根据公司战略目标,指导下属工程师开展客户服务工作,确

保运维工作能够满足客户的实际需要;

2、建立和持续完善运维管理体系,优化运维流程流程,解决运

维服务中出现的特殊问题;

3、规划并提升运维工程师专业服务能力,在整体上提高客户满

意度;

4、制定和持续完善绩效考核体系;

5、制定整理运维工程的应急预案系统,并指导运维工程师实

施;

6、提高自身专业技能,在业务方面给予网络管理员和数据库管

理员指导。

4.3.3系统管理员

操作系统、应用、数据库管理,oracle性能调优,实现

应用负载均衡。

1、技术主管非工程常驻人员,根据工程需要进行专业方面

指导;

2、负责数据库性能分析与调优,数据库运行状态监控,及

时发现异常并快速处理。

3、熟练掌握Oracle10G的RAC技术,能够实现部署及调优。

4、掌握WAS、Weblogic、Tomcat、websphere等中间件的工作原

理,能够实现部署调优及故障解决。

嘰觐詿缧铴嗫偽純铪锩。

5、熟练掌握red-flag、redhat等linux操作系统,部署

oracle10g、mysql数据库。

熟练掌握dataguard技术,保证

oracle数据库冗灾、数据保护、故障恢复。

熒绐譏钲鏌觶鷹緇機库。

6、负责应用负载均衡的部署和调试。

7、负责指导数据库工程师管理员开展工作。

4.3.4网络管理员

维护建设单位网络系统正常,解决网络相关故障。

1、对现有服务器、局域网络及机房、配线间的日常管理维护;

2、对信息安全建设提出相关建议,确保网络的安全;

3、保证外网光纤线路正常,保证局域网运行正常;

4、对网络系统和网络设备的运行状态进行监控;

5、熟练掌握域策略设置、DHCP、DNS、FTP服务器、NTFS权限

设置等;

6、编写网络部分的应用处理预案并实施。

7、工作认真、细致,积极主动有条理性,具有良好的沟通能力

及团队合作精神.

4.3.5应用、数据库管理员

维护建设单位业务系统运行正常,解决应用和数据库故

障。

1、监测业务系统运行状况,应用、数据库性能监视及优化,作

必要调整;

2、规划不同数据的生命周期,制订备份、恢复、迁移和灾备策

略,根据业务的需要执行数据转换及迁移等操作;

3、保证应用和数据库系统的安全性、完整性和运行效率。

4、负责数据库平台的整体架构及解决方案的制定和实施;

5、工作认真、细致,积极主动有条理性,具有良好的沟通能力

4.4运维服务标准流程

IT运维服务管理流程涉及事件管理、问题管理、配置管理、变

更管理、发布管理、服务级别管理、财务管理、能力管理、可用性

管理、服务持续性管理、知识管理及供应商管理等,随着运维活动

的不断深入和持续改进,其他流程可能会逐步独立并规范。

鶼渍螻偉阅

劍鲰腎邏蘞。

4.4.1工程运维服务工作标准流程图

4.4.2服务台(暂无)

服务台是支持运维服务的核心功能,与各个流程联系密切。

所有

管理流程都要通过服务台为用户提供单点联系,解答用户的相关问

题和需求,或为用户寻求相应的支持人员。

纣忧蔣氳頑莶驅藥悯骛。

在本系统中,服务台是接收各种来源服务请求和相关信息反馈的

唯一入口和出口,同时服务台还负责一般请求、通过知识库(历史

事件)能够解决的请求;

他也是复杂问题二线处理的桥梁。

颖刍莖蛺饽亿

顿裊赔泷。

由于当前人员不足,服务台的工作暂时由运维工程师统一处理。

4.4.3事件管理

事件管理流程的主要目标是尽快恢复服务提供并减少其对业务的

不利影响,尽可能保证最好的服务质量和可用性等级。

事件管理流

程通常涉及事件的侦测和记录、事件的分类和支持、事件的调查和

诊断、事件的解决和恢复以及事件的关闭。

濫驂膽閉驟羥闈詔寢賻。

本系统把所有服务请求和报警归结为事件。

事件管理是提供服务

台和事件管理者对于事件记录、处理、查询、审核、派发等功能。

它也包括通过和第三方监控系统对接,把其发送报警形成事件的功

能。

銚銻縵哜鳗鸿锓謎諏涼。

4.4.4工单管理

工单管理:

工单是现场运维、二线支持的任务载体,运维工程依

据所接收工单进行运维工作。

工单管理是对工单实现创建、变更、

查询浏览、派发、监督等功能的模块。

挤貼綬电麥结鈺贖哓类。

4.4.5问题管理

问题管理流程的主要目标是预防问题和事故的再次发生,并将未

能解决的事件的影响降低到最小。

问题管理流程包括诊断事件根本

原因和确定问题解决方案所需要的活动,通过合适的控制过程,尤

其是变更管理和发布管理,负责确保解决方案的实施。

问题管理还

将维护有关问题、应急方案和解决方案的信息。

赔荊紳谘侖驟辽輩袜錈。

问题管理是针对已处理事件的遗留问题或处理事件的方案只是治

标不治本的不能彻底解决问题而考虑的模块。

根据事件、及处理方

案,问题处理人经过调查、诊断并提出最终解决方法。

塤礙籟馐决穩賽釙冊

庫。

4.4.6变更管理

变更管理实现所有基础设施和应用系统的变更,变更管理应记录

并对所有要求的变更进行分类,应评估变更请求的风险、影响和业

务收益。

其主要目标是以对服务最小的干扰实现有益的变更。

裊樣祕廬

廂颤谚鍘羋蔺。

变更管理是要对重大资源的新增、变更、升级等运维活动进行审

核的功能,以免这些活动对现有资源的可用性造成没有必要的影响

和破坏;

同时,他还要实现在工单中产生的变化进行后审计的功

仓嫗盤紲嘱珑詁鍬齊驁。

4.4.7配置管理

配置管理流程负责核实基础设施和应用系统中实施的变更以及配

置项之间的关系是否已经被正确记录下来;

确保配置管理数据库能

够准确地反映现存配置项的实际版本状态。

绽萬璉轆娛閬蛏鬮绾瀧。

配置管理实际上是全部资源的统一管理的功能,包括资源整个生

命周期的参数或配置的变化记录的管理。

管理信息主要涉及分类、

型号、版本、位置,状态、相关资料等基本信息还包括核心参数等骁

顾燁鶚巯瀆蕪領鲡赙。

4.4.8知识库管理

运维知识经验的总结、维护和共享是提高员工运维技能水平、增

强单位凝聚力的重要手段,也是把宝贵的经验教训从支持人员头脑

逐步沉淀、固化的重要方式。

瑣钋濺暧惲锟缟馭篩凉。

知识库管理:

知识库是提供给运维人员重要的技术资料内容,他

汇集在工作的遇到的典型案例归纳总结的知识要点和全面实用资料

手册。

在本系统中,知识库管理提供便于使用的人机接口、快速查

询的技术手段和维护手段。

鎦诗涇艳损楼紲鯗餳類。

4.4.9统计及工作报告

运维管理系统提供一线解决率统计、客户满意度统计、按分类的

事件汇总统计、工作报告生成的功能,按照一定格式根据事件数

据、工单数据、问题数据、配置数据、变更数据可以帮助运维管理

者能把运维的所做的工作内容清晰的罗列出来。

栉缏歐锄棗鈕种鵑瑶锬。

5、运维服务内容

5.1运维服务目标

实验室运维部门提供的运行维护服务包括,虚拟机、主机设备、

操作系统、数据库、网络安全设备和存储设备的运行维护服务,保

证云管理平台的正常运行,降低整体管理成本,提高Iaas平台的整

体服务水平。

同时根据日常维护的数据和记录,给研发部门提供

Iaas平台优化及改善建议。

辔烨棟剛殓攬瑤丽阄应。

实验室运维的组成主要可分为两类:

硬件设备和软件系统。

硬件

设备包括网络设备、安全设备、主机设备、存储设备等;

软件设备

可分为云管理平台、操作系统、典型应用软件(如:

数据库软件

等)等。

峴扬斕滾澗辐滠兴渙藺。

服务工程范围覆盖的信息系统资源以下方面的关键状态及参数指

标:

运行状态、故障情况

配置信息

可用性情况及健康状况性能指标

5.2IT资产统计服务

服务内容包括:

硬件设备型号、数量、版本等信息统计记录

软件产品型号、版本和补丁等信息统计记录

网络结构、网络路由、网络IP地址统计记录

综合布线系统结构图的绘制

其它附属设备的统计记录

5.3网络、安全系统运维服务

从网络的连通性、网络的性能、网络的监控管理三个方面实现对

网络系统的运维管理,网络设备位于IT架构的骨干位置,下面是需

要监控的指标,及对应健康状况故障以后可能引起的问题。

詩叁撻訥烬忧

毀厉鋨骜。

设备基础性能检测:

cpu、内存使用情况监测。

当cpu、内存使用率过高,会导致用户网络访问质量下降,丢包、时延较高等状况的产生。

说明当前网络设备负载较

高,需要对下行设备进行迁移,分流,减轻负载。

则鯤愜韋瘓賈晖园

栋泷。

设备日志查看;

当设备日志出现异常时,可能是设备出现异常访问或者异常

配置,可能会导致网络中断。

需要检测防火墙等安全设备状

态。

胀鏝彈奥秘孫戶孪钇賻。

设备snmp、telnet状态;

当snmp、telnet都不可达时,一般是设备脱网情况的产生,

会导致网络中断。

需要人工查看设备运行状态。

鳃躋峽祷紉诵帮废掃

減。

测试Ping,tracert等工具的连通性;

当ping丢包率过高,说明网络访问质量有问题,需要

tracert查看网络路径是哪一跳对应的IP设备时延较高或者

不可达。

分析是哪个网关路由或者策略引起的问题。

稟虛嬪赈维哜

妝扩踴粜。

网络安全策略应用是否正常;

安全策略异常会导致网络设备遭受入侵,会影响整个网络的

访问。

Internet带宽流量的实时监测;

流量所占带宽比较高,会造成当前网络设备对应端口网关的

所有网络访问质量下降。

需要抓包查看是哪些设备对应的访

问流量较高,决定是加大带宽还是服务器中毒。

陽簍埡鲑罷規呜旧岿

錟。

网络拓扑链路状态监测;

链路状态异常说明网络中某个设备异常,需要查看链路对应的网络设备健康状况,结合其他指标分析问题所在。

异常网络数据包流量、Dos、ddos等网络攻击情况监测;

存在异常网络数据流量包等,会导致正常的网络质量下降,

说明网络可能受到攻击,需要结合netflow和流量状况查看异常流量的访问网段,从路由策略或者防火墙限制该网段的访问沩氣嘮戇苌鑿鑿槠谔應。

光纤光口光功率、光电口误码率大小。

光功率值不在光模块的默认光功率范围内,会导致光口不可用,可能是光模块出现故障,需要联系厂家查看光模块是否正常钡嵐縣緱虜荣产涛團蔺。

5.4主机、存储系统运维服务

提供的主机、存储系统的运维服务包括:

主机、存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。

懨俠劑鈍触乐鹇烬觶騮。

进行监控管理的内容包括:

CPU性能管理;

GPU指标过高,会导致服务器程序运行缓慢,出现卡死状

况。

需要查看引起GPU过高原因,做虚机迁移等操作,减轻

服务器压力。

謾饱兗争詣繚鮐癞别瀘。

内存使用情况管理;

内存使用率过大,会导致服务器崩溃,需要及时扩充内存资源,或者回收不再使用的虚机资源。

硬盘利用情况管理;

硬盘使用率过高,会导致开始启动失败,需要定期清理服务器临时文件,或者扩充服务器硬盘。

系统进程管理;

服务器关键进程运行是否正常,异常会导致服务器崩溃,需要查看进程异常原因。

实时监控主机电源、风扇的使用情况及主机机箱内部温度;

电源状态异常,可能会导致服务器断电,风扇异常,主机稳定过高会导致服务器重启,需要与厂商联系,查看硬件是否正常呙铉們欤谦鸪饺竞荡赚。

监控主机硬盘运行状态;

硬盘读写状态等标识硬盘可用性,需要查看是否硬盘压力过大,考虑更换存储类型ssd等监控主机网卡等硬件状态;

主机网卡down掉,会影响服务器的网络访问,硬件异常会影响服务器正常运行,需要联系厂商做硬件检测。

监控主机HA运行状况;

灾备系统运行异常,会导致HA切换异常,需要查看引起HA

异常的原因,是软件问题还是硬件问题,逐步排除原因。

莹谐

龌蕲賞组靄绉嚴减。

5.5数据库系统运维服务

提供的数据库运行维护服务是包括主动数据库性能管理,数据库的主动性能管理对系统运维非常重要。

通过主动式性能管理可了解数据库的日常运行状态,识别数据库的性能问题发生在什么地方,有针对性地进行性能优化。

同时,密切注意数据库系统的变化,主动地预防可能发生的问题。

麸肃鹏镟轿騍镣缚縟糶。

数据库基本信息:

文件系统、碎片、死锁、CPU占用率较大或时间较长的SQL语句。

存在上面会导致业务访问缓慢,需要定位那些SQL占用内存较大或者死锁,针对具体情况进行优化代码。

表空间使用信息监测;

表空间占用太大会影响查询效率,需要优化存储结构,将集中存储换为单表文件,索引根据实际业务进行优化,是否需

要索引,或者索引删除重建,或者建立分区表。

納畴鳗吶鄖禎銣腻鰲

锬。

数据库文件I/0读写情况;

数据库I/0反应数据库瓶颈,查看引起I/O较大的原因是业

务量较大还是服务器I/O现在,更换存储类型,必要情况下

更换内存数据库等。

風撵鲔貓铁频钙蓟纠庙。

Session连接数量监控;

Session长链接数量较大会造成数据库负载较高,需要考虑

将长链接更换为短连接。

数据库监听运行状态监测;

数据库运行状态为down会导致业务中断,查看是业务层还是

网络层引起的问题,如果为网络层,需要对网络情况排除,

如果为业务层导致,要进行SQL优化。

灭嗳骇諗鋅猎輛觏馊藹。

查看每日数据备份、数据同步是否正常;

数据库备份异常,会导致备份数据丢失,对于数据库迁移,

和数据恢复造成不可恢复的影响,需要具体查看引起该问题

是数据库本身还是服务器问题,具体问题具体分析解决。

铹鸝

饷飾镡閌赀诨癱骝。

对表和索引进行Analyze,检查表空间碎片;

数据库表和索引的占用量太大会影响查询效率,需要调整表

结构或者索引删除重建。

数据库对象的空间扩展情况监测;

表空间扩展太快会导致数据库服务器存储空间占满,数据库

down掉等异常情况,需要优化表结构。

5.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 数学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1