ImageVerifierCode 换一换
格式:DOCX , 页数:21 ,大小:30.66KB ,
资源ID:7174658      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/7174658.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(运行维护管理体系和制度规范.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

运行维护管理体系和制度规范.docx

1、运行维护管理体系和制度规范运行维护管理体系和制度规范1、总则 3 矚慫润厲钐瘗睞枥庑赖。2、编制方法 33、运维工作职责 34、运维服务管理体系 54.1 运维服务管理对象 64.2 运维系统功能框架 64.3 运维管理组织结构 74.3.1 工程负责人 84.3.2 工程经理 84.3.3 技术主管 94.3.4 服务台 94.3.5 网络管理员 104.3.5 应用、数据库管理员 104.3.7 终端管理员 114.4 运维服务流程 114.4.1 工程运维服务工作流程图 12 聞創沟燴鐺險爱氇谴净。4.4.2 服务台- 12 - 残骛楼諍锩瀨濟溆塹籟。3.4.3 事件管理- 13 - 酽

2、锕极額閉镇桧猪訣锥。4.4.4 工单管理- 13 - 彈贸摄尔霁毙攬砖卤庑。4.4.5 问题管理- 14 - 謀荞抟箧飆鐸怼类蒋薔。4.4.6 变更管理- 14 - 厦礴恳蹒骈時盡继價骚。4.4.7 配置管理- 15 - 茕桢广鳓鯡选块网羈泪。4.4.8 知识库管理 - 15 - 鹅娅尽損鹌惨歷茏鴛賴。4.4.9 统计及工作报告 - 15 - 籟丛妈羥为贍偾蛏练淨。5、运维服务内容 - 16 - 預頌圣鉉儐歲龈讶骅籴。5.1 服务目标- 16 - 渗釤呛俨匀谔鱉调硯錦。5.2 资产统计服务 - 16 - 铙誅卧泻噦圣骋贶頂廡。5.3 网络、安全系统运维服务 - 17 -擁締凤袜备訊顎轮烂蔷。5

3、.4 主机、存储系统运维服务 - 18 -贓熱俣阃歲匱阊邺镓騷。5.5 数据库系统运维服务 - 20 - 坛摶乡囂忏蒌鍥铃氈淚。5.6 中间件运维服务 - 21 -蜡變黲癟報伥铉锚鈰赘。5.7 终端、外设运维服务 - 22 - 買鲷鴯譖昙膚遙闫撷凄。6、应急服务响应措施 - 28 - 綾镝鯛駕櫬鹕踪韦辚糴。6.1 应急预案实施基本流程 206.2 突发事件应急策略 207、服务管理制度规范 217.1 服务时间 217.2 行为规范 221、总则第一条 为保障实验室系统软硬件设备的良好运行,使员工的运维工作制度化、流程化、规范化,特制订本制度。第二条 运维工作总体目标:立足根本促发展,开拓运维

4、新局面。在企业发展壮大时期,通过网络、桌面、系统等的运维,促进企业稳定可持续性发展。 驅踬髏彦浃绥譎饴憂锦。第三条 运维管理制度的适用范围:运维人员。2、编制方法本实施细则包括运维服务全生命周期管理方法、管理标准 / 规范、管理模式、管理支撑工具、管理对象以及基于流程的管理方法。猫虿驢绘燈鮒诛髅貺庑。本实施细则以 ITIL/ISO20000 为基础,以信息化工程的运维为目标,以管理支撑工具为手段,以流程化、规范化、标准化管理为方法,以全生命周期的 PDCA循环为提升途径,体现了对运维服务全过程的体系化管理。 锹籁饗迳琐筆襖鸥娅薔。3、运维部工作职责一、负责网站运维和技术支持(一)根据网站运营战

5、略和目标 , 负责网站整体架构、栏目、应用系统等技术开发方案制定和组织开发,保障网站技术的稳定性和先进性。 構氽頑黉碩饨荠龈话骛。(二)负责网站栏目和应用系统的使用培训和操作使用指南编写,对用户使用过程中出现问题的沟通和解决。(三)网站设备和软件购买计划书的拟定,包括采购数量、品牌规格、技术参数。会同行政部进行采购。(四)网站设备和软件操作规程和应用管理制度的制定,并负责监督执行。(五)网站设备和软件安装、调试和验收,使用培训和维修保养。(六)网站日常运行过程中信息安全和技术问题的协调解决,保障网站 24 小时安全稳定运行。(七)网站技术服务外包管理,主要包括技术外包开发、运行服务托管和空间域

6、名管理。(八)负责网站管理系统及设备保密口令的设置和保存,保密口令设置后报中心主任备案,保密口令设定后任何人不得随意更改,保密口令每季度更新一次。 輒峄陽檉簖疖網儂號泶。(九)负责网站新程序、新系统和网站改版升级方案技术的设计开发。二、负责网站信息和技术安全(一)执行国家和省上有关网络信息技术安全的法律法规,与通信管理和网络安全监管部门联络,及时处理网站信息技术安全方面存在的问题,确保网站安全、稳定、可靠运行。 尧侧閆繭絳闕绚勵蜆贅。(二)网站信息技术安全保密制度和工作流程的制定,落实信息技术安全保密责任制,执行“谁主管、谁负责,谁主办、谁负责”的原则,责任到人。 识饒鎂錕缢灩筧嚌俨淒。( 三

7、 ) 在服务器和计算机之间设置硬件防火墙,在服务器及工作站上均安装防病毒软件,进行硬件和技术双保护,确保网站不受病毒和黑客攻击。 凍鈹鋨劳臘锴痫婦胫籴。(四)负责网站信息技术安全应急处理预案制定和实施。(五)安排专人监控网站各频道,各页面,各版块,各栏目信息内容,建立网站信息技术安全监控值班登记制度,发现问题及时处理,并登记问题和处理结果登记; 恥諤銪灭萦欢煬鞏鹜錦。(六)建立多机备份网站信息服务系统机制,一旦主系统遇到故障或受到攻击导致不能正常运行,可以在最短的时间内替换主系统提供服务。 鯊腎鑰诎褳鉀沩懼統庫。(七)建立网站系统集中式权限管理,按照岗位职责设定工作人员操作权限,针对不同应用系

8、统、终端、操作人员,设置共享数据库信息的访问权限,并设置密码。不同的操作人员设定不同的用户名,且定期更换,严禁操作人员泄漏密码。 硕癘鄴颃诌攆檸攜驤蔹。4、运维服务管理体系运维服务管理体系规定了运维活动涉及的各类实体,以及这些实体间的相互关系。相关的实体按照运维服务管理体系进行有机组织,并协调工作,按照服务协议要求提供不同级别的 IT 运维服务。 阌擻輳嬪諫迁择楨秘騖。4.1 运维服务管理对象运维服务管理对象包括基础设施、应用系统、用户、研发部门以及IT运维部门和人员,具体内容如下:(1) 基础设施包括网络、主机系统、存储系统、安全系统等。(2) 应用系统包括 uap云管理平台、 cloud

9、门户、demo、zabbix 、机房设备管理系统、 vmware以及yum源等。氬嚕躑竄贸恳彈瀘颔澩。(3) 用户包括使用如上应用系统的用户。(4) 研发部门包括 Iaas 平台研发部门。(5) 运维部门和人员包括内部参与运维活动的相关部门和人员,以及提供运维服务的企业和相关人员。4.2 运维系统功能框架根据建设单位的系统结构和业务开展需要,运维工程组将工程的维护框架分为 9个具体组成部分,分别为:服务台、事件管理、工单管理、问题管理、变更管理、配置管理、工程师考核、知识库管理、统计、系统管理等 9个子项。而具体运维流程将以此为依据开展工作。釷鹆資贏車贖孙滅獅赘。4.3 运维管理组织结构本运维

10、工程的运维管理结构位三层模式,具体如下图所示。由工程负责人与甲方进行业务范围接洽,并将沟通结果向下传递。工程经理负责工程的整体运维工作,包括各种制度的制定和实施。运维工程师则在工程经理的指导下开展维护工作。 怂阐譜鯪迳導嘯畫長凉。4.3.1 运维负责人职责:负责工程商务、整体协调事宜。职位描述:1)、整体负责建设单位运维工程服务计划的制定,领导工程经理并安排工程工作,指导工程经理完成具体维护工作,每周听取工程经理的工作汇报,负责考核工程经理工作完成情况。 谚辞調担鈧谄动禪泻類。2)、协助建设单位完成新增工程的调研、方案设计并指导工程经理进行具体实施。4.3.2 运维主管职责:规划、执行、完善信

11、息化工程的运维工作,指导网络、数据库维护工程师开展工作。职位描述:1、根据公司战略目标,指导下属工程师开展客户服务工作,确保运维工作能够满足客户的实际需要;2、建立和持续完善运维管理体系,优化运维流程流程,解决运维服务中出现的特殊问题;3、规划并提升运维工程师专业服务能力,在整体上提高客户满意度;4、制定和持续完善绩效考核体系;5、制定整理运维工程的应急预案系统,并指导运维工程师实施;6、提高自身专业技能,在业务方面给予网络管理员和数据库管理员指导。4.3.3 系统管理员职责:操作系统、应用、数据库管理, oracle 性能调优,实现应用负载均衡。职位描述:1、 技术主管非工程常驻人员,根据工

12、程需要进行专业方面指导;2、 负责数据库性能分析与调优,数据库运行状态监控,及时发现异常并快速处理。3、 熟练掌握Oracle10G的RAC技术,能够实现部署及调优。4、 掌握WA、S Weblogic 、Tomcat、websphere等中间件的工作原理,能够实现部署调优及故障解决。 嘰觐詿缧铴嗫偽純铪锩。5、 熟练掌握red-flag 、redhat 等linux 操作系统,部署oracle10g 、mysql数据库。熟练掌握 dataguard 技术,保证oracle 数据库冗灾、数据保护、故障恢复。 熒绐譏钲鏌觶鷹緇機库。6、 负责应用负载均衡的部署和调试。7、 负责指导数据库工程师管

13、理员开展工作。4.3.4 网络管理员职责:维护建设单位网络系统正常,解决网络相关故障。职位描述:1、对现有服务器、局域网络及机房、配线间的日常管理维护;2、对信息安全建设提出相关建议,确保网络的安全;3、保证外网光纤线路正常,保证局域网运行正常;4、对网络系统和网络设备的运行状态进行监控;5、熟练掌握域策略设置、 DHC、P DNS、FTP 服务器、 NTFS权限设置等;6、编写网络部分的应用处理预案并实施。7、工作认真、细致,积极主动有条理性,具有良好的沟通能力及团队合作精神 .4.3.5 应用、数据库管理员职责:维护建设单位业务系统运行正常,解决应用和数据库故障。职位描述:1、监测业务系统

14、运行状况,应用、数据库性能监视及优化,作必要调整;2、规划不同数据的生命周期,制订备份、恢复、迁移和灾备策略,根据业务的需要执行数据转换及迁移等操作;3、保证应用和数据库系统的安全性、完整性和运行效率。4、负责数据库平台的整体架构及解决方案的制定和实施;5、工作认真、细致,积极主动有条理性,具有良好的沟通能力及团队合作精神 .4.4 运维服务标准流程IT 运维服务管理流程涉及事件管理、问题管理、配置管理、变更管理、发布管理、服务级别管理、财务管理、能力管理、可用性管理、服务持续性管理、知识管理及供应商管理等,随着运维活动的不断深入和持续改进,其他流程可能会逐步独立并规范。 鶼渍螻偉阅劍鲰腎邏蘞

15、。4.4.1 工程运维服务工作标准流程图4.4.2 服务台(暂无)服务台是支持运维服务的核心功能,与各个流程联系密切。所有管理流程都要通过服务台为用户提供单点联系,解答用户的相关问题和需求,或为用户寻求相应的支持人员。 纣忧蔣氳頑莶驅藥悯骛。在本系统中 , 服务台是接收各种来源服务请求和相关信息反馈的唯一入口和出口,同时服务台还负责一般请求、通过知识库(历史事件)能够解决的请求;他也是复杂问题二线处理的桥梁。 颖刍莖蛺饽亿顿裊赔泷。由于当前人员不足,服务台的工作暂时由运维工程师统一处理。4.4.3 事件管理事件管理流程的主要目标是尽快恢复服务提供并减少其对业务的不利影响,尽可能保证最好的服务质

16、量和可用性等级。事件管理流程通常涉及事件的侦测和记录、事件的分类和支持、事件的调查和诊断、事件的解决和恢复以及事件的关闭。 濫驂膽閉驟羥闈詔寢賻。本系统把所有服务请求和报警归结为事件。事件管理是提供服务台和事件管理者对于事件记录、处理、查询、审核、派发等功能。它也包括通过和第三方监控系统对接,把其发送报警形成事件的功能。銚銻縵哜鳗鸿锓謎諏涼。4.4.4 工单管理工单管理:工单是现场运维、二线支持的任务载体,运维工程依据所接收工单进行运维工作。工单管理是对工单实现创建、变更、查询浏览、派发、监督等功能的模块。 挤貼綬电麥结鈺贖哓类。4.4.5 问题管理问题管理流程的主要目标是预防问题和事故的再次

17、发生,并将未能解决的事件的影响降低到最小。问题管理流程包括诊断事件根本原因和确定问题解决方案所需要的活动,通过合适的控制过程,尤其是变更管理和发布管理,负责确保解决方案的实施。问题管理还将维护有关问题、应急方案和解决方案的信息。 赔荊紳谘侖驟辽輩袜錈。问题管理是针对已处理事件的遗留问题或处理事件的方案只是治标不治本的不能彻底解决问题而考虑的模块。根据事件、及处理方案,问题处理人经过调查、诊断并提出最终解决方法。 塤礙籟馐决穩賽釙冊庫。4.4.6 变更管理变更管理实现所有基础设施和应用系统的变更,变更管理应记录并对所有要求的变更进行分类,应评估变更请求的风险、影响和业务收益。其主要目标是以对服务

18、最小的干扰实现有益的变更。 裊樣祕廬廂颤谚鍘羋蔺。变更管理是要对重大资源的新增、变更、升级等运维活动进行审核的功能,以免这些活动对现有资源的可用性造成没有必要的影响和破坏;同时,他还要实现在工单中产生的变化进行后审计的功能。仓嫗盤紲嘱珑詁鍬齊驁。4.4.7 配置管理配置管理流程负责核实基础设施和应用系统中实施的变更以及配置项之间的关系是否已经被正确记录下来;确保配置管理数据库能够准确地反映现存配置项的实际版本状态。 绽萬璉轆娛閬蛏鬮绾瀧。配置管理实际上是全部资源的统一管理的功能,包括资源整个生命周期的参数或配置的变化记录的管理。管理信息主要涉及分类、型号、版本、位置,状态、相关资料等基本信息还

19、包括核心参数等 骁顾燁鶚巯瀆蕪領鲡赙。4.4.8 知识库管理运维知识经验的总结、维护和共享是提高员工运维技能水平、增强单位凝聚力的重要手段,也是把宝贵的经验教训从支持人员头脑逐步沉淀、固化的重要方式。 瑣钋濺暧惲锟缟馭篩凉。知识库管理:知识库是提供给运维人员重要的技术资料内容,他汇集在工作的遇到的典型案例归纳总结的知识要点和全面实用资料手册。在本系统中,知识库管理提供便于使用的人机接口、快速查询的技术手段和维护手段。 鎦诗涇艳损楼紲鯗餳類。4.4.9 统计及工作报告运维管理系统提供一线解决率统计、客户满意度统计、按分类的事件汇总统计、工作报告生成的功能,按照一定格式根据事件数据、工单数据、问题

20、数据、配置数据、变更数据可以帮助运维管理者能把运维的所做的工作内容清晰的罗列出来。 栉缏歐锄棗鈕种鵑瑶锬。5、运维服务内容5.1 运维服务目标实验室运维部门提供的运行维护服务包括,虚拟机、主机设备、操作系统、数据库、网络安全设备和存储设备的运行维护服务,保证云管理平台的正常运行,降低整体管理成本,提高 Iaas 平台的整体服务水平。同时根据日常维护的数据和记录,给研发部门提供Iaas 平台优化及改善建议。 辔烨棟剛殓攬瑤丽阄应。实验室运维的组成主要可分为两类:硬件设备和软件系统。硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为云管理平台、操作系统、典型应用软件(如:数据库软

21、件等)等。峴扬斕滾澗辐滠兴渙藺。服务工程范围覆盖的信息系统资源以下方面的关键状态及参数指标:运行状态、故障情况配置信息可用性情况及健康状况性能指标5.2 IT 资产统计服务服务内容包括:硬件设备型号、数量、版本等信息统计记录软件产品型号、版本和补丁等信息统计记录网络结构、网络路由、网络 IP 地址统计记录综合布线系统结构图的绘制其它附属设备的统计记录5.3 网络、安全系统运维服务从网络的连通性、网络的性能、网络的监控管理三个方面实现对网络系统的运维管理,网络设备位于 IT 架构的骨干位置,下面是需要监控的指标,及对应健康状况故障以后可能引起的问题。 詩叁撻訥烬忧毀厉鋨骜。设备基础性能检测: c

22、pu、内存使用情况监测。当 cpu、内存使用率过高,会导致用户网络访问质量下降,丢包、时延较高等状况的产生。说明当前网络设备负载较高,需要对下行设备进行迁移,分流,减轻负载。 则鯤愜韋瘓賈晖园栋泷。设备日志查看;当设备日志出现异常时,可能是设备出现异常访问或者异常配置,可能会导致网络中断。需要检测防火墙等安全设备状态。胀鏝彈奥秘孫戶孪钇賻。设备 snmp、telnet 状态;当 snmp、telnet 都不可达时,一般是设备脱网情况的产生,会导致网络中断。需要人工查看设备运行状态。 鳃躋峽祷紉诵帮废掃減。测试 Ping,tracert 等工具的连通性;当 ping 丢 包率过高 ,说 明网 络

23、访问 质量 有问 题,需 要tracert 查看网络路径是哪一跳对应的 IP 设备时延较高或者不可达。分析是哪个网关路由或者策略引起的问题。 稟虛嬪赈维哜妝扩踴粜。网络安全策略应用是否正常;安全策略异常会导致网络设备遭受入侵,会影响整个网络的访问。Internet 带宽流量的实时监测;流量所占带宽比较高,会造成当前网络设备对应端口网关的所有网络访问质量下降。需要抓包查看是哪些设备对应的访问流量较高,决定是加大带宽还是服务器中毒。 陽簍埡鲑罷規呜旧岿錟。网络拓扑链路状态监测;链路状态异常说明网络中某个设备异常,需要查看链路对应的网络设备健康状况,结合其他指标分析问题所在。异常网络数据包流量、 D

24、os、ddos 等网络攻击情况监测;存在异常网络数据流量包等,会导致正常的网络质量下降,说明网络可能受到攻击,需要结合 netflow 和流量状况查看异常流量的访问网段,从路由策略或者防火墙限制该网段的访问沩氣嘮戇苌鑿鑿槠谔應。光纤光口光功率、光电口误码率大小。光功率值不在光模块的默认光功率范围内,会导致光口不可用,可能是光模块出现故障,需要联系厂家查看光模块是否正常钡嵐縣緱虜荣产涛團蔺。5.4 主机、存储系统运维服务提供的主机、存储系统的运维服务包括:主机、存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。懨俠劑鈍触乐鹇烬觶騮。进行监控管理的内容包括:CPU性能

25、管理;GPU指标过高,会导致服务器程序运行缓慢,出现卡死状况。需要查看引起 GPU过高原因,做虚机迁移等操作,减轻服务器压力。 謾饱兗争詣繚鮐癞别瀘。内存使用情况管理;内存使用率过大,会导致服务器崩溃,需要及时扩充内存资源,或者回收不再使用的虚机资源。硬盘利用情况管理;硬盘使用率过高,会导致开始启动失败,需要定期清理服务器临时文件,或者扩充服务器硬盘。系统进程管理;服务器关键进程运行是否正常,异常会导致服务器崩溃,需要查看进程异常原因。实时监控主机电源、风扇的使用情况及主机机箱内部温度;电源状态异常,可能会导致服务器断电,风扇异常,主机稳定过高会导致服务器重启,需要与厂商联系,查看硬件是否正常

26、呙铉們欤谦鸪饺竞荡赚。监控主机硬盘运行状态;硬盘读写状态等标识硬盘可用性,需要查看是否硬盘压力过大,考虑更换存储类型 ssd 等监控主机网卡等硬件状态;主机网卡 down掉,会影响服务器的网络访问,硬件异常会影响服务器正常运行,需要联系厂商做硬件检测。监控主机 HA运行状况;灾备系统运行异常,会导致 HA 切换异常,需要查看引起 HA异常的原因,是软件问题还是硬件问题,逐步排除原因。 莹谐龌蕲賞组靄绉嚴减。5.5 数据库系统运维服务提供的数据库运行维护服务是包括主动数据库性能管理,数据库的主动性能管理对系统运维非常重要。通过主动式性能管理可了解数据库的日常运行状态,识别数据库的性能问题发生在什

27、么地方,有针对性地进行性能优化。同时,密切注意数据库系统的变化,主动地预防可能发生的问题。 麸肃鹏镟轿騍镣缚縟糶。进行监控管理的内容包括:数据库基本信息:文件系统、碎片、死锁、 CPU占用率较大或时间较长的 SQL语句。存在上面会导致业务访问缓慢,需要定位那些 SQL占用内存较大或者死锁,针对具体情况进行优化代码。表空间使用信息监测;表空间占用太大会影响查询效率,需要优化存储结构,将集中存储换为单表文件,索引根据实际业务进行优化,是否需要索引,或者索引删除重建,或者建立分区表。 納畴鳗吶鄖禎銣腻鰲锬。数据库文件 I/0 读写情况;数据库 I/0 反应数据库瓶颈,查看引起 I/O 较大的原因是业

28、务量较大还是服务器 I/O 现在,更换存储类型,必要情况下更换内存数据库等。 風撵鲔貓铁频钙蓟纠庙。Session 连接数量监控;Session 长链接数量较大会造成数据库负载较高,需要考虑将长链接更换为短连接。数据库监听运行状态监测;数据库运行状态为 down会导致业务中断,查看是业务层还是网络层引起的问题,如果为网络层,需要对网络情况排除,如果为业务层导致,要进行 SQL优化。灭嗳骇諗鋅猎輛觏馊藹。查看每日数据备份、数据同步是否正常;数据库备份异常,会导致备份数据丢失,对于数据库迁移,和数据恢复造成不可恢复的影响,需要具体查看引起该问题是数据库本身还是服务器问题,具体问题具体分析解决。 铹

29、鸝饷飾镡閌赀诨癱骝。对表和索引进行 Analyze, 检查表空间碎片;数据库表和索引的占用量太大会影响查询效率,需要调整表结构或者索引删除重建。数据库对象的空间扩展情况监测;表空间扩展太快会导致数据库服务器存储空间占满,数据库down掉等异常情况,需要优化表结构。5.6 云管理平台运维服务云管理平台主要包括管理节点、计算节点、存储节点的运维。同时,实时监控重点虚拟机,保证主要业务不中断。主要内容包括: 攙閿频嵘陣澇諗谴隴泸。Management Server 状态及性能监控( cpu、内存、磁盘、io 、mysql 数据库、系统及应用日志等); 趕輾雏纨颗锊讨跃满賺。虚拟化主机 agent 状

30、态监控;主存储及二级存储使用率监控;数据中心虚拟资源( cpu、内存、磁盘)使用量监控;单台计算节点 cpu、内存分配及实际使用量监控;单台存储节点硬盘分配及实际使用量监控;虚拟机模版、网络、方案策略制定;系统虚拟机、虚机路由状态监控;非计费用户闲置虚拟资源回收;用户资源审批、账户充值及余额管理;虚拟机外网网络及端口开通;计算节点主机及存储节点扩容;5.7 运维工具监控工具实验室选用开源运维工具 Zabbix ,Zabbix 是一个基于 WEB界面的提供分布式系统监控以及网络监控功能的企业级开源运维平台,也是目前国内互联网用户中使用最广的监控软件。 夹覡闾辁駁档驀迁锬減。Grafana-zabbix 展示效果入门容易、上手简单、功能强大并且开源免费是对 Zabbix 的最直观评价。 Zabbix 易于管理和配置,能生成比较漂亮的数据图,其自动发现功能大大减轻日常管理的工作量,丰富的数据采集方式和API接口可以让用户灵活进行数据采集,而分布式系统架构可以支持监控更多的设备。理论上,通过 Zabbix 提供

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1