关于IT运维监管控一体化建设问题.docx
《关于IT运维监管控一体化建设问题.docx》由会员分享,可在线阅读,更多相关《关于IT运维监管控一体化建设问题.docx(13页珍藏版)》请在冰豆网上搜索。
关于IT运维监管控一体化建设问题
关于IT运维监管控一体化建设问题
IT运维“监管控”一体化
--IT运维管理闭环体系
关键字:
IT运维,监管控,一体化,网络监控,流程管理,自动化运维,ITIL,CMDB,PDCA.
摘要:
阐述了IT运维目前现状,基于现状分析,论述了IT运维一体化趋势。
前瞻分析了一体化实现的框架,实现过程中的关键点以及需要控制的风险。
总结归纳IT运维未来一体化模型。
1.IT运维发展现状...........................................................................................................21.1IT网管监控............................................................................................................21.2IT运维流程管理....................................................................................................31.3自动化运维管理现状............................................................................................42.IT运维现状之不足.......................................................................................................43.IT运维“监管控”一体化实现前瞻...............................................................................53.1理解IT运维一体化...............................................................................................53.2模块之间接口实现................................................................................................7
3.2.1监与管之间的接口.........................................................................................7
3.2.2管与控之间的接口.........................................................................................73.3统一CMDB的实现................................................................................................83.4统一单点登录........................................................................................................83.5统一安全管理........................................................................................................8
4.IT“监管控”一体化风险.............................................................................................8
4.1实践风险...............................................................................................................84.2认知风险...............................................................................................................94.3整合风险...............................................................................................................95.总结............................................................................................................................10
1/11
1.IT运维发展现状
1.1IT网管监控
IT监控内容:
网络设备、链路、主机操作系统、数据库、存储、中间件、应用软件、业务服务、机房环境(温度、湿度)、机房门禁等。
通过IT网管监控,可以帮助运维部门和人员实现全天候自动检测,可以及时、快速发现故障,通过事件关联分析,并结合问题管理,实现快速定位故障根源、快速预防和恢复,从而提升IT运维响应能力,变被动式管理为主动式运维,使IT运维工作从事后“救火式”管理转变到事前预防型管理。
2/11
1.2IT运维流程管理
IT运维管理涉及的对象包括设备、技术和人员。
其中,人是IT运维生产力中最决定的因素。
如何有效实现设备、技术和人员的统一管理,如何实现人的组织和行为的科学化和规范化,需要IT运维流程管理。
IT运维工作本身具有工作量大、全面、繁琐和复杂的特点,通过有效的IT运维流程管理平台,既可以梳理工作流程,又可以理顺部门之间和人员之间的职责关系,达到标准、规范、统一和科学的运维,保证IT运维工作无论是整体和全局,还是细节和局部,都能有效推进,避免IT运维工作的无序和混乱。
IT运维流程管理通过建模,提高流程的可控性。
同时,IT运维流程管理提高IT运维管理和执行工作的透明度。
传统手工运维流程的不可控性和不透明性给流程定制、管理和优化带来相当大的困难,而IT运维管流程管理可以帮助IT运维部门一目了然地看到整个流程的全局和各运维工作节点的状况。
通过标准化的IT运维流程管理,可以不断提高IT运维工作质量,提升企业内外的IT服务满意度。
3/11
1.3自动化运维管理现状
在IT运维工作中,存在着大量和重复的劳动,如补丁安装、合规检查、配置收集、日常巡检等。
计算机的一个重要特点,就是可以帮助人类完成大量的、重复的劳动。
自动化运维,就是人类在IT运维工作中具体操作层面的计算机化。
通过自动化运维:
实现批量处理,高效、快速工作;
节省人力,降低人力成本;
将有限的IT运维人员解放出来,避免大部分时间和精力是处理简单的、大量
的、重复的问题和工作,而是更多时间和精力关注如何提高和保障IT运维;
技术知识和操作脚本共享,运维操作精确化、同质化、优质化、规范化、统一
化,避免运维工作中操作质量依赖于个体人员的知识、技术水平、工作责任心
和态度等不可控因素;
实现转变:
以前运维工作更多依赖于“运维英雄”和埋头苦干型员工,现在更
多依赖于运维集体的力量;
交由计算机操作,可以避免人工误操作导致的逻辑错误;
实现运维操作的固化、简约化、透明化、规范化、标准化,有利于事前审核和
和事后检查;
2.IT运维现状之不足
对于IT运维部门而言,IT运维工作涵盖了IT网管监控、IT运维流程管理和自动化操作三个方面。
但是,就目前现状,IT运维管理平台建设中,针对三个方面分别建设独立的平台。
统一的IT运维管理工作被人为地相互独立和隔离,成为孤岛。
这种现状,存在着以下不足之处:
不能实现单点登录:
监控、管理、控制本来三位一体,工作内容对于一个部门
和人员来说常常是统一的、相关的。
但是,同时存在三个独立平台,运维人员的工
作需要多次登录,操作繁琐,工作效率受限;
4/11
操作层面不统一:
三个平台往往是不同的厂商各自的产品,产品在操作界面、
风格和使用习惯上缺乏共性,运维人员被强迫适应这种差异化;
后台数据独立:
三个平台后台数据库各自独立,但逻辑上和本质上存在交集且
相互关联。
数据存储存在冗余,不能保持一致性,不能同步更新,不能有效共享;
数据流转和转换需要人工干预:
平台之间因为运维工作的内在关联,不可避免
存在数据流转和转换,但目前不得不由人工来干预和完成;
不能实现统一管理:
系统的相互独立性给一致、连续和统一的IT运维管理带
来一定的制约性,严重影响运维人员之间的协作和相互支持。
安全管理不统一:
不仅账户管理和角色管理不统一,三个平台各自有自己的安
全管理,缺乏统一性安全管理。
与ITIL最佳实践存在差距:
ITIL中针对企业环境IT运维中的不同问题,划
分为不同方面的管理。
这些不同方面的管理既各自独立,又相互包容和紧密关联。
三个平台的各自独立的状况,未能体现这种包容性和关联性。
从这点而言,这与
ITIL最佳实践的本质和宗旨相比,还存在很大差距。
正如人类其他的生产活动一样,IT运维工作也会经历并正走在自动化的道路上。
从上述不足而言,可以认为,IT运维工作处尚在“半自动化”的状态。
那么,如何来解决上述不足,如何来真正实现IT运维工作全自动化,
答案:
IT运维“监管控”一体化~
3.IT运维“监管控”一体化实现前瞻3.1理解IT运维一体化
针对IT运维,我们分三个方面,监视、管理和控制。
“监、管、控”三者紧密关联,逻辑上是一条龙过程,并形成闭合环路。
监控的结果作为依据来分析、决策和指导IT运维工作的进行;IT运维工作本身需要流程管理来进行规范和控制;自动化运维操作将运维工作中大量、重复的劳动来批量控制,自
5/11
动完成,节省人力成本,提高效率。
运维工作的质量和结果需要监控来进一步实现观察和确认,以判断是否符合工作预期,必要时,再次调整和提高。
可以说,监视是我们的眼睛,帮助我们透视和认清网络、主机、应用等整个IT环境,是我们的情报来源;流程管理是我们的大脑,帮助我们思考、制定决策和完成流程控制和管理,是我们的情报分析和决策中心;控制是我们的双手,完成自动化批量处理,是我们的实施力量和手段。
由此,我们说,“监、管、控”,这是有序的一条龙过程。
双手完成运维处理和控制动作之后,我们需要眼睛再次监视,来查看控制结果。
继而,需要大脑来审验:
是否符合预期,是否需要进一步调整和控制,如是,进而开始新的“监管控”流转过程。
由此,我们还可以说,“监、管、控”,这又是一个闭合的环路过程。
IT“监管控”一体化运维,就是真正实现上面的一条龙过程和达到闭合环路的目的。
在IT“监管控”一体化运维模式下,当监控管理模块发现故障并产生告警后,如满足相应的过滤和触发条件,通过接口会自动触发运维流程管理模块生成相应的工单,运维流程管理模块依据工单信息和运维人员预先设置好的关联条件,自动寻找、识别和匹配自动化运维模块中的操作脚本,实现自动和快速的故障操作处理,由此实现从发现故障到解决故障的IT运维全自动化,并自动完成运维操作日志记录,以备事后查询和审计。
IT运维自动化不是IT运维工作中简单的维护过程的改变,而是IT运维管理工作的根本变革,是IT运维管理的发展趋势。
6/11
在IT“监管控”一体化的运维平台中,原来的网管监控、运维流程管理和自动化运维操作平台转化为对应的“监、管、控”三个模块。
3.2模块之间接口实现
3.2.1监与管之间的接口
网管监控模块与流程管理模块之间的接口,主要体现为某些满足预定条件的告警自动触发生成电子工单,进入流程管理模块。
因此,如何实现监与管两个模块之间的接口、数据的转换和正确、准确和全面地确定触发条件,是设置此接口的关键之处。
如果未能正确设置触发条件,则会导致错误工单的产生,如工单类别错误。
如果未能准确设置触发条件,则会导致工单内容的不准确,如责任人或责任部门的错误。
如果未能全面设置触发条件,则会导致漏派发工单。
工单中的信息与告警中包含的信息既有交集,又有转换和有所区别。
工单的故障信息内容和描述来源于告警信息,但是告警信息应用于网管监控层面,是为了全面准确反映监控结果,描述故障现象。
工单信息是应用于流程管理平台,是为了描述故障、界定责任范围、规范工单流转、跟踪工单等目的。
3.2.2管与控之间的接口
IT流程管理的最终目的和效果反映在对运维操作的指导上,而对于批量的、重复的运维工作,可以高效、优质和规范化地通过自动化运维操作来实现。
借助于IT“监管控”一体化运维平台,其中的流程管理和自动化运维操作模块之间的接口,运维部门和人员可以预先设置过滤和触发条件,根据工单信息,关联个别的自动化运维操作脚本。
因此,,如何实现监与管两个模块之间的接口、数据的转换和正确、准确和全面地确定触发条件,是设置此接口的关键之处。
如果未能正确设置触发条件,则会启动不必要的自动化运维操作,造成严重后果。
7/11
如果未能准确设置触发条件,则会导致非预期的自动化运维操作。
如果未能全面设置触发条件,则会导致遗漏预期的自动化运维操作。
3.3统一CMDB的实现
在当前的IT运维中,IT网管监控、IT运维流程管理、自动化运维操作平台相互独立,后台数据库各自隔离,存在着数据冗余甚至不一致,更新不同步,不能有效共享等问题。
建立统一的IT监管控一体化平台,必然需要建立统一的、整合的、同时面向“监管控”三方面的CMDB。
如何选择有效的、适合的CMDB产品,以及梳理整合企业IT环境中的配置信息项,建立面向IT运维整体工作的CMDB,是底层意义上的根本基础。
3.4统一单点登录
IT运维“监管控”一体化,需要建立统一的登录入口,统一集成LDAP,实现单点登录,避免重复登录,并且统一权限管理和角色管理。
3.5统一安全管理
目前,三个平台的安全管理各自独立。
实现IT“监管控”一体化的运维平台,三个平台的安全管理将纳入到统一的安全管理体系中。
4.IT“监管控”一体化风险
4.1实践风险
就目前而言,IT一体化仅仅体现在趋势和探讨上。
但是诸多的细节问题和技术问题,尚未有认识一致的方案,更未有这样的案例。
因此,缺乏实践的经历和可参考、可借鉴的案例。
8/11
4.2认知风险
以前的IT项目或系统的建设过程和经验是分批进行、分步进行,从无到有,从小到大,摸着石头过河,这符合我们对IT系统和运维的认识从模糊到清晰,从不知到知之,从知之甚少到知之渐多的过程。
应该说,这样的过程帮助我们控制了IT建设中的风险,帮助我们逐步摸索经验,达到了少走弯路的目的,同样也控制了资金投入风险。
对于建设IT运维一体化,恰恰相反,不适合逐步探索、逐步调整、摸着石头过河搞建设的想法。
因为:
IT运维一体化,是一个关乎全局和整体的建设,必须高屋建瓴、从项目之始就要做好和完善整体和细节的规划,在建设中按部就班地进行。
任何局部和细节的错误、不完善或调整都有可能影响全局和整体的建设。
IT“监管控”运维一体化是一个一条龙过程,是一个闭合的环路。
同时,IT“监管控”运维一体化也是一个串式过程,任何一个中间环节的错误或不完善,都会导致最终结果的偏差或严重错误。
4.3整合风险
我们目前已经拥有了网管监控平台、流程管理平台和自动化运维平台。
推倒目前的IT运维平台,开始全新的IT“监管控”一体化运维平台建设,从资金和时间上而言,是不现实的,也是不必要的。
我们需要做的是:
对现有平台的产品和技术,进行改造,进行补充,最终实现有机的、统一的整合。
由此,面临着如下风险:
不同的平台分别由不同的厂商建设、实施、甚至负责维护,不同的平台的整合不可
避免涉及到厂商之间配合,其间的责任界面划分、技术协调、管理协调都是需要考
虑的风险,同时也包括甲方的协调与管理;
不同的平台往往涉及不同的技术,技术上如何实现衔接,实现整合,需要慎重考虑
和论证;
不同的平台往往是不同的软件产品,不同软件产品之间如何接口和如何实现,需要
9/11
探讨和测试;
目前不同的平台各有自己的后台数据库,如何利用原有的数据库信息,重新建设统
一的、核心的、同时满足“监、管、控”三方的CMDB,是一个底层的根本基础;,不同的产品属于不同厂商,产品的整合必然涉及到产品的深层次,各原厂商的核心
技术知识保护和技术壁垒同样是考虑的风险;
系统架构的复杂性大大增加,如何统一规划系统架构,更是全局和宏观的问题。
5.总结
企业的生产活动对IT环境的依赖性越来越强,IT环境规模不断扩大,架构异构度和复
杂度不断增加,这些无疑对IT运维工作提出了更大的挑战。
尽管存在这样或那样的风险和
难度,但是IT“监管控”运维一体化仍然是不可逃避的趋势。
有了IT“监管控”运维一体化的综合运维平台,可以有效实现:
单点登录;
统一安全管理;
统一资源管理,整合一致的CMDB;
统一用户管理和角色管理;
统一展现模式;
通过模块之间的接口,借助于合理配置的正确和准确的触发条件,基于统一的CMDB
核心,数据流转可以在模块之间自由完成ETL(抽取、转换和载入),真正实现IT
运维工作一条龙的自动化;
在一体化平台内部,以前相互隔离的监控、流程、自动化运维平台演变为一体化平
台内部的模块,既相互独立,又密切关联,相互衔接,业务逻辑上形成闭合环路,
代表了IT运维工作的发展趋势;
10/11
同时,借助于IT“监管控”运维一体化,可以完善我们IT运维工作中的PDCA(Plan-Do-Check-Action)管理循环,达到良性的PDCA循环式阶梯上升过程。
我们在IT流程管理模块中根据监视结果完成情报分析,提出计划和具体步骤(完成PDCA中的Plan阶段),在自动化操作模块中完成执行动作(完成PDCA中的Do阶段),在进一步的监视结果中,检查确认Do的效果(完成PDCA中的Check阶段),然后依据最新的监视结果进行调整(完成PDCA中的Adjust阶段),即制定新的计划(Plan),从而开始进入下一个PDCA循环。
由此,达到运维质量的不断改进和提高(Improve)。
11/11