自动化运维管理解决实施方案白皮书模板Word文档下载推荐.docx

上传人:b****3 文档编号:18055598 上传时间:2022-12-13 格式:DOCX 页数:14 大小:23.28KB
下载 相关 举报
自动化运维管理解决实施方案白皮书模板Word文档下载推荐.docx_第1页
第1页 / 共14页
自动化运维管理解决实施方案白皮书模板Word文档下载推荐.docx_第2页
第2页 / 共14页
自动化运维管理解决实施方案白皮书模板Word文档下载推荐.docx_第3页
第3页 / 共14页
自动化运维管理解决实施方案白皮书模板Word文档下载推荐.docx_第4页
第4页 / 共14页
自动化运维管理解决实施方案白皮书模板Word文档下载推荐.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

自动化运维管理解决实施方案白皮书模板Word文档下载推荐.docx

《自动化运维管理解决实施方案白皮书模板Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《自动化运维管理解决实施方案白皮书模板Word文档下载推荐.docx(14页珍藏版)》请在冰豆网上搜索。

自动化运维管理解决实施方案白皮书模板Word文档下载推荐.docx

....................................................................................17

5产品优势 

..................................................................................................................19

6运行环境 

..................................................................................................................20

IT 

运维管理面临挑战

随着企业 

服务多样化发展,IT 

应用的规模也越来越庞大、IT 

应用的结构也

越来越复杂。

随着不断变化的 

应用,需要越来越合理的模式,来保障 

服务能

灵活便捷、安全稳定地持续保障,这种模式的保障因素就是 

运维管理。

据国外某咨询机构 

2013 

年调研结果显示,在 

费用中大约有 

1/2 

用于系统

运营期的运维管理工作。

IT运营费用比例

新系统开发

维护开发

运维管理

即使当前企业在 

运维管理方面投入大量时间及费用,但是在 

运维管理方

面仍存在诸多问题。

主要表现为:

Ø

运维管理效率低、人工成本高:

⏹ 

经验未沉淀为实际运维工作,经验利用率、推广率低;

分散于各服务器上的运维脚本,存在管理风险,且耗费大量管理成本;

日常操作消耗大量人力资源,误操作风险较大,操作执行效率低;

操作过程可控度低,运维风险大:

操作与执行方案匹配度无法保证,实际操作过程可控度较低;

日常操作对人员水平要求高,人力资源风险大;

运维操作透明度低:

实际操作不便于监督,存在“黑盒”操作风险;

日常工作与实际操作无法有效关联,不利于日后审计;

应运而生的自动化解决方案

面对 

运维管理中的诸多问题,单靠人工已经无法满足在技术、业务等方面

的要求,那么标准化、自动化、架构优化、过程优化等降低 

服务成本的因素越

来越被人们所重视。

其中,IT 

运维自动化是指将 

运维中日常的、大量的重复性

工作自动化,把过去的手工执行转为自动化操作。

自动化是 

运维工作的升华,

运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是 

运维的最

高层次,也是未来的发展趋势。

运维自动化从诞生发展至今,其重要属性之一已经不仅仅只是代替人工操

作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务

最优化,同时保障投资收益最大化。

自动化对 

运维的影响,已经不仅仅是人与

设备之间的关系,已经发展到了面向客户服务驱动 

运维决策的层面。

融海咨询借鉴 

运维自动化发展趋势,结合多年 

服务经验中对用户需求

的把控,自行研发自动化解决方案。

自动化方案概述:

通过自动化手段,实现 

运维管理操作的自动化调度、“一键式”处理;

过异常处理的支持,对操作的结果进行验证,并持续监控作业执行结果;

通过时间

约束条件,对按照时间计划执行的运维作业进行管理;

通过复杂的关系运算条件,

处理复杂的作业流程的关系;

通过 

UserTasks 

人工接口,方便运维人员对作业调度

流程的参与;

通过图形化的工作流定制平台,实现对业务活动进行整体规划;

通过

与其它平台的集成,实现了与报警、监控等运维系统的一体化管理。

从而实现功能

强大、简单易用、安全可靠的作业调度自动化。

通过自动化解决方案,推动了企业 

运维管理操作的指令化、标准化、流程

化进程。

自动化建设目标:

自动化应用场景

3.1 

灾备切换自动化

随着 

设备数量持续增加,IT 

系统日益复杂,依靠手动方式进行系统灾备切

换的传统模式遇到了一定瓶颈,主要表现:

操作效率低:

RTO 

(Recovery 

Time 

Objective,复原时间目标)无法保证;

操作风险大:

系统复杂度日益增高,操作复杂度也随之增强,操作失误的

几率也随之增高;

过分依赖个人水平:

在尽短的时间内完成整个切换流程,对操作员本人的

技能水平、操作规程熟悉程度、环境熟悉程度有着非常高的要求。

操作过程不透明:

灾备切换有相应的操作规程,但是切换过程中,每个环

节执行状态、当前执行环节情况只有操作员本人了解,旁人无从知晓。

通过对灾备切换流程进行标准化配置,实现灾备切换管理的配置可视化、执行

可视化、过程可视化、规程可视化。

配置可视化:

提供类似 

Visio 

配置方式,每个操作环节配置成为一个节点,

然后通过拖拽、连线的方式配置整个切换流程,避免了代码编写工作,降

低了系统使用门槛,增加了系统易用性;

执行可视化:

提供图形界面方式,灾备切换流程无需通过繁琐命令行方式

执行,管理员仅需在图形界面中选择相应流程并点击执行即可,执行前还

可以在界面进行多人确认;

过程可视化:

提供操作流程视图,所有人员在流程图中可以清晰了解灾备

切换整体流程情况、当前执行环节,以及每个节点执行状态,为保证不同

使用习惯,执行过程提供流程视图、树状视图两种展现形态;

规程可视化:

提供自动生成操作规程文档功能,管理员配置完某自动化流

程时,系统能够自动生成该流程的操作规程文档,系统使用人员可以根据

文档清晰了解到本自动化流程完整信息。

3.2 

故障现场快照

传统 

监控系统在故障发生时能及时告警,但是运维人员、厂商、开发商仅

仅获得一条告警信息,无法从监控平台获取更多的信息完成故障分析及预防。

通过监控/监控集成、作业调度双重技术手段,在故障发生时,对故障现场的

本机环境、跨服务器/跨设备环境进行全方位捕捉,对故障现场进行最大程度的保

留,协助管理员、厂商、开发商进行事故后的详细分析,并设定相应预案。

通过故障现场快照,可以完成:

1、故障现场全方位场景获取,获取内容可以根据不同角色需求灵活定制;

2、故障发生时系统自行完成场景捕获、保存,并将其分发给不同的角色进行

联合“会诊”;

3、根据预案内,通过定制化纳入到中,实现故障发生前的预警,并且提供及

时处理,避免故障再次发生。

3.3 

批量设备操作处理

规模不断扩大,IT 

设备数量不断增多,原有简单的运维操作,也随之

成倍增长,即增加了运维工作量,又使重复性操作过程中,由于人员注意力降低导

致的操作失误次数成倍增长。

例如:

对设备批量程序更新、批量巡检等、批量密码修改等大批量、重复性操

作。

提供批量作业并行处理平台,实现多设备同时批处理操作。

通过自动化流程把,

将简单的操作在大批量设备上操作,并对作业执行过程进行监控对执行结果进行检

查。

通过部署批量设备操作流程:

1、批量设备并发执行,缩短批量操作执行时间,提高执行效率,并且提高系

统升级一致性;

2、减少批量操作过程中,由于实施过程中因操作人员操作疲劳、注意力降低

导致的误操作,从而减少人工失误导致的生产系统故障;

3、提高 

运维自动化水平,减少人工投入,降低运营成本;

3.4 

周期性作业调度

应用系统不断上线,运维中周期性、重复性操作逐渐增多。

此类操作

即占用了运维人员大量日常工作时间,又存在人工误操作的风险。

并且对于复杂作

业流程,还需要运维人员有较高的技术水平及较高的系统熟练度,由此增加了因人

员、岗位变动导致的而操作意外发生几率。

可以对每日巡检、日终批量操作、事务数据收集、月结批处理、年结批

处理等作业执行的自动化。

提供统一应用运行操控平台,实现跨平台、跨作业段、跨设备的作业协同调度

操作。

平台将周期性、重复性批处理作业,以及庞大复杂的作业流程,固化为自动

化作业流程,通过时间调度引擎,按照既定时间规则,在指定时间点进行调度。

而实现作业的周期性自动化调度,运维人员仅需查看相应的作业执行过程、执行成

功与否、执行结果报告(截图、操作命令输出结果等操作结果信息)。

通过自动化

流程把成百上千的批处理作业组织起来,规范跑批作业,对作业执行过程进行监控

对执行结果进行检查。

通过周期性作业调度自动化:

1、降低了关键岗位的技能要求:

过去,必须由全面掌握各业务系统的运维专

家完成各类批处理作业的操作和判断;

现在,普通运维人员即可使用自动化工具完

成。

2、消除故障隐患、保证作业效率:

一方面,对关键数据的完整性、合规性进

行校验;

另一方面,在发生异常时快速定位故障数据源,以便排查。

3、降低日常运维工作中人员的时间投入、精力投入,从而将运维人员解放出

来,投入到更重要的 

运维工作中。

3.5 

应急处理流程

系统发生严重故障发生时,时间就是金钱。

一方面,如何缩短管理员接收

通知到故障处理时间;

另一方面,如何缩短故障处理过程花费的时间,并提高故障

处理成功率,显得极其重要。

文件系统满,导致新的日志无法写入;

数据库归档日志空间满;

数据库

表空间满,数据无法写入;

生产系统故障,需要紧急切换备份系统等。

自动化处理与监控告警集成,第一时间发现,调用预定义的故障应急处理流程;

故障处理后,系统会调用检查流程,对故障恢复情况进行检查。

全部操作完毕后,

系统会将故障发生现场镜像、故障处理结果、处理完毕检查确认结果,一并发送给

管理员,由管理员确认整个流程执行无误。

通过应急处理流程:

1、极大缩短了从故障发生到故障响应的间隔,为系统恢复赢得了宝贵的时间,

从而极大的减少了系统故障所产生的影响;

2、管理员在应急故障处理过程中肩负着极大的压力,精神高度紧张,可能会

产生处理流程顺序颠倒或者忘记某一环节等现象,并且存在压力下导致操作失误的

可能,由自动化平台应急处理,一方面提高了故障处理过程中的操作效率,一方面

提高了故障处理的成功率。

3、系统自动将故障发生的现场镜像、故障处理过程、结果以及故障恢复后的

检查结果,以报告形式保存下来,为今后审查、统计提供了依据。

3.6 

重要配置备份、基线比对

系统中配置文件非常重要,因为误操作导致配置文件被删除、内容被修改,

经常会导致非常严重的后果。

日常运维工作中,管理员需要花费大量的时间,对系

统中包括操作系统、数据库、中间件、应用系统及其他软件的重要配置文件进行周

期性备份,并且配置文件被误修改、恶意篡改时,不容易被发现,只有当产生严重

后果才会被人们注意。

重要文件例如:

Oracle 

的 

initSID.ora, 

listener.ora 

文件, 

sqlnet.ora 

件,tnsnames.ora 

文件,操作系统/etc/passwd 

文件,以及 

Weblogic、应用系统

等配置文件。

通过基线保护模块,帮助企业建立信息系统的安全基线,并持续监控关键文

件和系统的完整性和一致性。

平台定期对企业中各层面、各级别配置文件进行周期

性备份,并以此建立文件基线。

平台会定期对系统中配置文件修改日期、大小、内

容等进行扫描,并将扫描结果与基线版本进行比对,当发现两者不一致时,及时通

知管理员进行审查,并在极端情况以基线版本为准则,对现有环境进行备份、更新。

通过文件基线管理功能:

1、系统自动对重要配置进行备份,极大减轻了管理员日常工作压力,并且减

少了备份过程中的遗漏情况发生;

2、系统通过自动扫描、对比,发现配置异常,改变原来配置文件修改不易发

现的缺点;

3、系统自动恢复被篡改的配置文件,从而完全避免了因配置文件修改导致的

重大故障;

4、保证两地三中心主备系统的配置信息一致性。

产品简介

4.1 

运维脚本集中管理

日常运维工作中,管理员积累了丰富的运维知识,并将部分整理为运维脚本,

方便日常运维管理工作。

提供运维脚本集中管理功能,将日常大量零散的运维脚本集中管理、统一下

发。

既实现了日常运维脚本的集中存储、统一版本控制,也实现了自动下发、批量

下发、批量更新。

同时特有版本管理功能,可以清晰统计各 

Agent 

端运行的脚本版

本情况。

4.2 

可视化流程配置引擎

各种运维操作,都有其一定的业务逻辑关系。

流程定制化,就是将这些看似

零散又有着复杂的逻辑关系的应用操作以一种常态化固定下来。

灾备系统启

停操作、数据库启停操作,都是由多个操作步骤、操作指令按照先后顺序执行完成。

自动化运维管理平台先将这些零散操作节点化,然后将这些代表每个操作单元的节

点以一定的业务逻辑关系定制成可执行流程,甚至流程里面也可嵌套子流程或者引

用已有流程的以满足各种庞大的业务逻辑需要。

提供了类似 

可视化配置界面,通过鼠标点击和拖拽方式,轻松完成各

类复杂流程制定工作。

4.3 

作业流程人工干预

日常运维工作,对于复杂操作流程,需要部分人工干预工作。

灾备切

换演练过程中,柜台签退确认、演练参与人员签到;

重要作业任务执行前,多人复

核确认;

核心系统自动化任务执行前,人工录入鉴权信息等。

在作业流程执行过程中,提供图形化人工干预界面。

以便管理员在流程执行

过程中,进行执行复核确认和重点信息人工录入工作,提升作业流程执行安全性。

4.4 

作业执行验证/持续监控

日常运维作业执行完毕,需要确认作业执行效果。

且部分行业监管机构要求,

系统投产变更后,需对系统进行 

3~5 

天持续监测,确保系统变更后稳定运行。

提供检查/监控作业功能,在自动化作业执行完毕后,对作业执行效果进行检

查、验证。

并在一定时间内对系统运行状况进行持续监控,保障业务连续性。

4.5 

作业操作手册自动生成

提供操作手册自动生成功能。

针对每个自动化操作流程,自动生成操作手册。

记录每个操作流程的操作指令、操作服务器、操作账号、操作说明、操作流程。

障运维操作内容清晰化、透明化,同时保障自动化操作内容与日常运维操作手册同

步化。

4.6 

作业执行结果展现

为系统管理员、运维操作人员、管理者等不同角色提供不同角度的运维视图。

4.7 

配置备份/基线库管理

基线保护模块(简称文件基线保护软件)帮助企业建立信息系统的安全基

线,并持续监控关键文件和系统的完整性和一致性。

基线检查−为文件系统建立基线数据库,并持续监控文件系统的变更。

数据备份−为文件系统建立完整备份。

实时告警−创建基线和备份文件系统时通知、文件系统被篡改和恢复时告

警。

变更恢复−及时恢复被篡改的文件系统。

产品优势

集中式作业管理,分布式拓展架构。

支持 

Windows、Linux、Unix 

等主流操作系统;

自动化作业脚本统一管理,版本发布可视化管理;

自动化作业流程配置、执行、操作手册全程可视化管理,提升日常 

运维

管理透明度;

自动化作业流程人工干预,贴合实际 

运维管理流程,提升作业安全性;

操作结果持久保存,便于日后审计;

多角度视图展现,满足不同 

运维管理角色需求;

关键配置信息合规检查,配置文件定期备份;

运行环境

服务器端:

硬件要求:

4CPU,8G 

以上内存,200G 

以上磁盘空间

部署环境要求:

RedHat 

Linux 

以上或Suse 

11 

以上,

被管理端(Agent 

模式):

系统要求:

等主流操作系统。

环境要求:

Perl 

环境。

被管理端(Agentless 

shell/telnet 

连接权限。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 工学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1