IT服务管理解决方案.docx
《IT服务管理解决方案.docx》由会员分享,可在线阅读,更多相关《IT服务管理解决方案.docx(27页珍藏版)》请在冰豆网上搜索。
IT服务管理解决方案
数据中心
IT运维服务解决方案
陕西XXXX科技有限公司
1.项目概述
当前社会进入了信息时代,信息技术成为了支撑和帮助各个企事业单位业务发展的重要力量,各个企事业单位为此建立了覆盖整个机构的庞大网络,并在网络环境中部署了大量的业务应用系统。
其业务的开展也越来越依赖于此通畅、稳定的网络环境和高效、可靠的业务应用系统。
可以说,网络及其应用系统已经成为当今社会各个单位生存和发展的基础。
因此,对网络和应用系统进行综合监控和管理,保障信息系统的通畅、稳定运行,保证信息服务的质量,已经成为信息系统管理人员极为重要的任务。
用户为建立网络投入了大量的资金、人力和物力,目的是让这个网络能稳定高效的运行,以保证我们的业务能正常运行。
如果网络频繁发生故障,或是发生故障后无法以最快的速度对问题进行定位,无法快速的解决问题、处理故障,不但业务的运行要受到阻碍,甚至停滞;而且当初建立网络投入的大量资源也得不到保障。
如何对网络、系统和应用、安全进行统一监控,在用户申告前发现和排除故障,保障信息化的有序进行,提升运行服务水平,是IT管理人员迫切需要解决的问题。
旭航电子公司是一家专业提供IT综合管理解决方案的软件厂商,为了帮助用户解决以上问题,结合公司多年来积累的客户经验和专业技术,提出了数据中心IT运维服务解决方案。
旭航电子公司为管理IT网络,提供业界领先的开放式、可伸缩、跨平台的解决方案,可对政府、教育、金融、证券、能源等行业用户的系统、网络、应用以及业务流程进行全面管理。
并为网络或电信设备供应商、服务提供商和管理服务提供商(MSP)提供高度可伸缩的、运营级的、用于预配和管理网络基础架构的管理应用软件。
需求分析
信息管理部门在日常的管理工作中仍存在着一些长期没有解决好的问题。
主要表现在:
缺乏统一的IT运维服务平台
网络系统日常运行管理条块分割,网络、应用、安全、终端、网络基础环境等基本上是各管一摊,缺乏一个统一的、主动的集中运行监控平台,既浪费了人力资源,也难以做到快速发现故障。
缺乏对设备的有效监控
目前没有有效的工具对设备进行监控,当网络出现故障,无法提供报警、致使不能够迅速定位到故障点,往往是绕了很大的圈子,只能解决表面问题,往往是“头痛医头、脚痛医脚”。
缺乏对网络和业务系统的运行状态进行可知化
目前无法对网络和业务系统的运行做到可知化,无法对网络和业务的运行做到预警。
缺乏对运行维护工作的规范性管理和知识的共享。
目前缺乏网络运维管理的流程保障,维护人员忙于“救火”,缺乏主动服务缺乏对故障响应和处理比较混乱,维护人员满意度低,网络运维的知识难以转化为企业的知识重复使用。
缺乏量化运行质量的工具,无法对运维人员进行有效考核。
缺乏一套能与实际工作相结合的运行质量考核工具,很难有效地统计有关数据有关决策缺乏依据和支持。
无法对运维人员及下级单位的考核做到实时和量化。
缺乏对日常运行维护工作的管理工具。
目前的系统管理工具已无法满足日常管理的需要,无法很好的维护网络系统、业务系统、终端系统,进而无法有效的管理整个网络系统。
建设目标
通过部署旭航电子公司提供的数据中心IT运维服务解决方案,帮助用户实现以下目标:
Ø建立统一高效的IT服务管理平台,由无序服务向有序服务转变;
Ø建立规范标准的IT服务管理流程,由职能管理向流程管理转变;
Ø应用先进、实用、高效的IT服务管理工具,由被动管理向主动管理转变;
Ø建立科学合理的绩效考核指标,由粗放管理向精细管理转变。
基础运维
●全面管理系统资源
提供对网络、主机、操作系统、存储设备、数据库、中间件及应用软件等网络资源的全面管理;实现所有网络资产(所有的网络设备、服务器、视频、监控、存储、终端等)的动态管理,可以从每个资产的全生命周期角度进行考虑,可以现实与设备的维护、安全相结合,
实现对网络设备的集中管理,可以自动生成网络拓扑,监控网络设备及其配置,网络预警管理,网络性能监控管理报警;
实现对服务器的管理,支持目前所有的操作系统,例如Windows/Linux/Unix等。
现实对服务器的健康状态进行实时跟踪,性能监控、配置变更进行动态记录,同时也要管理服务器的关联配置;
实现数据库、中间件、应用系统的综合管理,其基本信息、运行状况的监控,例如性能管理、资源占用等。
提供对生产环境的计算机与网络设备与办公环境设备根据用途制定不同实施策略。
通过纵向资源的配置与拓扑管理,可以生成详细的资产统计报告,以便准确掌握资产情况;能使用多种方式表现系统拓扑视图。
●性能管理与优化
面对网络、系统、数据库、中间件等性能进行监控,建立性能处理的基线。
定期提供性能报表和趋势表,可以根据趋势分析,提出性能优化的建议。
●故障管理
提供一个集中管理故障和事件的中心,能够收集各种管理功能产生的故障事件(例如:
网络事件、主机事件、安全事件等)。
完成故障事件收集、过滤、关联和处理等工作。
以实现对故障的快速处理。
管理决策
网络运维管理为决策层提供网络投资及管理方面的相关数据支持,对公司内网、互联网范围内实现网络预算、网络系统管理,通过软件能够完整了解自己全网的资源信息,及网络与业务的运行情况,为系统优化的数据支撑。
通过历史数据对网络状况和设备运行状况进行分析,及时发现和解决潜在问题,规避风险,优化网络,最终使用户的核心网络处于良好的运行状态。
●综合报表
对系统运行状况信息进行汇总,并以图表的方式为管理人员提供直观的分析结果,帮助领导更全面的了解网络、主机、数据库、应用系统的运行状况和运行趋势,为领导决策提供支持信息。
●绩效评估
通过运维平台的工单处理数据,领导可以对系统维护人员的工作绩效有一个直观的了解。
从而通过预定的关键绩效指标对工作人员进行绩效评估。
流程化服务
网络运维系统提供符合ITIL运维管理理念的流程化管理,运维服务管理基于人与流程的结合,提供方便,灵活工作流程的管理功能,使工作人员维护管理工作的自动化和信息化,其中包括网络ITIL服务台、事件问题、变更、配置等以及值班管理等根据客户量身定制的业务管理功能;故障处理过程实现动态监控,建立企业运维知识库,所有处理事件和问题、排查日常工作中遇到问题均记录到知识库中,该知识库为企业的运行维护及服务台、二线和三线支持人员提供有效参考信息。
支持网络资产的精细化管理。
可以建立统一的网络基础设施台帐,支持对现有环境网络资产软、硬件系统相关信息的存储、管理和维护,为事件管理、问题管理等提供查询、诊断、记录的基础。
支持多种格式的维护资产文档(Word,Excel,Txt等)的组织和管理,提供对被管理资产的保修和技术支持服务的管理,包括提供资产供应商和保修单位通讯名录的管理。
2.设计原则
基于数据中心的软、硬件环境,在IT运维管理系统上的设计要遵循以下几个主要原则:
管理范围要全面
由于项目中涉及的设备种类众多,故我们的IT管理的范围要广泛,将数据中心涉及的设备类型全面包括,确保没有管理盲点,以实现真正意义上的全面的网络管理。
管理的细节要深入
我们的原则是对IT系统进行全面深入的管理,而不是只停留在系统层面,故我们的管理细节应该更加深入,保证管理的有效性及其实际意义。
确保技术上的先进性
选择的产品及技术要确保其具有先进行性,选择专业厂商的专业产品则是确保先进性的重要手段。
系统要具有优秀的稳定性
为了保证能24小时不间断的进行管理,所涉及的管理系统具有优秀的稳定性。
首先确保管理系统的正常运行,才能实现对网络的有效管理。
故我们要求方案中涉及的产品要具有优秀的平台、优良的系统支持能力、完善的备份及升级技术等特点,以确保其本身的稳定性。
系统具有优秀的操作性
管理系统运行在后台,管理人员通过管理控制台与系统进行交互。
需要操作简易、功能强大的控制界面,以使管理人员可以轻易的学习并使用该系统,并且能轻易的获得需要的信息。
如果管理系统的操作非常复杂并很难被操作人员掌握,则会极大的影响管理的效率,管理人员可能会花大量时间在管理系统上,而非真正应该注重的具体问题及故障处理上。
3.系统架构
华夏新桥ITSM系统体系架构模型充分考虑到数据中心的实际管理需求,从用户的角度出发来梳理优化的技术架构,系统在保持技术的先进性、扩展性的基础上,对系统的实用性、合理性进行改进,通过合理的分层和角色来降低系统的使用难度,便于项目的实施和应用,贴近用户的管理特色。
整合以往对网络、服务器与业务应用、安全设备等的分割管理,实现了对网络系统的集中、统一、全面的监控与管理,提升了信息部门的管理效率和服务水平。
系统在保持技术的先进性、扩展性的基础上,采用层次化、模块化的设计理念,提供和主流管理厂商产品的对接,通过开放的接口来持续集成,同时解决方案对系统的实用性、合理性进行完善,通过合理的层次和角色来降低系统的使用难度,提高运维的效率。
系统架构图
数据中心机房:
监控内容:
动力系统:
供配电、照明、开关、电源防雷器、UPS 、 发电机 …
环境系统:
精密空调、新风机、漏水、温度、湿度、有害气体 …
消防系统:
消防控制器、烟雾探测器、温感探测器 …
保安系统:
门禁、闭路视频、防盗报警 …
网络系统:
主机、服务器、路由器、交换机 …
系统组成
网络管理
由于数据中心涉及了大量的网络设备,这些网络设备是网络运行的基础,所有上层的应用及信息系统的流转均依赖于这些基础设备提供的有优良的网络运行环境。
通过NetworkManager,可对如此多的网络设备进行集中式、统一化的管理,确保我们的网络管理人员能随时获悉各个设备及链接的状态,随时保持对故障的跟踪,以确保网络能健康、高效的运行。
应用服务管理
数据中心应用了众多的先进的服务器系统及应用服务系统,各种信息化工作均由这些服务器及应用作为平台来进行,可以说应用服务系统直接影响着日常的各种工作和生活。
通过BusinessManager,可对这些应用服务系统进行统一的综合性管理,保障服务器系统的正常运行及各项应用服务的稳定,确保信息化运行的快速及稳定。
3.1.1网络流量分析
基于网络的应用每时每刻都产生着大量的流量,同时内部员工也通过网络获得各种信息,而网络带宽是重要并稀缺的资源。
通过TrafficManager,可对网络流量进行详细的分析,获得带宽占用的实际比率,明确是何种应用或主机占用了带宽,主要业务系统能否得到足够的带宽支持,最终为管理人员合理的分配及管理带宽资源提供帮助。
系统日志分析
系统日志记录着各种系统产生的事件及问题,大量的系统日志是管理人员追踪设备运行情况的重要信息来源。
通过EventLogManager,可对众多的设备或系统发出的日志进行有效汇总和分析,及时发现各系统出现的问题,加以区分并及时处理,最终为保障各系统的稳定提供帮助。
存储设备管理
存储设备起着极其重要的信息数据仓库的作用,各种应用系统的后台数据均保存在这些存储设备上,当其发生故障时,毫无疑问的将影响整个信息化的实现及执行。
通过StorageManager,可对这些存储设备进行统一的管理、整体的监控,以确保其不间断的、高效率的为各种应用服务,以实现信息系统的稳定运行。
IT资产管理
IT资产管理软件AssetExplorer是一款综合资产管理软件,提供企业级资产可视化监督和控制功能,管理所有IT资产和非IT资产。
同时提供统一视图,跟踪和管理资产所有权。
它包括以下主要功能:
4.系统功能
数据中心IT运维服务解决方案包含以下旭航电子公司产品:
●NetworkManager
●BusinessManager
●TrafficManager
●EventLogManager
●StorageManager
●ITServiceManager
网络管理
我们采用NetworkManager作为网络管理系统,实现对基础网络设备的全面管理。
NetworkManager是一套完善的网络基础架构管理系统。
基于Java平台开发,具有优良的系统适应性及可移植性,可安装于Windows、Linux等系统之上;用户控制台采用完全的B/S架构,操作方便、快捷,所有功能均可以在浏览器中实现。
NetworkManager集成MySQL商业版数据库,无需额外配备数据库系统;安装采用集成化安装方式,主程序、数据库、Web服务器通过单一的集成安装包进行安装,过程安全、快速。
NetworkManager支持对网络中的各种网元设备进行监控管理,可全面获得各种设备的相关重要参数,用户通过Web控制台可以随时查询设备的各种状态和参数明细,通过各种完善的报表呈现各个时间段的历史运行情况,丰富的告警动作可在设备发生故障、状态出现异常或超出所设阈值时即时通知用户,协助用户有效的管理网络。
NetworkManager
NetworkManager的具体功能如下:
设备管理
NetworkManager可管理的设备种类非常广泛,所支持的设备包括:
交换机、路由器、服务器、桌面机、防火墙、域控制器、打印机、无线设备、UPS。
NetworkManager支持对Cisco、IBM、HP、Juniper、Microsoft等厂商的设备进行管理,可自动识别设备的种类及型号并添加到相应管理类别中;在此基础上,NetworkManager还支持自定义类别,可添加默认情况下没有列出的设备类别。
NetworkManager的“设备模板”功能支持用户自行添加设备类型,以支持更多的设备种类。
用户可以对该设备的类别、视图、OID、监视器等参数进行自定义,以实现个性化的管理。
NetworkManager针对每种设备提供不同的视图,针对设备类型的不同关注相应的性能参数,以便使用户更加有侧重的管理各种设备。
网络发现
NetworkManager支持对网络的自动发现,可自动扫描到网络中的任何设备。
NetworkManager提供以下三种网络发现方式。
●IP范围发现。
根据给定的IP范围进行搜索
●CIDR发现。
利用CIDR(无类别域间路由)技术进行搜索
●CSV发现。
利用预先编辑好的CSV文件进行搜索
根据不同的网络环境可以采用不同的网络发现方法,可以更快速的实现对现有网络的搜索,NetworkManager会将搜索结果形成列表,可手动选择将哪些设备加入系统的管理范围,而将其他的忽略。
NetworkManager提供“凭证”管理功能,可设定多个SNMP、WMI、CLI凭证,针对不同类型的设备采用相应的凭证进行匹配,并且NetworkManager在网络搜索发现过程中会采用多个凭证进行尝试,以便确保网络发现的正确性。
性能监视
网络管理系统的目的是对网络设备的状态和各种性能参数进行监视并记录,在出现问题时快速报告管理人员,协助管理人员快速的派出故障;同时,对网络运行的历史数据进行保存并供管理人员随时查看,掌握网络的运行趋势。
NetworkManager针对所管理的网络设备提供大量的性能监视器,可对设备的性能进行全面的监视,所支持的性能参数如下:
●可用性管理:
对设备的可用性进行即时的监视并记录,提供专门的可用性分布图和可用性报表进行可用性的分析和记录,并在设备不可用时通知管理人员。
●资源监视
针对各种设备的CPU、内存、磁盘空间、进程、软件列表、背板贷款利用率等参数进行监视并以图形及数据表格的方式呈现,当资源利用率过高时可进行基于阈值的告警。
●接口监视
对各种设备的接口进行监控,可获取接口的状态、接口速率、接口流量、接口利用率等信息进行监视并记录,可随时提供关于各个接口当前状态和流量信息。
针对交换机等需要对接口特别关注的设备,NetworkManager还提供接口列表以便更清晰的显示接口状况。
●服务监视
NetworkManager可对服务器上的各种系统服务进行有效监视,包括Windows系统服务和基于TCP端口的网络服务等。
NetworkManager支持自定义服务功能,用户可自定义基于端口的各种服务,以实现对如内部业务系统等特殊的服务进行监视。
●特殊应用监视
NetworkManager支持对MSSQL、活动目录、VMWare、Exchange等特殊应用的特别监控。
告警管理
告警管理是网络管理系统的核心功能,网络管理的重要目的之一就是在出现故障时第一时间通知网络管理员。
NetworkManager提供了丰富的告警功能,以协助网络管理员快速高效的进行管理。
首先,NetworkManager采用彩色编码的告警方式,对不同级别的故障采用不同颜色等级进行显示,管理员可轻易的识别当前重要的告警有哪些、一般的告警有哪些,从而进行有目的性有步骤地进行故障处理。
NetworkManager提供了多种告警动作,面对不同的问题和故障,管理员可以选择不同的告警动作,或者以不同的方式通知给相关人员。
NetworkManager支持以下告警方式:
●Email邮件告警
●SMS短信告警
●自动执行系统命令
●自动执行程序
●自动生成服务台工单
●Web页面告警
管理员可以针对不同情况,选择更适于自身情况的告警方式或动作,通过不同的搭配方式,可实现更高效的故障处理机制。
NetworkManager的告警管理还提供以下功能:
●警报确认–在同时处理多个警报时,NetworkManager允许操作员快速标示那些已经执行操作的警报,正如标示邮件表示已读或未读一样。
对于操作人员来说,警报确认是NetworkManager的一个非常实用的小功能,它将便于追踪新的警报,以及已读和已处理的警报。
●警报抑制-NetworkManager允许操作员抑制来自某个设备的警报,这在个别设备停机进行定期的维护和升级时尤为重要。
NetworkManager将在指定时间段过后自动开始发送警报。
●警报逐步升级规则-NetworkManager允许IT管理员建立自动警报逐步升级规则。
例如,IT管理员通过建立逐步升级规则,可以将当前已存在超过1小时的服务器警报生成一个报表。
此类报表可以通过email定期发送给IT管理员。
报表管理
NetworkManager提供了大量的性能和状态报表,管理员可利用NetworkManager丰富的报表对网络历史运行情况进行总结和回顾,并对未来的运行趋势进行有效的预测。
NetworkManager内置的TopN报表针对各种类型的设备提供了不同的报表内容,所提供的报表包括:
●路由器报表
提供路由器系统的CPU、内存利用率报表
提供路由器系统的接收、发送流量报表
提供路由器系统的接口利用率报表
●交换机报表
提供交换机系统的健康状况报表
提供交换机系统的流量报表
提供交换机系统的接口利用率报表
●服务器报表
提供服务器系统的CPU、内存利用率报表
提供服务器系统的磁盘空间利用率报表
提供服务器系统的设备可用性报表
●所有设备报表
提供所有设备的CPU、内存排名报表
提供所有设备的流量排名报表
提供所有设备的传输错误报表
提供所有设备的健康状况报表
●资产报表
提供所有SNMP设备资产清单
提供所有桌面机设备资产清单
提供所有服务器系统资产清单
此外,NetworkManager还支持自定义报表,用户可根据需要自定义报表的内容和时间等,产生更富个性化的报表。
其他功能
NetworkManager随系统提供了一些维护工具和功能,可以协助管理员解决一些网络中遇到的故障或问题。
MIB浏览器:
用于对被管理设备的SNMP的MIB库进行查询。
交换机端口映射
用于显示交换机每个端口所连设备的地址详情。
数据库维护
用于对NetworkManager的数据库进行维护。
应用管理
对于应用管理,我们建议采用旭航电子公司的BusinessManager(以下简称BusinessManager)应用服务管理系统来实现。
BusinessManager是一款可用性和性能管理软件,有助于保证业务应用程序的高可用性和良好性能。
它具有应用服务器监视、数据库监视、服务器监视、web服务监视以及其它应用管理功能,帮助IT管理员有效管理IT资源。
系统监控
服务器是各种应用运行的基础,如果服务器出现问题,应用也就无从谈起了。
所以对服务器系统的监控是BusinessManager非常重要的功能,BusinessManager支持对各种操作系统进行管理。
BusinessManager支持的系统如下:
●Windows系统
●Linux系统
●Solaris系统
●IBM-AIX系统
●HP-UX系统
●FreeBSD系统
●MACOS系统
BusinessManager通过SNMP、WMI、Telnet、SSH等多种方式对服务器系统进行管理,获取系统状态及资源利用率等信息。
针对Windows系统,可选择SNMP或WMI方式进行监控,可监视CPU利用率、内存利用率、磁盘空间利用率、系统进程、系统服务、网卡信息等内容。
针对Unix/Linux系统,可选择SNMP或Telnet\SSH方式进行监控,可监视CPU利用率、内存利用率、磁盘分布、进程、任务数量、网卡信息等参数。
应用服务器监控
随着应用的发展,综合的应用服务器系统由于强大的功能及整合性而越来越受用户青睐,而其对管理的要求也非常高。
BusinessManager作为专业的应用服务管理系统,可以支持对各种主流的应用服务器系统进行全面的监控。
BusinessManager所支持的应用服务器系统及参数包括:
Tomcat服务器
●可用性
●应答时间明细
●内存利用率
●线程明细
●响应概要
●应用的概要和明细
●每分钟对于Tomcat服务器的请求
●每分钟每JSP的请求及应答时间
IBMWebSphere服务器
●JVM内存使用率
●服务器应答时间
●CPU利用率
●所有web应用的指标
●用户会话及相关信息
●EnterpriseJavaBeans(EJBs)
●ThreadPool
●JavaDatabaseConnectivity(JDBC)Pool
●自定义应用MBean(JMX)属性
BEAWebLogic服务器
●JVM堆栈使用情况
●服务器应答时间
●所有web应用的指标
●用户会话及相关信息
●EJB(EnterpriseJavaBean)
●EJBPool统计量
●EJBCache统计量
●Servlet
●Threadpool
●JavaDatabaseConnectivity(JDBC)Pool
●等待连接的时间
●正在使用的数据库连接所占比例
●自定义应用MBean(JMX)属性
Microsoft.NET系统
●内存使用
●线程池明细
●锁明细
●系统异常
●连接明细
●安全明细
●网络流量
●JIT细节
JBoss服务器
●JVM内存使用率
●服务器应答时间
●EnterpriseJavaBeans(EJBs)
●所有web应用的指标
●线程池(ThreadPool)
●JavaDatabaseC