1、IT运维监控管理系统招标文件可行性报告1 招标要求 31.1 总体设计要求 31.2 项目建设目标与原则 32 IT运维管理平台功能要求 62.1 网络监控与管理要求 62.1.1 系统工作模式 62.1.2 网络安全设备管理 62.1.3 面向网络的一体化管理 72.1.4 网络拓扑管理 72.1.5 设备管理 92.1.6 性能管理 102.1.7 故障管理 122.1.8 流量管理 132.1.9 报表管理 162.1.10 安全边界管理 172.2 资源监测管理 182.2.1 服务器系统管理 182.2.2 数据库管理 192.2.3 中间件管理 232.2.4 基础应用平台及通用服
2、务管理 242.2.5 基础运行环境管理 262.3 告警监控管理 262.3.1 告警管理 262.3.2 告警通知 272.4 统一监控展现 272.4.1 灵活拓扑展现 282.4.2 网络监控展现 292.4.3 业务监控展现 292.4.4 资源监测展现 302.4.5 节点监测展现 312.4.6 告警信息展现 312.4.7 灵动可视化平台 322.4.8 扩展展现集成接口 322.5 报表管理 321 招标要求1.1 总体设计要求(1) 系统平台设计应该符合信息行业和本行业的标准,系统内部数据采用标准的格式,系统构架采用标准开放的应用框架和组件结构。(2) 为保证系统平台的统一
3、性,要求软件/模块必须使用同一品牌,所有软件/模块必须拥有完全自主知识产权,不能依托于其他第三方的平台。支持主流操作系统和ORACLE数据库,全中文界面,提供友好、直观、易懂的图形呈现,提供强大的信息交互与管理能力。(3) 系统要求运行在开放的TCP/IP网络环境下,基于J2EE平台开发,结合C+、CORBA标准和技术,采用B/S + C/S架构,支持IE7,IE8等标准浏览器,实现系统界面、业务逻辑、数据集成等功能,采用标准接口进行系统间的数据交换与数据共享。(4) 监控子系统要求支持远程监控和代理、CLI等多种方式监测。支持对Windows、Linux、Unix(HPUX、AIX、Sola
4、ris)平台系统的监测,支持Syslog安全日志的管理;支持多种告警方式,能够以Email、NetSend、外部命令、Snmp设置、Trap转发、Agent执行脚本、短信等通知方式进行告警;支持对所有监控范围内IT资源的当前和历史运行情况进行统计,并生成各种分析报表和图表。(5) 平台要求支持统一身份认证的单点登录、统一权限管理和统一界面展现功能;(6) 系统平台要求提供友好的操作管理,能够根据不同管理层次的管理要求灵活定制不同的管理界面。(7) 系统要能够提供良好的集成接口,支持与第三方标准产品的集成部署;1.2 项目建设目标与原则IT运维管理系统平台项目建设的总体目标是实现对企业的网络、设
5、备、主机、安全系统、数据库、中间件、应用系统等IT资源的可视、可控、可管理,从根本上提高IT运维管理水平,为企业核心业务系统提供有利保障;加强对IT系统及IT资源的监控与维护能力、提高维护工作效率、改善维护工作的质量,进而保证各系统维护水平的可持续性提升。IT运维管理平台的建设应遵循开放性、先进性、安全性、可靠性、易用性等原则:1. 战略性原则a) 提供具有针对性、可行性和可靠性的技术解决方案2. 开放性原则a) 采用符合国际国内通用的标准协议b) 支持主流计算机平台、操作系统以及数据库厂商的各类软硬件产品。3. 先进性原则a) 采用国内外监控和服务管理领域先进的技术和解决方案b) 在方案中要
6、将监控和服务有机的结合起来,实现无缝集成。4. 安全性原则a) 保证数据安全b) 不增加现有应用系统的复杂性,更不会降低现有应用系统的稳定性。c) 有严格的身份认证,实施对用户真实身份鉴别d) 采取分级用户结构,提供用户权限管理,防止未授权的用户访问;e) 有安全审计功能,配置审计时对生产系统不产生影响;f) 日志安全存放,并有格式化的输出,便于检索和查询5. 可靠性原则a) 管理系统应该在系统结构、设计方案、设备选择、技术服务等方面综合考虑,保证系统能够安全无故障运行b) 安装在被监控对象上的代理或探测工具占用被监控对象的资源在5%以内;6. 易用性原则a) 提供简洁、方便、有效的管理工具和
7、界面,有完整的系统文档。b) 提供可扩充性的接口设计以便于维护人员的日常管理和维护;c) 采用CS+B/S结构;用户界面应有容错能力,所用术语应具有一致性;d) 用户进入系统的相应功能模块后,该模块所涉及的各项功能尽量在统一的一个界面中显示和完成,减少新界面的弹出;e) 系统采用集中、无需代理的方式运行,无需在被监测信息系统、服务器上安装任何代理软件,只需在一台网管机上安装,即可自动对整个信息系统进行监测和管理,不改变现有系统的应用配置,对现有系统性能影响甚微,安装实施、维护使用十分方便。7. 知识产权保护原则a) 要求本项目涉及的所有产品符合国家对软件产品的有关规定,并具有相应的产品认证或许
8、可,无版权纠纷。2 IT运维管理平台功能要求2.1 网络监控与管理要求2.1.1 系统工作模式系统采用多层架构、信息总线技术,具备良好的性能和扩展性,系统为用户提供了C/S和B/S的两种展现模式,为不同关注层面的用户服务。以方便管理人员使用C/S对网络进行专业管理,运维人员使用B/S对网络进行值班监控。系统具有拥有灵活、高效的网络采集引擎,通过对象识别、采集并发及针对的厂商扩展脚本,可准确、可靠的提供网络设备交互服务。系统利用ICMP、ARP、SNMP、NetBIOS、CLI等标准进行网络探测和信息采集,对发现的网元对象进行识别、分析、保存,形成统一的网管资源库,并在此基础上进行拓扑计算,生成
9、物理、网络等不同层次的拓扑结构。通过主动(ICMP、SNMP、CLI)与被动(Trap、NetFlow、SFlow、镜像、NetStream)两种方式,系统可以从设备上获得各类性能指标和流量数据,经过长时间数据的跟踪记录,最终挖掘分析生成各种报表,展现网管部门需要的网络流量与负荷信息,以供对网络状态的合理评估与决策。在对网络的不间断实时监测中,系统能够收集针对网络、设备、终端及链路的各种事件,并利用过去在网管过程中学习得到的处理规则,系统可以对这些事件进行智能分析,并关联所有符合故障特征的相关事件,最终在故障发生前、或故障发现时发出正确告警,以便网络管理人员高效、及时的定位并解决问题。2.1.
10、2 网络安全设备管理全面支持CISCO、华为、中兴、北电、Foundry、Extreme、Avaya、H3C 、DLink 等各种不同厂商、不同型号的网络与安全设备,提供各类设备的基本信息、CPU / MEM负载状况,设备可用状态、连续运行时间、响应延时、端口速率、ICMP连通性等设备属性与监测信息,亦可自定义SNMP监测内容。网络设备监测项主要包括: 设备CPU利用率:监测网络设备的CPU使用率。 设备内存利用率:监测网络设备的内存使用量、内存使用率。 端口速率监测:监测网络设备中指定端口的入速率、出速率、入丢帧速、出丢帧速、单播入帧速、单播出帧速、非单播入帧速、非单播出帧速、入错误帧速、出
11、错误帧速。 端口上下线监测:监测网络设备指定的端口的上下线状态。 自定义SNMP监测:可监测多个SNMP表达式(支持四则运算、时间差值运算等)对应的采集结果。 ICMP连通性监测:监测与网络设备的连通性。2.1.3 面向网络的一体化管理管理界面友好,能够提供实时的底层网络、设备、系统、数据库和应用服务运行状态的有效监控和统计、网络边界安全保障、告警事件列表及IP资源管理等功能,每个区域可以把各功能管理项获取的底层数据按照IT基础设施内在的关联关系,根据运维人员的使用习惯进行了人性化的重新整合呈现,改变过去传统网管生硬的专业指标分割罗列的风格。在支持典型功能外,还可以从管理人员的角度出发,把平时
12、经常关注的设备监测视图进行重新组织显示,从管理人员的角度进行查看。提供web客户端,管理员在网络的任何位置,甚至是外网,都可以通过浏览器访问网络监控系统的后台服务器,实现随时、随地统揽全局。2.1.4 网络拓扑管理提供能够提供准确直观的1. 发现的设备种类全面系统支持多厂商的网络设备,可以支持的厂商包括CISCO、Juniper、Huawei华为、ZXR中兴、H3C、Enterasys凯创、Extreme、Foundry、Harbour港湾、CDRS神州数码、AVAYA、 Nortel北电、3COM、ARRAY、D-Link、Maipu迈普、Red-Giant锐捷、NetScreen、Tops
13、ec天融信、Riverstone等。2. 拓扑发现技术手段先进支持通过SNMP、ICMP、NetBIOS、ARP、Traceroute、Telnet等多种手段自动发现、识别设备。在支持众多国内外设备的基础上,系统还对网络类型有很好的兼容性,可以很好的发现VPN、VLAN网络拓扑,提供拓扑的动态跟踪和更新功能,能够更加有效的反应网络拓扑现状。提供网络拓扑动态发现和跟踪技术,可以通过单设备拓扑、多设备拓扑、网段拓扑、种子节点拓扑等多种方式的拓扑发现网络拓扑准确地展现出网络的当前拓扑情况。3. 拓扑显示视图多样系统基于Java平台,支持远程管理协议采集,系统对B/S、C/S混合支持。支持大规模的网络
14、管理问题,系统支持将大型网络通过按照地域、部门等划分成多个相对较小的子网实现分级管理、提供远程管理工具辅助用户对大型网络进行监控和管理。用户可以根据自己的使用习惯选择合适的拓扑视图加以监控。能够提供以下拓扑图: 物理拓扑反映被管网络的实际连接的二层网络拓扑图,方便用户直观掌控网络的实际连接情况; 网络拓扑反映被管网络各个子网之间的连接关系拓扑图,方便用户从IP层逻辑组织网络的管理; 子网拓扑反映同一网段内终端与二、三层设备的连接关系拓扑,方便用户进行终端设备连接状态的监控及故障诊断; Web拓扑系统支持网络拓扑图基于浏览器的展现,通过浏览器的方式监测网络的运行情况,WEB拓扑图通过3-N级的方
15、式展现网络拓扑、设备状态、端口状态。用户可以通过浏览器访问,通过浏览器来查看网络运行的情况。这种显示方式的好处是方便用户穿过防火墙,随时随地进行拓扑浏览监控。 全屏拓扑可以提供全屏拓扑,以便可以更为方便的全局浏览拓扑,同时也方便进行大屏展现4. 拓扑显示信息丰富在拓扑图上可以浏览网络资源的详细信息,包括: 在拓扑图上集成设备状态、链路带宽流量、告警故障的展现,使用不同颜色、粗细、图标表示被管理对象的状态信息; 提供快速查找和定位设备功能,可以通过设备名称、IP地址、MAC地址等信息,在拓扑图上准确定位设备,并显示出此设备的网络连接信息; 自动记录设备的所有活动情况,如接入网络、设备迁移及上下线
16、信息。 便捷的浮动信息显示,浮动显示各类设备和链路的关键信息; 集成丰富的右键管理菜单; 集成一些常用管理工具,如多实例ping、remote ping、traceroute、telnet、MIB浏览器 拓扑图无级缩放、全屏显示以及背景图设置。 手工修改网络设备的配置信息2.1.5 设备管理系统设备管理全面及时,能够提供设备管理的快照,提供管理的设备列表,并能够提供手、自动可选的设备配置备份功能。1. 设备管理的快照在拓扑中可以轻松点击被监控设备进入设备运行监控界面,以Dashboard的方式浏览网络设备状态的CPU、内存、链路流量等当前运行参数,若设备出现告警事件或阈值告警,则在网络拓扑图上
17、相关网络设备节点图标以不同的颜色显示,提示管理员进行处理。2. 直观清晰的设备列表设备管理将系统所发现的所有设备以列表形式展现出来,用户可以方便的查看到设备的名称、类型、IP地址、MAC地址。用户即可以查看所有设备,也可以按类型查看或按子网查看。用户可以查询所管理的各子网网段内IP地址的分配、使用情况,以及占用该IP地址设备的上联设备及端口的详情等。3. 手、自可选的设备配置备份系统集成主流厂商思科、华为、华三和神码等网络设备的配置备份功能,管理员可以设置备份策略,根据管理员配置的策略,系统自动将网络设备的配置信息备份到备份服务器上。减少设备出现故障时进行设备配置恢复的时间。对于非主流厂商设备
18、,可以通过TCL脚本编写交互工具的方式获取相应设备配置备份来实现兼容性的扩展。系统提供了手动备份与自动备份两种备份功能。4. 详细的设备信息分析统计系统可以帮助用户统计网络设备及终端设备的详细信息,不仅包括设备名称、别名、厂商、型号等基本信息,也包括设备端口的类型、端口号、IP地址、MAC地址、端口速率、MTU、端口状态以及对端端口的详细信息,此外还支持SNMP设备的端口各类出入栈二层桢传输统计情况,如丢包率、错包率等。系统还提供动态的网管信息展现,如端口列表、ARP表、TCP/UDP表、转发表、CDP表、STP表、设备部件表等。2.1.6 性能管理本系统管理平台提供了完善的被管理网络数据采集
19、,分析,统计和报表功能,能够通过SNMP、ICMP采集方式,对网络设备的CPU、内存、流量等运行性能指标进行轮询采集。系统进行实时采集数据分析,并保持对网络性能和设备性能的跟踪和趋势分析。1. 监测指标丰富系统支持网络性能实时监测,能监测所有网络设备的当前运行负荷状况,包括:当前CPU利用率、当前内存利用率、入流速、出流速、入包速率、出包速率,到网络设备的端口流量、丢包率、错包率、Ping延时和丢包等运行参数超过预设阈值时,并能在拓扑图上根据用户定义阈值以醒目颜色显示。同时,系统提供对主机操作系统CPU、内存和硬盘使用情况的实时监控。此外,系统还提供对典型Web服务的可用性监控,如HTTP/H
20、TTPS、FTP、DNS、DHCP、LDAP等常见应用服务,并且系统同样支持对主机和Web服务监控的阈值告警功能。在实时监测的基础上,系统还提供对历史性能数据进行统计分析功能。网管系统提供的实时性能监视可以实时监控网络设备的端口流量和丢包率等性能指标,并可以方便的给出这些指标的趋势、平均值和最大值,为故障的预测提供有力的分析工具。通过系统能够设置性能的采样周期,能够以图形方式显示性能指标,并可根据用户的需要定义监测的指标。2. 多层面性能监测系统为网络管理员提供多角度的监测。除了提供网络、物理拓扑显示的图形性能提示外、还为网管员提供主动的面向设备的负荷监测、面向链路的流量监测、面向终端的活跃度
21、监测等多层面的性能监测。 面向网络设备的负荷监测能够监控到网络设备的CPU和内存使用情况,通过监控网络设备的负荷情况,将被动管理化为主动预警,随时可发现网络的隐患。 面向链路的流量监测链路性能直接体现网络上数据传输质量。网络上的延迟过长、瓶颈或丢包错包率增高都将会影响网络提供服务的质量。在拓扑图上通过节点的颜色变化、链路的颜色变化、总览列表的带宽占比统计,可以让用户从集成化界面中全面评估网络的整体性能状态,快速定位出网络的瓶颈和隐患。 面向终端的活跃度监测终端活动快照列表记录了所有终端设备的当前运行状况,内容包括:设备名称、设备IP地址、上联交换机端口、当前在线状态、上次Poll时间、当前流速
22、、当前包速、平均包大小,方便用户进行故障诊断和病毒分析。此外,还提供终端活跃度历史统计。3. 监测配置简单系统配置界面友好、过程简单,且配置完即可生效。同时,系统具有自动评估监测的能力,能够自动生成配置。另外,性能的阈值可在配置时设定,性能达到或超过阈值可触发各种形式的告警,如:邮件、短信、声音等。2.1.7 故障管理通过系统故障管理,系统能够对故障信息进行搜集、分类、归并、压缩及告警通知,帮助网络管理人员即使定位故障源、故障类型及故障波及范围等,帮助管理员来解决日常出现的各种故障,从而确保在规定的时间期限内使网络重新投入运行。系统能够自动获得整个IT环境的各种事件,包括网络设备的故障,性能的
23、过载,流量的异常,服务器的异常性能,各类应用的故障,各类终端的变更等等。通过系统故障监控台,用户能够对整个IT环境的运行情况一目了然。1. 统一的故障分析引擎系统通过内置的事件分析引擎,对获取的事件进行实时的压缩、归并,建立集中化的以故障为导向的集中告警展现。方便运维人员实时查看网内所产生的故障。 通过对事件进行过滤、归并、相关性分析、传递等分析处理。将处理过的事件保存在数据库中。支持对故障持续时间较长的告警级别自动升级处理,支持用户自定义故障类型。 对事件的严重级别加以分类,并分别通知相关人员(如:普通故障就只通知网络管理员,重大故障同时通知主管领导和网络管理员);不同的用户可以为自己定义自
24、己的过滤和通知策略。 故障管理能够实时监视并截获网络运行过程中所出现的故障,确定故障位置,以声音、电子邮件、短消息等多媒体方式通知网络管理员,并给出故障原因。2. 多种告警类型系统根据故障来源及故障信息所属专业将告警信息分为以下几类: 网络故障告警监测到链路或设备故障时,尤其是骨干链路Up-Down、核心设备离线等,发出故障告警信息。 网络性能告警监测到网络设备、服务器的端口流量、丢包率、错包率、Ping延时和丢包、CPU利用率、内存利用率、磁盘利用率等运行参数超过预设阈值时,发出故障预警信息。 网络安全告警 非法设备接入告警:未经过合法登记的设备接入网络后,系统自动进行告警,并根据配置采取主
25、动拦截等联动处理。 IP地址变更告警:IP/MAC/PORT地址绑定之后,如果出现用户私自更改IP地址的情况,系统发现将主动发送告警。 主动接收设备Trap信息 系统能够主动接收网络设备、防火墙等设备发出的Trap故障信息,并在告警台统一展现给用户。3. 直观的告警列表系统把告警事件按节点和严重级别进行排序,并提供包括来源、描述、发生时间、告警名称、告警等级在内的详细列表。4. 灵活的告警通知系统提供了丰富的故障通知方法,包括:声、光、Windows消息、EMAIL、短信等方法,用户也可自己编写处理程序进行处理。5. 集成多种故障诊断工具系统提供了各种工具帮助用户进一步监测故障的原因,包括:S
26、NMP工具、Telnet、Ping、Tracert、NetBIOS、RemotePing等等,辅助用户排除故障。2.1.8 流量管理系统为用户提供了细颗粒度的流量分析管理工具Flowmon,实现从端口到应用的广泛流量分析和统计。通过Flowmon,系统能够实时监控系统流量,而不是历史数据回放;系统无须配置成本高昂的硬件探针即可实现设备实时流量的采集分析,从而避免在网络中引入新的故障点。1. 支持多种流量采集手段系统提供多种流量采集的方式,支持端口镜像流量、sFlow流量、Netflow流量等,Flowmon可以同时支持多个网卡和多种采集并行的流量分析,并为数据分析提供一致的访问界面。考虑到网络
27、数据流量分析的数据量十分庞大,系统不会保存所有的原始流量数据信息,而是仅仅保存分析加工后的归并信息,从而降低服务器的存储要求。2. 多维度实时流量分析系统支持对流量实时分析,当流量数据采集到Flowmon之后,系统会对流量数据开始进一步的分析,提取有效的数据信息,主要通过以下处理过程: 数据过滤:可以通过地址、端口、协议等条件设置数据过滤器,滤去不需要的干扰数据。 流向分析:对数据包包头或者xFlow的包信息进行解码,获取数据包的流向信息,用于分析数据的来源和目的地,通过分析矩阵获取每个网络节点的流向情况。 层次分析:系统对数据包进行1-7层的划分,用于分析全局的数据流量。 协议分析:系统会进
28、行协议级别的数据分析,系统采用了CSPAE分析引擎进行TCP/UDP数据流分析,可以分析大多数的常见TCP/UDP协议,包括:HTTP、POP3、SMTP、FTP、SNMP、DNS等常见协议。 应用分析:系统会对一些动态协议进行应用级别的7层包头分析,从而可以掌握BitTorrent、eDonkey、MSN等P2P和即时通讯协议的流量情况。3. 通过流量分析辅助网络的异常判断 全局统计通过对流量的分析,Flowmon可以对采集到的数据进行整体的评估分析,让用户了解网络的整体情况,主要包括: 全局流量统计:从整体角度对网络流量的数据包情况进行统计,包括数据包的长度、TTL、总体流量、总体协议分布
29、、总体TCP/IP协议分布、TCP/UDP端口分布等。 终端流量统计:从整体对终端流量的进行统计和排序。 协议统计系统从协议角度对网络数据行为进行分析,并按照终端形成排名,便于管理员掌握网络中协议的分布和重点终端的数据行为。通过协议流量排名分析,可以有效地发现ARP病毒、蠕虫异常流量、BT流量、网络异常流量等行为。 协议整体分布:从全局协议、TCP/IP协议两个级别提供协议的分布。 全局协议的排名分析:从终端角度对全局的协议进行排名分析(按照TCP/UDP/ARP/ICMP/IPX/IGMP/OSPF等分类) TCP/IP协议排名分析:从终端角度对TCP/IP协议的组成进行排名分析(按照HTT
30、P/FTP/Mail/Telnet/SNMP/BitTorrent/eDonkey/Messenger等进行分类) 会话统计系统通过对流量的流向进行分析,并对TCP会话进行监测,从而获取各个网络节点的流量和会话统计信息。主要包括: 终端流量通讯矩阵:以矩阵的方式展现终端之间的通讯关系和通讯流量。 终端流向统计:本地网络和外部网络,多个VLAN之间各个终端的流量统计排名和总流量。 终端会话统计:终端TCP建立会话的统计,按照TCP的端口进行展现。 终端统计系统从单个终端节点的角度,分析单个终端的网络数据行为,主要包括以下几个方面: 终端总体分析:包括活动时间、总的数据流量和包数、基本协议对比等
31、最近24小时的流量统计:每小时的发送、接收流量的统计 数据包的统计:从TCP会话、TCP 标志包、异常数据包三个方面对数据包进行统计 终端协议分布:终端使用的各种协议的分布图 其他统计:包括ICMP协议统计、最后一次的数据通讯统计等。2.1.9 报表管理系统能够为用户提供性能、告警、状态、资源多个角度的统计和分析报表。系统具备报表自定义扩展能力,通过报表设计器,可以定制更符合需求的报表。用户对相应的系统监测数据进行统计后,能够以报表形式展现分析统计结果。报表包括:网络运行统计、节点延时统计、节点端口流量统计、设备CPU负载统计、设备内存占用统计、主机CPU负载统计、主机内存占用统计、Oracle数据库运行统计、服务运行统计等1. 端口I/O流量报表通过网络设备的端口对流量进行统计,并以报表的形式进行展现统计结果。2. 设备故障日/月报表系统平台提供统一事件管理来解决分割管理的数据融合问题,通过以告警事件为导向,提供了清晰的、集中的事件管理。可以让管理人员对整个IT环境的各种硬件和软件系统的实时事件信息收集,对各类事件信息进行过滤、压缩、归并等相关性分析与处理,智能化压缩处理海量告警事件,分析
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1