集中告警系统设计方案.docx
《集中告警系统设计方案.docx》由会员分享,可在线阅读,更多相关《集中告警系统设计方案.docx(19页珍藏版)》请在冰豆网上搜索。
集中告警系统设计方案
2.10通信集中告警系统设计
2.7.1.
概述
集中告警系统就是利用计算机数据处理和计算机网络传输技术,对西安地铁一号线各通信子系统设备信息进行采集并集中反映到告警终端,使通信维护人员能及时、准确了解整个通信系统设备的故障信息以便于处理。
系统能够对通信各专业系统的告警进行汇总、显示、确认及报告,能进行故障定位,使维护管理人员能够准确、迅速地获得设备的运行状态信息,及时进行维护。
集中告警系统监测的各通信专业系统包括传输系统、无线通信系统、公务电话系统、专用电话系统、视频监视系统、有线广播系统、时钟分配系统、通信电源设备、乘客信息系统等。
2.7.2.系统功能及原理说明
通信集中告警系统主要实现了对通信各系统设备告警的集中监管,为维护人员提供方便、快捷的集中监控管理平台。
主要包括故障管理、报表管理、拓扑管理、资源管理、自身监控、工单管理、流程管理、系统管理、参数管理和外部接口等模块.
2.7.2.1.故障管理
集中告警系统通过数据采集模块从各通信系统中采集各种设备告警、性能越限告警和网络告警等信息,通过各种分析处理后,以合适的方式呈现给运维人员,实现对各通信系统告警信息的管理。
主要包括告警采集、告警处理、告警呈现、告警操作和查询四大功能,通过故障管理功能,通信系统运维人员可以速度知道各系统故障发生的位置、可能原因等信息。
2.7.2.1.1.告警采集
告警采集主要是指集中告警系统从各通信系统网管中采集告警和告警恢复数据的功能。
集中告警系统是通过以太网从各通信系统的网管接口自动采集各网元的设备告警、性能越限告警和网络告警和各种告警恢复等信息后,把原始告警/告警恢复存储到数据库中,并通过过虑和转换,统一成集中告警系统的告警格式,及时通知应用服务层进行告警的分析和处理。
告警采集方式根据厂家网管接口可以分为两种:
(1)主动上报:
各专业系统网管主动向集中告警系统上报各种告警信息。
(2)被动采集:
集中告警系统主动从各厂家网管中获得告警信息。
正常情况下,一般采用主动上报方式,但限于一些网管功能和一些需要进行告警同步的应用场景,需要采用被动采集方式。
采集的告警信息内容应包括告警源(也就是产生告警的设备)、告警发生的原因、告警的级别、告警的编码、告警的名称、告警的类型、告警产生/恢复时间等。
其中告警级别是按告警严重程度进行划分的,在集中告警系统中分为紧急告警、重要告警、次要告警、提示告警四级;告警类别分为设备告警、性能超限告警、网络通信告警三类;按告警状态分为当前告警和历史告警。
2.7.2.1.2.告警处理
集中告警应用服务层接收到告警采集模块告警通知信息后,会及时对告警信息进行各种分析和处理,主要包括告警过滤、告警压缩、告警升级、告警通知等功能。
告警过滤:
可根据不同级别、不同类型、不同系统、不同设备的告警设置过滤条件,系统提供友好的告警过虑设置界面。
告警压缩:
对于重复出现的同一告警信息,系统将其压缩成一条告警信息,并给出第一次发生时间和最后更新时间以及重复次数。
告警升级:
对单位时间内频次过高或历时过长(阈值可以设置)的告警,系统将自动提高告警级别,以保证得到优先及时的处理,告警提高的级次可由用户设置。
告警通知:
集中告警应用服务层接收到告警采集模块告警通知信息后,经过分析处理,如发现告警状态发生改变(包括产生的新的告警、告警恢复或告警升级等各种状态),则及时通知各告警终端,更新告警状态,及时通知运维人员.
2.7.2.1.3.告警呈现
系统及时把采集到的各种告警信息以图形、声音、颜色、报表、窗口等方式呈现给运维护人员.
(1)对于不同级别的告警信息,系统将以不同颜色进行显示.
(2)用户可以通过视图列表和拓扑图的方式查看各系统设备状态。
其中拓扑图包括车站线路图和系统拓扑图。
车站线路图可以非常直观的用不同颜色呈现当前哪些车站有设备告警;系统拓扑图可以非常直观的用不同颜色呈现网络节点中哪个设备产生了告警.
(3)对于高级别告警,系统将其呈现在显著位置,系统可以按照告警产生时间顺序和告警严重程序进行排序显示。
(4)系统会自动根据当前最高级别的告警,用不同的声音提提醒运维护人员注意,用户可以设置每种级别告警的提示音,也可以手工关闭或打开告警声音.
(5)系统将向管理者提示当前已发生告警条数、已确认告警条数等实时统计信息.
(6)系统可以方便的查看告警的详细信息,包括产生告警设备的名称、类型、位置,系统,告警级别,告警原因,告警产生时间,告警确认时间,告警恢复时间,告警类型等信息.
(7)系统可以方便的查看某系统、某车站或某设备的告警信息。
(8)系统可以方便的查看历史告警信息。
(9)系统可以方便的查看指定对象的基本信息,包括对象的名称、位置、状态、当前告警数量、当前取高告警级别、最高告警级别内容及原因等属性.
2.7.2.1.4.告警操作和查询
告警操作和查询功能是指维护人员可能通过集中告警系统的告警管理人机界面,实现的各种操作功能,包括告警恢复、告警确认、告警清除、告警查询、告警同步等操作功能。
告警恢复:
即告警清除,系统提供两种告警恢复方式:
手工和自动。
自动恢复告警是指集中告警系统采集到各通信系统的告警恢复信息后,自动消除对应的告警信息。
手工恢复是指集中告警系统提供人机操作界面,用户可以选择某条或多条告警记录,手动改变告警状态信息.告警恢复操作会记录告警恢复时间和告警恢复方式(是手工还是自动)。
告警恢复并不从数据库中清除数据,只是把当告警从当前告警移到了历史告警中。
告警确认:
系统提供告警确认操作,当集中告警系统产生告警时并被确认是需要处理的告警信息,用户可以使用告警确认操作,把告警放入一个专门的告警确认视图中显示,以便维护人员及时跟踪告警恢复情况.可以根据告警源、告警级别、状态、类型、产生时间等条件对告警信息进行确认。
告警清除:
当集用户确认告警已消除时,用户可以手工清除告警。
告警查询:
用户可以按系统、车站、设备名称、告警类型、告警级别、告警状态、时间等各种条件组合来查询当前或历史告警信息。
告警同步:
当因某种原因(比如系统维护),需要对集中告警系统的告警信息与某通信系统进行同步时,可以通过告警同步操作按钮手工触发,使集中告警系统的告警信息与通信系统的告警信息保持一致.
告警查统计及分析
用户可通过告警统计及分析功能了解网络中现有告警的数量、级别、维护人员对告警进行确认的情况,历史告警的数量、厂家分布、系统分布、区域分布等情况.通过对以上结果的深入分析,可对改进运行维护工作提供数据参考。
2.7.2.2.报表管理
告警系统对当前告警和历史告警信息提供了统计分析功能,可以在一定时期内按告警级别、告警类型、车站、系统、时间等进行统计分析。
报表管理还支持对资源信息的统计分析,可以统计一段时期内,各系统、车站、设备类型等的设备数量情况。
报表系统支持表格和图形方式(直方图、曲线图、饼图)的方式,支持EXCEL输出方式,并可以保存在本地和打印。
2.7.2.3.拓扑管理
拓扑管理主要实现对车站线路图和各通信系统拓扑图的维护和操作等功能。
使系统可以以拓扑图的方式呈现各种资源和告警信息。
2.7.2.3.1.拓扑信息范围
集中告警系统提供多种类型的拓扑图,如:
(1)车站线路图
(2)各专业系统网络拓扑图
2.7.2.3.2.拓扑图维护
系统提供车站线路图和各系统网络拓扑图的更新维护功能。
2.7.2.3.3.拓扑视图操作
集中告警系统可提供本期工程中各通信子系统的拓扑图和线路图进行各种视图操作,实现对拓扑图中元素的选中、移动、删除、增加等操作,可以对各种视图的显示控制功能,如视图放大、缩小、漫游等。
支持对拓扑图节点信息的查询、修改,显示对视图对象相关配置和状态的详细信息。
2.7.2.4.资源管理
资源管理模块负责对车站,系统,设备信息等进行管理和维护。
以满足日后系统升级和扩展的需要。
该模块包含车站管理、系统管理、网元信息管理等.通过资源管理模块,具有相应权限的用户可以方便的修改集中告警系统所管理的网元设备。
资源管理是实现告警管理的基础,所有告警信息都与资源信息相关连。
2.7.2.5.自身监测
系统自身监测功能包括三部分:
集中告警终端和警服务器之间的网络状态监测、集中告警服务器与各通讯子系统的网管之间的网络状态监测以及集中告警服务器与综合监控系统的网络状态监测
当集中告警终端与集中告警服务器之间的网络状态异常时,或者集中告警服务器异常时,集中告警终端界面中会显示异常图标并有声音提示,图标和声音用户可自行设置。
当集中告警系统与其他通信系统网管网络状态异常时,集中告警终端界面中会显示异常图标并有声音提示,图标和声音用户可自行设置。
并可以查询当前哪些通信系统网管在线,哪些通信系统管理是离线的.
当集中告警系统与与综合监控系统网络状态异常时,集中告警终端界面中会显示异常图标并有声音提示。
2.7.2.6.工单管理
工单管理是流程管理系统中的一个重要模块,实现了故障工单的管理,包括对工单查询、工单统计、自动生成工单,实现对故障处理的全面监控。
工单查询:
可以按系统、状态、时间、告警信息、设备信息、处理人等多个条件组合进行查询。
工单统计:
用户可以手工统计一段时期按状态、系统、告警级别等对工单数量、处理情况(完成情况等)等进行统计,可以统计各维护人员在一段时期内处理工单的数量,为维护人员的工作量考核提供数据支持,为工单流程的改进提供决策参考.
自动生成工单:
当告警发生时,系统自动生成或提供工单生成按钮来完成工单填写工作,也提供手工填写工单的功能,通过自动生成功能功能可以在工单上填写告警信息、故障定位信息、派工信息等。
2.7.2.7.流程管理
流程管理包括三部分内容:
流程的定义、工单流转和工单处理跟踪。
流程定义:
集中告警系统采用工作流引擎实现对流程的定义,可以增加、修改、删除流程步骤,以保障工单流转的流程可以满足系统维护制度不断变化的需求。
系统为流程定义提供图形化界面.
工单流转:
工单可以按已定义好的流程自动进行流转,把需要处理的工单以合理的方式通知和呈现给相应的维护人员。
工单处理跟踪:
维护人员可以实时跟踪工单已完成哪些处理,当前处在哪个环节,还有哪些后续处理。
工单管理和流程管理组成了通信系统的维护和管理平台,为整个通信网络的日常维护、故障处理建立一套自动化流程。
2.7.2.8.系统管理
系统管理是集中告警系统的重要支撑模块,是保证集中告警系统信息安全的重要模块。
主要包括用户管理、角色管理、权限管理、日志管理、数据管理和使用帮助等功能。
用户管理:
用户管理是对用户信息的维护和管理,用户信息用于系统的登录验证、以保证系统信息的安全性,防止未授权用户的非法访问。
主要我括登陆名称、用户姓名、部门、用户创建时间、联系电话等信息。
系统支持对用户的增加、删除、修改、授权、重置密码等操作。
角色管理:
为了便于用户授权,所以系统设置了角色管理功能,不同角色代码不同的功能集.角色管理主要包括添加角色、删除角色、分配角色权限等功能。
权限管理:
权限管理主要是指把不同的用户赋与不同的角色,一个用户可以有多个角色,一个角色可以赋给多个用户。
用户所具有的权限是用户被授与角色权限的并集。
日志管理:
系统对用户进行的一些重要操作系进行了日志记录,比如登陆和注销、数据清除等。
用户可以对日志进行查询和清除。
数据管理:
系统提供数据自动清除和备份的功能。
为了保障系统的运行速度,系统会定期自动清除数据,其间隔用户可以设置,系统可以限制一定时期内的数据不允许清除.系统提供自动数据备份功能,按不同的周期进行完全备份和增加备份,满足数据安全要求的同时,降低对存储空间的要求,减少系统投资.
使用帮助:
系统提供在线帮助手册,供用户使用系统过程中查阅用.
2.7.2.9.参数管理
为了增加灵活性和可维护性,系统提供了参数管理功能,可以实现对以下参数的管理:
数据备份参数:
可以设置完全备份和增量备份的周期。
信息采集参数:
可以对集中告警系统采集各通信系统时需要的一些网络通信参数进行设置,包括IP地址、端口号等
时间同步参数:
可以对与时钟系统接口的通信参数、同步周期等参数进行设置。
综合监控参数:
可以对与综合监控系统接口的通信参数进行设置.
2.7.2.10.外部接口
2.7.2.10.1.时间同步接口
时间同步包括集中告警服务器与时钟系统进行时间同步和集中告警系统的告警终端与告警服务器之间的时间同步功能。
集中告警服务器通过RS422接口定期获取时钟系统的时间信息,来更新集中告警服务器的时间,在更新服务器时间时,会对获取的时间信息进行验证,对比获取的时间与集中告警服务器上当前时间,如发现时间差大于某一阈值时,不修改服务器时间,而是重新去获取时间信息。
集中告警系统的告警终端与告警服务器之间的时间同步,是通过集中告警终端定期与集中告警服务器进行通信,获取集中告警服务器的时间后,更新集中告警终端时间。
2.7.2.10.2.与综合监控系统接口
集中告警系统向综合监控系统开放接口,通过双方商议的数据格式向综合监控系统发送集中告警系统接收并处理后的告警及告警恢复信息。
1.物理接口:
建议采用标准RJ45接口,综合监控系统通过网线连接至集中告警系统的交换机,如距离较远,为保证信号传输质量可以采用光纤(需另配光纤及单端口光端机,此部分设备不包括在投标供货范围中)。
2.软件协议
采用TCP/IP协议簇,由综合监控系统和集中告警系统双方约定通讯端口及报文格式.
3.功能描述
a)告警上报:
集中告警系统应能够通过该接口实时的向综合监控系统发送告警及告警恢复信息
b)历史告警上报:
集中告警系统能够将在于综合监控系统网络中断期间接收到的告警信息在网络连通后主动上报至综合监控系统。
2.7.3.系统构成
2.7.3.1.软件结构
集中告警系统采用分层和模块化的设计方式,系统由数据采集适配层、应用层和表示层组成.其中表示层部署在集中告警终端上、应用层和数据采集层部署在集中告警服务器上.其软件结构图如下所示:
图2。
7.2.1—1集中告警系统软件结构图
应用层包括监控、系统支持,运维管理以及外部接口四类模块,监控类包括故障管理、报表管理、拓扑管理、资源管理、自身监控5个模块;系统支持包括系统管理和参数据管理两个模块;运维护管理包括工作管理和流程管理2个模块;外部接口类包括时钟同步和综合监控2个模块。
在数据采集适配层,对传输系统、无线通讯系统、公务电话系统、专用电话系统、视频监视系统、有线广播系统、时钟分配系统、通信电源设备、乘客信息等系统分别采用相对独立的采集适配模块,它们之间互不相干,有利于系统的扩展和维护。
表示层、应用层和数据采集适配器层之间通过分布式总线平台进行通信,以消息模式实现各种模块信息的交互,这样各层不仅相对独立,而且可以灵活的部署在不同的物理位置,有利于系统的扩展和维护。
各通信系统网管与直接与数据采集接口适配模块进行通信.表示层、应用层和数据采集适配器层都可以直接访问数据库,这样不仅可以简化系统结构,而且可以提高系统的响应速度。
与时钟同步和综合监控系统接口是通过应用层的接口模块来实现的,针对每个接口,采用一个完全独立的模块,增加系统的灵活性和可扩展性.与外部接口的通信是通过应用层的接口模块直接与外部系统进行通信,以降低分布式总线平台的复杂性.
2.7.3.2.物理结构
西安地铁一号线的各通信系统网管和集中告警系统都部置在OCC,它们之间通过以太网进行传输,时钟系统通过RS422与集中告警服务器进行通信,集中告警系统通过以太网给综合监控系统输送信息,其物理结构图如下图所示:
图2.10。
2.2-1集中告警系统物理结构图
集中告警系统在OCC设置服务器、终端、打印机和交换机各一台。
终端与服务器直接连接到交换机上,通过以太网实现集中告警系统内部通信,打印机直接与终端相连接。
传输系统、无线通信系统、公务电话系统、专用电话系统、视频监视系统、有线广播系统、时钟分配系统、通信电源设备、乘客信息系统等各子系统网管分别提供以太网接口连接到集中告警系统的交换机上,实现与集中告警系统服务器通信,实时向集中告警系统提供各种告警信息。
综合监控系统通过以太网接口与集中告警系统交换机相连,实现与集中告警系统服务器通信,集中告警系统通过以太网向综合监控系统提供各种信息。
时钟系统通过RS422接口直接与集中告警服务器相连接,为集中告警系统提供时间信息.
2.7.4.系统指标及说明
告警响应时间:
网络设备运行正常情况下,集中告警系统的告警最长响应时间(指从厂家网管上传告警到集中告警系统显示告警)小于5秒。
操作响应时间:
简单操作及普通数据查询操作界面响应时间小于3秒,大数据量报表数据查询操作界面响应时间小于15秒。
数据准确性:
大于99。
99%。
数所完整性:
大于99.99%。
系统存储能力:
原始告警和性能数据不少于2个月。
系统平均维护时间(MTTR):
小于8小时.
系统平均无故障时间(MTBF):
不小于10000小时。
2.7.5.网络管理功能
集中告警系统软件提供对网络环境的监测,包括对集中告警系统主机与服务器的监控及集中告警系统与其他专业网管系统网络状态及与综合监控系统网络状态的监测,其功能详见系统功能及在原理说明中的自身监测功能.
2.7.6.设备和主要材料数量及计算说明
序号
设备名称
制造商
规格型号
单位
数量
备注
1
集中告警终端
HP
型号:
DX7510
规格:
E8400(3。
0GHz)处理器,2G内存,320G硬盘,DVD光驱,集成声卡、显卡,千兆以太网卡,外置音箱,17寸液晶显示器,Windows7简体中文专业版
套
1
2
集中告警服务器
HP
型号:
ML150G6
规格:
XeonE5506(2。
13GHz)处理器,4G内存,千兆网卡,3*146GB硬盘,RAID5,千兆以太网卡,DVD光驱
套
1
3
以太网交换机
Cisco
Catalyst3560—24TS
台
1
4
UPS电源
艾默生
UHA1R-0050L(电池〉=38Ah)
套
1
5
打印机
HP
1505N
台
1
6
便携式计算机
HP
型号:
6450b
规格:
酷睿i5450M(2。
4GHz)处理器,2GB内存,160GB硬盘,DVD刻录机,千兆以太网卡,Windows7简体中文专业版
台
2
7
计算机桌椅
1200×800mm
套
5
8
网线(含水晶头)
超五类非屏蔽双绞线
米
2000m
9
电缆线
根
2
10
串口线(含转换头)
RS422接口
套
1
连接母钟设备
11
防病毒软件
卡巴斯基
套
1
12
Office套件
Microsoft
套
1
13
数据库软件
Microsoft
SQLServer2000标准版
套
1
14
操作系统软件
Microsoft
Windows2003server简体中文标准版
套
1
2.7.7.备品备件
集中告警系统所使用设备为标准IBM—PC设备及网络设备,因此所提供备件为标准PC设备附件及网络设备,并满足质保期后连续正常使用3年的需求
名称
规格
厂商
单位
数量
硬盘
146GB
惠普
块
1
交换机
Catalyst3560-24TS
思科
台
1
2.7.8.所供设备要求
1.功耗
名称
规格
功耗(W)
集中告警服务器
惠普ML150G6
500
集中告警终端
惠普DX7510
400
以太网交换机
思科Catalyst3560-24TS
50
打印机
惠普1505N
300
便携式计算机
惠普6450b
100
2.电磁干扰和抗电磁干扰
产品符合FCC、CertifiedClassA、CEMarktoCISPR22ClassB电磁兼容性标准.
3.所供电线、电缆的技术要求
网络连接线缆采用超五类非屏蔽双绞线.
阻燃聚氯乙烯或低烟无卤电缆结构,支持100BaseT、ATM、快速以太网、令牌环、TP—PMD语音、电话、多媒体等网络应用。
使用频率达到155MHz;
传输速度超过200Mbps;
2.7.9.仪器、仪表的配置和功能说明
集中告警系统无专用的仪器、仪表。
2.7.10.全寿命周期成本分析说明
系统全寿命周期包括:
产品寿命周期和消费者成本。
产品寿命周期包括:
开发、研制、生产、销售、使用、维护至报废。
在此周期内各项费用的总和即是“产品寿命周期成本”。
产品寿命周期成本可按三个产品寿命周期阶段划分,可按三个阶段分别对成本进行分析。
分述如下:
第一阶段:
按业主要求进行研究、开发、方案论证、初步设计、详细设计、完成产品设计和软件编制。
由于我公司有设计开发成功应用于北京地铁四号线的集中告警系统的经验及成熟的软件模块。
因此能够保证在为西安地铁一号线开发集中告警系统时采用成熟的软件模块及有丰富经验的开发工程师,使开发的质量和进度得到保证,从而实现开发成本的最优化。
本阶段的成本约占生产成本的38%左右。
第二阶段:
本阶段为系统实施阶段。
成本包括:
设备采购、检验、测试、包装运输、现场安装、开通调试、联调及验收、培训等费用,该费用共占生产成本的55%左右。
决定本费用多少的相关因素有:
①设备的功能和技术性能,如不同的设备配置等,我公司会根据西安地铁一号线的实际情况,对设备配置进行优化,在预留设备扩容能力的同时尽量降低设备成本。
②相关人员的素质,素质高的熟练人员可以高效、高质量的完成工作.
第三阶段:
本阶段是指消费者成本。
系统设备预计寿命大于10年。
本成本应包括设备的维护、维修费用、使用者人员费用等,我公司的系统设备有如下特点可降低消费者成本:
(1)系统设备采用标准IBM-PC设备及网络设备,大大降低设备成本和维护维修成本.
(2)系统具有良好的人机界面,大大降低人员培训时间和使用难度,节约人工成本。
(3)系统具有良好的自身监控功能及详细的日志记录,能够对自身故障进行显示,降低系统维护难度。
(4)系统具有一定的性能冗余,能够在一定程度上满足西安地铁一号线的的扩容需求.
本阶段费用约占生产成本的7%左右
2.7.11.系统RAMS说明
集中告警系统是由告警服务器、交换机和告警终端串联组成的系统,其RAMS分析模型如下:
图2。
7。
12—1:
集中告警系统RAMS分析图
根据设备厂家资料,各设备的RAMS指标如下表所示:
序号
设备名称
MTBF(H)
MTTR(H)
可用性
1
告警服务器
>100000
≤4
>99.995%
2
交换机
〉300000
≤2
>99。
999%
3
告警终端
〉50000
≤2
>99。
996%
系统可用性:
Rs>99.995%*99。
999%*99.996%>99。
99%
Rs=MTBF/(MTBF+MTTR)=>MTBF=(Rs*MTTR)/(1—Rs)
由上表可知,每个设备平均维护时间都小于等于4,所以系统平均维护时间按4小时算,系统的平均无故障时间>(99。
99%*4)/(1-99.99%)>30000
由以上计算可知,集中告警系统平均无故障时间大于30000小时,平均维护时间小于5小时,系统可用性大于等于99.99%