中国移动高铁问题管控平台功能数据硬件要求简析.docx
《中国移动高铁问题管控平台功能数据硬件要求简析.docx》由会员分享,可在线阅读,更多相关《中国移动高铁问题管控平台功能数据硬件要求简析.docx(11页珍藏版)》请在冰豆网上搜索。
中国移动高铁问题管控平台功能数据硬件要求简析
中国移动高铁问题管控平台功能、数据、硬件要求简析
一、高铁问题管控平台功能简介
高铁问题管控平台,从应用角度整体划分为三部分:
1.业务应用域:
提供面向支撑最终用户工作的日常分析、专题分析等业务应用;
2.平台能力域:
构建平台级基础能力,提供基础且可复用的公共模块、组件及服务,能够快速支撑业务应用的实现及交付;
3.系统管理域:
提供数据管理、应用安全等方面的系统自身管理支撑能力。
平台整体业务架构如下图:
图1.高铁问题管控平台应用架构图
1、业务应用:
(1)管理监控:
为集团和各省提供高铁计划执行、月度分析、问题改进和专项工作的分析报告。
(2)展现:
提供固化业务分析模型的主题分析,预定义模版的固化报表,自动化的日/周/月分析报告,分角色信息聚合呈现的概览视图等手段,对日常例行类分析工作提供数据分析支撑。
(3)问题分析:
通过问题分析能力提供规划建设维护问题、无线网络问题、业务问题和精细化场景问题。
(4)专题分析:
通过专题分析能力(比如:
复兴号、对比分析等专题),为高铁问题的专项工作、热点工作提供数据分析支撑。
(5)自动分析:
通过自动分析能力对问题不断挖掘,判断问题原因和自动发现异常波动,为解决问题提供参考,并能够及时发现萌芽阶段的问题。
(6)实时应用:
通过提供实时统计分析等能力提供分钟级的指标分析,为及时发现隐形故障等提供数据分析支撑。
2、平台能力:
(1)自定义分析功能:
Ø自定义分析:
通过自定义报表、自定义报告、自定义流程、指标导航、指标管理、信息推送等复用组件,为业务应用的管理监控、展现、问题分析、专题分析和自动分析等应用提供基础支撑能力,同时为用户提供灵活的在线自定义分析能力。
ØOLAP多维分析:
通过OLAP分析能力,提供固化业务模型的在线多维分析能力,能够支持数据灵活的钻取分析、钻透分析、旋转分析、切片分析等。
(2)实时处理平台:
通过流式引擎、实时指标计算等的基础技术能力,为实时应用类需求提供支撑。
(3)公共组件:
通过提供ETL、任务调度、数据质量、流式引擎、拓扑服务、GIS服务、搜索引擎、消息服务等公共服务,为管理监控、展现、问题分析、专题分析和自动分析等应用提供基础支撑。
Ø数据质量管理:
对高铁问题管控平台所管数据提供数据质量的闭环管理,能够支持数据质量问题(完整性、准确性、及时性等)的及时发现与呈现、提供问题的溯源分析与定位、提供问题处理与评估等。
3、系统管理:
(1)用户管理:
针对对不同角色用户提供不同的权限与帐户管理,实现用户角色定义与权限管理。
系统提供基于角色的授权机制,具有分级管理机制。
(2)安全管理:
主要包括提供系统安全性管理,包括主动防护和被动防护。
并对系统的主机、防火墙日志等进行监控,并及时解决安全问题。
(3)配置管理:
对数据平台级参数进行配置管理,可以方便、灵活地适应业务功能的扩展和系统环境的变化。
(4)日志管理:
为了能够全面审计人员在系统内的行为,保证能够有效地分析安全事件,准确地定位人员行为是否符合安全策略,系统将对身份认证、用户来源IP、身份鉴权信息、访问时间、访问路径、访问具体应用、以及具体访问数据内容(查询设置条件)等方面进行全面记录。
(5)系统监控:
通过对硬件资源的CPU、内存、网络和硬盘进行监控与分析,及时发现应用服务潜在的运行风险并且提前预防。
同时对数据库软件与计算软件的运行状态进行监控,尽早发现风险并解决。
基于高铁问题管控平台提供如下功能。
图2.高铁问题管控平台功能架构
二、高铁问题管控平台数据要求简介
高铁问题管控平台从其它系统获取数据,可分为6类:
资源类、记录类、性能类、事件类、测试类和工单类。
高铁问题管控平台一期至少满足对资源类、性能类、事件类和测试类数据的分析能力。
各类数据基本要求如下:
1.资源类数据包含铁路基础信息和覆盖铁路的网络信息两方面,一般由资源管理系统提供:
●铁路基础信息包含铁路轨道、车站和车次等信息。
●网络信息用于记录覆盖铁路轨道、车站等铁路相关的专网和公网的网络设备配置信息,包括LTE、GSM和TD三种制式。
2.记录类数据包含MR、XDR和终端信息,由大数据平台提供MR和XDR数据,终端信息则终端库提供:
●MR包含MRO、MRE和MRS三种,数据规范参考《中国移动TD-LTE_OMC-R测量报告技术要求规范0.3.0》定义。
●XDR指各种信令监测合成的过程数据。
●终端提供了终端属性和品牌、型号等信息。
3.性能类指高铁相关小区的性能指标,来自于话务网管、OMC或网优平台:
4.事件类指覆盖铁路区域的的告警信息,来自于OMC或告警与故障管理系统:
5.测试类包含路测和扫频:
●路测记录了终端侧采集到的铁路相关区域内的数据,路测数据包含事件、参数和指标三类。
●扫频主要记录了铁路相关区域内的LTE制式的网络配置和无线信号强度数据。
6.工单类包含投诉信息和EOMS工单,一般由用户投诉系统和EOMS系统过滤铁路相关区域内的数据并提供:
●投诉信息主要关注铁路相关区域的网络和业务质量,例如车站区域。
●EOMS主要关注铁路相关区域的网络和业务故障处理情况。
具体版本等详细信息见如下附件:
三、高铁问题管控平台硬件要求
中国移动高铁问题管控平台需要一系列硬件和软件的密切协同,为保证各个模块之间无缝集成和相互兼容,本节依据《高铁问题管控平台--技术规范V1.0.5(下发)》说明了高铁问题管控平台的硬件设备需要达到的要求。
1主机设备
本节主机设备主要指高铁问题管控平台及各数据集市中使用的关键性应用主机。
为保证系统高效率、高可靠性的运行,所选择的主机平台应该满足以下要求:
1)数据仓库软件可能采用传统数据仓库软件或MPP架构数据仓库软件,与之对应服务器需采用小型机或X86服务器硬件平台;应用服务器、ETL等服务器可采用X86架构服务器。
若条件允许应优先采用省内私有云平台。
2)数据仓库服务器如采用小型机,需考虑采用双机HA集群。
其它服务器采用物理机集群或虚拟机集群,I/O吞吐量高的应用(如ETL)应采用物理机集群,避免硬件I/O成为瓶颈。
3)多机集群系统中的每个主机都应同时处于工作状态,并根据配置的情况运行相同或者不同的应用(或应用模块),保证主机资源的充分利用;
4)在计算机硬件、操作系统、存储系统及应用系统业务进程出现故障时,能迅速响应并进行应用的切换;集群系统中,某一台计算机出现故障时,应不影响系统的正常使用;
5)主机应采用UNIX、LINUX、Windows等主流操作系统,并支持中文内码,支持中文字符集国家标准;
6)主机的处理能力要求满足所有业务的应用和一定客户规模的需求,而且需考虑全部系统的开销及应用切换时的性能余量;系统设计时应考虑30%的性能冗余;
7)主机正常运行状态下的内存利用率不应大于75%,保证系统在业务高峰时仍具有较强的抗冲击能力;
8)主机的硬盘、高速PCI插槽、网络接口、网络连接及电源均应考虑足够的冗余;
9)支持电源、I/O设备、存储设备的热插拔;
10)主机系统设备应具有适当的扩充能力,包括节点的扩充、CPU的扩充、内存容量的扩充及I/O能力的扩充等;并可支持CPU模块的升级;
11)主机系统应保证7×24小时不间断运行;
12)主机系统要求平均无故障连续工作时间(MTBF)不低于80000小时,主机系统故障平均恢复时间(MTTR)需小于2小时;
2网络设备
为保证网络的可靠运行,核心网络设备应该满足以下要求:
1)网络系统采用开放、标准的网络协议,在各种不同的通信资源子网上构筑统一的TCP/IP平台,主干网络采用千兆网络;
2)路由器产品必须符合通用的国际工业化标准,支持TCP/IP等标准协议及X.25等远程通信标准,支持OSPF(OpenShortestPathFirst,开放最短路径优先路由协议)、IS-IS(IntermediateSystemtoIntermediateSystemRoutingProtocol,中间系统到中间系统的路由选择协议)、RIP(RoutingInformationProtocol路由信息协议)和静态路由等路由协议;
3)核心交换机提供三层交换能力,能够实现负载均衡;
4)核心局域网应划分VLAN,由核心交换机实现网段间路由;
5)支持SNMP(SimpleNetworkManagementProtocol,简单网络管理协议)和SNMPv2协议;
6)防火墙可以采用主机加防火墙软件或专用的防火墙设备,应满足下列要求:
支持动态和静态的内部网与外部网之间的地址转换、映射;
能有效地实现内部网到外部网的单向访问控制,可以禁止外部网对内部网的访问;
能侦测、过滤或跟踪非法访问企图,能自动实时告警,并生成相应日志记录;
能对常用的服务(例如WWW、e-mail、FTP、Telnet、Rlogin等)的访问权限进行有效控制和管理;能对经过防火墙的网络流量进行统计和管理,并定期生成相应报告文件。
7)网络设备与网络链路应有冗余备份功能,网络可通过对多种网络设备的配置组成多路由,以防止设备或网络链路出现故障后系统无法正常工作;
8)核心交换机及中心路由器应采用高可靠的设备,具备背板冗余功能,系统板、关键I/O板、电源、风扇等考虑冗余,并可热插拔;
9)网络设备的配置端口总数应该满足应用和用户规模的要求,并保留约35%的余量;
10)网络设备应保证7×24小时不间断运行;
11)网络系统应具备足够的带宽和处理能力,不造成应用系统的“瓶颈”;
12)接入交换机采用STP(spaningtreeprotocol)协议,同时连接到两台核心交换机上,避免单节点故障;
13)主干网络设备的端口配置应至少保证30%的可扩展能力。
3.存储设备
存储周期要求
数据分类
存储周期
数据仓库层
维度汇总数据
365天
基础明细数据层
大数据明细存储
35天
传统数据存储
35天
原始数据缓存
原始采集文件(含原始信令数据)
15天
磁盘阵列要求
存储设备的选择与数据库软件及硬件的选择相关。
若数据仓库选用传统数据库软件,并部署在小型机上,则存储设备选择磁盘阵列。
磁盘阵列设备是系统中数据联机存储的关键资源。
为保证企业数据安全、高效的运行,磁盘阵列设备须满足以下技术要求:
1)磁盘阵列设备要求具备高安全可靠性;
2)磁盘阵列设备应可与多种厂家的主机系统相连;
3)磁盘阵列应能满足集群系统的需要;
4)磁盘阵列应采用ULTRASCSI接口或FC-AL接口,支持RAID0、1、0+1、3、8,并可提供多通道、双电源及冗余风扇;
5)磁盘阵列设备应具有较强的平滑扩充能力,包括系统存储容量的扩充及I/O能力的扩充等;
6)磁盘阵列应支持先进的存储、备份方式,例如支持存储区域网(SAN)技术等;
7)磁盘阵列应支持电源、磁盘等的热插拔要求。
分布式存储要求
分布式存储通过分布式软件技术,将多个存储节点上的计算、存储资源进行整合,形成统一存储与计算资源池。
●具备横向扩展能力。
通过标准的以太网络将大量基于通用x86架构的存储节点整合起来,支持PB级规模存储子系统构建,并对外形成统一的逻辑视图。
每个节点都拥有独立的CPU、内存、硬盘,每增加一个存储节点,系统的性能、容量、处理能力随之线性增长。
●具备多层级数据保护能力。
分布式存储采用多级可靠性标准进行设计,大量易损组件采用全冗余设计,有效的提高系统的可靠性,包括:
1)硬件可靠性:
电源1+1冗余设计,风扇智能调速
2)节点级数据保护:
在存储节点内部,采用RAID技术对数据进行保护,确保单盘故障数据不丢失。
3)网络级数据保护:
分布式存储设备之间网络采用冗余方式,任何一个网络端口、网络链路发生故障,系统可用性不受影响。
网络交换模块(或网络设备组件)采用全冗余方式(如:
端口绑定、堆叠、双控等技术),确保任何一个网络设备/网络设备组件发生故障,系统可用性不受影响,保证在业务和数据在网络层面不受影响。
4)系统级数据保护:
通过将数据切割成相对较小的数据对象(例如,一条数据库记录、一条话单或一条日志就是一个对象),并将这些数据对象在不同存储节点上同时存储多份,支持冗余系数按需调整。
5)数据快速自愈:
当系统中某节点发生故障后,系统自动的检测故障并启动数据修复。
整个过程无需人工干预,且对上层业务完全透明,不会导致任何的业务中断和数据丢失。
●具备并行数据处理能力。
分布式数据库方案采用并行处理技术,在执行查询、统计任务时先对任务进行优化,然后选择系统中的某些节点执行查询任务,最后汇总任务执行结果。
这样通过多个存储节点进行并行的数据写入和数据查询,利用多个节点的计算、存储能力快速完成写入、查询、统计、分析等任务。
具备数据生命周期管理能力。
分布式存储应支持基于策略的数据生命周期管理,能够设置基于时间的数据冗余策略、数据压缩策略、数据淘汰策略。
数据压缩对应用透明,不改变原有的数据访问方式。
提供标准的SQL接口
兼容SQL-92接口规范,提供JDBC、ODBC驱动。
其他详情见附件: