电信运营商行业中国移动省级数据共享平台功能规范05.docx
《电信运营商行业中国移动省级数据共享平台功能规范05.docx》由会员分享,可在线阅读,更多相关《电信运营商行业中国移动省级数据共享平台功能规范05.docx(27页珍藏版)》请在冰豆网上搜索。
![电信运营商行业中国移动省级数据共享平台功能规范05.docx](https://file1.bdocx.com/fileroot1/2023-2/24/95d7b7fd-6c3c-48b6-8167-7f8d25d9dec8/95d7b7fd-6c3c-48b6-8167-7f8d25d9dec81.gif)
电信运营商行业中国移动省级数据共享平台功能规范05
中国移动通信企业标准
QB-×××-×××-××××
中国移动省级网络数据共享平台功能规范
2021-04-XX发布2021-XX-XX实施
中国移动通信有限公司发布
前言
1范围
本规范给出了中国移动省级网络数据共享平台的功能与管理要求,适用于中国移动省级网络数据共享平台,旨在保障省级数据共享规范化。
本规范描述的接口、数据源和数据模型等均以实际系统对接为准。
2规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。
凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。
凡是不注日期的引用文件,其最新版本适用于本标准。
标准名称
发布单位
[1]
OMC系统功能规范
中国移动通信集团公司
[2]
OMC系统通用技术规范
中国移动通信集团公司
[3]
OMC系统北向接口数据规范
中国移动通信集团公司
[4]
OMC系统北向接口通用技术规范
中国移动通信集团公司
[5]
《中国移动5G上网日志留存系统技术规范》
中国移动通信集团公司
[6]
《网管系统通用技术规范》
中国移动通信集团公司
[7]
《中国移动网络数据安全管理办法》
中国移动通信集团公司
3术语、定义和缩略语
下列术语、定义和缩略语适用于本标准:
英文缩写
中文解释
OMC
全称“Operations&MaintenanceCenter”,操作维护中心。
Kafka
一种高吞吐量的分布式消息队列系统,提供消息发布、订阅、存储、分发等功能。
FTP
全称“FileTransferProtocol”,是用于在网络上进行文件传输的一套标准协议。
SFTP
全称“SecureFileTransferProtol”,一种广泛使用的安全文件传输协议。
SDTP
全称“SharedDataTransferProtocol”,一种广泛使用的共享数据传输协议。
RESTful
全称“RepresentationalStateTransfer”,是一种网络应用程序的设计风格和开发方式,基于HTTP,可以使用XML格式定义或JSON格式定义。
SNMP
全称“SimpleNetworkManagementProtocol”,是一种简单网络管理协议。
Corba
全称“CommonObjectRequestBrokerArchitecture”,是对象管理组织(OMG)为解决分布式处理环境(DCE)中,硬件和软件系统的互连而提出的一种解决方案。
MML
全称“man-machinelanguage”,用于程控交换系统的操作、维护、安装和验收测试,是操作维护人员和各种类型的程控交换系统对话的标准语言。
JDBC
全称“JavaDatabaseConnectivity”,是Java语言中用来规范客户端程序如何来访问数据库的应用程序接口,提供了诸如查询和更新数据库中数据的方法。
Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以开发分布式程序,充分利用集群进行高速运算和存储。
Spark
Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架。
Flink
ApacheFlink是由Apache软件基金会开发的开源流处理框架。
MPP
全称“MassiveParallelProcessor”,是一种大量通用微处理器构成的多处理机系统,适合多指令流并行数据流处理。
RMDB
全称“RelationalDatabaseManagementSystem”,是采用关系模型来组织数据的数据库。
Hive
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
HBase
HBase是一个分布式的、面向列的开源数据库。
Redis
是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型Key-Value数据库。
MySQL
MySQL是一个关系型数据库管理系统。
NoSQL
泛指非关系型的数据库。
PostgresDB
是一种开源的关系型数据库管理系统(ORDBMS)。
HDFS
一种适合运行在通用硬件(commodityhardware)上的分布式文件系统(DistributedFileSystem)。
KQI
全称“KeyQualityIndicator”,即关键质量指标。
SLA
全称“ServiceLevelAgreement”,服务级别协议是指服务提供方与用户之间就服务的品质、水准、性能等方面所达成的双方共同认可的协议或契约。
SLI
全称“servicelevelindicator”,是经过仔细定义的针对服务水平的测量指标。
SLO
全称“servicelevelobjective”,服务等级目标指定了服务所提供功能的一种期望状态,SLO是用SLI来描述的。
DevOps
DevOps(Development和Operations的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。
核心是通过自动化软件研发交付运维的流程,使得构建、测试、发布软件能够更加地快捷、频繁和可靠,软件的运行质量得到提升。
OLAP
一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
数据资产
由企业拥有或者控制的能够为企业带来业务价值的数据资源。
并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。
元数据
元数据(Metadata),即描述数据的数据(dataaboutdata),主要是描述数据属性(property)的信息,用以支撑各项数据管理功能。
数据模型
数据模型(DataModel)是数据特征的抽象,描述了数据结构、数据操作和数据约束。
4总体说明
4.1系统建设目标
为避免各省O域系统出现数据重复采集、数据割裂、数据共享难等问题,参考集团最新网管规划,各省公司应部署具备能力数字化、服务自助化、运维自动化等特性的省级网络数据共享平台,其主要目标是面向省内O域各网管系统提供统一的数据采集、存储、处理、共享和管理能力,并集中响应域外系统对O域数据的需求。
未来省内O域各网管系统应逐步通过省级数据共享平台使用各类网管原始及明细数据,尽量避免直接通过底层网元单独获取。
4.2系统建设原则
省级数据共享平台的建设建议采用“应用驱动、架构先行、统筹规划、分步实施”的原则,逐步推广基于数据共享平台的网管系统规划建设模式,逐步扩展数据接入范围,逐步扩展数据应用范围,提升网管数据服务的集中度。
●构建原则:
统一规划数据采集、存储、关联、管理、共享等环节,科学、合理制定各类数据服务标准及规范,实现O域数据逐步整合,并由数据共享平台进行数据拉通。
●接入原则:
基础数据层和轻度汇总层数据,通过接入数据共享平台,对O域各网管系统提供数据。
●质量保障原则:
谁采集处理谁保障,数据共享平台保障经过平台前后的数据完整性和及时性。
●数据处理原则:
通过数据共享平台进行各类数据作业。
●共享开放原则:
分权分域进行按需数据订阅与共享。
4.3系统功能架构参考
图1-1系统功能架构示意图
4.4系统技术能力要求
数据共享平台应实现数据采集、数据处理、数据共享、数据管理、数据应用等基本业务功能,并实现系统自身的管理和运营等功能,其应具备的主要技术特性如下:
●l多种数据来源接入能力
●l多样化的数据共享接口
●l符合业务需求的数据传递能力
●l高效数据存储
●l数据处理管道端到端可扩展
●l可靠的服务SLA保障机制
●l具备高可靠性设计
●全面严格的安全合规管理
4.5与外部系统关系
数据共享平台与其他主要相关系统的关系如下:
●4A:
提供用户的第一层访问认证授权,提供金库模式等;
●OMC:
数据源;
●其他网管系统:
数据源或数据消费方。
5数据统一采集
5.1采集范围
(1)数据共享平台的采集范围应覆盖全部O域数据,实现全专业、全业务的资源、告警、性能、巡检、日志、DPI、拨测、开通工单、故障工单、投诉工单、客户满意度等数据的汇聚融通;
(2)大区核心网与网络云日志由大区所在省数据共享平台采集;
(3)无线专业MR/MDT等数据,由总部分布式系统基于省内前置服务器统一采集共享,各省不再单独采集,原始数据不出省;
(4)对于暂时无法由数据共享平台直接进行数据采集的数据源,可根据实际情况由相关系统分别进行数据采集,将数据传递至数据共享平台实现统一共享。
5.2数据采集接口
(1)能够支持主流的数据采集与传输接口,包括但不限于FTP/SFTP/SDTP采集、SNMP/Socket采集、Restful接口、Kafka流式接口、Corba接口、MML接口、JDBC、Webservice接口等。
(2)针对不同的接口类型和数据类型,设计合理的采集解析存储技术栈,原则上,技术组件类型应尽量收敛、通用。
5.3数据源信息管理
(1)能够实现对采集所需数据源信息的集中管理,管理范围包括影响到数据源采集的全部相关信息,提供标准API供采集任务获取相关信息;
(2)针对OMC系统数据源的基本信息管理要求包括:
●数据共享平台应集中记录和维护采集任务所需的OMC数据源的各项信息,如OMC规范版本管理、采集地址、账号、口令等管理内容,具体可参考下附文档;
●各OMC维护方需提前评估各类工程对OMC数据源造成的影响,一般应在数据源变更发生两周前,将影响到数据采集的数据源变更信息和工程计划信息以消息订阅的方式在数据共享平台及时发布;OMC数据源工程实施前后应将工程启动及完成情况、数据源信息变更完成情况等以消息订阅的方式在数据共享平台及时发布;
●各OMC数据采集方可向数据共享平台订阅获取各自开展采集所需的数据源最新信息和各类工程信息,实现采集任务的随需调度和正确执行;
●支持和总部数据共享平台建立OMC数据源信息同步;
(3)各类数据源帐号、密码等敏感信息必须加密存储和传递;应在日志中剔除、规避或加密、匿名化处理明文数据源账户、密码等敏感信息;
(4)采集任务不得输出解密后的数据源信息,务必杜绝人员对敏感信息的读取。
5.4数据接入
5.4.1OMC数据采集
(1)支持现网OMC系统FTP/SFTP、SNMP、Corba、Socket等接口的数据采集、解析、入库;
(2)具备插件化采集管理能力,支撑各采集插件独立部署、独立运行、独立升级;
5.4.2其他网管系统数据采集
(1)能够通过业界标准的数据传输协议采集各类网管、应用、外部系统的数据,如Kafka、JDBC、文件、RestAPI、FTP/SFTP、SDTP、MML、Corba、SNMP等,原则上应尽量降低对端系统的开发工作,采集性能需符合业务需求。
5.5采集管理
(1)具备对所有采集作业的在线配置、变更能力,支持采集作业审批,采集作业可自动调度执行;具备对各类数据源的漏采、补采管控能力;
(2)数据采集环节的相关安全要求需参考“数据统一管理”部分“数据安全管理”相关章节。
(3)数据采集环节的相关运维监控要求需参考“系统管理与运营要求”部分“数据采集业务监控分析”章节;
6数据统一存储
6.1数据存储能力
(1)技术选型可参考业界先进技术框架,例如Hadoop、Spark、Flink、MPP、Kafka、主流RMDB(如Mysql、PostgresDB)、Hive、Hbase、Redis、NoSQL数据库等,支撑多样化的业务需求;如存在满足业务各项要求的国产化同类产品,应优先选择;
(2)具备基本的容错和冗余能力,保证整个系统无单点故障,在遇到一定限度的硬件、软件的故障情况下可继续运行服务,并具有基本的自动化故障切换和自愈功能;
(3)针对数据存储集群,可保证一定范围内的数据节点故障不影响数据服务的正常运行,无数据丢失。
6.2存储管理
(1)数据存储环节涉及的安全要求需参考“数据统一管理”部分“数据安全管理”相关章节;
(2)数据存储环节的相关运维监控要求需参考“系统管理与运营要求”部分“数据存储业务监控分析”章节;
(3)具备数据生命周期管理能力,能够根据数据业务特征和应用需求优化存储结构;可统计、分析、管控在线数据规模,提高生产数据访问效率,减少系统资源浪费。
7数据统一处理
7.1数据处理能力
(1)系统具备消息处理、流处理、批处理等大数据处理能力,优先以实时计算方式处理数据;
(2)技术选型可参考业界先进的技术框架,如Hadoop、Spark、Flink、MPP、Kafka、主流RMDB(如Mysql、PostgresDB)、Hive、Hbase、Redis、NoSQL等;如存在满足业务各项要求的国产化同类产品,应优先选择。
(3)根据业务需求可配置机器学习/AI算法库,并可对接平台数据开展分析处理;
7.2数据处理实施
7.2.1数据处理管道设计
(1)具备集成开发界面,支持用户完成数据处理管道以及运行作业的全部设计工作;提供数据处理脚本编辑和图形化数据处理编排功能,支持常用编排算子(过滤、分组、连接、剃重、路由、合并、联合等);
(2)用户可自行组合选择平台的数据目录资产及数据处理能力,以适当的程序逻辑连接各处理环节,支持实时计算、流处理、批处理和算法等各类任务的混编工作流,设计形成数据处理管道,并提出数据处理管道的资源需求和相应数据处理作业的运行方式;
(3)支持数据处理管道设计结果的编辑和重用;
(4)提供与生产环境隔离的开发/测试环境以及测试数据集,支撑数据处理管道各环节及整体作业的研发测试;
(5)可分析数据处理管道的资源需求,并向平台运营方提出资源申请审批,平台运营方可在系统内完成审批;
(6)数据处理管道最终输出的数据应注册为平台的数据目录资产(参见“数据统一管理”部分“数据目录资产管理”等相关章节);
(7)可分析数据处理管道中所需数据的访问授权情况,自动列举未授权数据,方便用户提出数据订阅审批工单(参见“数据订阅”章节);
(8)数据处理管道的设计、开发、构建、测试、发布、部署等研发流程应具有系统化自动化的支撑,支持用户以自服务的方式开展各类数据应用的研发运维工作。
7.2.2数据处理管道实例化
(1)基于平台自有IaaS资源,具备系统自动化的数据处理管道实例化交付能力,完成实例集群生成、帐号配置、数据对接等工作;
(2)实例化前,系统自动判断对应数据处理管道对资源使用、数据访问的合法性,杜绝非法应用;
(3)平台确保不同数据处理管道的运行互相隔离,任一数据处理管道的作业运行不影响其他数据管道的作业执行;
(4)支持对实例化的数据处理管道各环节的扩缩容功能;支持实现各环节输出数据的查询报表。
7.2.3数据处理管道及作业管理
(1)用户负责自有数据处理管道上的作业任务的加载和调度;
(2)具备图形化、模板化的数据处理作业配置管理,支持作业代码脚本管理,支持不同周期类型的作业任务,包括分钟、小时、日、周、月、年;
(3)提供图形化任务依赖配置管理,具备多种依赖类型,包括时间依赖、任务依赖以及用于外部触发的外部依赖的配置管理。
(4)数据处理环节涉及的相关安全要求需参考“数据统一管理”部分“数据安全管理”章节。
(5)数据处理环节的相关运维监控要求需参考“系统管理与运营要求”部分“数据处理业务监控分析”章节;
8数据统一共享
8.1数据目录资产
数据目录资产是数据平台上面向数据共享服务的标准化数据产品,用户在服务订阅过程中,选定数据目录资产及其共享方式,从而获得数据共享服务。
数据目录资产管理相关具体内容请见本规范9.6节。
8.2数据订阅
(1)数据目录资产支撑标准化、数字化、自服务的数据订阅,除非必要无需人工干预;
(2)用户通过数据目录资产地图功能,查询定位所需数据目录资产,选定数据共享服务的SLO,并发起数据共享审核;用户也可以在数据处理管道设计环节,预选需要的数据目录资产并选定数据共享服务的SLO,在完成设计后发起数据共享审核;
(3)审批人审核数据订阅工单,数据共享平台获取审核状态,并在系统中呈现完整的审批流程;
(4)审批完成后数据订阅立即生效,系统可自动生成相关的口令帐号等必要信息并发送给用户,除非必要无需其他的人工作业;
8.3数据共享
(1)系统应安全、合规、便利的共享数据目录资产,数据共享方式可包括:
实时数据共享、数据服务(API)共享、批量文件共享等。
基于数据共享平台的实现方式,需提供丰富的数据共享接口;
(2)数据共享接口可参考业界主流实现方式,例如通过消息队列、文件、数据库或标准化自定义API等方式实现;
●实时数据共享:
支持Kafka等主流消息队列,支持实时或流式的数据共享,应用于故障告警数据、工单数据、性能数据等实时类数据;
●批量文件共享:
可参考主流技术框架实现文件形式的非实时类数据共享;
●数据库接口:
支持用户通过JDBC等数据库接口实现小规模、低频率、低并发的数据自主查询;
●数据服务API:
支持通过RestAPI接口等方式共享数据,例如,可通过get/post等标准格式发送数据请求,获得JSON返回数据结果;支持用户根据数据目录,自定义生成数据共享API;支持标准化的API快速开发和封装应用;支持对接统一API网关;支持自定义API的认证、发布、订阅、审核、流控、计量等管理流程;
(3)系统应提供多租户的数据共享和应用模式,基于系统的数据开发能力提供PAAS服务,支撑上层网管应用入驻平台设计、开发、实现定制化的数据处理管道,完成数据加工;支撑网络运维人员实现自主研发;
(4)数据共享服务和平台内的数据处理管道良好解耦,数据共享服务能力可按需独立扩展升级,不得影响平台内的数据处理管道;
(5)数据共享环节的安全要求请参考“数据统一管理”部分“数据安全管理”相关章节。
8.4共享数据SLO管理
8.4.1SLI体系
(1)按照实际业务需求,设计实现共享数据目录资产的SLI体系,包括性能、可用性、数据质量等类型。
●性能:
可包括时延、吞吐量、并发支持等;
●可用性:
可包括运行时间、无故障运行时间、故障频率、响应时间、修复时间、修复率等;
●数据质量:
参见“数据质量管理”章节;
(2)SLI指标具有目标参照值和实际值,实际值应根据系统运行情况自动实时更新;
8.4.2SLO管理
(1)对所有数据目录资产的各类数据共享服务均应基于SLI体系建立不同的SLO标准供用户选择,数据共享基于SLO提供服务;
(2)用户订阅服务时需选定具体的SLO;
(3)如果已建立的SLO最高等级仍不满足用户合理需求,系统需具备升级保障能力;
(4)数据共享环节的相关运维监控要求需参考“系统管理与运营要求”部分“数据共享业务监控分析”章节;
8.5测试数据集
(1)系统应为所有数据目录资产建设测试数据集;
(2)测试数据集的数据应基于真实数据脱敏,不得含有《中国移动大数据安全管控分类分级实施指南》中定义的敏感级及以上的未脱敏数据,在此前提下,尽量体现现网数据的统计特征;
(3)测试数据集支持对应数据目录资产的所有共享方式,并可模拟数据目录资产的生成周期动态共享;
(4)用户可以通过自服务的方式实现对测试数据的订阅,订阅审批在平台内完成,审批通过后订阅可即时生效。
8.6数据共享服务开发
(1)根据实际需求可应用DevOps开发平台框架,提供数据服务的可视化开发测试环境,实现持续集成、灰度发布部署等功能,方便完成各类数据的关联,实现数据共享服务的快速开发;
9数据统一管理
9.1数据质量管理
9.1.1管理原则
(1)结合各类网络数据规范和平台服务标准,建设网络数据质量管理体系,明确数据质量管理目标,定义数据质量检验规则,执行数据质量稽核任务,生成数据质量分析报告,监控并揭示数据质量问题,推动数据质量持续改进,实现数据质量闭环管理,有效保障数据的完整性、准确性、及时性、一致性以及合法性,降低数据管理成本,提升数据应用效益;
(2)数据共享平台重点保证共享端的数据质量,关注共享端的数据是否遭到损坏、丢失、篡改,以及数据的总体及时性、共享接口质量等;采集阶段(含采集、解析、入库等环节)的数据质量由采集方负责保障。
9.1.2数据质量标准体系
(1)建立数据全生命周期的数据质量关键指标(KQI)体系,针对数据采集、数据解析、数据入库以及处理加工各阶段的数据质量建立核查点和核查指标,数据质量KQI体系应覆盖到系统任何可访问数据;
(2)针对OMC数据源:
●采集阶段数据KQI包括不限于:
网络连通性、服务有效性、目录合规性、文件合规性、采集及时性等;
●解析阶段数据KQI包括不限于:
解析完整性、编码格式合规性、数据完整性等;
●入库阶段数据KQI包括不限于:
记录完整性、数据准确性、数据关联率、OMC版本统计等;
(3)针对其他网管系统数据接入,应基于数据接口规范、元数据和数据标准开展核查,构建相应的数据质量KQI;
(4)针对在数据共享平台处理过程中产生的各阶段数据,应基于元数据和数据规范与标准开展核查,构建相应的数据质量KQI;
(5)针对共享环节,应将数据总体及时性、共享接口响应成功率、接口时延等纳入数据质量KQI;
9.1.3数据质量核查分析
(1)具备计算数据质量标准体系各KQI所需数据的收集能力,原则上,KQI的计算过程应为独立的数据处理管道,支撑周期性的计算作业;
(2)提供数据核查规则配置功能;
(3)提供基于KQI的数据质量核查统计报表,能够展现数据KQI的实时值、历史值、多维统计值及变化趋势等;
(4)数据质量管理的相关运维监控要求需参考“系统管理与运营要求”部分“数据质量监控分析”章节;
9.2元数据管理
9.2.1数据标准管理
(1)建立完整的数据标准体系,包括但不限于数据模型名称标准、数据领域划分标准、数据分层标准、字段命名标准、字段类型标准、赋值标准等,支撑对各类数据的规范管理;
(2)提供数据标准定义发布、修改、删除、呈现、查询等功能,并维护数据标准历史版本;
(3)支持以模板方式导入导出数据标准;
(4)基于数据标准建立校验规则,提供标准开放接口,支持元数据管理、数据模型管理、数据目录资产管理等功能模块对数据标准规则的引用校验。
9.2.2元数据生成
(1)具备基本的元数据体系,包括但不限于:
●结构化数据的元数据模型定义能力:
主要包括业务模型(OLAP模型、维度、指标、度量、事件模型等)、逻辑模型(逻辑实体、逻辑属性等)以及物理模型(物理表、物理字段等)的建模定义能力;
●数据模型信息:
数据库表结构Schema信息等;
●数据实例信息:
数据的存储位置、读写记录、权限归属以及各类统计量率指标信息等;
●数据的血缘关系信息:
数据的上下游来源去向关系,可根据业务需求细化到字段级、库表级、目录级(文件/Log)等不同粒度的血缘关系;
●数据的业务属性信息:
业务描述、业务标签、业务归属、开发者信息、数据源、生成脚本及其版本管理(变更记录和原因等)、指标算法、数据质量等。
(2)具备元数据采集能力,支持从数据模型管理