山东政务信息系统整合共享工程大数据管理平台.docx

上传人:b****5 文档编号:3269948 上传时间:2022-11-21 格式:DOCX 页数:15 大小:29.18KB
下载 相关 举报
山东政务信息系统整合共享工程大数据管理平台.docx_第1页
第1页 / 共15页
山东政务信息系统整合共享工程大数据管理平台.docx_第2页
第2页 / 共15页
山东政务信息系统整合共享工程大数据管理平台.docx_第3页
第3页 / 共15页
山东政务信息系统整合共享工程大数据管理平台.docx_第4页
第4页 / 共15页
山东政务信息系统整合共享工程大数据管理平台.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

山东政务信息系统整合共享工程大数据管理平台.docx

《山东政务信息系统整合共享工程大数据管理平台.docx》由会员分享,可在线阅读,更多相关《山东政务信息系统整合共享工程大数据管理平台.docx(15页珍藏版)》请在冰豆网上搜索。

山东政务信息系统整合共享工程大数据管理平台.docx

山东政务信息系统整合共享工程大数据管理平台

山东省政务信息系统整合共享工程大数据管理平台

项目需求和技术方案要求

一、项目概况

(一)建设目标

通过大数据管理平台建设,建立统一的数据资源汇聚、数据治理、数据资源引擎和数据安全管理能力,实现大数据基础设施的集约共用和对全省政务信息资源的统筹管理和数据治理。

将现有“逻辑集中、物理分散”数据共享交换方式向数据实体集中存储管理方式转变,建立完善的数据安全管理体系,实现由数据“资源”向数据“资产”的提升。

(二)建设原则

1.开放性

平台应具备良好的开放性,提供开放接口便于和第三方系统对接或者基于该接口构建新的业务。

2.先进性

在设计理念和技术体系等方面需借鉴先进的互联网技术,确保应用系统架构满足未来业务发展需求。

3.扩展性

平台应具备规范的开发接口和高可扩展性,保证未来新的需求提出时可以方便地应用到现有系统中。

4.可维护性

平台应具备良好的维护性,方便今后的扩展应用和运行维护。

5.安全性

平台应具备高安全性,确保系统正常运行的同时防止政府内部数据泄露。

(三)建设周期

2个月。

(四)采购清单

序号

名称

单位

数量

技术要求

1

数据汇聚系统

1

具体要求见:

数据汇聚系统建设内容。

2

数据治理系统

1

具体要求见:

数据治理系统建设内容。

3

数据资源引擎

1

具体要求见:

数据资源引擎建设内容。

4

数据安全管理建设

1

具体要求见:

数据安全管理建设内容。

二、建设内容

2.1数据汇聚系统建设内容

数据汇聚平台支持通过图形化的操作方式,把不同系统来源、不同类型的数据汇聚到大数据平台,能够兼容以SHE(Spark、Hadoop、ElasticSearch)为首的大数据生态技术栈;并提供基础算子如关联、去重、过滤等完成数据转换。

可以通过机器学习实现多人协作开发,提供脚本开发,工作流开发环境,能够针对任务资源实现共享以提升实施效率,可以提供基于消息流和文本的实时采集能力;提供精细化的任务调度管理,便于查看每个任务具体的数据处理情况,实现数据汇聚和加工处理一站式开发管理。

2.1.1多源数据采集

1)支持离线数据采集,实现对各种主流数据库系统的支持,如Oracle、DB2、SQLServer、Sybase、InfoMix等主流数据库,MySQL、PostgreSQL等开源数据库,达梦、汉高、神通、GBase8t、KingBase、LibrA等国产数据库。

2)支持提供触发器、时间戳、全表对比、系统日志分析等多种数据增量采集方式。

3)支持大数据采集,实现HBase的输入输出转换组件,可连接的数据库类型支持HadoopHive,提供HadoopHDFS文件拷贝的任务组件。

4)支持实时数据采集,实现基于Flume+Kafka技术来采集流数据,能够接入HDFS、Hbase或Storm消费数据。

5)支持对FTP、SFTP、MONGODB文件服务器的文件采集,支持包括普通文本、CSV、XML、Excel等多种格式的文件。

2.1.2可视化的流程设计

1)支持ETL作业调度流程和转换流程,能够通过图形化界面设计ETL转换过程和作业,支持后台批量运行ETL转换。

2)支持200种以上的主流数据处理组件,包括数据文件采集组件,清洗组件,大数据组件等。

3)支持图形化拖拽方式进行任务编排,将多类有顺序或者依赖关系的任务能够串接起来。

同时提供任务流的管理能力。

2.1.3统一的任务调度

1)支持多种任务管理,包括批量采集任务、实时采集任务、数据流任务等,支持多种调度参数设置,可以根据业务分类或者组织分类进行任务流分类管理。

2)支持任务监控,能够实现可视化多角度的作业运行监控,包括总览全局的总体监控、明细型的计划监控和事件监控等。

3)支持任务流的调度管理:

支持人工触发执行,也支持周期性调度执行。

支持分钟、小时、天、月、年。

4)支持邮件报警,可配置报警规则,可通过邮件报警的方式通知责任人。

2.1.4多人协同作业

1)支持多账户管理:

创建、删除、权限管理,以及账户间的数据隔离。

2)支持多用户随时操作同一资源库中的流程,支持多人同时协同开发。

2.1.5集群化管理

1)支持平台分布式部署,通过分布式架构,可进行数据采集、处理节点的扩展,提高任务执行效率。

2)支持集群化管理,对所有节点进行统一管理。

3)支持ETL负载均衡,根据任务执行情况,合理调度任务的执行。

2.2数据治理系统建设内容

数据治理平台为政务数据资源提供集中的数据治理服务,支持元数据管理、数据标准管理、数据质量管理、数据资产管理、数据安全管理、数据服务管理、主数据管理以及全生命周期管理等,建设数据标准规范,支持元数据的血缘分析、影响分析和全链分析,提供数据资源的注册、审核、发布,对业务进行拆分和微服务化,支持对资源服务接口的快速封装,和对外多种方式提供数据资源,可以为用户提供一套完整的数据治理解决方案。

2.2.1工作台

1)数据治理平台提供代办事项工作台的快捷入口。

2)支持在工作台中实现标准配置、质量检核任务配置、任务监控、问题数据处理与分析、数据服务管理、数据源管理等功能。

3)支持从工作台中直接快捷进入各功能模块,支持图形化操作。

2.2.2元数据管理

1)数据治理平台支持OMGCommonWarehouseMetamodel(CWM)元数据标准,实现对业务元数据、技术元数据、管理元数据的统一管理和存储。

2)支持从数据采集系统、数据仓库、以及Oracle、mySql、MppDB等主流数据库中采集元数据、定义元数据采集频率。

3)支持元数据基本信息管理,如元数据的增加、删除、修改、技术元数据基本信息比对、版本比对。

4)支持基于元数据的分析,如分析继承关系、组合关系和依赖关系,数据血缘分析、数据影响分析等。

2.2.3数据标准管理

1)支持制定数据标准来防止数据用语的混乱使用,保障数据的正确性和准确性。

2)为数据质量规则检核提供标准支撑,数据标准包括数据元、数据集、代码集3个类别。

3)支持数据标准规则管理,支持数据标准的分类管理、目录分类、编码规则管理和标准审核等功能。

4)支持数据标准的配置、删除、修改、发布。

5)支持行业数据标准集成。

2.2.4数据质量管理

★1)支持对数据采集、数据存储、数据服务过程每个阶段数据质量的核查和管理能力;支持对数据资源库中的数据进行稽查。

2)支持从格式、构成、编码、内容等方面对数据提出质量要求;支持数据质量规则的配置、编辑、执行,包括数据比对、数据质量检核等规则的配置。

3)支持定制数据质量核验脚本,对数据进行人工检查与清洗。

4)支持对数质量问题进行处理管理,在平台中发起数据问题工单,并对质量问题处理工单进行过程管理。

5)支持在数据采集、数据整合、数据共享服务过程中质量规则的执行情况进行监测监督。

6)支持对数据质量检验、管理工作的处理结果进行统计分析,定期形成数据质量报告,数据质量报告中包括数据问题处理单数、问题数据比例、数据问题(一致性、准确性、完整性等)、质量问题原因、改进措施等。

2.2.5数据服务管理

1)支持数据资源服务的注册,审核、授权、发布、调用和监控等功能。

★2)支持快速接入新数据服务,方便用户与上层应用快速获取和使用数据,应包括:

服务管理、服务审核、订阅审核、服务监控、数据访问API快速发布与管理、用户管理、系统管理等内容。

3)提供数据资源目录,支持数据资源查看、下载、接口调用、数据调阅四种方式。

4)支持数据资源目录查找,按数据源和数据表查询,并能看到最近历史查询和我的查询记录等。

5)支持敏感数据确定和脱敏规则定义。

2.2.6调度中心

1)提供强大调度引擎支撑各种复杂的任务调度流程高效运行,能够为海量异构数据的校验和同步提供保障。

2)支持数据治理任务的统一调度管理与监控,应包括任务管理、任务监控和报警规则等功能。

3)支持数据治理任务的配置、修改、删除。

4)支持预警报警规则的设置,对数据治理过程中的执行错误、质量问题发出通知。

2.2.7消息中心

1)数据治理平台支持统一的消息机制。

2)支持数据治理任务导入后在后台运行。

3)支持监控后台运行任务的进度和执行结果,应包括:

消息类型、运行状态、操作人、开始时间范围等内容。

2.2.8数据资产管理

1)支持对数据资产进行全生命周期管理,支持在采集、整合、共享应用阶段中对数据资产监控的能力。

2)提供数据资产的统计分析和灵活查询能力,以及对数据的使用情况等进行查看和展现,应包括:

数据查询、数据网盘和数据地图等功能;通过查询功能方便政务数据申请者检索所需数据资源;通过数据网盘,方便用户对数据的储存共享分享;数据地图支持用户便捷的了解数据资源分布情况。

3)通过采集汇总数据资产的标签信息,对数据进行分类统计。

2.2.9基础配置

数据治理平台应提供基础配置功能,支持对整个系统的相关功能模块的基础性参数配置和管理,应包括:

1)支持数据源管理,通过对集成收集来的数据源配置信息和元数据进行分析,对数据源进行集中、分级管理。

2)支持建模设计,构建数据治理过程中所需的数据模型。

3)支持系统日志分析,监控任务运行状态跟踪、数据资源使用记录、数据安全等。

4)支持用户管理,对用户进行集中管理,实现用户角色、角色权限的管理。

2.2.10数据标准规范建设

在数据治理平台在开发实施过程中,需要根据数据治理建设目标、以及数据标准与规范的现状,制订一套适用于山东省政务业务的数据标准规范,并指导用户完善数据标准体系建设,规范各类政务数据的标准,提升省政务数据的整体质量。

2.2.11数据治理服务

在数据治理平台实施过程中,需要根据委办局的治理需求,提供端到端的数据治理服务,帮助委办局的数据产生者、数据使用者提升数据质量,对数据质量问题进行处理;并根据业务特性和行业标准规范,指导用户对数据进行标准化改造。

2.3数据资源引擎建设内容

2.3.1数据资源管理

1)支持大规模集群的安装部署、性能监控、告警、用户管理、权限管理、服务管理、日志采集、升级和补丁等功能。

2)支持基于分层解耦的多层架构,解决了海量节点的管控问题。

3)支持多种类型的北向能力,并且有能力快速支持未来出现的北向接口需求,确保平台有机融入用户管理系统。

4)支持按照不同的组织结构,操作权限和数据权限等创建不同的角色,实现灵活配置;

5)可实现一个用户只属于一个用户组或拥有多个角色及多个权限,可实现集成用户组的用色和权限控制。

6)所有的维护人员凭借有效的帐号和正确的密码登录ETL系统。

7)所有用户在进行对作业的各种操作室,进行认证鉴权是否有相应的操作权限。

8)日志管理功能记录管理平台自身运行情况、管理员和用户的操作情况。

9)具备故障告警、上报等功能。

10)支持向导式备份任务管理,把集群中元数据与业务数据备份到另一个集群。

11)数据资源引擎需为国产化商用产品,可提供本地化原厂服务能力。

2.3.2批量数据采集

1)支持实时采集流式数据,针对Socket流或者日志文件等的数据实时采集,可以实现数据准实时同步,保证数据的一致性,将实时数据同步到相关数据库中。

2)支持采集批量数据,实现与关系型数据库、ftp文件服务器之间数据批量导入/导出工具;同时提供任务调度接口,供第三方调度平台调用。

3)支持对Redis操作按照读取、写入、管理进行细分的权限控制,不同的用户赋予不同的权限,避免越权的操作,redis组件支持Redis集群异常告警,包括集群下线告警、持久化失败告警、槽位分布不均告警、主备倒换事件、集群高可靠性受损告警。

2.3.3批量数据存储

1)提供行列存储、数据压缩、横向扩容,兼容SQL扩展,采用多级数据保护机制,支持数百节点、PB级数据的稳定运行,可以对单表百亿条的数据进行分析,实现实时计算处理能力。

2)支持对冷热数据分级存储,自适应压缩算法,可以根据不同的数据分布方式和数据类型自动选择最优算法,并且基于数据结构相同的列存储技术,最高可达1:

20压缩比。

3)支持将现有数据库中的多个具有相似功能或者存在业务关联的数据表聚簇到一个大表中,从存储层面确保在关键场景下的跨表关联查询的高性能。

4)支持集群内硬件设备跨代兼容,支持不同配置的硬件设备,可均衡利用资源,保护投资,并且支持在线扩容:

扩容过程中支持数据增、删、改、查,及主流DDL操作(Drop/Truncate/Altertable)。

5)后期版本升级2小时内完成。

2.3.4数据展示主题实施

根据大数据分析展示要求,设计并开发指标体系,设计并开发展示元素和布局效果等,实现3个主题呈现。

2.4数据安全管理建设内容

数据安全管理系统支持在数据的采集、存储、使用、分享等整个生命周期中的安全性和保密性。

在数据采集汇聚过程中进行数据传输加密;对存储在资源池中的重要数据进行加密管理,并对数据访问者进行身份认证与访问授权控制,并对数据访问进行日志记录与审计;在数据共享前,对敏感数据进行脱敏和溯源处理,确保数据隐私保护。

2.4.1数据加密

1)支持数据的传输加密、存储加密,支持保障数据在采集、汇聚环节的传输安全。

2)支持在统一密钥管理的基础上,对数据存储采用列、表级别的加密。

3)支持对称密钥、非对称密钥、数字证书和认证令牌等多种加密对象的统一管理,支持KMIP协议。

2.4.2数据访问授权管理

1)支持对访问大数据资源池的数据等实体进行细粒度的身份认证及授权访问控制。

2)对不同的业务租户采用实例级资源隔离。

3)支持认证、访问控制和权限授权等功能。

4)支持基于角色的权限管理模型,不同用户有不同访问权限。

2.4.3数据脱敏

1)支持敏感信息自动发现能力,通过灵活的规则配置方式,包括字段信息匹配、数据信息匹配来自动探测数据库敏感信息字段,可以扩展任意的敏感字段范围,不受限制。

2)支持丰富的脱敏处理算法。

2.4.4数据安全审计

1)系统支持监控、日志、审计与告警等安全预防措施。

2)重要的系统操作(如系统配置文件修改,操作员维护等)均被记录日志,数据应用日志被安全存储,防止被删除或随意篡改。

3)包括数据审计引擎及管理后台软件、策略管理、告警管理、权限管理、系统日志、系统配置。

三、建设要求

3.1技术要求

3.1.1数据汇聚系统

1)支持国内外主流的关系型数据库,包括:

Oracle、DB2、Teradata、SQLServer、Sybase、Informix、Mysql、PostgreSQL、Greenplum、Netezza、Vertica、Teradata、KingbaseES、Gbase、DM、神通数据库等。

2)支持消息传输通道(Kafka输入,Kafka输出)、大数据搜索引擎组件(ElasticSearch输入、ElasticSearch输出)等。

3)支持大数据存储和访问,支持大数据环境的数据采集。

支持MongoDB、HBase等主流大数据数据库等,支持大数据存储载体Hadoop,适配Apache开源大数据平台。

4)支持全量同步,增量同步等多种模式抽取数据,增量同步涵盖触发器、标识位、时间戳、全量比对、基于数据库日志等方式。

基于数据库日志的增量采集支持Oracle、MYSQL、MSSQL三类主流数据库,与数据源的数据存储结构无关。

5)支持兼容HadoopSqoop,支持基于Sqoop的数据迁移能力。

6)支持Flume实时采集日志信息,高可用的,高可靠的,分布式的海量日志采集、聚合和传输,支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(kafka)的能力。

7)支持Load模式写入Oracle、PostgreSQL、MPPDB、Greenplum等数据源。

8)支持强大的调度引擎,支撑各种复杂的任务调度流程的高效运行,为海量的异构数据集成提供保障。

支持关系型数据采集、大数据采集(Hbase采集)、文件数据采集、接口数据采集任务的统一管理和调度。

支持手动触发、计划任务触发以适应人工参与、自动化无人工干预的批量数据同步等多种场景。

计划任务触发支持通过依赖任务触发任务调度。

支持调度配置,支持配置分钟级、小时级、天级、周级、月级的策略,支持按需配置出任意的执行周期。

支持调度的路由策略配置,以满足资源的合理利用;支持任务的阻塞策略功能,以保障任务正常运行。

9)支持文件和数据断点续传:

支持G级别大小的文件断点续传,传输过程中网络中断后,在重新传输时,通过检测文件长度和断点位置,从断点处开始传输,可节省时间和其它资源。

10)支持可视化转换和作业监控调度:

在web可视化界面上统一调度ETL任务和实时采集任务,支持任务的启用、停止、立即执行和终止操作。

11)支持可视化任务监控:

以可视化界面监控任务运行详情、数据处理流程、任务执行日志、步骤度量和历史详情,并提供实时报警。

12)支持多用户协同配置数据集成流程,多人操作同一资源库不发生死锁现象。

13)系统必须部署在山东省电子政务云平台。

3.1.2数据治理系统

数据治理平台技术指标要求如下。

1)支持运行在X86架构的通用PC服务器上;支持运行在基于Power芯片的PowerLinux服务器上。

2)产品提供统一工作台,无需进行后台操作,可通过可视化的工作台集成环境,一站式完成所有工作。

提供操作导航,根据角色和权限,向导式指导用户使用系统。

3)支持元数据管理能力,支持独立的元数据模型管理,元数据模型支持基于OMGCommonWarehouseMetamodel(CWM)元数据协议标准管理。

4)支持基于CWM元数据标准实现对业务元数据、技术元数据、管理元数据的统一管理和存储。

5)支持采集国内外主流关系型数据库元数据,包括Oracle、DB2、SQLServer、MySql、PostgreSQL、LibrA、达梦数据库;支持采集基于开源ApacheHadoop的商业发行版大数据平台元数据,包括HDFS、HIVE、HBASE。

6)支持基于治理软件环境,以拖拽的方式实现表结构和表关系创建,支持快速获取数据库中已存在的表结构。

支持Oracle、DB2、SQLServer、MySql、PostgreSQL、LibrA、达梦数据库等数据存储的建模设计。

支持异构数据库之间表结构同步,快速构建数据模型。

7)全面兼容ETL技术,支持采集基于kettle以及其他至少一种商用ETL数据处理流程的元数据。

8)元数据分析:

提供影响分析、血缘分析、全链分析等功能,支持业务元数据和技术元数据关系自动解析,提供友好的图形展示分析功能。

9)支持元数据版本管理及版本对比,支持元数据关系的版本对比。

10)以元数据为核心,对外提供统一元数据接口,依据数据访问频率、数据引用情况、数据唯一性等进行智能识别,基于技术元数据的分类作为样本进行训练,智能驱动治理业务衔接,智能生成数据标准、质量标准、安全标准、服务标准。

11)智能生成数据元、数据集与技术元数据的关联关系。

支持针对数据元标准的规则配置,包括类型,长度,值域,正则表达式,数据范围。

支持数据元标准的版本管理。

12)编码规则:

可视化的编码规则设计,支持分段设计编码规则,数据元、数据集编码按照规则自动生成,无需手工填写。

13)通过识别技术元数据与业务元数据的关系,智能生成待治理表的质量规则,智能生成质量规则包括数据格式校验、值域校验、数据范围校验、正则表达式校验、空值校验。

14)支持根据质量规则,智能生成数据质量流程。

提供可视化图形界面,支持无需编码即可灵活、方便地定制出各种数据质量流程。

支持质量校验流程的在线调试及数据预览。

15)内置不少于13种数据校验组件,支持拖拽的方式快速构建各种数据校验流程化设计。

校验组件包括但不限于数据格式校验、数据范围校验、正则表达式、值域校验、字段值缺失、唯一性校验、记录数缺失、Switch/case、主外键一致性校验、字段值比对、精度校验、JavaScript、Java;支持校验规则的自定义,支持校验流程分支设计。

16)提供全量同步,增量同步等多种模式校验数据。

17)支持问题数据闭环流程处理:

问题数据综合治理,可通过邮件通知数据责任方,及时处理,已修复的问题数据将在下一次调度周期内重新校验。

18)探查和识别数据,可针对数据进行准确性、完整性、唯一性等类别进行自动识别,自动生成质量报告,提升数据管理水平。

19)支持对数据资产全生命周期管理,根据存储周期自动计算每一行数据的存储时限,自动根据存储时限进行数据归档。

20)支持主数据管理,定义主数据表,可配置多种条件查询主数据,并支持将主数据发布成服务。

21)支持多种视角对数据资产进行查看,可以查看到具体的表、数据以及数据的浏览和共享次数等。

具备数据查询、数据网盘、资产目录等功能。

22)支持数据地图功能,支持从宏观角度可视化查看各存储介质之间数据流向关系,支持从数仓分层到数据库的下钻及相关信息的展示,支持数据库逐层下钻。

23)提供强大、统一的调度引擎,支撑各种复杂的任务调度流程的高效运行,为海量的异构数据校验和数据同步提供保障。

24)支持手动触发、计划任务触发以适应人工参与、自动化无人干预的批量数据校验、同步等多种场景。

25)支持任务调度周期性配置,支持配置分钟级、小时级、天级、周级、月级的策略,支持按需配置出任意的执行周期。

针对所有任务配置时间和任务以往运行时长智能推荐用户任务调度周期,达到系统资源最优化,避免数据处理洪峰。

26)支持集群部署,支持集群环境并行处理任务,允许将任务部署在多台服务器上并发执行,从而将任务处理分摊到多台服务器上,提高数据处理效率。

27)调度采用中心式设计,调度中心基于集群Quartz实现,可保证调度中心的集群与负载的需求响应;

28)一致性:

调度中心保证集群分布式调度的一致性,一次任务调度只会触发一次执行;

29)邮件报警:

任务失败时支持邮件报警,支持配置多邮件地址群发报警邮件;

30)状态监控:

支持实时监控任务进度;支持在线查看调度结果,并且支持实时查看执行器输出的完整的执行日志,让系统分析人员能够快速分析校验任务的执行状态、执行成功、执行失败情况。

31)无需编码,快速灵活的接入第三方任务进行调度执行。

32)提供统一消息机制,智能生成任务,导入任务并在后台运行,无需等待,可监控后台运行任务的进度和执行结果。

33)支持将数据资源封装为服务,实现数据服务对外发布和共享。

基于微服务架构,提升数据服务开发效率,使服务注册,服务调用等操作简洁易用;服务接入规范、简单、灵活、可扩展,新的服务可以快速接入。

34)支持数据服务全生命周期管理,通过web界面即可完成数据服务接口的服务发布、审核、共享,无需编程人员开发代码。

35)支持数据服务目录编目管理,支持服务目录在线查阅,支持对服务授权管理。

支持从数据服务接口获取数据,在线下载,支持推送数据到配置的数据库中。

36)支持内嵌数据服务调试功能,可基于自定义的条件格式和数据内容调试服务接口。

37)支持基于最细粒度的数据共享接口:

最小数据单元,即信息项,比如身份证,姓名等。

以数据交换共享机制为依托,对信息项进行无条件共享和条件共享,以及不予共享。

38)支持数据脱敏:

规则配置简单易用,支持替换、截断、掩码、重排、日期偏移取整等脱敏规则的配置。

3.1.3接

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 英语

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1