智慧城市数字底座Word文档格式.docx

资源描述

智慧城市数字底座Word文档格式.docx

《智慧城市数字底座Word文档格式.docx》由会员分享，可在线阅读，更多相关《智慧城市数字底座Word文档格式.docx（30页珍藏版）》请在冰豆网上搜索。

智慧城市数字底座Word文档格式.docx

1.2

实时数据采集Flume

Flume实现高可用的，高可靠的，分布式的海量日志采集、聚合和传输，支持在日志系统中定制各类数据发送方，用于收集数据；

同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

1.3

分布式消息队列Kafka

Kafka提供分布式、分区化、多副本的消息发布-订阅系统，具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性，适用于离线和在线的消息消费。

大数据资源存储子系统

采用分布式文件系统实现对汇聚的多类型海量数据的存储，包括并行数据库、分布式数据库Hbase和全文检索组件Solr

2.1

并行数据库

采用MPP（MassiveParallelProcessing）架构，支持行存储和列存储，解决海量结构化数据处理问题，处理PB级海量结构化数据存储和分析。

业务数据被分散存储在多个物理节点上，数据分析任务被推送到数据所在位置就近执行，通过控制模块的协调，并行地完成大规模的数据处理工作，实现对数据处理的快速响应。

2.2

分布式数据库HBase

HBase提供开源的、面向列、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。

2.3

全文检索组件Solr

Solr提供类似于REST的HTTP/XML和JSON的API，主要功能包括全文检索，高亮显示，层面搜索，近实时索引，动态聚类，数据库整合，丰富的文档。

大数据分析计算子系统

提供对海量数据汇总后的多种数据并行处理框架，包括：

分布式批处理引擎MapReduce、分布式内存计算引擎Spark、流处理计算引擎Storm、数据仓储组件Hive

3.1

分布式批处理引擎MapReduce

MapReduce用于大规模数据集（大于1TB）的并行运算，提供将大事务分散到不同设备处理的能力。

提供函数性编程中的map和reduce函数。

Map函数接受一组数据并将其转换为一个键/值对列表，输入域中的每个元素对应一个键/值对。

Reduce函数接受Map函数生成的列表，然后根据它们的键缩小键/值对列表。

3.2

分布式内存计算引擎Spark

Spark提供一个快速的计算、写入以及交互式查询的框架，使用in-memory的计算方式，使得处理分布式数据集时能够像处理本地化数据一样。

Spark还能够支持交互式的数据挖掘，方便处理迭代计算，而数据挖掘的问题通常都是对同一份数据进行迭代计算。

3.3

流处理计算引擎Storm

Storm提供一个分布式、可靠、容错的实时流式数据处理的系统。

在Storm中，设计一个用于实时计算的图状结构。

这个拓扑将会被提交给集群，由集群中的主控节点分发代码，将任务分配给工作节点执行。

一个拓扑中包括spout和bolt两种角色，其中spout发送消息，负责将数据流以tuple元组的形式发送出去；

而bolt则负责转换这些数据流，在bolt中可以完成计算、过滤等操作，bolt自身也可以随机将数据发送给其他bolt。

由spout发射出的tuple是不可变数组，对应着固定的键值对。

3.4

数据仓储组件Hive

Hive建立在Hadoop上的数据仓库基础构架。

它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），提供可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据。

大数据运维子系统

包括集群管理、配置管理和安全管理模块。

4.1

集群管理模块

集群管理模块为部署在集群内的服务提供统一的集群管理能力，管理和监控分布式系统中各个功能单元和物理资源的运行情况，确保整个系统的稳定运行。

4.2

配置管理模块

支持大规模集群的安装部署、监控告警、用户管理、权限管理、审计、服务管理、健康检查、日志采集、升级和补丁等功能。

4.3

安全管理模块

通过数据权限管理控制管理使用者对系统数据的访问范围及对访问数据的处理能力，可根据“业务逻辑”的独特权限需求，灵活的进行数据权限的封装，可以按角色按部门进行数据权限的赋权、裁权等操作。

数据权限管理需根据数据敏感程度分级情况和隐私信息分类情况控制用户访问数据范围，管理后台应用和运维人员账号数据访问权限，避免敏感数据和隐私信息从后台泄露的风险。

访问控制只是用户向系统证明权限的个人标识，成功认证后，系统必须确认用户已被授权访问资源，且确认用户能对该资源执行哪些操作。

核心原则是确保权限最小化和权限分离。

权限最小化是指一个帐号或帐号组只能拥有完成任务所必需的权限。

权限分离是指对用户要有充分的角色和权限划分，做到职责分离，不同用户承担不同的业务功能。

1.1.2数据开放平台

数据开放平台是为社会公众提供政务数据的统一访问入口。

它提供数据、接口、文档、分析报告等多种开放服务。

开放门户通过信息发布、内容管理等功能对社会公众提供数据开放的相关资讯信息。

数据开放平台以支持数据开放为首要目的，能够解决缺乏获取政府数据渠道的核心问题。

目标是提供便捷、易用的数据开放通道。

数据开放门户作为开放的窗口，以浏览器的方式向用户展现开放的资源目录和业务领域，并且以数据、接口、应用、报告、文档等种类对外开放。

数据开放

平台

1、统一的数据访问渠道。

对完全可公开的信息资源按照领域划分，统一对外开放。

开放种类包括：

接口、数据等多种形式，考虑可机读特性，针对接口开放类型，提供多种数据接口协议，包括XML、JSON等。

2、不间断的服务。

通过网络和安全可靠的机制使用户在任何时间、任何地点都可以访问数据开放的服务，保证数据开放服务运转的高可用性，将数据服务的优势发挥到极致。

3、方便的数据访问。

对社会公众提供多种数据访问的方式，基于HTTP协议提供接口服务，提升机读性。

4、高度的可扩展性。

保障数据开放平台对于数据种类、数量的变化不需要进行版本升级。

5、安全可靠的保障。

通过安全机制保证数据开放门户的安全性，保障社会公众获取数据服务持续正常。

1.1.3数据共享交换平台

数据共享交换平台已建，需要利旧，本项目将与已建的数据共享交换平台进行对接集成。

1.1.4数据采集平台

数据采集汇聚需要将政务数据、行业数据、互联网数据和其他等各类不同来源、不同类型的数据资源采集并存储到统一的大数据平台中，为数据分析挖掘和数据共享提供基础资源。

数据采集

1、支持各种主流数据库的适配，包括但不限于Oracle、mysql、PG、GP、Hive、CirroData、达梦等数据库类型。

支持kafka、redis存储文件、HDFS文件、FTP资源的TXT、CSV等多格式的文件类型。

2、应支持多种数据加载策略，具备对数据源进行全量、增量数据抽取能力，支持多种数据抽取策略，例如时间戳/标志位增量抽取等。

3、支持数据处理过程中的样本测试功能，方便对设计好的数据处理流程进行调试和预览。

基于测试结果查看脚本或者定义及时发现潜在问题，有效提升数据集成质量。

4、需具备统一的数据接入过程的展现、监控和告警等管理功能。

支持完全基于WEB方式的实时监控功能，实时展现ETL运行状态，并发控制、异常监控、流程运行实例、历史实例等。

5、对数据接入需能够进行统一调度，支持调度方式、手动方式以及定时方式。

以适应人工参与、自动化无人工干预的实时数据同步与批量数据同步等多种场景。

6、支持异常监控可在列表中或图形中分别查看节点异常的详细信息和概要信息。

7、支持元数据管理功能，基于web方式管理数据源，web方式抽取和管理元数据。

8、支持全图形化数据流、工作流、任务流的可视化配置。

9、支持计划调度，事件触发，手动执行等方式控制流程的启动。

10、面向不同应用，做相应的数据汇聚处理。

提供可插拔的智能计算引擎适配器（spark、oracle、hive等）保障数据处理的最优执行效率，支持对任务流程设置占用计算资源参数，实现资源的合理分配和最优利用。

11、提供丰富的数据处理内置组件，如包括数据筛选、数据合并、数据排序、数据汇总、数据分组、以及上百种函数的表达式转换等复杂处理组件，任务组件包括条件判断、java、shell、sql、存储过程、数据流等任务编排调度组件；

支持自定义插件扩展。

12、提供全图形化的数据处理开发环境，可以拖拽式完成复杂的数据处理流程设计，解放手工编码，简化了数据开发难度，全面提升数据开发效率，方便后期数据处理流程的维护。

13、支持kafka源实时加工以及HDFS数据源准实时数据加工，并支持加工过程中抽取外部数据源数据以及分发数据。

14、支持相同结构的元数据对象，通过修改流程中元数据对象所属资源，实现新的数据处理，不需要重新设计数据流，节省数据开发时间。

15、支持对单个或多个流程进行错误节点的恢复。

异常恢复保证恢复的流程从异常点开始重新启动，保障数据的最终完整性和一致性。

16、支持任务实例执行过程可视化监控，包括任务的执行状态、依赖关系、运行日志，支持对流程实例进行暂停、终止、恢复等功能，提供对并发任务的监控以及优先级调整，提供对异常任务的监控和判断。

17、支持已有的SQL脚本编写的业务流程一键转化成数据处理的可视化映射。

18、支持数据处理调度一体化。

可视化页面配置好规则后，直接配置执行引擎以及计划调度。

19、支持云化服务及分布式部署、支持集群部署以及平滑升级。

20、支持在流程编辑视图中任务节点编排的变量自定义设置。

21、支持单表并行抽取与加载。

22、支持在数据加工过程中，以虚拟节点构建可生产落地的数据模型，直接配置启动执行计划，实现数据加工、建模流程化操作。

1.1.5数据集成治理平台

大数据集成治理平台是支持多租户的、开放的、可扩展的平台，主要包数据采集与接入、数据处理与整合、数据组织与管理、数据共享与服务、数据安全与保护等功能。

大数据集成治理平台主要应用流程调度控制、展现数据血脉关系、稽核过程配置、稽核流程监控、问题处理流程化、质量评估报告设计等技术构建数据治理与管控体系，包括数据集成、元数据管理、数据服务、工作流调度自动化、数据安全、数据服务、数据建模管理等。

实现对各类城市数据从采集、存储、整合与计算、共享与服务、分析与应用的全过程的端到端实时监控、管理、审计、质量控制等管理，保证城市数据的完整性、准确性、一致性、及时性，及早的发现数据的质量缺陷，确保城市大数据的可靠性。

多租户

1、支持云化多租户方式使用，可以虚拟出若干租户，支持租户独立且具备自操作权；

支持租户权限板块分配。

2、支持租户间自有数据隔离，以及自有权限控制；

支持租户间数据共享的配置。

数据标准管理

1、支持对于规章制度、流程规范、接口规范等文档性内容进行上传、下载以及版本管理的功能。

2、支持对标准数据模型的目录管理功能，对数据域、标准模型定义，提供标准数据模型的维护管理和检索查询功能。

3、支持标准数据元管理，支持对数据元定义分类和值域校验，支持数据元自动匹配关联对象，支持对标准数据元的检索查询。

4、支持数据标准业务代码管理、业务代码维护、业务代码映射关系管理等功能。

数据建模管理

1、提供可视化、图形化、拖拉拽式数据建模方式，可视化进行逻辑模型编辑与关系创建。

2、支持模型结构以及建模规则的导入、添加。

3、支持根据逻辑和物理字段类型映射关系，模型直接物化落地。

4、对已落地模型提供统一数据库访问工具，无需创建多个客户端就可对数据存储体进行访问，实现数据库操作可管理、可追溯。

5、支持模型落地检测，对比物理落地模型与仓库模型的差异，监控模型部署质量。

6、支持的数据库资源包括ORACLE、HIVE、CirroData（Xcloud）、DAMENG（达梦）、Impala、GP、Aliyun、LibrA、PG、MySql、GBase等。

元数据管理

1、元数据应贯穿数据采集、加工、稽核、服务全过程，实现数据全生命周期的描述。

2、支持技术元数据、业务元数据、管理元数据的统一管理。

3、元数据具备采集多种数据库类型数据的能力，支持主流的数据库包括Oracle、Vertica、HDFS、HIVE、CirroData、DAMENG、REDIS、Impala、GP（Greenplum）、Aliyun（odps）、ES、SQLSERVER、LibrA、DB2、PG（PostgresSQL）、HBase、Teradata、MySql、GBase等国内外主流关系型数据库；

支持Hadoop生态圈；

支持FTP。

4、支持元数据版本管理，可查看任意两个版本对比信息；

支持元数据模型按编码、名称、类型、是否有效等条件的查询和统计，类型包括数据库资源、FTP资源、代理资源、表、视图、函数、存储过程、稽核规则、文档、接口文件、指标和维度等多种元模型，能够支撑数据仓库环境的各类元数据管理模型。

5、变更时间轴，提供的元数据变更时间轴功能，针对所有被管理的元数据对象（包括表、映射、工作流等），记录其产生时间，编辑时间、增删内容时间等，并以可视化界面形式展示。

6、异常观察，监控平台内异常的元数据对象，包括注释不规范和孤立元数据对象，以饼图分类占比和列表明细展示。

7、支持扫描各类元数据信息及样例数据的查看。

8、元数据快速查询能力，通过全文检索快速定位元数据，查阅元数据基本信息、任务信息、稽核信息、数据服务信息。

9、应具备数据溯源能力，支持数据库对象级、字段级血缘关系全链分析。

10、与数据质量稽核工具无缝集成，支持数据问题的精准定位与字段级血缘关系解析，可字段级溯源，可溯源血缘关系线的映射规则。

11、支持元目录管理包括目录的添加、删除、修改等，并支持元数据对所在元目录进行目录定位；

支持元数据的获取管理包括自动扫描获取、系统手工录入、批量导入等方式。

12、支持对象权限管理，管理整个系统的赋权管理功能，根据不同用户、不同角色对元数据目录和对象进行授权管理。

13、支持属性维度和元数据码值维护。

14、支持元数据服务接口，支持基于平台的功能调用和二次开发。

数据质量管理

1、支持内置质量稽核规则，能够进行空值校验、重复校验、格式校验、波动校验、参照校验、值域校验、一致性校验、逻辑校验、关系校验、记录数校验等，支持使用自定义校验；

支持kafka，hdfs实时稽核。

2、支持基于对象热度的稽核规则配置。

3、支持数据质量的规则模板的添加、编辑、引入、删除、查看、草稿箱、规则导出批量导出等基本功能。

4、支持一个逻辑稽核对象规则可以配置到多个物理稽核对象，无需重复配置，实现稽核规则的复用，大大减少稽核规则配置的工作量。

5、支持稽核任务的可视化、自动化配置，支持异常工单流程的可视化配置。

6、支持事件或者时间依赖的自动化稽核任务执行。

7、稽核任务执行支持库内库外两种执行方式，确保资源合理使用。

库外执行采用Spark引擎，保障任务最优执行效率。

8、支持稽核任务监控，对执行完成或正在执行的稽核任务，可以在稽核任务中查询到，根据名称、稽核资源或实体对象查询；

支持稽核任务查看、启动运行实例、删除和历史版本的操作；

支持历史版本查阅对比。

9、支持对象和平台级质量稽核报告定时生成以及下载，支持稽核规则的查询与统计，可依据不同数据域查阅规则的变化趋势，新增规则、删除规则、修改规则和规则总数、规则覆盖率等。

包括质量分析、检测情况（任务完成率、通过率、同比增长率）、问题处理情况、数据源分布等，支持报告以邮件等方式推送。

10、支持稽核结果状态查看包括对象名称、对象类型、正常|告警|类型、执行状态，稽核结果，是否可用、开始时间、结束时间、执行时间等。

11、支持稽核结果明细查看，包括稽核对象、稽核规则、限定条件、规则参数、任务状态、稽核结果及结果集、异常样例数据、异常数据导出等内容。

12、支持基于字段级血缘关系的数据质量追踪，可以在血缘关系上对错误数据进行精准定位、对数据处理过程精准追溯，查看错误的样例数据，快速定位问题来源；

并且配置稽核规则的字段后有不同颜色标志，以判断该字段稽核结果优劣。

13、稽核过程中支持将错误样例数据单独落地、配置规则时能够进行脚本预览。

14、支持稽核问题处理流程化。

针对稽核出的数据质量问题，系统根据错误分类自动生成问题处理工单分配给相应管理员审核，实现质量问题的可管可控可追溯。

工作流调度

1、支持基于工作流的流程配置，支持流程拖拉拽式的图形化配置。

2、支持业务流程建模，以及对已建模的业务流程模型进行修改、设计、调试、删除、导入、导出、发布等一系列操作的维护与管理。

3、支持业务流程克隆功能，可对选择的流程模型克隆出一个新的模型，支持编辑和修改克隆模型名称、模型编码等基本信息，快速设计出相似的业务模型。

4、支持外部扩展管理，通过外部扩展服务管理链接，上传jar包服务，可自动加载jar中的类与资源文件，这些类可以在流程中的脚本节点中调用和执行。

5、支持业务模型转换，对于已发布的模型，可通过转换操作，逆向转换为设计阶段的业务设计模型。

6、支持任务委托管理功能，流程参与人员可建立自己的委托信息，在用户无法或不方便操作流程任务时，可以由委托人委托的代理人进行流程任务办理。

7、支持流程监控功能，可以监控跟踪流程的执行情况，对已启动的流程实例执行挂起、恢复、任务移交、任务跳转等操作。

8、支持流程建模工具，可以利用工具中的图元进行流程图的绘制，并对各类图元的属性值进行设定，形成流程定义文件。

流程定义文件发布后可以被流程引擎解析，创建可以运行的流程实例，驱动流程任务的执行。

9、流程建模工具中的图元包含事件、活动、连接对象、分支节点、子流程、注释等几种类型。

10、流程建模工具支持跨租户处理，用户打开跨租户开关，执行者信息可以选择其他租户的机构、角色等信息进行任务的配置。

11、支持子流程操作，子流程代表一套独立的流程，可以被在另一个更大的流程中作为整体处理或复用。

12、支持服务管理，实现对服务组件的注册、查询、删除、修改功能。

13、支持表单管理，实现对表单应用的注册、查询、删除与修改、导入与导出功能

14、支持工作台，在我的工台中可以执行任务办理、回退、签收、跟踪、撤销等操作。

15、我的工作台界面可快捷进入待办任务、已办任务和我发起的流程。

任务列表可直接进入跟踪流程任务、办理任务的相关操作界面；

支持以不同颜色来区分已执行过的任务节点和待办任务节点。

数据服务管理

1、支持数据产品服务的申请、审批、发布、订阅等流程的可视化配置。

2、支持基于元数据或其他方式封装的数据库对象，如表或视图，进行产品编码、产品名称、数据周期、数据可支撑的提供方式、字段信息说明，提供发布功能。

3、支持数据产品的编辑、下线、以及删除等功能。

4、数据服务发布时，支持筛选特定字段、设置限制条件、是否脱敏、是否分包及分包规则、文件头内容等、提供方式及具体方式所需要的信息。

5、支持新建、审批中、已下线、发布、未通过等各种状态产品的管理。

6、支持类似购物的方式将产品放到收藏夹或者购物车。

7、支持“零编码”发布数据标准产品、API产品、标签产品。

8、数据申请支持数据库、FTP文件、API三种数据服务方式，支持设置数据获取条件并支持周期性以及一次性定制。

平台支持对数据服务接口的自助式测试。

9、支持虚拟数据产品发布。

10、支持数据加工侦测功能，在满足特定条件以后进行数据下发。

11、支持数据加工的重新侦测，便于用户接收更新后数据。

12、支持数据任务监控，以产品为粒度汇总显示相关信息，并查看任务执行情况，支持跟踪、干预流程的执行\恢复\终止等。

13、支持敏感信息存储脱敏、加密，支持库表列级别的存储加密，支持通过API方法提供加密支持。

14、支持对MySQL、Oracle、CirroData、DB2，Greenplum、PostgreSQL、SybaseIQ、Hive等数据库的数据脱敏；

支持对实时数据脱敏解密、离线数据脱敏加密处理流程管理；

支持数据解密。

数据API管理

1、支持定制化数据API注册、订阅、控制等管理。

2、支持API产品监控，以产品为粒度汇总显示相关信息，并可查看产品订阅访问情况，以及访问用户、访问IP、最后访问时间、访问次数等信息。

3、支持API管理中订阅内容的密钥、访问令牌管理。

数据治理全景图

提供数据运营中心总览监控、数据流程与调度监控、数据质量稽核监控、数据资产监控、数据采集与存储监控、数据供给与服务监控等功能。

1.1.6数据资源池

在数据共享交换平台中，已建成归集库，所以在本项目中，利用原有归集库，在其基础之上，补充必要的数据。

数据资源池主要包括归集库建设（利旧）、中心库建设（新建）。

归集库建设

（利旧）

通过ETL与现有归集库对接。

中心库建设（新建）

1、标准层数据实施：

（1）按归集库表结构建立中心库标准层；

（2）根据原始数据标准或规范对一次性批量归集过来的历史数据进行标准化处理，对增量数据进行标准化处理；

（3）根据原始数据标准或规范提供空值校验、重复校验、格式校验、波动校验、参照校验、值域校验、一致性校验、逻辑校验、关系校验、记录数校验等数据质量稽核服务。

2、基础数据层实施：

（1）对专题和应用涉及的数据“一数一源”梳理；

（2）实体属性整合，将属于同一个实体，但来自不同部门的实体属性数据整合到统一的

展开阅读全文