数据管理支持平台Word下载.docx

资源描述

数据管理支持平台Word下载.docx

《数据管理支持平台Word下载.docx》由会员分享，可在线阅读，更多相关《数据管理支持平台Word下载.docx（26页珍藏版）》请在冰豆网上搜索。

数据管理支持平台Word下载.docx

1BBB;

1QBB;

IQQQB]

IIBBB[leee；

ibbbb；

ft数期消洗f敎1«

检於和装ftH数期分类i数i«

抽取f|数須触台|

「堆础散撫滌

平台（分布式大敷堵平台+大戏模井行计算平台）

数据采集平台

豪制授用救刪:

何步人0入・・・・・・

图1数据管理支持平台建设功能模块示意图

1数据采集平台

通过数据采集平台，同步海量数据进入基础数据平台，完成多源异构数据的采集、汇聚。

数据采集采用分布式架构设计，支持集群部署模式，允许将高负载数据转换处理组件进行并发执行，数据采集通过流式数据、新型大数据、传统批数据导入等多种技术手段，完成对业务数据、管理数据、公共服务数据、互联网数据等多种数据来源的采集；

并可对所有的数据采集任务进行任务配置、任务调度、任务监控以及数据质量管理。

1.1数据采集管理

（1）数据库接入支持

批量方式：

适合一次性、数据初始化或者历史数据的接入。

数据库镜像方式：

适合同构数据库的数据采集，实施运维简单。

增量方式：

适合准实时数据采集，需要依赖数据库厂商提供的实时数据采集产品。

（2）文件接入支持，通过对FTP等技术支持定时读取批量数据。

（3）服务接入：

定时调用接口获得数据。

（4）实时流数据处理：

支持消息Topic、Queue；

支持JMS/Kafka/MQo

（5）支持视频、图像等非结构化数据的采集：

通过HDFS加载、文件系统挂接、连接器开发等方式支持。

1.2数据存储管理

根据数据源采集进来的数据形态和特点，数据接入平台将原始库分为两类存储区域，即离线存储区和实时存储区。

1.3数据分发管理

数据分发管理主要职责是满足外部其它平台对本平台各类数据的需求。

数据分发管理主要基于订阅机制开展，通过对不同用户下放的不同权限，再结合数据资源目录服务的开放数据内容，为外部用户提供数据订阅/退订流程，并通过资源总线服务完成最终的数据投递。

数据分发管理由目标源管理、接口管理和数据订阅管理功能组成。

1.4任务配置管理

任务配置页而是用来帮助用户灵活的调整任务执行参数，合理地分配计算资源。

通过修改模板中的参数，将调整后的参数应用到任务队列中，完成任务参数的适配。

任务执行模式：

支持两种任务执行模式，工作模式和全力模式。

工作模式是除了数据治理任务，还有其他的任务共享计算资源，需要合理分配计算资源，避免资源的抢占；

全力模式是数据治理任务独占计算资源，需要充分利用计算资源，提高数据治理效率。

1.5功能支撑管理

（1）被动服务

1）FTP服务：

基于FTP协议提供文件传输共享的基础服务。

2）消息网关：

整合平台内短信、邮件等消息渠道，便于各业务模块在发生状况时，系统产生的提示、警示信息能够及时告知相应的业务人员及时处置。

3）共享目录：

基于共享目录机制的文件型数据共享服务。

4）API服务：

通过API服务，外部系统调用平台提供的相关原始库数据的访问功能，比如：

取数、查询、比对、碰撞等。

（2）主动服务

1）数据库Loader：

由数据库产品软件提供的外部数据导入工具，通常用于大批量数据的快速加载的场景。

2）数据接口授权调用：

使用系统的授权账号，基于请求/服务机制，通过指定数据接口访问和获取数据的过程。

3）数据同步：

用于在Hadoop（Hive）与传统的数据库（Oracle>

Mysql>

Postgresql...）间进行数据的传递，可以将一个关系型数据库

（例如：

MySQL,Oracle,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

4）Shell程序调用：

基于操作系统的交互Shell封装一些存储过

程、系统命令的执行脚木，以方便各功能模块的调取使用。

5）数据加密：

在类型敏感的数据传输操作场景下，常常需要在传输前对数据进行加密，在接收端收取完成后再执行解密操作，以确保数据在整个传输过程中的信息安全。

数据加密包括加密算法和密钥管理等相关功能。

6）断点续传：

在数据采集和分发阶段，可能会因各种异常情况（如网络故障、存储设备故障等原因）造成当前采集或发送过程的中

断，对于尺寸较大的数据文件，从头传输费时费力，通过在数据传输两端设置接口协议，实现断点续传功能，以支持从文件上次中断的地方开始传送数据。

2数据基础平台

2.1大数据基础平台

大数据基础平台主要包括传统的数据仓库、商业智能所需的抽取、转换、加载（ETL）工具，商业智能挖掘工具、可视化展现工具和数据仓库等基础框架，以及大数据分析所需的实时处理、离线处理和预测分析、机器学习以及大数据分布式系统框架等基础服务和技术组件。

2.2大数据仓库

大数据仓库提供行业数据集中存储、标准化治理以及应用的数据支撑能力。

大数据仓库在建设过程中可按照归集库、基础库、主题库三层架构，整体采用“自顶向下、自底向上逐步求精”的方法整合数据，结合业务需求构建数据模型，按照数据标准逐层进行清洗治理，保障数据一致性和完整性，减少数据冗余，灵活适应未来业务模式的变化。

（1）建模准备

数据分类设计：

是指对原始数据进行业务探索、业务调研以及业务分析，通过数据调研对数据进行大类划分，以便更好的理解和管理数据，为后续的数据整合做准备。

数据分布调研：

数据分布设计的目的是需要对当前系统分布及数据在各个系统中的分布情况进行调研，为最终整合的统一的数据模型同时保持数据的一致性和正确性做准备。

数据CRUD调研：

数据CRUD模型定义了数据的所有权，规定了各系统对每一类数据的操作权限（创建、读取、更新和删除）。

（2）模型建设

基础概念模型：

概念模型是一个抽象的宏观层次（高层次、粗粒度）的业务模型，用于定义核心的业务概念实体和彼此的关系。

逻辑模型设计：

逻辑模型设计包括确定设计原则、细化各概念实体以及对模型的优化，在逻辑模型的设计中确定设计原则是整个逻辑模型设计的核心。

物理模型设计包括：

模型结构设计、完成逻辑向物理模型的转化、确定命名规范以及物理表的设计以及物理模型的验证，其中模型结构设计包括：

统一编码、统一口径等，物理模型设计中模型结构设计是其中的重点。

1、归集库

归集库用于存储从部门业务系统抽取出来的数据，这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致，在抽取过程中极大降低了数据转化的复杂性，而主要关注数据抽取的接口、数据量大小、抽取方式、数据时效性等方面的问题。

归集库可按照部门进行逻辑划分，包括存储大小、权限控制等,从部门归集上来的数据加载到各自逻辑区域，既保证数据的独立性又便于溯源。

为了减小不同业务系统的差异性，构建归集库数据模型的时候我们要加以一定的规范和要求。

在归集库接口数据模型的构建方

而，遵循以下原则：

（1）完整性：

保证源系统输入模型的完整性、数据字典清晰明确；

（2）及时性：

数据更新的频度与源系统接口数据更新频度基本一致，保证输入信息的及时性；

（3）—致性：

接口数据一般只做简单的处理，不做清洗和转换，以保证和源系统信息的一致性，做到信息可追溯、过程可查，可以增加辅助信息，例如区分数据域、主题、地域、账期、频度等。

归集库数据可按照数据源进行组织，建设方法如下：

（1）构建原则：

根据数据源的增量/全量接口，禁止进行数据删除操作；

（2）模型特点：

根据源系统数据和模型变化需求进行配套改造；

（3）数据质量：

可以进行度量、维度编码、非法编码处理，重点关注监控ETL处理环节的数据质量问题。

2、基础库

基础库由归集库数据进行清洗、转换等标准化后的数据以及基于这些数据结合业务需求逐步进行数据轻量汇总，形成大数据仓库的核心资产，并为主题库提供足够灵活、方便的基础数据。

基础库主要包括数据整合层、中间汇总层。

数据整合层对归集库数据进行清洗转换，按照业务主键融合各部门数据实现横向打通，形成完整的业务主体信息。

整合层清洗转换原则如下：

1）数据一致性：

整合模型对多部门数据进行统一清洗、编码转换，保障数据的可用性；

2）数据完整性：

应确保数据的厚度和广度；

3）数据整合：

实现增量接口修复全量接口；

4）数据清洗：

识别和清洗无效、无用、异常信息，确保数据的规范和有效；

5）数据转换：

统一度量、统一主数据编码、统一编码、空值处理等；

6）格式规范：

根据数据特点和应用要求，建立统一的数据格式规范，实际应用到数据整合中；

7）数据质量：

与生产数据进行定期数据质量比对，并定期进行数据修复。

中间层根据应用主题分域进行数据整合或轻粒度汇总，形成以业务实体为核心，基础属性、扩展属性为主体信息的基础宽表、基础属性和维表，它以应用为目的提炼整合层信息，支持快速每攵捷的数据处理、支持应用数据的快捷组装，满足应用需求多样化、及时性的要求，最大程度降低模型间耦合度。

中间层汇总原则如下：

1）低耦合：

合理定义基础属性、扩展属性，避免属性定义重复、冗余出现；

2）稳定性：

保持基础宽表模型的稳定性，通过属性表解决扩展属性变化频繁的问题；

3）高效性：

模型解耦设计兼顾应用灵活组装和高效数据更新：

数据整合：

明确业务主体，整合相关基础属性形成复杂业务维度及标签需要的基础因子；

数据映射：

根据应用共性要求需形成不同层次、不同角度的基础维度信息，并建立源编码和维度值一对一或者多对一的映射关系；

数据属性标识：

根据业务主体的规则完成属性标识计算，以及提

供复杂口径的计算因子；

数据汇总：

按照一定的口径规则汇总业务实体的基础特征数据。

4）模型的内容设计：

按照加工方式和数据特点将属性信息一般分为四大类：

实例对象信息、基础属性维度、统计维度信息、统计指标信息：

实例对象信息：

以源数据为主，不作任何加工处理的实例化信息;

基础属性维度：

以源数据为主，不作任何加工处理的属性类信息,保留源系统编码是非常有必要的，此类数据可以没有对应的维表但必须有对应的编码解释；

统计维度信息：

通过将基础属性进行转换或归集得到的、有标准编码规范的、有层次的维度信息，维度字段保留最细粒度；

统计指标信息：

体现业务主体某种业务特征规模的统计值，通过一定规则汇总形成，单位保留原始单位，只做单位统一、不做单位转换，以免降低指标精度。

3、主题库

在基础库之上，数据按照应用需求做数据聚合，依据部门专题业务需求，按照维度建模等原则建立起来的，主要面向业务，一般只面向某个特定的主题生成相关应用主题库，主要存储为特定用户预先计算好的数据，从而满足用户对性能的需求，便于访问分析和快速查询。

主题库建设方式一般分为逻辑主题库和物理主题库：

1）逻辑主题库是在数据仓库中建立一些专门提供给数据集市使用的表和视图，其物理存储仍然是在数据仓库中；

2）物理主题库是指建立物理独立的数据库平台。

主题库的数据按照逻辑模型规范的要求从数据仓库中抽取，加载到主题库的数据库中。

3数据治理

对离线大数据平台存储的数据进行数据治理，包含数据清洗整合、数据标准化、数据质量分析、元数据管理、主数据模型构建等，最终形成数据资产。

3.1元数据管理

元数据是进行数据治理和运营的基础，通过集中的元数据服务，采集各个组成模块的元数据进行集中管理，根据元数据的信息进行数据的生命周期管理，获得数据的血缘信息及数据地图展现，通过统一门户可方便各种角色的用户进行数据的管理和控制。

（1）元模型管理

元模型是对元数据的定义。

元模型管理应提供Web界而化的元模型管理功能，能够持续满足用户在不同时期对元数据的不同需要。

管理涉及对元模型包、元模型类、元模型属性、数据类型、关系的操作。

应提供元模型管理功能，授权用户可浏览、新增、修改、删除元模型。

用户可定制适合自己需求的元模型，随着业务的不断发展扩展元模型，如建立新的类、增加属性、定义新的关系等。

（2）元数据管理与维护

提供元数据维护和管理的基础功能，实现元数据界面化增加、删除、修改、浏览等功能；

支持对元数据任意粒度的权限控制，使各项信息在授权控制下共享。

具体功能包扌舌：

1）元数据浏览

以树型结构直观展现元数据上下级关系，使用户可了解数据中心的数据规模和相关关系，并可查看树上任一元数据节点的详细信息。

2）元数据维护

提供完善的元数据维护功能，允许授权人员在Web界而上方便

地进行增删修操作。

3）发布与订阅

支持在服务总线上注册并发布服务，各相关单位可以通过订阅方式访问元数据服务。

4）元数据版本管理

支持元数据版木管理，对于各种元数据的每次变更，记录其变更历史；

并提供版木变更查询功能和历史版本恢复功能。

5）元数据关系维护

维护任意元数据之间的任意关系，可录入关系描述，反映客观世界中实体之间的真实关系，形成数据中心各种实体的完整关系图。

6）ETL映射关系维护

元数据管理着ETL程序字段映射，即支持表或字段级别的任意关系组合的映射关系；

以及ETL程序之间的调度关系，即维护ETL程序之间的先后调用关系。

因此，可有效管理数据中心系统的业务数据源进入数据中心到DW、数据集市、再通过OLAP到前端分析的全过程，掌握数据加工的算法和细节。

（3）元数据导入导出

提供元数据批量加载功能，实现对XLS、XMI格式元数据的批量加载。

XLS导入功能主要应用于非结构化或无法自动获取的元数据，XMI导入功能主要用于与其它系统之间进行元数据交换。

提供元数据批量导出功能，可将指定元数据导出为XLS或XMI格式。

XLS格式元数据方便用户浏览或分发各种信息资源标准以及库表字典、指标定义、基础数据和编码等；

XMI格式元数据方便其他系统接收。

（4）元数据获取接口

提供主流BI工具的元数据获取接口，可定时触发或人工调度，自动获取数据中心的相关工具（如Oracle、Trinity>

DB2等）所涉及的元数据，确保元数据及时更新与业务系统同步。

（5）元数据流程跟踪

采用数据供应链思想，在满足客户服务水平条件下，把各业务系统有效地组织在一起，贯穿元数据抽取、元数据存储、元数据展现、元数据应用的全过程。

数据在元数据指导下进行加工、流转、处理。

为保证此过程的工作顺利，结果可靠，应对元数据的处理过程进行记录与监控，具体功能包括：

1）提供图形化的元数据过程显示：

将数据流转和处理全过程显示出来，直观展示数据采集、加工和存储等的供应链过程。

2）监控各个环节：

监控元数据处理过程，对比前后各业务指标，验证处理过程的正确性；

监控元数据结果，从己抽取结果元数据中抽取校验指标，通过比对验证元数据结果的正确性。

一旦发现异常，以消息、邮件等形式进行数据质量预警。

3）分析各环节日志：

在元数据处理各环节中都记录处理日志，可对数据进行逆向追溯，定位问题环节。

（6）元数据分析

元数据检索：

提供多种条件组合查询和模糊查询，以快速检索出所需信息。

血统分析：

通过对元数据关系的回溯，以图形方式展现指定元数据的数据血统和加工过程。

影响分析：

通过分析元数据之间的关系，以图形方式展现指定实体对全局的影响。

ETL映射分析：

对指定ETL程序以图形方式展示内部数据源、数据目标之间表和字段映射关系，展现ETL程序之间先后映射关系。

（7）元数据高级应用

库表重要程度分析：

分析库表与基础实体的关系数，按重要程度排名，关系数大者可视为影响力大。

表无关程度分析：

通过关系数，分析出影响力小的库表。

元数据差异分析：

按属性值分析任意两组元数据之间的差异。

活力分析：

分析指定类型元数据的依赖关系数、被依赖关系数、关联关系数，进行排序，用于了解数据中心各实体被使用情况、相互依赖程度。

（8）系统管理

基于角色的权限管理，控制功能（菜单）权限及元数据范围权限，确保合法用户登录后只能访问授权功能、以及授权操作的元数据范围。

3.2数据标准管理

用于管理数据模型以及数据模型所使用到的各种标准，以方便在模型定义时有据可依。

模型必须按照系统内定义好的各种规则进行设计，否则装在稽核时产生差异报告。

考虑到系统内定义的规则较多，在模型设计时，可以采用智能推荐或手工的方式引入各种规则，以提高设计效率。

（1）数据元素管理

数据元素管理向数据管理员提供数据项及其数据集的管理功能，包括数据集的增、删、改、查，数据项的增、删、改、查、启、停，导入、导出，以及设置其所属数据集。

（2）数据字典管理

数据字典管理向数据管理员提供数据字典的管理功能，包括•字典项增删改查、关联数据项、导出、导入、启停用等功能。

（3）模型规则设计

模型规则设计向数据管理员提供规则设计功能，包括层次规则和数据域规则两种。

（4）模型标准管理

模型标准管理向数据管理员提供模型命名规则设计的功能。

3.3数据模型管理

（1）数据层次管理

选择权限分配内的项目，然后设置数据层次，设置数据域及子域,相关功能主要有增删改查，以便于后续对模型的分层分域管理。

（2）逻辑模型管理

逻辑模型管理向开发商用户提供逻辑模型管理的功能。

其中，在引入数据项、标准及规则时，可通过智能推荐或手工的方式引入，构建起数据关系。

在变更删除时，需要判断是否被引用，以供操作人员判定。

删除功能需要流转到相关人员审核通过。

在变更时，要进行版木管理，考虑到有可能已经作为服务对外提供数据，应该每次变更都是新增一个版木。

对于回退的模型，深入了解具体客观需求后再确定是回归到旧版本还是以前版本对外公布。

支持模型导出并可以利用DDL（（DataDefinitionLanguage,数据定义语言）进行导入的功能。

在对模型物理化之前，可以先预览物理化的DDL,然后再执行具体的DDLo

（3）数据模型稽核

数据模型稽核向开发商及数据管理员提供数据模型与物理化后的表之间的差异比较信息。

后台定时跑任务，比较两者间的差异，用户可以在前端界而按一定的条件进行检索。

3.4数据血缘管理

数据从源到目的地，经过大量的功能模块的处理和传递，呈现在业务用户而前，很多时候需要对数据的来龙去脉进行分析。

数据管理平台通过元数据模块以历史事实的方式记录每项数据的来源、处理过程、应用对接情况等，记录了数据表在治理过程中的全链血缘关系，基于这些血缘关系信息，可以轻松的进行影响分析，以数据流向为主线的血缘追溯等功能可提升报表信息的可信度，为数据的合规性提供验证手段，帮助业务部门实现信息共享、提升协调工作效率。

3.5数据质量探査

数据探查是观察数据规律、找出数据间联系和问题点的重要环节,是决定数据正确性的非常关键的一步，可帮助数据管理员探查数据，了解数据模型、数据信息，掌握数据总体趋势。

（1）数据预览

数据模型查询：

用于查询涉及数据模型的数据表，通过查询数据模型，查到该模型的全部数据表，查询结果均在列表展示。

表数据获取：

用于实现数据探查的表数据获取功能，通过对接到数据库，获取表的数据，包括表名称、字段名称、字段值、数据所属、字段类型、字段长度、数据来源、数据关系等，支持数据表名搜索获取指定表数据，支持选择数据资源目录，范围性获取表数据。

表信息预览：

用于将数据库表的信息在页面进行预览展示，包括表名称、表结构、表类型、数据项数、表来源、表所属等。

表数据预览：

用于将表数据的信息在页面进行预览展示，包扌舌表名称、字段名称、字段值、字段长度、字段类型、数据间关系、数据来源、数据所属等。

（2）数据探查规则

全表统计规则设置：

梳理数据表的统计方法，制定统计规则，算法内置，包括数据量大小、记录条数、注释完整度、最大值、最小值、均值、方差、空值率、重复率等，全表统计规则的方式方法具体由后台实现并且固化，无需前端操作。

字段统计系统规则设置：

梳理字段的统计方法，制定字段统计规则，系统提供规则包括字段的值域等，数据统计规则的方式方法具体由后台实现并且固化，无需前端操作。

探查报告模板管理：

用于规范探查报告模版，提供探查报告模版配置、模版启停用的管理功能，模版配置包括模版字段名称配置、说明配置等，探查报告包括探查概况、探查列表、探查详情。

（3）表数据探查

指定字段：

用于选择数据表中的多个字段进行指定探查，提高分析速度，选择统计类型（如支持直方图、百分位、最大最小值、频率、累计分布图和相关系数矩阵），设置步长、X轴区间输入。

统计分析：

根据预设的全表统计、字段统计规则进行统计运算,包括统计完成率、算法实现率、统计广度、统计深度、规则说明等。

全表探查：

用于展示数据表探查结果，展示内容包含数据量大小、记录条数、注释完整度、最大值、最小值、均值、方差、空值率、重复率等，探查结果在全表统计详情页展示。

字段探查：

用于展示数据字段探查结果，展示内容包含数据量大小、记录条数、注释完整度、最大值、最小值、均值、方差、空值率、重复率等，探查结果在全表统计详情页展示。

生成探查报告：

按照固定的模板格式自动生成评估报告，支持报告浏览、下载。

3.6数据质量管理

数据质量是一个过程而不是结果。

数据质量应当在整个数据仓库规划、设计、建设、维护中体现和实现。

数据质量保证重点从数据质量组织机构、数据质量管理以及数据质量验证机制三个方而进行考虑,并应提供相应的管控流程支持。

为保证数据质量得以持续的改进，保证所有己知的错误在系统中不重复发生，建立完善的数据质量文档体系，整个系统内的数据质量活动都要求有完善的纪录，最终依次建立或完善质量考核体系。

（1）数据质量要求

完整性：

在数据源能支持的情况下，现有数据应能满足所需业务分析要求；

元数据的完整及脏数据的妥善处理。

一致性：

现有数据在描述同一事物的同一属性时应有一致的取值;

互相关联的数据内在一致性应得到保证；

数据格式的一致性等。

准确性：

包括报表、分析及数据挖掘三类，其中以报表的准确性要求最高，分析次之，数据挖掘最弱。

及时性：

在确保完整性和准确性的同时要求数据处理的及时。

（2）规则管理

在数据治理过程中，规则起到清洗、校正或转换数据的作用。

数据从原始表到目标表，要经历一系列的规则转换。

规则由规则定义和规则配置两部分构成。

1）规则定义

规则定义包含内置的规则定义以及第三方实现的规则定义。

规则在原始表区、目标表区、映射原始表区、映射桥接区以及映射目标表区中配置；

规则配置绑定在目标表或者原始表或

展开阅读全文