ImageVerifierCode 换一换
格式:DOCX , 页数:26 ,大小:39.81KB ,
资源ID:18541396      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/18541396.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据管理支持平台Word下载.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据管理支持平台Word下载.docx

1、1 BBB; 1 QBB; IQQQB I IBBB leee; ibbbb;ft 数期消洗 f 敎1检於和装ft H 数期分类 i 数i抽取 f|数須触台|1 1 堆础散撫滌平台(分布式大敷堵平台+大戏模井行计算平台)数据采集平台豪制授用 救刪:何步 人0入 图1数据管理支持平台建设功能模块示意图1数据采集平台通过数据采集平台,同步海量数据进入基础数据平台,完成多源 异构数据的采集、汇聚。数据采集采用分布式架构设计,支持集群部署模式,允许将高负 载数据转换处理组件进行并发执行,数据采集通过流式数据、新型大 数据、传统批数据导入等多种技术手段,完成对业务数据、管理数据、 公共服务数据、互联网数

2、据等多种数据来源的采集;并可对所有的数 据采集任务进行任务配置、任务调度、任务监控以及数据质量管理。1.1数据采集管理(1) 数据库接入支持批量方式:适合一次性、数据初始化或者历史数据的接入。数据库镜像方式:适合同构数据库的数据采集,实施运维简单。增量方式:适合准实时数据采集,需要依赖数据库厂商提供的实 时数据采集产品。(2) 文件接入支持,通过对FTP等技术支持定时读取批量数据。(3) 服务接入:定时调用接口获得数据。(4 )实时流数据处理:支持消息Topic、Queue ;支持 JMS/Kafka/MQo(5)支持视频、图像等非结构化数据的采集:通过HDFS加载、 文件系统挂接、连接器开发

3、等方式支持。1.2数据存储管理根据数据源采集进来的数据形态和特点,数据接入平台将原始库 分为两类存储区域,即离线存储区和实时存储区。1.3数据分发管理数据分发管理主要职责是满足外部其它平台对本平台各类数据 的需求。数据分发管理主要基于订阅机制开展,通过对不同用户下放的不 同权限,再结合数据资源目录服务的开放数据内容,为外部用户提供 数据订阅/退订流程,并通过资源总线服务完成最终的数据投递。数据分发管理由目标源管理、接口管理和数据订阅管理功能组成。1. 4任务配置管理任务配置页而是用来帮助用户灵活的调整任务执行参数,合理地 分配计算资源。通过修改模板中的参数,将调整后的参数应用到任务 队列中,完

4、成任务参数的适配。任务执行模式:支持两种任务执行模式,工作模式和全力模式。 工作模式是除了数据治理任务,还有其他的任务共享计算资源,需要 合理分配计算资源,避免资源的抢占;全力模式是数据治理任务独占 计算资源,需要充分利用计算资源,提高数据治理效率。1. 5功能支撑管理(1) 被动服务1) FTP服务:基于FTP协议提供文件传输共享的基础服务。2) 消息网关:整合平台内短信、邮件等消息渠道,便于各业务 模块在发生状况时,系统产生的提示、警示信息能够及时告知相应的 业务人员及时处置。3) 共享目录:基于共享目录机制的文件型数据共享服务。4) API服务:通过API服务,外部系统调用平台提供的相关

5、原 始库数据的访问功能,比如:取数、查询、比对、碰撞等。(2) 主动服务1) 数据库Loader:由数据库产品软件提供的外部数据导入工具, 通常用于大批量数据的快速加载的场景。2) 数据接口授权调用:使用系统的授权账号,基于请求/服务机 制,通过指定数据接口访问和获取数据的过程。3) 数据同步:用于在Hadoop (Hive)与传统的数据库(Oracle Mysql Postgresql.)间进行数据的传递,可以将一个关系型数据库(例如:MySQL, Oracle, Postgres等)中的数据导进到Hadoop的 HDFS中,也可以将HDFS的数据导进到关系型数据库中。4) Shell程序调

6、用:基于操作系统的交互Shell封装一些存储过程、系统命令的执行脚木,以方便各功能模块的调取使用。5) 数据加密:在类型敏感的数据传输操作场景下,常常需要在 传输前对数据进行加密,在接收端收取完成后再执行解密操作,以确 保数据在整个传输过程中的信息安全。数据加密包括加密算法和密钥 管理等相关功能。6) 断点续传:在数据采集和分发阶段,可能会因各种异常情况 (如网络故障、存储设备故障等原因)造成当前采集或发送过程的中断,对于尺寸较大的数据文件,从头传输费时费力,通过在数据传输 两端设置接口协议,实现断点续传功能,以支持从文件上次中断的地 方开始传送数据。2数据基础平台2.1大数据基础平台大数据基

7、础平台主要包括传统的数据仓库、商业智能所需的抽取、 转换、加载(ETL)工具,商业智能挖掘工具、可视化展现工具和数 据仓库等基础框架,以及大数据分析所需的实时处理、离线处理和预 测分析、机器学习以及大数据分布式系统框架等基础服务和技术组件。2.2大数据仓库大数据仓库提供行业数据集中存储、标准化治理以及应用的数据 支撑能力。大数据仓库在建设过程中可按照归集库、基础库、主题库 三层架构,整体采用“自顶向下、自底向上逐步求精”的方法整合数 据,结合业务需求构建数据模型,按照数据标准逐层进行清洗治理, 保障数据一致性和完整性,减少数据冗余,灵活适应未来业务模式的 变化。(1)建模准备数据分类设计:是指

8、对原始数据进行业务探索、业务调研以及业 务分析,通过数据调研对数据进行大类划分,以便更好的理解和管理 数据,为后续的数据整合做准备。数据分布调研:数据分布设计的目的是需要对当前系统分布及数 据在各个系统中的分布情况进行调研,为最终整合的统一的数据模型 同时保持数据的一致性和正确性做准备。数据CRUD调研:数据CRUD模型定义了数据的所有权,规定 了各系统对每一类数据的操作权限(创建、读取、更新和删除)。(2)模型建设基础概念模型:概念模型是一个抽象的宏观层次(高层次、粗粒 度)的业务模型,用于定义核心的业务概念实体和彼此的关系。逻辑模型设计:逻辑模型设计包括确定设计原则、细化各概念实 体以及对

9、模型的优化,在逻辑模型的设计中确定设计原则是整个逻辑 模型设计的核心。物理模型设计包括:模型结构设计、完成逻辑向物理模型的转化、 确定命名规范以及物理表的设计以及物理模型的验证,其中模型结构 设计包括:统一编码、统一口径等,物理模型设计中模型结构设计是 其中的重点。1、归集库归集库用于存储从部门业务系统抽取出来的数据,这些数据从数 据结构、数据之间的逻辑关系上都与业务系统基本保持一致,在抽取 过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、 数据量大小、抽取方式、数据时效性等方面的问题。归集库可按照部门进行逻辑划分,包括存储大小、权限控制等, 从部门归集上来的数据加载到各自逻辑区域

10、,既保证数据的独立性又 便于溯源。为了减小不同业务系统的差异性,构建归集库数据模型的 时候我们要加以一定的规范和要求。在归集库接口数据模型的构建方而,遵循以下原则:(1) 完整性:保证源系统输入模型的完整性、数据字典清晰明 确;(2) 及时性:数据更新的频度与源系统接口数据更新频度基本 一致,保证输入信息的及时性;(3) 致性:接口数据一般只做简单的处理,不做清洗和转换, 以保证和源系统信息的一致性,做到信息可追溯、过程可查,可以增 加辅助信息,例如区分数据域、主题、地域、账期、频度等。归集库数据可按照数据源进行组织,建设方法如下:(1) 构建原则:根据数据源的增量/全量接口,禁止进行数据删

11、除操作;(2) 模型特点:根据源系统数据和模型变化需求进行配套改造;(3) 数据质量:可以进行度量、维度编码、非法编码处理,重点 关注监控ETL处理环节的数据质量问题。2、基础库基础库由归集库数据进行清洗、转换等标准化后的数据以及基于 这些数据结合业务需求逐步进行数据轻量汇总,形成大数据仓库的核 心资产,并为主题库提供足够灵活、方便的基础数据。基础库主要包 括数据整合层、中间汇总层。数据整合层对归集库数据进行清洗转换,按照业务主键融合各部 门数据实现横向打通,形成完整的业务主体信息。整合层清洗转换原则如下:1) 数据一致性:整合模型对多部门数据进行统一清洗、编码转 换,保障数据的可用性;2)

12、数据完整性:应确保数据的厚度和广度;3) 数据整合:实现增量接口修复全量接口;4) 数据清洗:识别和清洗无效、无用、异常信息,确保数据的规 范和有效;5) 数据转换:统一度量、统一主数据编码、统一编码、空值处理 等;6) 格式规范:根据数据特点和应用要求,建立统一的数据格式 规范,实际应用到数据整合中;7) 数据质量:与生产数据进行定期数据质量比对,并定期进行 数据修复。中间层根据应用主题分域进行数据整合或轻粒度汇总,形成以业 务实体为核心,基础属性、扩展属性为主体信息的基础宽表、基础属 性和维表,它以应用为目的提炼整合层信息,支持快速每攵捷的数据处 理、支持应用数据的快捷组装,满足应用需求多

13、样化、及时性的要求, 最大程度降低模型间耦合度。中间层汇总原则如下:1) 低耦合:合理定义基础属性、扩展属性,避免属性定义重复、 冗余出现;2) 稳定性:保持基础宽表模型的稳定性,通过属性表解决扩展 属性变化频繁的问题;3) 高效性:模型解耦设计兼顾应用灵活组装和高效数据更新:数据整合:明确业务主体,整合相关基础属性形成复杂业务维度 及标签需要的基础因子;数据映射:根据应用共性要求需形成不同层次、不同角度的基础 维度信息,并建立源编码和维度值一对一或者多对一的映射关系;数据属性标识:根据业务主体的规则完成属性标识计算,以及提供复杂口径的计算因子;数据汇总:按照一定的口径规则汇总业务实体的基础特

14、征数据。4)模型的内容设计:按照加工方式和数据特点将属性信息一般 分为四大类:实例对象信息、基础属性维度、统计维度信息、统计指 标信息:实例对象信息:以源数据为主,不作任何加工处理的实例化信息;基础属性维度:以源数据为主,不作任何加工处理的属性类信息, 保留源系统编码是非常有必要的,此类数据可以没有对应的维表但必 须有对应的编码解释;统计维度信息:通过将基础属性进行转换或归集得到的、有标准 编码规范的、有层次的维度信息,维度字段保留最细粒度;统计指标信息:体现业务主体某种业务特征规模的统计值,通过 一定规则汇总形成,单位保留原始单位,只做单位统一、不做单位转 换,以免降低指标精度。3、主题库在

15、基础库之上,数据按照应用需求做数据聚合,依据部门专题业 务需求,按照维度建模等原则建立起来的,主要面向业务,一般只面 向某个特定的主题生成相关应用主题库,主要存储为特定用户预先计 算好的数据,从而满足用户对性能的需求,便于访问分析和快速查询。主题库建设方式一般分为逻辑主题库和物理主题库:1) 逻辑主题库是在数据仓库中建立一些专门提供给数据集市使 用的表和视图,其物理存储仍然是在数据仓库中;2) 物理主题库是指建立物理独立的数据库平台。主题库的数据 按照逻辑模型规范的要求从数据仓库中抽取,加载到主题库的数据库 中。3数据治理对离线大数据平台存储的数据进行数据治理,包含数据清洗整合、 数据标准化、

16、数据质量分析、元数据管理、主数据模型构建等,最终 形成数据资产。3.1元数据管理元数据是进行数据治理和运营的基础,通过集中的元数据服务, 采集各个组成模块的元数据进行集中管理,根据元数据的信息进行数 据的生命周期管理,获得数据的血缘信息及数据地图展现,通过统一 门户可方便各种角色的用户进行数据的管理和控制。(1) 元模型管理元模型是对元数据的定义。元模型管理应提供Web界而化的元 模型管理功能,能够持续满足用户在不同时期对元数据的不同需要。 管理涉及对元模型包、元模型类、元模型属性、数据类型、关系的操 作。应提供元模型管理功能,授权用户可浏览、新增、修改、删除元 模型。用户可定制适合自己需求的

17、元模型,随着业务的不断发展扩展 元模型,如建立新的类、增加属性、定义新的关系等。(2) 元数据管理与维护提供元数据维护和管理的基础功能,实现元数据界面化增加、删 除、修改、浏览等功能;支持对元数据任意粒度的权限控制,使各项 信息在授权控制下共享。具体功能包扌舌:1) 元数据浏览以树型结构直观展现元数据上下级关系,使用户可了解数据中心 的数据规模和相关关系,并可查看树上任一元数据节点的详细信息。2) 元数据维护提供完善的元数据维护功能,允许授权人员在Web界而上方便地进行增删修操作。3) 发布与订阅支持在服务总线上注册并发布服务,各相关单位可以通过订阅方 式访问元数据服务。4) 元数据版本管理支

18、持元数据版木管理,对于各种元数据的每次变更,记录其变更 历史;并提供版木变更查询功能和历史版本恢复功能。5) 元数据关系维护维护任意元数据之间的任意关系,可录入关系描述,反映客观世 界中实体之间的真实关系,形成数据中心各种实体的完整关系图。6) ETL映射关系维护元数据管理着ETL程序字段映射,即支持表或字段级别的任意 关系组合的映射关系;以及ETL程序之间的调度关系,即维护ETL 程序之间的先后调用关系。因此,可有效管理数据中心系统的业务数 据源进入数据中心到DW、数据集市、再通过OLAP到前端分析的全 过程,掌握数据加工的算法和细节。(3) 元数据导入导出提供元数据批量加载功能,实现对XL

19、S、XMI格式元数据的批 量加载。XLS导入功能主要应用于非结构化或无法自动获取的元数 据,XMI导入功能主要用于与其它系统之间进行元数据交换。提供元 数据批量导出功能,可将指定元数据导出为XLS或XMI格式。XLS 格式元数据方便用户浏览或分发各种信息资源标准以及库表字典、指 标定义、基础数据和编码等;XMI格式元数据方便其他系统接收。(4) 元数据获取接口提供主流BI工具的元数据获取接口,可定时触发或人工调度, 自动获取数据中心的相关工具(如Oracle、Trinity DB2等)所涉及 的元数据,确保元数据及时更新与业务系统同步。(5) 元数据流程跟踪采用数据供应链思想,在满足客户服务水

20、平条件下,把各业务系 统有效地组织在一起,贯穿元数据抽取、元数据存储、元数据展现、 元数据应用的全过程。数据在元数据指导下进行加工、流转、处理。 为保证此过程的工作顺利,结果可靠,应对元数据的处理过程进行记 录与监控,具体功能包括:1) 提供图形化的元数据过程显示:将数据流转和处理全过程显 示出来,直观展示数据采集、加工和存储等的供应链过程。2) 监控各个环节:监控元数据处理过程,对比前后各业务指标, 验证处理过程的正确性;监控元数据结果,从己抽取结果元数据中抽 取校验指标,通过比对验证元数据结果的正确性。一旦发现异常,以 消息、邮件等形式进行数据质量预警。3) 分析各环节日志:在元数据处理各

21、环节中都记录处理日志, 可对数据进行逆向追溯,定位问题环节。(6) 元数据分析元数据检索:提供多种条件组合查询和模糊查询,以快速检索出 所需信息。血统分析:通过对元数据关系的回溯,以图形方式展现指定元数 据的数据血统和加工过程。影响分析:通过分析元数据之间的关系,以图形方式展现指定实 体对全局的影响。ETL映射分析:对指定ETL程序以图形方式展示内部数据源、 数据目标之间表和字段映射关系,展现ETL程序之间先后映射关系。(7) 元数据高级应用库表重要程度分析:分析库表与基础实体的关系数,按重要程度 排名,关系数大者可视为影响力大。表无关程度分析:通过关系数,分析出影响力小的库表。元数据差异分析

22、:按属性值分析任意两组元数据之间的差异。活力分析:分析指定类型元数据的依赖关系数、被依赖关系数、 关联关系数,进行排序,用于了解数据中心各实体被使用情况、相互 依赖程度。(8) 系统管理基于角色的权限管理,控制功能(菜单)权限及元数据范围权限, 确保合法用户登录后只能访问授权功能、以及授权操作的元数据范围。 3. 2数据标准管理用于管理数据模型以及数据模型所使用到的各种标准,以方便在 模型定义时有据可依。模型必须按照系统内定义好的各种规则进行设 计,否则装在稽核时产生差异报告。考虑到系统内定义的规则较多, 在模型设计时,可以采用智能推荐或手工的方式引入各种规则,以提 高设计效率。(1) 数据元

23、素管理数据元素管理向数据管理员提供数据项及其数据集的管理功能, 包括数据集的增、删、改、查,数据项的增、删、改、查、启、停, 导入、导出,以及设置其所属数据集。(2) 数据字典管理数据字典管理向数据管理员提供数据字典的管理功能,包括字典 项增删改查、关联数据项、导出、导入、启停用等功能。(3) 模型规则设计模型规则设计向数据管理员提供规则设计功能,包括层次规则和 数据域规则两种。(4)模型标准管理模型标准管理向数据管理员提供模型命名规则设计的功能。3. 3数据模型管理(1) 数据层次管理选择权限分配内的项目,然后设置数据层次,设置数据域及子域, 相关功能主要有增删改查,以便于后续对模型的分层分

24、域管理。(2) 逻辑模型管理逻辑模型管理向开发商用户提供逻辑模型管理的功能。其中,在 引入数据项、标准及规则时,可通过智能推荐或手工的方式引入,构 建起数据关系。在变更删除时,需要判断是否被引用,以供操作人员 判定。删除功能需要流转到相关人员审核通过。在变更时,要进行版 木管理,考虑到有可能已经作为服务对外提供数据,应该每次变更都 是新增一个版木。对于回退的模型,深入了解具体客观需求后再确定 是回归到旧版本还是以前版本对外公布。支持模型导出并可以利用 DDL (Data Definition Language,数据定义语言)进行导入的功能。 在对模型物理化之前,可以先预览物理化的DDL,然后再

25、执行具体 的 DDLo(3) 数据模型稽核数据模型稽核向开发商及数据管理员提供数据模型与物理化后 的表之间的差异比较信息。后台定时跑任务,比较两者间的差异,用 户可以在前端界而按一定的条件进行检索。3. 4数据血缘管理数据从源到目的地,经过大量的功能模块的处理和传递,呈现在 业务用户而前,很多时候需要对数据的来龙去脉进行分析。数据管理 平台通过元数据模块以历史事实的方式记录每项数据的来源、处理过 程、应用对接情况等,记录了数据表在治理过程中的全链血缘关系, 基于这些血缘关系信息,可以轻松的进行影响分析,以数据流向为主 线的血缘追溯等功能可提升报表信息的可信度,为数据的合规性提供 验证手段,帮助

26、业务部门实现信息共享、提升协调工作效率。3. 5数据质量探査数据探查是观察数据规律、找出数据间联系和问题点的重要环节, 是决定数据正确性的非常关键的一步,可帮助数据管理员探查数据, 了解数据模型、数据信息,掌握数据总体趋势。(1) 数据预览数据模型查询:用于查询涉及数据模型的数据表,通过查询数据 模型,查到该模型的全部数据表,查询结果均在列表展示。表数据获取:用于实现数据探查的表数据获取功能,通过对接到 数据库,获取表的数据,包括表名称、字段名称、字段值、数据所属、 字段类型、字段长度、数据来源、数据关系等,支持数据表名搜索获 取指定表数据,支持选择数据资源目录,范围性获取表数据。表信息预览:

27、用于将数据库表的信息在页面进行预览展示,包括 表名称、表结构、表类型、数据项数、表来源、表所属等。表数据预览:用于将表数据的信息在页面进行预览展示,包扌舌表 名称、字段名称、字段值、字段长度、字段类型、数据间关系、数据 来源、数据所属等。(2) 数据探查规则全表统计规则设置:梳理数据表的统计方法,制定统计规则,算 法内置,包括数据量大小、记录条数、注释完整度、最大值、最小值、 均值、方差、空值率、重复率等,全表统计规则的方式方法具体由后 台实现并且固化,无需前端操作。字段统计系统规则设置:梳理字段的统计方法,制定字段统计规 则,系统提供规则包括字段的值域等,数据统计规则的方式方法具体 由后台实

28、现并且固化,无需前端操作。探查报告模板管理:用于规范探查报告模版,提供探查报告模版 配置、模版启停用的管理功能,模版配置包括模版字段名称配置、说 明配置等,探查报告包括探查概况、探查列表、探查详情。(3)表数据探查指定字段:用于选择数据表中的多个字段进行指定探查,提高分 析速度,选择统计类型(如支持直方图、百分位、最大最小值、频率、 累计分布图和相关系数矩阵),设置步长、X轴区间输入。统计分析:根据预设的全表统计、字段统计规则进行统计运算, 包括统计完成率、算法实现率、统计广度、统计深度、规则说明等。全表探查:用于展示数据表探查结果,展示内容包含数据量大小、 记录条数、注释完整度、最大值、最小

29、值、均值、方差、空值率、重 复率等,探查结果在全表统计详情页展示。字段探查:用于展示数据字段探查结果,展示内容包含数据量大 小、记录条数、注释完整度、最大值、最小值、均值、方差、空值率、 重复率等,探查结果在全表统计详情页展示。生成探查报告:按照固定的模板格式自动生成评估报告,支持报 告浏览、下载。3. 6数据质量管理数据质量是一个过程而不是结果。数据质量应当在整个数据仓库 规划、设计、建设、维护中体现和实现。数据质量保证重点从数据质 量组织机构、数据质量管理以及数据质量验证机制三个方而进行考虑, 并应提供相应的管控流程支持。为保证数据质量得以持续的改进,保 证所有己知的错误在系统中不重复发生

30、,建立完善的数据质量文档体 系,整个系统内的数据质量活动都要求有完善的纪录,最终依次建立 或完善质量考核体系。(1) 数据质量要求完整性:在数据源能支持的情况下,现有数据应能满足所需业务 分析要求;元数据的完整及脏数据的妥善处理。一致性:现有数据在描述同一事物的同一属性时应有一致的取值; 互相关联的数据内在一致性应得到保证;数据格式的一致性等。准确性:包括报表、分析及数据挖掘三类,其中以报表的准确性 要求最高,分析次之,数据挖掘最弱。及时性:在确保完整性和准确性的同时要求数据处理的及时。(2) 规则管理在数据治理过程中,规则起到清洗、校正或转换数据的作用。数 据从原始表到目标表,要经历一系列的规则转换。规则由规则定义和 规则配置两部分构成。1) 规则定义规则定义包含内置的规则定义以及第三方实现的规则定义。规则 在原始表区、目标表区、映射原始表区、映射桥接区以及映射目标表 区中配置;规则配置绑定在目标表或者原始表或

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1