大数据产品规格说明书.docx

上传人:b****5 文档编号:11836837 上传时间:2023-04-05 格式:DOCX 页数:23 大小:1,021.34KB
下载 相关 举报
大数据产品规格说明书.docx_第1页
第1页 / 共23页
大数据产品规格说明书.docx_第2页
第2页 / 共23页
大数据产品规格说明书.docx_第3页
第3页 / 共23页
大数据产品规格说明书.docx_第4页
第4页 / 共23页
大数据产品规格说明书.docx_第5页
第5页 / 共23页
点击查看更多>>
下载资源
资源描述

大数据产品规格说明书.docx

《大数据产品规格说明书.docx》由会员分享,可在线阅读,更多相关《大数据产品规格说明书.docx(23页珍藏版)》请在冰豆网上搜索。

大数据产品规格说明书.docx

大数据产品规格说明书

数据管控产品规格说明书

第一章引言

1.1编写目的

本文档作为数据管控产品体系(元数据和数据质量管理)的产品方案说明书,介绍元数据和数据质量的解决方案。

1.2项目背景

经过多年建设,企业一般已经初步建成了各类管理信息系统,虽然在运用和分析数据支持经营决策方面已初见成效,但是对比战略发展要求和国内外最佳实践经验,还是存在数据管控水平不高,以及配套体系建设相对滞后的问题。

为解决这些问题,企业会做种种努力,但由于未采用系统性的管控治理,数据问题并未能从根本上解决,阻碍了企业管理精细化的进程。

参考国内外同业先进理念、做法,一般会从数据标准、数据质量、数据模型、数据分布、数据安全、数据生命周期管理等6个方面,采用全面规划、分步实施的策略,分阶段有序推进数据管控项目建设,包括构建统一的数据管控制度体系、优化数据管控流程、实施有针对性的数据管控配套系统建设,实现对数据资产的全面管理和深度利用,进而提升数据资产管理水平和信息服务水平,形成差异化的竞争优势和核心竞争力。

第二章方案概述

2.1方案目标

本方案主要完成以下工作:

1完成元数据管理系统和数据质量评估管理系统的引进、集成部署和客户化定制;

2完成风险相关数据标准在元数据管理系统的落地;

3完成风险相关数据质量的评估及数据质量评估分析模型的开发。

4完成其他业务需求中明确的试点系统的数据标准发布和质量评估落地工作。

2.2项目范围

2.2.1实施内容

1)元数据管理系统和数据质量评估管理系统相关基础性工作

根据业务需求,结合企业现有系统的情况,制定具体项目实施方案,确保能完成相关咨询成果在系统内的部署和设置。

完成系统接口设计、系统架构设计和形成实施所需的需求规格化文档等工作。

完成产品的集成安装和初步调试工作。

若提供的软硬件配置建议书不能完全满足企业软硬件选型需要的,需要协助事先完成必要的产品测试工作,确定最终的系统软硬件配置清单。

2)元数据管理系统和数据质量评估管理系统的客制化开发实施

根据企业的业务需求,对产品或应用进行客制化实施。

根据对业务、技术元数据进行抽取和加载,在系统中建立元数据之间的映射关系。

根据评分模型对评分卡进行客制化开发,并能将评分结果数据在第三方报表平台上展现。

本阶段需要完成系统的概要设计、详细设计;完成数据接口设计和数据ETL工

作;完成产品的配置,应用和报表的客制化开发等。

产品客户化过程中,出现在场人员无法解决的技术或产品问题时,投标人应及时组织国内国外资源,快速解决问题,不能因此对项目进度造成影响。

3)元数据管理系统和数据质量评估管理系统的测试

完成元数据管理系统和数据质量评估管理系统的各类测试工作,包括:

单元测试、集成测试、压力测试和协助用户测试,测试工作需要符合企业测试规范要求。

单元测试和集成测试的主要工作是:

制定测试策略和计划、准备测试案例和数据、执行各类测试案例(含功能测试、接口测试、报表测试、系统管

理和非功能性需求测试等)、分析测试结果、针对测试问题进行回归测试。

压力测试的主要工作是:

制定测试策略和计划、准备测试案例和数据、执行性能测试案例、分析测试结果、针对测试问题进行回归测试,完成系统调优工作。

用户测试的主要内容是:

做好测试数据准备工作,并协助完成测试。

4)元数据管理系统和数据质量评估管理系统的上线和试运行

完成元数据管理系统和数据质量评估管理系统的上线和试运行工作。

元数据管理系统和数据质量评估管理系统上线的相关事宜,主要包括:

确定系统软硬件、完成系统整体部署(含集成部署)、调试和调优、完成系统的初始化工作。

完成符合企业规范的上线和移交文档。

编写用户操作手册、业务手册、系统操作手册等。

元数据管理系统和数据质量评估管理系统试运行相关工作,主要包括:

试运行实施规划、

试运行过程中的问题整理和处理、试运行结果分析等。

维护系统、明确系统应急处理机制并演练等。

2.3方案概述

数据管控系统建设方案元数据产品MetaOne系统和数据质量系统QualityOne,并结合专业的

业务和技术团队,旨在建立一套符合企业数据管控体系建设需求的数据管控体系系统。

数据管控体系建设项目依托元数据和数据质量管理体系,旨在建立一套符合企业特色的数据管控体系系统,本项目实施主要完成数据管控系统咨询成果落地工作,通过数据标准配置;指标标准管理及分析预警;元数据获取和调度;数据质量分析和预警展示和数据探查分析和预警等模块,全方位全角度展示企业系统平台技术和业务元数据分析,最终,实现数据质量监控预警。

第三章总体方案

3.1系统架构

3.1.1总体系统架构

数据管控体系建设平台实施方案采用双模式进行调度配置,为保证第一时间有效监控业务风险相关

业务指标监控情况,因此,总体方案中,首先采用企业数据仓库平台调度平台优先监控风险相关业务指

标信息,其次元数据管理产品内部调度机制,加载相关平台,关系数据库(应用业务数据和技术业务数据)和数据模型等元数据信息。

信息交付层:

主要展示元数据和数据质量成果信息,展示方式主要通过都必须通过AD域验证(统一认证平台),信息访问通过报表平台BIEE和元数据系统内部展示平台展示元数据和数据质量分析预警信息。

应用层:

主要提供企业BIEE报表系统展示的数据接口,展示业务客户需要的业务元数据信息。

系统管理层:

主要描述MetaOne和QualityOne为用户提供基本功能完善的元数据仓储管理平台,并支持基于平台的应用服务定制。

丰富的调用接口和强大的二次开发指南,保障产品良好的适用性。

系统整体在功能上,划分为存储层、基本功能层、接口层、应用层。

数据获取层:

主要描述系统获取元数据方式有两种触发方式,为实现监控风险相关业务指标,系统将采用部分任务配置在调度平台调度;其他数据获取方式将采用MetaOne定时触发和依赖满足触发任务,将所需的业务指标数据和平台技术数据安装规范加载至平台内部。

源数据层:

主要描述数据管控体系的数据源信息,包括标准格的业务元数据;镜像业务系统关系数据库;ETL系统标准元数据信息;平台相关技术元数据信息;模型设计文件元数据和咨询涉及的其他标准元数据文件成果。

3.1.2物理系统架构

同时,两台服务器具

数据管控体系系统物理架构采用应用服务和数据库服务器独立方式设计,

体内部互补自动切换功能,有效防止由其他因素导致的系统瘫痪。

 

3.2系统数据流程

3.3

下面展示元数据和数据质量系统数据流程图示如下

 

3.4网络和安全

MetaOne元数据系统部署于企业的业务网段,通过代理将应用服务器地址反向映射办公网段,仅开通WEB服务端口,向位于办公网段的业务管理用户提供服务;其他业务系统的接入均在企业的业务网段内,与外部环境隔离。

3.3.1开放的Internet标准

系统建立在开放的Internet标准之上,例如:

SSL,HTTP,XML,TCP/IP,SOAP,支持多层次的客户机/服务器体系结构,其通过TCI组件支持多种报文的传输、组包、解包;利用webservice实现与异构系统之间的数据交换。

可以成功运行在支持Java虚拟机的各种操作系统及相应的各种硬件平台上,符合信息技术的发展方向,具备广泛的应用前景。

3.3.2系统层安全

系统层安全主要针对系统的操作系统和数据库等软件平台进行安全防护,其主要采用的措施如下:

安装系统的安全补丁(Patch)。

关闭不需要的进程服务和端口。

使用漏洞扫描产品,定期进行安全扫描及时发现问题并采取补救措施。

定期审核系统配置,避免因配置不当造成的权限管理混乱。

3.3.3业务安全控制

通过安全代理前置设备、防火墙等系统来保证系统的安全性,以及通过负载均衡来保证系统的高可用性,这只是从网络环境和系统结构的角度保证系统的安全,整个系统的安全性应该是一个多层次的概念。

主要考虑一下几个方面:

关键操作有详细的操作记录可查。

供严格的

登录系统日志的安全审计多维的交易权限管理机制,关键操作提供多重授权功能。

对于管理端的关键数据设置提

复核机制,以保证数据的正确性、合法性。

会话管理(Session):

与应用服务器的会话管理结合,实现多种会话的建立和管理,让不同的会话采用统一的管理机制。

同时实现会话的超时管理,有效防范避免操作人员使用已经失效的会话进行误操作,同时防止垃圾会话数据占用内存,影响系统性能甚至使系统无法工作。

3.3.4统一身份认证

针对统一身份认证系统的要求,系统采取一种适用(针对)于WebLogicServer的、简洁的、有效可行的统一认证即单点登陆(SSO)解决方案。

这个方案以集中统一的用户信息为基础,但不包括上节说明的权限管理,而仅仅提供一个身份验证的服务。

实现SSO的本义。

在SSO帮助用户完成身份验证后,由系统本身的权限管理进行用户行为的进一步控制。

这样不仅完成了用户帐号的集中管理,又不失原有系统灵活的权限控制。

而且方案简单可行,不需要对原有应用做较大更改,适合快速解决SingleSign-On问题,符合行内系统的要求。

其主要采用SAMLBrowserPostProfile方案,通过推模式获取SAMLToken,由IdentityProvider推Assertion到ServiceProvider.而后验证

Assertion将用户重新定向到目标URL。

3.5系统灾备

为了保障对数据处理的高可靠性和高可用性,系统需要具有较好的实时备份和灾难恢复能力。

系统采用SQLSERVER2008数据库服务器支持的双机热备容错方案来实现系统的备份策略,由两台机器共享一个磁盘阵列(共享磁盘组),当其中一台机器发生故障时,另外一台机器接管整个磁盘阵列,从而实现双机容错。

如下图:

第四章方案细化

5.1产品功能

5.1.1元数据

元数据产品MetaOne采用高内聚、低耦合的组件式产品架构,丰富功能组件,为客户搭建功能强

大的元数据管理平台。

向用户全面开放元数据功能调用接口,并提供整套实施方法论。

使用户在完成元数据管理、维护等基础功能的同时,方便实现二次开发,满足行业应用的针对性需求。

 

基本管理平台(MetaOnePlatform)

由元数据仓储、Web应用程序、元数据接口层、统一数据源管理客户端、元模型操控台以及元数据基本维护管理功能组成的组件集合,是MetaOne产品的基本功能集。

元数据存储库(MetaDataRepository)

基于关系数据库的元数据存储库,用于实现元数据的物理存储。

元数据基本维护界面(MetaOneWebAPP)

B/S结构的Web管理程序,实现用户对元数据的一般管理、维护操作。

对外服务接口(MetaOneInterface(MOI))

一组基于JavaRMI的API集合,内容包括对元数据、元模型的所有基本操作,配套提供使用方法论,使用户方便调用,实现二次应用开发。

MIB))

元数据获取器(MetaDataIntegrationBridge

数据源管理平台,对所有连接系统的数据源进行统一管理,实现数据源元数据的抽取和元数据向MetaDataRepository的导入。

元模型管理控制操作台(MetaOneConsole)元模型操控台,用户通过操控台实现元模型建模。

基础应用分析

元数据的基本维护管理功能

高级应用分析通过元数据接口,调用元数据及相应功能,针对行业需求开发的应用。

5.1.1.1功能特性

MetaOne的产品理念,是为用户提供基本功能完善的元数据仓储管理平台,并支持基于平台的应用

服务定制。

丰富的调用接口和强大的二次开发指南,保障产品良好的适用性。

系统整体在功能上,划分为

存储层、基本功能层、接口层、应用层。

元数据存储层

包含元数据存储库,负责承载不同领域的元模型以及相关的元数据。

元数据基本功能层

实现系统对元数据的基本功能,针对元数据自身的维护和管理。

包括元数据的维护管理、元模型

维护管理,影响分析、血统分析、差异分析等图形展现功能,元数据版本管理、权限管理、日志管理、质量管理等。

接口层

MOI为MetaOne提供的元数据接口集合,供二次开发对系统各类数据、功能的调用。

应用层

通过MOI接口层与元数据存储层实现连接的部分属于应用层。

包含两个方面,Metaone提供的功

能组件MOConsole和MIB,以及针对不用同的具体需求开发的应用功能。

5.1.1.2数据流程

MetaOne元数据管理系统将涵盖系统数据处理流程各个环节的数据结构等信息读取进来,包括源系

统信息、ETL过程、数据库结构、数据模型、业务应用、前端展示和门户管理等,并加入业务规则的描

述和业务量值的内涵,下面图示详细介绍数据获取流程信息:

5.1.1.3数据获取

MetaOne元数据管理系统的元数据管理范围,涵盖系统数据处理流程各个环节,各个环节中数据源所能提供的数据类型、结构都需要相对应的元数据获取方法。

MetaOne元数据管理系统提供统一的数据源管理平台,平台中集成了针对不同数据类型的元数据获取功能插件,可以将包括源系统信息、ETL过程、数据库结构、数据模型、业务应用、前端展示和门户管理等数据源进行统一管理,实现元数据的自动获取。

MetaOne提供元数据整合获取平台元数据集成桥(MetadataIntegrationBridge,元数据集成桥),

提供自动获取、手工获取两种元数据获取功能,自动获取主流BI工具的元数据或手工获取XMI/Excel文件

中的元数据。

MIB具备强大的管理能力和可扩展性,能够对自动获取的数据源进行管理,能够提供自动获取的框架,

在此框架可以扩展自动获取的适配器;对元数据的自动获取提供持续稳定的调度支持,能够按预设的调度策略触发相应的元数据自动获取过程,同时支持对自动获取过程的日志记录。

MIB体系架构如下图所示:

MIB数据接口

元数据集成桥能够自动获取主流BI工具的元数据,并支持通过对SQL脚本、TCL脚本的词法、语法和语义分析,生成满足CWM规范要求的数据处理元数据,存储到MetaOne中进行统

管理。

通过MIB,MetaOne可自动获取系统项目的相关工具所涉及的元数据,确保元数据及时更新

与业务系统同步,减少人为的手工梳理过程。

MIB技术特点

元数据集成桥通过把不同数据源的元数据抽取、转换到统一的元数据系统中,能够实现企业级的元

数据整合、集中和统一,提升系统的元数据管理水平,其技术特点如下:

1.跨平台:

服务器支持Windows、Unix、Linux(Windows,Linux,IBMAIX,SUNSolaris),

RCPClient支持Windows、Linux、MacOSX系统;

2.兼容性:

数据存储于主流关系型数据库系统,支持Oracle,DB2,SQLServer等;

3.灵活及易用性:

元数据集成桥提供了友好的图形界面,用户只需要配置相应的参数就可以完成本次导入。

用户可以选择需要导入的对象列表,设置过滤规则,选择元数据的根节点,无需要编程就能够完成各省的特性化需要。

4.主流开放性:

100%JAVA、按J2EE模式构建、基于RCPClient的客户端架构,采用XMLRPC和JSON

RPC通信方式,支持各类编程语言开发的分布式应用程序间的通信,如C、JAVA、Perl、PHP、.N

等;

5.全中文化和国际化:

界面操作全部显示中文。

可以根据需要按照区域化的配置显示客户熟悉的语

言。

6.后台自动调度:

通过后台调度自动定期执行导入作业。

7.支持增量导入和自动关系维护:

同一个数据源多次导入时,可以支持以增量方式进行导入。

减少数据处理量,提高效率。

8.自动关系维护:

通过元数据的属性或者解析SQL的方式,能够自动的建立元数据之间的关系。

9.支持大数据量:

为了能够支持超大数据量(>200M)的元数据导入,系统优化了XML解析和数据

比较,并且支持多个Java虚拟机(JVM)的数据导入,最大限度的利用了硬件系统的资源。

5.1.1.4数据模型

元数据管理系统具有独立的元模型管理控制平台,实现元模型的建立、关系的维护等功能。

元模型架构支持国际CWM规范、提供行业预定义元模型、支持用户按需完全定制,从而保障用户随着时间推移对更多种类元数据的管理需要,以及完善现有元数据定义的需要,能满足企业中长期发展的需求,提高投资回报率。

元模型管理功能包括:

提供图形化元模型管理控制台(Console)

支持元模型的增加、删除、修改等基本操作支持标准的CWM元模型支持元模型扩展和自定义支持继承、关联、依赖等基本关系类型

支持关系类型扩展支持多业务领域(Domain)

支持跨业务领域的元模型差异分析

以XML格式对元模型进行导入导出

4.1.2数据质量

4.1.2.1数据质量评估体系

数据质量评估体系主要由两部分组成:

数据质量评估维度和数据质量加权计分卡:

数据质量基础评估维度是指对数据质量进行定量或定性评估时所采用的描述数据质量不同方面特性的评价标准。

数据质量加权计分卡是在数据质量评估维度的基础上,根据业务关键性对各类维度进行权重设定并计算形成数据质量评分。

数据质量基础评估维度根据数据用户对数据质量的关注点不同,数据质量特征可分为两类:

数据内容质量和数据展示质量。

两类数据质量特征分别具有一套数据质量的基础评估维度。

1.数据内容质量评估维度:

数据内容质量评估维度

描述

低质量数据举例

有效性(Validity)

数据遵从定义,取值范围和业务规则

地址缩写无效,不能代表真实的地址。

唯一性(Non-Duplication)

不存在多个数据项或冗余记录对统一现实实体进行描述

一个移动用户存在多条客户个人信息记录。

全面性(Completeness)

所需要的全部数据都能够被得到,包括所需的数据元素、记录、数据值

动感地带标记为“是”,但不存在详细的套餐信息

关系有效性(RelationshipValidity)

数据遵从相关业务规则

邮政编码为海淀区,但地址为西城区

一致性(Consistency)

在多个数据库中存储的同一

事实数据是相同的

统一客户在不同系统中有不

同的名字和地址

同时性(Concurrency)

对于不同系统中存储的同一数据的更新是同时发生的。

此评估维度是有关数据流动的度量,考察数据从首次进入一个库表或文件开始,到进入另一个文件或库表所需的时间。

周一,一位客户在客户信息系统中更新了地址,但此更新到周五时才更新到分析系统中。

及时性(Timeliness)

当数据用户需要使用数据时,该数据可以获得。

需要查询某报表时,数据无法马上获得。

事实准确性(AccuratetoReality)

数据准确反映现实实体

一个客户记录中的电话号码

与真实号码不匹配

来源准确性(AccuratetoSurrogateSource)

数据与其来源匹配,如表格等文档

客户填报的数据与系统中的

数据不匹配

精度(Precision)

数据的精度,如小数位

分项数据先对十分位做四舍五入后汇总,丢失小数数据

衍生正确性(DerivationIntegrity)

由其基础数据衍生或计算得

到的数据的正确性

渠道经理年平均业绩由渠道销售收入除以渠道经理数量得到,但1~10月份有20个渠道经理,11~12月新增了10个渠道经理。

2.数据展示质量评估维度:

数据展示质量评估维度

描述

低质量数据举例

可访问性(Accessibility)

数据用户得到数据的方便程

业务用户需要某个指标数据,但必须由技术人员做ETL后才能得到

上下文明确性(ContextualClarity)

数据展示让数据用户很好的理解数据的含义,避免歧义或错误解释。

报表标签说明有误

可用性(Usability)

数据展示可以直接、高效达到使用目的

统计数据需要配图片和文字

说明才更容易理解

正确性(Rightness)

能够提供正确的数据类型和达标的数据质量以支持业务流程

全球通VIP用户申请信息中没有历史花费记录,无法进行申请评估。

数据质量加权计分卡

数据质量加权评估计分是根据数据质量评估维度、被评估数据的技术特性和业务特性等等要素对数据进行分类,对不同类型进行权重值设置,对根据各类数据质量评估维度得出的基础评估量化值进行加权计算并最终得到数据质量综合水平计分的过程。

具体分类方式如下:

数据质量评估维度分类:

将上述的基础评估维度进行进一步分类,可得到数据质量六个方面的特

性,即:

合理性、一致性、及时性、完整性、唯一性和准确性。

数据技术特性分类:

根据数据的来源不同,可以分为基础数据、数据仓库汇总数据、应用层数据等。

数据业务特性分类:

可以根据业务条线对数据进行分类,如市场风险数据、信贷风险数据、操作

风险数据等。

对不同分类设置权值后,即可进行数据质量水平的加权计算。

数据质量加权计分卡的总体设计思路示意图如下所示:

数据质量加权计分卡

 

4.1.2.2功能框架

数据质量组件包含两块内容:

规则制定,质量评估。

规则制定是基于咨询数据标准的导入,也包含企业后续对数据质量规则的制定(数据标准,数据接口,元数据规则等);质量评估则是对规则结果的调整,通过数据评估,制定一整套数据质量管理流程,便于对数据进行修正,对业务规则进行合并,清理,更好得服务决策和分析。

管理层

任务调度

外部接口定制

扩展

服务

权限管理

规则跟踪服务

报告导出

数据质量管理系统通过对KPI指标信息进行采集,对监控规则进行设置,对异常信息进行告警,出具数据质量报告等功能,可以满足企业对高管系统KPI指标进行监控的需求。

对于数据质量管理来说,对规则的灵活设置,对任务的及时反馈,对结果的评估,以及和第三方工具紧密集合是一个产品成败的关键。

对于数据质量流程,一般框架如下:

存储管理

数据质量管理系统定义了支撑数据质量监控功能并符合CWM标准的元模型结构,包括监控对象、

采集项、采集规则以及监控规则等。

其中所涉及的元数据信息如监控对象信息,需要从元数据管理系统获取。

质量管理人员也可以创建新的元数据,来满足质量监控的需要。

相关的质量信息存储在数据质量关系数据库中。

采集管理数据质量采集模块由采集服务器和采集代理组成,采集代理支持分布式部署,采集服务器对采集代理进行集中管理,支持的功能如下所示:

代理启动时向服务器注册请求,注册信息包含代理的IP地址、通讯端口、进程ID,启动时间;代理每个一段时间要向服务器发送心跳检测信号,心跳间隔时间可配置;代理在允许结束时向服务器发送

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1