省级BI规范数据质量管理系统建设方案Word下载.docx

上传人:b****6 文档编号:16877219 上传时间:2022-11-26 格式:DOCX 页数:60 大小:870.75KB
下载 相关 举报
省级BI规范数据质量管理系统建设方案Word下载.docx_第1页
第1页 / 共60页
省级BI规范数据质量管理系统建设方案Word下载.docx_第2页
第2页 / 共60页
省级BI规范数据质量管理系统建设方案Word下载.docx_第3页
第3页 / 共60页
省级BI规范数据质量管理系统建设方案Word下载.docx_第4页
第4页 / 共60页
省级BI规范数据质量管理系统建设方案Word下载.docx_第5页
第5页 / 共60页
点击查看更多>>
下载资源
资源描述

省级BI规范数据质量管理系统建设方案Word下载.docx

《省级BI规范数据质量管理系统建设方案Word下载.docx》由会员分享,可在线阅读,更多相关《省级BI规范数据质量管理系统建设方案Word下载.docx(60页珍藏版)》请在冰豆网上搜索。

省级BI规范数据质量管理系统建设方案Word下载.docx

CORBAIDL

CORBAInterfaceDefinitionLanguage

CORBA接口定义语言

CWM

CommonWarehouseMetamodel

公共仓库元模型

ETL

Extraction&

Transformation&

Loading

抽取、转换和加载

JMI

JavaMetadataInterface

Java元数据接口

OLAP

On-lineAnalysisProcess

在线分析处理

XMI

XMLMetadataInterchange

XML元数据交换

1.7.术语和定义

序号

名词

解释

1

元数据

是描述经营分析系统中数据的数据,为数据质量管理等业务功能提供信息支撑。

2

技术元数据

技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源、ETL、数据仓库和数据集市、OLAP、一经接口等子系统的数据特征。

3

业务元数据

业务元数据用业务术语、名称、定义来描述经营分析系统中的各种业务信息,供业务人员使用。

4

管理元数据

管理元数据主要是指经营分析系统日常建设过程中,涉及开发、运维等管理流程的基本信息。

5

CWM标准是OMG组织定义的数据仓库和相关系统的国际元数据标准,CWM标准的目的在于使得数据仓库和商业智能软件的元数据在分布异构的数据分析工具,数据仓库平台,元数据存储等系统之间交互。

6

信息地图

信息地图是在元数据基本功能基础上对经营分析基础元数据信息的全局、多视角的展现。

2.总体说明

2.1.数据质量含义

在不同时期,经营分析系统对数据质量有不同的概念和标准,早期对数据质量的标准基本上是以提高数据准确性为出发点,但随着系统功能和定位的不断延伸,用户关心的重点逐步由数据准确性扩展至合法性、一致性等方面,这些内容也属于数据质量的范畴。

根据XXX省级经营分析系统前期的建设经验,经营分析系统关注的数据质量问题主要包括以下几个方面内容:

1.数据质量的六大基本要素是否满足,所谓六大基本要素是指:

Ø

完整性:

主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;

唯一性:

指主键唯一和候选键唯一两个方面;

一致性:

指统一的数据来源、冗余存储和统一的数据口径;

精确度:

指计量误差、度量单位等方面的精确度;

合法性:

主要包括格式、类型、域值和业务规则的有效性;

及时性:

指数据刷新、修改和提取等的及时性和快速性。

2.如何从用户视角衡量数据质量,重视用户对数据的满意程度;

3.如何通过建立有效的数据质量管理体系保障和提升数据的价值。

2.2.主要内容

本方案贯穿了省级经营分析系统数据质量管理系统建设的全过程。

描述了经营分析系统数据质量管理需求及范围,描述了数据质量管理体系总体应用框架,明确了数据质量管理系统中的元数据功能,确定了数据质量管理功能和流程。

本方案的附件《附件1省级经营分析系统元数据管理功能实现》同时给出了元数据管理相关建设步骤的参考,包括省级元数据库存储逻辑模型、省级元数据库的访问接口实现方法、元数据管理工具选型参考标准等,为元数据管理功能的建设提供参考依据。

2.3.系统建设目标

为解决数据质量管理问题,有限公司制定了《省级经营分析系统数据质量管理系统建设方案》(以下简称《方案》),指导和规范各省经营分析系统数据质量管理系统的建设和工程实施。

本方案借鉴了先期元数据试点省份的建设经验,同时参考了《经营分析系统元数据管理规范V1.0》和OMG组织的CWM国际标准等文献,规划重点实现以下建设目标:

1.建立贯穿经营分析系统各环节的数据质量保证机制,完善系统审计、稽核功能,为分析应用结果提供数据质量保障:

a)对纳入系统管理的数据实体和数据处理过程建立有效的监控机制,提供全面及时的数据告警,控制预防错误范围的扩大;

b)与源系统数据质量相互验证,分析源系统事件,监控业务数据合理性,对源系统的部分数据起到一定的检查作用;

c)将数据质量管理落实到各环节的可检查项中,实现流程化管理,提供常见问题的自动处理方法;

2.建设数据质量管理体系中符合CWM标准的元数据管理平台,为全网经营分析数据质量管理体系的建设、扩充和数据交换打下基础;

3.逐步丰富数据质量问题知识库,实现知识共享。

2.4.实施建议

本方案是省级经营分析系统数据质量管理系统规划和建设的基本指导,各省在实施过程中,可根据实际需要以本方案为基础进行扩充与细化。

建议如下:

1.在建立数据质量管理系统后,需要建立配套的管理机制,确保有专人依照流程对数据质量问题进行管理和维护;

2.元数据管理是本次经营分析数据质量管理系统的重要功能,是将来实现元数据交换的基础。

元数据提供了对数据本身的描述,是关于数据的数据,主要包括技术元数据、业务元数据和管理元数据。

各省在遵循CWM标准的前提下,可以根据自身实际情况,决定自行建设还是采购元数据管理工具;

3.各省可以根据自身业务情况扩展本实施方案中的元数据存储逻辑模型,但必须遵循CWM元模型的扩展规则;

4.本方案中列举的各类应用,如信息地图、数据质量评估、接口数据异常分析、指标一致性分析、需求变更影响分析、项目管理支撑等应用是本期建设重点关注的内容,各省可以根据实际情况增加其它相关应用。

3.数据质量管理需求

3.1.数据质量问题

经营分析系统数据质量问题按照问题的来源和具体原因,可以分为信息、技术、流程、管理四个问题域。

如图3-1所示。

图3-1信息问题域

1.信息问题域

图3-2信息问题域

信息类问题是由于对数据本身的描述理解及其度量标准的偏差而造成的数据质量问题。

产生这部分数据质量问题的原因主要有:

元数据描述及理解错误、数据度量的各种性质得不到保证和变化频度不恰当等。

元数据描述及理解错误中的相关元数据主要包括:

业务元数据——主要包括业务描述、业务规则、业务术语、业务指标口径等。

技术元数据——主要包括接口规范、执行顺序、依赖关系、ETL转换、数据建模和工具等方面的内容。

数据度量和变化频度提供了衡量数据质量好坏的手段。

数据度量主要包括完整性、唯一性、一致性、准确性、合法性。

变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。

2.技术问题域

图3-3技术问题域

技术类问题是指由于具体数据处理的各技术环节的异常造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷。

数据质量问题的产生环节主要包括数据创建、数据获取、数据传递、数据装载、数据使用、数据维护等方面的内容:

1、数据创建质量问题主要包括业务系统话单延迟入库、创建数据默认值使用不当和数据录入的校验规则不当,导致指标统计结果不一致、数据无效、记录重复等。

2、数据获取质量问题主要包括采集点不正确、取数时点不正确以及接口数据在获取过程中失真。

如,编码转换处理错误以及精度不够,导致指标统计结果不一致、数据无效等。

3、数据传递质量问题主要包括接口数据及时率低,接口数据漏传,网络传输过程不可靠,如包丢失,文件传输方式错误,传输技术问题,协议使用不当导致的数据不完整等。

4、数据装载质量问题主要包括数据清洗算法、数据转换算法、数据加载算法错误。

5、数据使用质量问题主要包括展示工具使用错误、展示方式不合理和展示周期不合理。

6、数据维护质量问题主要包括数据备份/恢复错误、数据的存储能力有限、维护过程缺乏验证机制和人为后台调整数据。

3.流程问题域

图3-4流程问题域

流程类问题是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于经营分析系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节:

1、创建流程质量问题主要指操作员数据录入时缺乏审核流程;

2、传递流程质量问题主要指通信流程沟通不畅;

3、装载流程质量问题主要指清洗流程缺乏/不当、调度流程逻辑错误、数据加载流程逻辑错误及数据转换流程逻辑错误;

4、使用流程质量问题主要指数据使用流程缺乏流程管理;

5、维护流程质量问题主要指缺乏变更维护流程、缺乏错误数据维护流程、缺乏数据测试流程以及对人工后台调整数据没有严格的流程监控;

6、稽核流程质量问题主要指缺乏数据错误反馈流程。

4.管理问题域

图3-4管理问题域

管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题,如人员管理、培训和奖励等方面的措施不当导致的管理缺失。

人员管理所产生的质量问题主要指:

(1)针对省级数据质量问题,没有建立管理数据质量的专门机构,出现数据质量问题后无专人负责;

(2)没有明确的数据质量目标;

(3)经营分析系统中的数据质量问题的优先级不够;

(4)集团公司缺少管理数据质量的管理办法等;

人员培训所产生的质量问题主要指对数据质量相关人员缺少长期培训计划;

通过上述对经营分析数据质量问题的分类,结合各省经营分析系统建设经验,信息、流程和技术三个方面的数据质量问题相对集中和可控,是本系统实施的重点。

对于管理,本方案侧重于提供对开发、运维管理流程方面的支撑,并对管理元数据及其管理范围进行了明确定义,具体参见第4章管理元数据的相关定义。

3.2.系统实施定位

在各省具体数据质量问题解决过程中,数据质量问题的定位和解决过程往往依赖具体人员的经验,问题处理效率和正确性难以保证。

因此有必要引入元数据的相关功能,提供对数据模型、指标口径及数据处理过程等元数据信息的灵活展现。

本方案介绍如何在基于元数据管理的基础上建立数据质量管理系统,并通过制定相关管理流程来保证经营分析数据质量的日常管理,管理流程部分的内容参见第5章。

数据质量管理系统的核心是元数据管理支撑功能的实施。

根据系统定位,数据质量管理系统与元数据管理支撑功能之间的关系阐述如下:

♦数据质量管理包含元数据管理

♦元数据管理功能为数据质量管理系统提供支撑

4.系统架构

4.1.系统体系

数据质量管理系统按照体系结构划分为源系统层、存储层、功能层和应用层,体系结构如图4-1所示:

图4-1数据质量管理系统体系结构

4.2.源系统层

源系统层定义了数据质量管理系统管理数据的范围,主要包括源系统接口数据、ETL、数据仓库、OLAP、前端应用等。

4.3.存储层

存储层中信息主要包括两个部分,一部分是存储在元数据库中的各类元数据,包括技术元数据、业务元数据和管理元数据,为数据质量管理系统提供信息基础;

另一部分是数据质量检查功能从经营分析系统提取的有关系统运行状况的信息及质量稽核过程信息,分述如下:

4.3.1.元数据存储

元数据是数据质量管理系统实现的基础,是描述和控制经营分析系统中数据的数据,对上层功能提供信息支撑。

元数据库中的数据主要分为三类:

技术元数据、业务元数据和管理元数据。

4.3.1.1.业务元数据

本部分将业务元数据划分为业务规则、业务描述、业务指标和业务术语四个部分,其中业务规则与业务术语、业务描述共同完成对业务相关信息的事实表述,数据质量管理系统通过对这些业务元数据的映射,可以得到对应的数据质量检查规则。

各省公司可以根据自身业务需求对本方案附件一中提出的业务元数据主题进行扩充,扩充的元数据主题必须遵循CWM元数据扩展规则。

4.3.1.1.1.业务规则

业务规则是一种描述信息,定义/约束了部分业务逻辑,可以用于对业务逻辑结构进行验证,用于控制或者影响业务逻辑的行为。

4.3.1.1.2.业务描述

提供对XXX各项主要业务的统一描述,这部分内容应与仓库模型的主题信息、相关业务的统计指标建立关联,描述内容包括:

♦业务基本描述

♦业务管理规定,包括业务组织、业务流程、资费标准

♦业务统计

业务描述是一个完整的描述,通过动词来连接术语使其成为一个有效的声明,例如:

开通具体业务的客户必须至少拥有一个有效的账户。

4.3.1.1.3.业务指标

业务指标表示与业务指标解释、追踪等相关信息,面向业务分析人员。

指标系统主题需要提取的元数据主要包括指标标识、指标名称、描述信息、建立时间、所属部门、创建者、类别、数据来源等。

4.3.1.1.4.业务术语

是一个名词或者名词短语,是对一种共识的定义,例如:

一个有效的账户被定义为此账户有余额且其有效期未过。

4.3.1.2.技术元数据

技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源接口、ETL、数据仓库和数据集市、OLAP、一经接口等子系统的数据特征。

根据经营分析系统的特点和经营分析系统数据质量管理的具体要求,本部分将技术元数据分为数据源接口、ETL过程、数据仓库存储、经营分析应用层、运行环境信息、质量管理过程6个方面,对各层中所需包含的实体进行说明。

4.3.1.2.1.数据源接口

经营分析系统的数据来源主要是外部的操作型应用系统,经营分析系统管理的数据源接口元数据主要是关于BOSS、客服、网管等外部系统与经营分析系统间接口的相关信息,包括:

♦运行环境相关信息

主要包含相关系统的主机信息、操作系统信息、数据库信息等;

♦数据接口定义信息

描述源系统数据接口的定义信息,包括接口数据实体结构(主题信息、实体定义、实体内部列定义、关键字、索引定义等)、接口数据实体间关系。

4.3.1.2.2.ETL过程

ETL过程中的元数据管理内容主要是ETL规则,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等,主要内容有:

♦接口抽取

描述数据抽取过程的相关信息,针对具体接口,主要包含:

1)接口抽取条件:

接口抽取的前置条件和数据条件;

2)接口抽取周期:

日、月等;

3)接口抽取时间:

周期内的抽取时间;

4)接口抽取方法:

增量、全量等;

♦数据清洗、转换、装载

描述接口数据到仓库数据的数据处理过程信息,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等。

4.3.1.2.3.数据仓库存储

数据仓库存储涉及ODS、仓库底层数据、集市数据等基本信息,以及数据流处理逻辑相关信息的提取,具体包括:

♦数据仓库逻辑模型

逻辑数据模型对任何企业元数据来说都是相当重要的,其实现方式主要是将建模工具(例如:

ERWIN)中的模型信息纳入到元数据管理中。

♦数据存储结构信息

这部分内容相对于数据仓库逻辑模型而言,反映需纳入管理实体的物理信息。

数据仓库内部的结构数据管理内容繁杂,主要有ODS和数据仓库的数据结构、数据定义、物理数据模型的结构、程序代码描述、数据库目录以及文件规划等信息。

其中,数据库目录包括需纳入管理的表、关系以及索引和视图的定义等。

♦数据流及其处理逻辑

这部分内容描述整个数据仓库中数据的流向、数据的处理逻辑、数据仓库各应用程序模块接口等系统全局性的信息。

数据流向和数据处理逻辑信息是进行系统开发、维护、升级前和数据变更前的影响分析的重要信息源。

4.3.1.2.4.经营分析应用层

基于数据仓库基础上,经营分析系统提供了KPI、OLAP、综合报表、数据挖掘、一经接口等应用,经营分析应用层元数据主要指这些上层应用的相关信息,主要包括:

♦指标技术定义信息

包含指标定义、对应维度定义、指标统计口径、指标关系等信息;

♦多维数据信息

主要指对多维数据相关信息的提取,主要包括:

1)多维主题基本信息:

包含主题与指标、维度等的关系;

2)多维数据库信息:

由于主流的多维数据库都支持CWM标准,针对各省的建设情况,可以考虑选用相关元数据工具进行相关信息的提取;

♦一级经营分析接口

作为数据分发过程,与ETL处理过程对应,主要包括一级经营分析接口的定义、标准代码定义、数据转换规则以及其它涉及一经接口数据生成上传的元数据信息;

♦数据挖掘信息

4.3.1.2.5.运行环境信息

描述经营分析系统运行环境的相关信息,主要有:

♦任务调度信息

经营分析系统处理涉及多个环节的大量任务,通常由一个统一的任务调度系统集中控制这些任务的执行,获取这些任务的相关信息对于了解和优化系统至关重要。

主要提取信息有:

任务基本信息、任务依赖信息、任务执行信息等。

♦系统运行环境信息

包括经营分析系统相关的主机信息、操作系统信息、文件系统信息、系统处理目录信息、数据库信息、表空间信息等。

4.3.1.2.6.质量管理过程

质量管理过程中的元数据主要是根据数据质量管理的要求,为支撑数据质量检查的相关功能,从监控经营分析数据及系统运行情况角度,抽取出的数据质量检查方法和标准。

质量管理过程中的元数据的规则有两个来源:

一个来源是系统各个处理环节的技术元数据,反映的是系统技术层面的处理情况,如数据量和指标值多少是合理,处理过程应该在什么周期内什么时间段内完成才正常,主机资源、表空间、文件系统的使用应该控制在什么样的阈值下系统处理才不会有问题;

另一个来源是业务规则、指标口径等业务元数据,通常会把业务规则的信息转化成技术化的规则、算法和度量标准,如指标间的稽核关系,而类似指标合理性的度量标准,则会根据业务发展情况而不断变化。

主要包括以下内容:

1、规则库

是数据质量检查的具体角度,主要包括经营分析数据的约束规则和合理性规则,以及检查数据处理过程及处理环境是否正常的规则等。

规则分为三类:

约束规则、计算规则和条件规则:

♦约束规则描述了一种无条件必须为真或者假的强制规则。

这种约束可以是结构化的(structural)约束,也可以是行为的(behavioral)约束。

1)结构化的约束:

当创建术语或者改变术语之间的关系的时候,结构化的约束能够保证术语的完整性;

2)行为的约束:

典型地被定义为“前置条件”和“后置条件”。

只有符合“前置条件”的情况下操作才能够正确地执行;

“后置条件”保证了操作结果的正确性,“后置条件”表示该行为是否满足了其预期的结果。

例如:

客户在开户时余额为0,在能够使用XXX业务之前,必须先充值,这里前置条件就是必须先充值,而后置条件是指所办理的业务是否成功办理;

♦计算规则反映一种计算的关系,例如:

月末余额=上月末余额+本月充值金额-本月消费金额;

♦条件规则反映当一定条件成立时,触发相关的事件或事务,例如:

预付费客户的帐户余额小于0,则对其实施停机操作。

2、算法库

主要是指为了支撑上述检查规则所需要的基本算法的集合,结合具体的规则由数据质量检查相关功能调用。

3、度量信息

度量信息是数据质量检查的基本依据,它反映了数据质量的衡量标准,也是数据质量管理系统技术元数据的一个重要组成部分。

度量信息是经验的积累,需要在数据质量不断的建设过程中逐步精确化,随着衡量标准的不断细化和精确,经营分析系统数据质量也会不断提高。

4.3.1.3.管理元数据

管理元数据主要是指经营分析日常建设过程中,涉及开发、运维管理各方面的基本信息,本方案明确要求对管理元数据进行存储,在此基础上对系统需求开发和日常运维管理流程提供IT化支撑,从管理流程角度对经营分析数据质量提供保证。

管理元数据主要包括:

♦管理流程定义

指经营分析需求开发、运维各管理流程及其具体步骤、步骤输入输出和参与角色的描述;

♦角色及职责定义

指参与经营分析需求开发、运维各管理流程的角色及其具体承担职责的描述;

♦人员组织信息及工作内容分配

指需求开发和系统运维过程中各参与人员承担的角色及具体负责的工作内容描述,如具体某个需求开发由谁牵头负责,ETL某个加载转换过程由谁负责维护等系统访问情况信息。

以上信息各省可以根据各自的管理流程情况,制定相关模板,进行手工整理。

4.3.2.质量稽核过程信息

是质量检查基本功能执行过程中产生的中间信息,主要描述系统运行状况的信息,包括数据、指标的周期取值,处理过程的运行情况,处理环境等各种度量数据。

如处理的数据量,表空间等是否超过阈值等。

数据质量管理系统根据预定义的规则、算法和度量等数据质量元数据信息,获取系统的数据质量稽核过程信息。

4.4.功能层

功能层提供了数据质量管理系统所能提供的基本功能,它为前端的应用提供了基本的功能支撑。

主要包括元数据支撑功能、质量检查功能及辅助功能三个基本功能域,具体内容如下:

4.4.1.元数据支撑功能

作为数据质量管理系统的基本支撑,方便用户对系统的理解,并在系统数据质量出现问题时,便于问题的定位。

主要包括:

4.4.1.1.元数据维护

完成对元数据的增加、删除、修改等基本操作,另外,还应支持实体、实体间关系的建模,数据处理过程的描述等功能。

对于元数据的增量维护,要求能保留历史的版本信息。

元数据的维护操作是原子操作,这些原子操作的实现需要借助于元数据管理平台提供的JMI接口或者CORBAIDL接口来完成。

在实施元数据维护操作的过程中,需要对这部分操作的过程进行一定的约束和限制。

元数据定义为如下的4种状态:

♦审核状态

对于需要进行维护的元数据,首先进入审核状态,从而等待审核人员的核查,确定该元数据是否需要进行修改;

♦公示状态

审核通过后,进入公示状态,即处于对元数据定义征求意见的状态,没有最后定稿,公示状态有一定的期限要求;

♦发布状态

公示状态期限的限制到期后,根据在公示状态期间回馈的意见,给出元数据维护的准确的方案,进入发布状态;

♦维护状态

用户提交修改元数据请求后,相关元数据进入维护状态,对相关元数据的维护需要保留其历史版本信息。

4.4.1.2.同步检查

主要是指对于数据质量管理系统中抽取的元数据,定期从经营分析系统中抽取,并与元数据库的信息比较,及时发现经营分析系统的应用变更,保证元数据的及时同步更新。

从经营分析系统中抽取元数据,主要分为两类:

自动的元数据抽取和人工抽取。

因此,有如下两类同步检查方法:

♦自动同步检查

对于需要检查的元数据,利用CWM模型中提供的CORBAIDL接口对数据质量管理系统中的元数据进行直接查询访问。

然后,利用从这个元数据对应的源系统中,利用提供的接口直接抽取出相应的元数据,然后进行比较,从而确定相应的元数据是否保持了同步;

♦人工同步检查

数据质量管理系统中

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 起诉状

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1