数据质量管理Word文档下载推荐.docx

资源描述

数据质量管理Word文档下载推荐.docx

《数据质量管理Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《数据质量管理Word文档下载推荐.docx（25页珍藏版）》请在冰豆网上搜索。

数据质量管理Word文档下载推荐.docx

1.2数据质量管理评价标准

数据质量度量的规则有很多，一般常用的如下：

一致性：

一致性是指统一数据来源、统一存储和统一数据口径，确保

一个数据集的数值和另一个数据集的数值一致，一致性主要考察的是

业务约束检查；

有效性：

有效性是指数据实例的存储、交换或针线的格式是否与数据

值域一致，是否与其他相似的属性值一致，有效性确保了数据值遵循

与数据元素的多个属性：

数据类型、精度、格式、预定义枚举值、值域范围及存储格式等，有效性主要考察的非法值检查，数据格式校验；

准确性：

准确性是指数据准确反映其所建模的“真实世界”实体的程度，通过度量数据值与一个已确定的正确信息参照源的一致性来衡量其准确性。

准确性主要考察码值校验；

完整性：

完整性是指一个数据集的特定属性都被赋予了数值或者一个数据集的全部行记录都存在。

包括实体不缺失、属性不缺失、记录不缺失和字段值不缺失四个方面完整性，主要考察空值校验、记录数校

验等；

合理性：

合理性指按用户实际情形进行校验规则扩展；

唯一性：

唯一性主要体现在一个数据集中，没有实体多余一次出现。

满足实体唯一性，说明没有实体出现多余一次，并且每个唯一实体有

一个键值，且该键值只指向该实体。

唯一性主要用于主键重复检查、

主外键校验、总分校验；

及时性：

指数据刷新、修改和提取等操作的及时性和快速性，数据的

采集和入库要满足业务发展和管理的时效性要求；

精确性：

指计量误差、度量单位等方面的精确程度。

1.3数据管理成熟度

数据质量成熟度模型分为四个等级，分别是初始级-定义级-管理级-优

化级；

初始级：

通过数据库进行数据管理；

定义级：

通过模型管理进行数据管理;

管理级：

通过元数据进行数据管理；

优化级：

通过企业标准数据架构进行数据管理；

其中，初始级和定义级阶段，每个系统都是分离的数据管理，非标准的独立的数据管理，管理级和优化级阶段，采用企业集成数据管理和标准化元数据管理。

1.4数据质量问题分类

数据质量主要针对单数据源数据和多数据源数据两万面，两种类型数据

都由实例层数据和模式层数据组成。

数据清洗技术是解决数据质量问题的一种有效方法，可以检测和修正实例层的脏数据。

但是数据清洗技术无法全面地解决数据质量问题中模式层的脏数据，必须借助数据整合技术。

第二章数据质量问题的原因与实施方法

2.1数据质量问题的原因分析

数据质量的问题突出表现在：

核心问题收入减少、成本增加、风险增高

分别从信息化标准建设、信息管理制度、数据管理流程、技术能力建设方面来看数据数据质量问题的原因：

1）信息问题域：

缺乏统一的数据描述导致业务理解差异

信息标准不统一产生低质量的数据，导致业务人员对数据缺乏信心

2）管理问题域

对数据质量的价值及其重要性认识不足

缺乏专门的数据质量管理组织与相关的管理制度

3）流程问题域

需求变更、开发测试等方面没有流程规范和制度数据创建、数据使用、数据维护等方面没有流程规范和制度

4）技术问题域

系统接口复杂，数据流向不清，缺乏对数据的整体规划

具体数据处理的各技术环节的异常造成的数据质量问题

系统建设重功能轻数据

訓

話*•Jis

円fl-.A

ITS

2.2数据质量管理的意义

可灵活配置检核规则：

内置多种数据质量问题的检核规则，支持灵活

的检核规则配置。

有效监测数据质量问题：

建立企业数据平台的数据纵横监控网，有效

发现仓库内的数据质量问题，并提供数据告警和质量问题分析报告。

建立质量评价体系：

建立考核指标，量化数据质量的整体情况，找出

数据质量的薄弱环节。

提供多种系统接口：

预留了与多种系统的接口，系统间无缝集成。

规范的问题管理流程及制度，精确管理问题每个阶段，完善的质量问

题解决共享机制，实现数据质量的闭环管理

2.3数据质量管理的方法论

数据质量管理的方法论和过程采用PDCA勺问题处理机制，具体的数据

质量提升周期包括评估一一认知和行动阶段，管理策略包括：

数据质量指

标一一质量检核运行一一质量问题报警一一质量问题分析一一问题管理流程。

（1）定义业务需求和方法：

定义企业的数据质量管理需求，确定数据质量管理和评估的标准；

（2）分析信息环境：

分析当前的企业信息化环境和系统数据，以及数据质量管理制度和流程是否满足数据质量管理实施的条件；

8/33

（3）评估数据质量：

根据选用的数据质量标准和评估体系，对当前系统的数据进行数据质量评估；

（4）评估业务影响：

根据数据质量检测的结果，评估数据质量问题对业务的影响程度；

（5）识别根本原因：

采用鱼骨图等方式，分析探究产品问题数据的根本原因；

（6）制定提升方案：

根据数据质量问题的产生原因和数据质量管理标准，制定提升方案；

（7）预防未来数据错误：

制定和执行数据质量提升方案，强制要求新入库的数据按照新的数据质量规则进行处理，确保未来数据满足质量管理要求；

（8）发现及纠正当前数据错误：

按照数据质量标准和业务处理建议，将当前错误数据进行数据清洗和转换，使得历史数据也满足质量管理要求；

（9）实施监督控制：

对整个数据质量管理流程进行全流程、全方位的监督控制，确保数据标准定的好、落得下，数据质量问题抓得准、改的好，数据质量能得到全面提升；

（10）沟通行动和结果：

在数据质量问题处理过程中，数据质量管理员收集在问题处理过程中涉及到各种资料和方法，反馈到数据管理主管及相关人员。

同时将数据质量管理指标和问题处理经验的知识库沉淀。

第三章数据清洗

针对数据质量问题，目前的主要处理方式是进行数据清洗。

3.1数据清洗加工原则

1）方法一致性

数据资源清洗加工工作应统一决策，同一数据库范围内工作方法、技

术指标均应当统一，从而达成数据产品的一致性。

2）数据可信性

数据可信性包括精确性、完整性、一致性、有效性、唯一性。

描述数据是否与其对应的客观实体的特征相一致。

描述数据是否存在缺失记录或缺失字段。

描述同一实体的同一属性的值在不同的系统是否一致。

3）数据可用性

数据可用性包括时间性、稳定性等。

时间性：

描述数据是当前数据还是历史数据。

稳定性：

描述数据是否是稳定的，是否在其有效期内。

3.2数据清洗质量评估要求

而数据质量

数据清洗的评估实质上是对清洗后的数据的质量进行评估,

的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。

质量的评价指标等的研究分析。

b）数据完整性准则（Dataintegrityfundamentals）

存在性、有效性、结构、内容及其他基本数据特征的测量标准;

c）重复（Duplication）:

对存在于系统内或系统间的特定字段、记录或数据集意外重复的测量标准；

d）准确性（Accuracy）:

对数据内容正确性进行测量的标准；

e）—致性和同步（Consistencyandsynchronization）:

对各种不同的数据仓库、应用和系统中所存储或使用的信息等价程度的测量，以及使数

据等价处理流程的测量标准；

f）及时性和可用性（Timelinessandavailability）:

在预期时段内数据对特定应用的及时程度和可用程度的测量标准；

g）易用性和可维护性（Easeofuseandmaintainability）:

对19数据可被访问和使用的程度，以及数据能被更新、维护和管理程度的测量标

准；

h）数据覆盖（Datacoverage）:

相对于数据总体或全体相关对象数据的可用性和全面性的测量标准；

i）表达质量（Presentationquality）;

如何进行有效信息表达以及如

何从用户中收集信息的测量标准；

j）可理解性、相关性和可信度（Perception，relevaneeandtrust）

数据质量的可理解性和数据质量中执行度的测量标准，以及对业务所需数据的重要性、实用性及相关性的测量标准；

k）数据衰变（Datadecay）:

对数据负面变化率的测量标准；

l）效用性（Transactability）:

数据产生期望业务交易或结果程度的测

量标准。

在评估项目数据质量过程中，需要首先选取几个合适的数据质量维度，再针对每个所选维度，制定评估方案，选择合适的评估手段进行测量，最后合并和分析所有质量评估结果。

3.3数据清洗角色定义

数据清洗管理涉及的数据管理角色有提供者和管理者。

提供者负责提供

清洗的业务数据，管理者负责数据清洗系统的基本运行管理、数据清洗规则制定、数据清洗发起等。

项目中提供者为数据接入方，管理者为项目建设方。

具体针对特殊情况有所变化。

提供者管理要求：

提供者应配合管理者根据接入数据指标规范与接入数据内容、接入数据

流程要求，配置与部署接入服务，实现接入数据库的数据交换；

提供者应该提供待清洗数据的数据结构；

提供者应接收数据清洗系统的

问题数据，及时修改，并通知管理者。

管理者管理要求：

管理者对数据清洗系统的管理要点应包括：

管理者应负责协调并明确数

据清洗规则；

管理者应负责构建清洗后数据及问题数据各自的数据库和数据表的结构；

管理者应负责将问题数据库提交给提供者，并协调提供者修改完善。

数据审核管理要求：

数据审核的目标是确保数据内容与被描述对象相一致，并且质量符合数

据产品标准要求。

数据审核可以贯穿于整个数据资源加工过程之中，可以量化评价的内容

包括数据来源质量评价、数据加工模型与算法质量评价、数据产品质量评价等。

数据矫正处理要求：

在数据阶段化过程中解决问题，对于那些同意纠正的数据，应当由原始数据提供者和管理者一起制定正确的规则，在数据接入过程中清洗。

唯一正确的结果是纠正原始加载的数据并且用当前的数据校正历史数据。

原始数据提供者应定期对数据源系统进行检查和清洗。

3.4数据清洗的方法

数摇清洗

数据清洗的方法包括：

缺失数据处理、相似重复对象监测、异常数据处理、逻辑错误监测、数据不一致性监测等。

用不同方法清洗的数据，对后续挖掘应用工作会产生不同的影响。

341数据预处理

在汇聚多个维度、多个来源、多种结构的数据之后，需要对数据进行预处理。

预处理过程中除了更正、修复系统中的一些错误数据之外，更多的是对数据进行归并整理，并储存到新的存储介质中。

13/33

1）数据抽取

数据抽取是从数据源中抽取数据的过程。

数据抽取最常用的是ETL技术,

具体数据抽取工具种类繁多，可根据实际业务数据的特点进行选择。

从数据库中抽取数据一般有以下两种方式。

全量抽取：

全量抽取类似于数据镜像或数据复制，它将数据源中的表或视图的数据原封不动的从数据库中抽取出来。

该方法主要用于在系统数据初始化时使用。

增量抽取（更新）：

增量抽取是指在上次抽取完成后，对数据库中新增或修改的数据的抽取。

2）数据过滤

数据过滤要初步实现对业务数据中不符合应用规则或者无效的数据进行过滤操作，使得数据标准统一。

3）数据转换

数据转换要实现对数据的格式、信息代码、值的冲突进行转换。

常见的业务数据转换规则详见下表“业务数据转换规则表”。

转化规剧

規则描述

將存类日期统一为八位的字rJUW*YYHMMDD

统一时间日期

榜ft类时闻统一为卞悅的字符时鬧.如JIIIWSS

Stft（格式

将各类事件H期统一为十四位的学符时何日期.如

VYYyMMWMIhMMSS

将人员的tl别敌据统-转换为国标杵削信息代码

统一分类独据联ffi代码

将人员的民課败据蜕一转換为标准（HJlkK码

将人员的尸諦地址数獻统F转换为打政区划代网

将人负的晞第费记怙况统•转换为标准的蜡确状况代码

将仝艮身份证号竦-转换为戊位匚蔺比旳躬

4）数据加载

数据加载过程进行的主要操作是插入操作和修改操作。

将干净数据及脏

数据分别插入到不同的数据表中。

对于数据加载工作，一般会搭建数据库环境，如果数据量大（千万级以上），可以使用文本文件存储结合脚本程序处理进行操作。

342数据清洗

3.421数据清洗规则

数据清洗规则包括：

非空检核、主键重复、非法代码清洗、非法值清洗、数据格式检核、记录数检核。

1非空检核：

要求字段为非空的情况下，需要对该字段数据进行检核。

2主键重复：

多个业务系统中同类数据经过清洗后，在统一保存时，为保证主键唯一性，需进行检核工作。

3非法代码、非法值清洗：

非法代码问题包括非法代码、代码与数据标

准不一致等，非法值问题包括取值错误、格式错误、多余字符、乱码等，需

根据具体情况进行校核及修正。

4数据格式检核：

通过检查表中属性值的格式是否正确来衡量其准确性，如时间格式、币种格式、多余字符、乱码。

5记录数检核：

指各个系统相关数据之间的数据总数检核或者数据表中每日数据量的波动检核。

业务约束检核应在实施过程中与业务人员共同确定，业务人员从业务的

正确性、一致性、有效性等角度考虑数据的检核规则，如：

建档日期、入学日期、民族信息等的有效性检核。

3.4.2.2脏数据处理

数据质量中普遍存在的空缺值、离群值和不一致数据的情况，这些脏数据可以采用人工检测、统计学方法、聚类、分类、基于距离、关联规则等方法来实现数据清洗。

国1数据淸诜皓栓图

根据缺陷类型分类，可以将脏数据分为缺失值数据、错误数据和错误关联数据三种核心问题数据进行数据清洗。

（A）缺失值数据处理：

不完整的、含噪声的数据是未经清洗的数据集的共同特点。

在数据集中,

若某记录的属性值被标记为空白或“-”等，则认为该记录存在缺失值，是

不完整的数据。

缺失值是最常见的数据问题，处理缺失值按照以下步骤进行：

确定缺失值范围：

对每个字段都计算其缺失值比例，然后按照缺失比例和字段重要性，分别制定策略，策略制定参考下图：

杵*.dl-CflAJF.'

K-^TL

□涯歸配

t圧业艳点□血

2fltilVft*

壮Alt-M衬d电中漩町/

ii-a

“隹同Keft«

处a«

略vtso-就聒

对于一些重要性高，缺失率较低的缺失值数据，可根据经验或业务

知识估计，也可通过计算进行填补。

对于指标重要性高，缺失率也高的缺失值数据，需要和取数人员或

业务人员了解，是否有其他渠道可以取到相关数据，必要时进行重新采

集。

若无法取得相关数据，则需要对缺失值进行填补。

对于指标重要性低，缺失率也低的缺失值数据，可只进行简单填充

或不作处理。

对于指标重要性低，缺失率高的缺失值数据，可备份当前数据，直接删掉不需要的字段。

填补空缺值的方法有以下三种：

1）以业务知识或经验推测填充缺失值；

2）以同一指标的计算结果（均值、中位数、众数等）填充缺失值;

3）以不同指标的计算结果填充缺失值。

比如：

年龄字段缺失，但具有

公民身份证号，则可从公民身份证号提取年龄数据。

（B）错误数据处理

错误数据包含格式内容问题数据和逻辑问题数据两类

格式内容问题有以下三类：

时间、日期、数值、全半角等显示格式不一致，内容中有不该存在的字符，数据内容与该字段应有内容不符。

时间、日期、数值、全半角等显示格式不一致

处理方法是将其处理成一致的某种格式。

这种情况的数据多数由人工收

集或用户填写而来，很大可能性在格式和内容上会存在一些问题。

另外，在整合多来源数据时也有可能遇到。

内容中有不该存在的字符

需要以半自动校验半人工方式来找出可能存在的问题，并去除不需要的

字符。

典型问题如数据的开始、中间或结尾存在空格，或姓名中存在数字符号、公民身份证号中出现汉字等。

数据内容与该字段应有内容不符

该问题不能简单地以删除来处理，因为成因复杂，可能是人工填写错误、

前端没有校验、导入数据时部分或全部存在列没有对齐的问题等，因此要详细识别问题类型。

逻辑问题数据处理一般采用逻辑推理的方法，可以去掉一些使用简单逻

辑推理即可直接发现问题的数据，防止分析结果错误。

主要包含以下三个步骤：

1）去重

去重放在格式内容清洗之后，原因是格式内容清理之后才能总体发现重

复的业务数据。

在复杂工作环境中，由于数据多次上报，或是其他人为因素，导致数据重复值的出现是普遍的，主要使用字段相似度来识别判断重复值。

2）离群值（异常值）

采集数据时可能因为技术或物理原因，数据取值超过数据值域范围。

为处理离群值，第一步即为识别离群值。

识别离群值的方法主要有如下两种：

数据分布特征及箱型图方法

一般情况下，对于离散程度并非非常大的数据源来说，数据自身分布将会集中在某一区域之内，所以利用数据自身分布特征来识别离群值，可采用直观的箱型图方法可视化识别离群值及异常值。

基于欧几里德距离的聚类方法

一般情况下，利用数据分布特征或业务理解来识别单维数据集中噪声数据是快捷有效，但对于聚合程度高，彼此相关的多维数据而言，通过数据分布特征或业务理解来识别离群值的方法会缺乏有效性。

面对这种情况，聚类方法提供识别多维数据集中噪声数据的方法。

识别离群值后，操作人员需要按照经验和业务流程判断其值的合理性：

――若此数值合理，则保留该数值；

――若不合理，则按照其重要性考虑是否需要重新采集。

对于重要性较高而又无法重新采集的数值，按照缺失值办法处理。

对于重要性较低数值，可直接去除。

3）修正矛盾内容

有些字段可以互相验证。

需要根据字段的数据来源，来判定哪个字段提供的信息更可靠，去除或重构不可靠字段。

逻辑错误除以上列举情况，还有很多其他情况，在实际操作中需根据实际情况处理。

3.423错误关联数据处理方法

如果数据有多个来源，有必要进行关联性验证。

多个来源的数据整合具有复杂性，要注意数据之间的关联性，尽量在分析过程中避免出现数据之间互相矛盾。

对于不一致数据的处理，主要体现为数据不满足完整性约束。

可以通过分析数据字典、元数据等，还可梳理数据之间的关系，并进行修正。

不一致数据往往是因为缺乏数据标准或未依照已有标准执行而产生。

错误关联数据清洗方法主要有以下方法：

a）统计学方法：

将属性当做随机变量，通过置信区间来判断值的正误。

b）基于聚类的方法：

根据数据相似度将数据分组，发现不能归并到分组的孤立点。

c）基于距离的方法：

使用距离度量来量化数据对象之间的相似性。

d）基于分类的方法：

训练一个可以区分正常数据和异常数据的分类模型。

e）基于关联规则的方法：

定义数据之间的关联规则，不符合规则的数据被认为是异常数据。

第四章数据质量管理系统

4.1系统定位

数据质量管理系统以暴露和提升系统数据质量为目标、度量规则和检核

方法为主线，持续监控各系统数据质量波动情况及数据质量规则占比分析，

定期生成各系统关键数据质量报告，掌握系统数据质量状况。

通过自身调度模块或者第三方调度为触发，帮助企业建立统一的数据质量管理和度量管理体系。

（制定标准-发现问题-分析问题-解决问题-知识库经验沉淀）。

4.2系统价值

1）最佳投资回报

通过数据质量管理系统的应用帮助企业提升效率、降低成本、规范管理,

从而提升企业数据质量水平。

2）提升质量管理效率

集中统一的数据质量管理平台，基于统一的质量检核和数据质量监控，

确保管理和业务相关人员及时获取信息、处理相关工作。

避免不同业务系统导致的信息竖井，最大限度减少同一数据的重复检核和处理。

3）降低质量管理成本

数据质量管理统一建设、统一实施，避免各系统各自为政进行数据质量

功能模块的重复建设和开发，降低建设成本、提高实施效率、有效降低企

业成本。

4）规范质量管理流程

基于统一的数据质量检核体系，检核类别明确、规范可管理流程使得管

理规范化。

通过数据质量问题处理流程及相关功能实现与管理使问题的发

现和处理达到闭环管理、规范化管理提升数据质量。

I—5）最佳拥有成本

实施成本低，相对于国外相同档次管理软件，实施、维护、运营成本低，

无需依赖其他基础平台就可以快速部署。

4.3系统架构

4.3.1逻辑架构

432技术架构

4.3.2技术架构

接口服务层

Jason

XML

.云

4.3.3功能架构

433功能架构

周e炒理率倉

4.4主要功能模块

4.4.1数据质量定义模块

数据质量定义模块是整个数据质量平台的基础，它通过对质量维度、检核类别、度量规则以及检核方法的定义和管理给检核任务模块提供必要的输入。

1）质量维度定义

通过对不同业务规则的收集、分类、抽象和概括，定义了六种数据质量维度。

质量维度反映了数据质量不同的规格标准，也体现了高层次的指标度量的特点。

一致性主要考察的是业务约束检查；

有效性主要考察的非法值检查，数据格式校验；

完整性主要考察空值校验、记录数校验等；

合理性指按用户

展开阅读全文