数据质量管理5要素数据质量报告.docx
《数据质量管理5要素数据质量报告.docx》由会员分享,可在线阅读,更多相关《数据质量管理5要素数据质量报告.docx(8页珍藏版)》请在冰豆网上搜索。
数据质量管理5要素数据质量报告
数据质量管理5要素数据质量报告
数据质量管理5要素数据质量报告
数据质量管理是一个长期的过程,除了选择合适的软件以外,制订数据标准、规范流程同样重要。
新一代客户数据整合(CDI)软件和主数据管理(MDM)软件给数据质量的管理带来了很大方便。
但是,数据质量的保证仅靠软件显然是不行的。
实际上,在整个数据质量的控制过程中,人仍然是关键因素。
例如,仅仅数据的录入就涉及很多人:
销售人员会录入客户信息和交易数据,客户服务部门的工作人员除了录入交易数据外,还会录入所服务公司的新的联系人,订单录入人员会输入客户身份信息。
同样,出于销售、市场推广、计费等原因,在公司内还会有很多人对这些数据进行修改、更新。
借助客户数据整合(CDI)软件和主数据管理(MDM)软件的帮助,人们可以把上述各种在不同时期因为不同目的而生成的数据进行一定程度的整合和清理,但是要想真正长期保证数据的高质量,还必须从以下5个方面着手。
1.建立数据的标准,明确数据的定义。
通常,独立的应用系统会有一个比较模糊的、有时也会有比较清晰的数据标准和数据定义。
为了保证系统的正常运行,这些系统的用户必须在数据的标准和数据的定义上达成一致。
不过,这些标准和定义大多数时候与企业中其他系统中的数据标准和定义并不一致。
因此,需要从整个企业的角度出发,建立统一的数据标准和数据定义,同时,整个企业必须就这个数据标准和数据定义达成共识。
这一句话说起来容易做起来难。
因为人通常本能地会拒绝改变,改变数据标准和定义并不是轻而易举的。
为此,强烈建立在企业中除了设立一个高管级别的数据质量管理委员会外,还需要选定一个执行能力强的项目负责人,需要他推动相关人员接受新的数据标准和定义。
在具体建立新的数据标准和数据定义时,需要仔细权衡,哪些定义和标准是出于企业内部的原因(比如出于方便、习惯等)制订的,哪些定义和标准是因为要有效反映外部的真实世界而制订的。
相对而言,前者更容易执行一些。
2.建立一个可重复的数据收集、数据修改和数据维护流程。
数据管理面临的两个主要挑战是企业本身的复杂性和身份信息不断变化。
这两个客观原因的存在意味着企业的数据质量保证行动永远没有结束之日,因此,企业在制订数据质量的保证措施和数据质量指标时,必须保证这些措施和指标能够不断重复。
3.在数据转化流程中设立多个性能监控点。
数据的质量高低可以根据最终用户的需求来评价,也可以通过与同类数据源的比较来评价,还可以通过与前一阶段的数据质量进行比较来评价。
但在制订数据质量的战略时,比较理想的办法还是根据最终用户的需求来进行。
不过这里存在一个问题是,等到最终用户拿到数据时再针对数据的问题进行修正已经太迟了。
一个有效的数据质量保证办法是在每当数据发生转换后就与前一时期进行比较,从而对数据质量进行评估。
如果此前所采用的数据质量改进方法有助于提高最终用户的满意度,那么,这些中间指标的达标也预示着项目的最终成功。
4.对流程不断进行改善和优化。
我们常常听到有人说,他们制订了很多办法来迅速而且大幅度提升数据的质量,但很少听说最后他们能真正得到满意的结果。
其原因就在于数据的质量改进绝非一朝一夕的事情,而是一个持续的过程。
正确的办法是通过一个不断改进的流程,持续不断地排除错误、对数据进行整合和标准化,最后达到流程的自动化,从而降低数据质量保证计划的总体开销。
实际上,排除错误、数据整合和数据标准化从来就不是一件容易的事情。
数据质量管理计划的负责人将配合公司高管组成的数据质量管理委员会来保证这个流程的顺利执行。
要注意的是,作为该项目的负责人,不能墨守成规,仅仅因为自己以前一向采用某种方法,就要求别人也必须采用这一方法,特别是当发现这些方法成本高昂的时候,就应该考虑换一种方式了。
5.把责任落实到人。
通常,我们认为那些与数据的产生、维护相关的人员是负责任的,但是,很有可能,他们有很多其他的工作要做,因此作为数据质量的负责人光有善良的想法是难以提高数据的质量,很有可能一辈子也达不到目标。
对于那些负责数据的产生、数据的合理化以及对数据进行清理和维护的人,应该给他们的活动制订明确的指标,这样他们才能真正理解人们到底希望他们达到什么目标。
更重要的,他们还需要针对这些指标细化对他们自己的要求,当然,他们会因为达到或者超过这些指标而得到奖励。
其中,一个执行力强的负责人的价值体现出来,他会针对具体情况适时调整数据质量的目标。
最后,再次强调考虑与数据管理和数据质量的改进项目有关的人的因素,他们的行为是非常重要的。
从某种程度上说,要比具体选择什么软件要重要得多。
上述5点有助于帮助组织规范数据质量管理中与人有关的流程。
提高数据质量的三个步骤
由于大多数系统和应用程序会持续不断接收到新数据,数据量也在不断增加,因此确保数据质量并不是一次就能完成的。
所有企业都应该使用一种反复进行的阶段性过程来管理数据质量,此过程包括数据质量评估、规划以及策略的选择和实施。
第一步对数据质量进行评估。
评估当前的数据质量状态是第一步。
对数据质量进行评估能帮助企业准确地了解数据的内容、质量和结构。
主管人员参与数据质量评估以及分析在数据检查过程中发现的问题对于数据质量评估来说都很重要。
在最有效的数据质量评估中,所有问题都将按照对业务影响从大到小的顺序列出,这将帮助IT机构节省项目成本。
第二步,制订数据质量计划。
彻底了解企业数据的内容和质量后,接下来的步骤是制订一个计划,来修改当前的错误并避免未来错误的发生。
有效的计划不但可以提高企业当前所有应用程序中数据的质量,还将制定一些方式以确保新应用程序从一开始就遵循数据质量规则。
第三步,选择和实施数据质量策略。
选择改善企业数据质量的策略,要求决策者权衡每个数据质量计划的成本以及该策略产生的影响。
目前的策略类型有两种:
在企业输入数据时提高数据质量的方法称为“上游”方法,而从运营系统提取数据的应用程序(如数据仓库)中改善数据质量的方法是“下游”方法。
上游策略研究当前应用程序的逻辑、数据和流程,解决检查过程中发现的异常情况。
此策略可能涉及到更改应用程序逻辑、添加更好的表验证、改善与数据输入相关的流程,它致力于企业数据的高准确性。
另外,此策略还要求使用应用程序本身附带的数据质量功能。
下游策略解决目标应用程序或数据仓库(而非数据源)中的数据质量问题。
由于数据可以根据需要随时进行修改,所以企业能够在流程(尤其是数据转换、名称和地址清洗以及查找验证)中改善数据质量。
下游策略仅为目标应用程序或数据仓库改善数据质量,但与上游策略相比,它的实施过程更简单,成本更低。
数据质量管理5要素数据质量报告
数据是企业最有价值的资产之一。
企业的数据质量与业务绩效之间有着直接的联系。
高质量的数据可以保持公司的竞争力,在经济动荡时期立于不败之地。
有了普遍和深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
一个战略性和系统性的方法能帮助企业正确研究企业的数据质量项目,业务部门与IT部门的相关人员将各自具有明确角色和责任,配备正确的技术和工具,以应对数据质量控制的挑战。
数据质量反映的是数据的“适用性(fitnessforuse)”,即数据满足使用需要的合适程度。
数据质量通过完整性、一致性、准确性、及时性、合法性等多类维度对数据进行度量。
数据质量管理的目的是为企业提供洁净、结构清晰的数据,是企业开发业务系统、提供数据服务、发挥数据价值的必要前提,是企业数据资产管理的前提。
数据质量问题的影响因素
1、数据质量方面原因——数据不一致
企业早期没有进行统一规划设计,大部分信息系统是逐步迭代建设的,系统建设时间长短各异,各系统数据标准也不同。
企业业务系统更关注业务层面,各个业务系统均有不同的侧重点,各类数据的属性信息设置和要求不统一。
另外,由于各系统的相互独立使用,无法及时同步更新相关信息等各种原因造成各系统间的数据不一致,严重影响了各系统间的数据交互和统一识别,基础数据难以共享利用,数据的深层价值也难以体现。
2、数据质量方面原因——数据不完整
由于企业信息系统的孤立使用,各个业务系统或模块按照各自的需要录入数据,没有统一的录入工具和数据出口,业务系统不需要的信息就不录,造成同样的数据在不同的系统有不同的属性信息,数据完整性无法得到保障。
3、数据质量方面原因——数据不合规
没有统一的数据管理平台和数据源头,数据全生命周期管理不完整,同时企业各信息系统的数据录入环节过于简单且手工参与较多,就数据本身而言,缺少是否重复、合法、对错等校验环节,导致各个信息系统的数据不够准确,格式混乱,各类数据难以集成和统一,没有质量控制导致海量数据因质量过低而难以被利用,且没有相应的数据管理流程。
4、数据质量方面原因——数据不可控
海量数据多头管理,缺少专门对数据管理进行监督和控制的组织。
企业各单位和部门关注数据的角度不一样,缺少一个组织从全局的视角对数据进行管理,导致无法建立统一的数据管理标准、流程等,相应的数据管理制度、办法等无法得到落实。
同时,企业基础数据质量核体系也尚未建立,无法保障一系列数据标准、规范、制度、流程得到长效执行。
5、数据质量方面原因——数据冗余
各个信息系统针对数据的标准规范不一、编码规则不一、校验标准不一,且部分业务系统针对数据的验证标准严重缺失,造成了企业顶层视角的数据出现“一物多码”、“一码多物”等现象。
数据治理中影响数据质量的5个因素.中琛魔方大数据平台表示数据将是产生业务价值和实现业务目标的基石,数据质量将成为此类项目的一个极为重要的因素,一些项目在早期没有考虑数据质量因素,导致项目实施的后期阶段,因为数据质量问题造成项目失败的风险,所以在项目的各个方面都应注意数据质量的管理。
数据质量管理5要素数据质量报告
常见的数据质量问题包括
数据无法匹配
数据不可识别
数据不一致
数据沉余重复
实效性不强
精度不够
数据质量管理的目标
通过数据分析、数据评估、数据清洗、数据监控、错误预警等内容,解决数据质量问题,使数据的质量得以改善,使其满足数据需求方对数据质量的规则要求。
数据质量评估
包括但不止以下6个方面
完整性Completeness:
度量哪些数据丢失了或者哪些数据不可用。
规范性Conformity:
度量哪些数据未按统一格式存储。
一致性Consistency:
度量哪些数据的值在信息含义上是冲突的。
准确性Accuracy:
度量哪些数据和信息是不正确的,或者数据是超期的。
唯一性Uniqueness:
度量哪些数据是重复数据或者数据的哪些属性是重复的。
关联性Integration:
度量哪些关联的数据缺失或者未建立索引。
数据质量评估模型
要素分别为:
基础模型、数据质量定义模型、数据质量控制模型、数据质量评价模型、数据质量辅助模型。
1.基础模型。
其他模型必须以基础模型中的计划和标准为依据。
基础模型主要是映射、定义数据采集标准,上载分单位的采集计划,同时纳入了约束规则定义规范、控制规则定义规范、模板定义规范。
数据标准:
分两部分,一部分是直接映射应用中的标准,例如源数据库标准;另一部分是针对新增应用库和项目库标准的定义规范,包括代码定义标准、数据项定义标准(例如是取英文还是汉语拼音,取几个字符)、值域定义标准等等新增表准的建立规范;
采集计划:
采集单位的每月上载的日度、月度、年度的采集计划;
约束规则定义规范:
主要描述质量定义模型中的语法构成;
控制规则定义规范:
针对服务器负载和采集表的及时性,要求建立的后台执行过程的控制方式的使用说明;
2.数据质量定义模型。
以基础模型为前提对数据质量的统一规范的定义,是数据质量分析评价的依据和基础。
数据质量定义模型可以使用质量特性描述。
数据质量特性归纳为数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性。
(1一致性的量化评价指标:
字段一致率、表间字段一致率、表间记录一致率。
(2准确性的量化评价指标:
准确率、差错率a、问题字段个数、问题记录覆盖率
(3)及时性的量化评价指标:
采集项目及时率;单位入库及时率
(4)完整性的量化评价指标:
字段缺失数、缺失记录覆盖率、计划完成率。
3.数据质量控制模型。
数据质量控制模型以数据质量定义模型为基础,按照定义的检查范围和时间以自动或手工方式完成对数据质量的检查工作。
在质量控制过程中违反了数据质量定义的,视为数据质量问题,数据质量问题直接通过数据质量的关键特性和指标反映出来。
数据质量控制模型的控制内容表现在:
对数据检查对象、数据检查频度、数据检查时间、数据检查方式等方面进行控制。
(1)数据检查对象:
是指根据采集计划设定需要检查的用户、专业数据表、数据库实体。
(2)数据检查频度;是指根据数据表的采集计划和实际发生的频度,设定存储过程的检查执行频率。
(3)数据检查时间:
是指根据每日生产应用的密集时间以及数据发生到采集入库的密集时间,综合设定一个检查开始执行的时刻。
(4)数据检查方式:
是指执行检查过程的方式可以由后台过程自动控制,每间隔2小时自动检查一次;也可以由人工干预手动检查,任意时刻都可以执行检查(当然尽量选择数据库流量比较低的时候)。
4.数据质量评价模型。
数据质量评价模型,是以数据质量定义模型为依据,由数据质量控制模型操控执行,根据反馈的质量检查结果表,评议出数据质量的关键指标,实现对数据质量的量化诊断和评价。
数据质量分析评价模型功能核心是,通过对基础模型中的采集计划和质量定义模型中的约束规则的处理,由控制模型调用可以实现检查分析的后台存储过程在实体库中执行检查,形成查询结果,再由分析程序进行分析、计算、分类、汇总,生成反映采集计划完成情况和数据质量量化指标的结果,存储到分析结果表中,从前台调用这个分析结果表,就可以生成一份详尽的反映数据质量问题各类量化指标的数据质量分析评估报告,展现所评估实体库的数据入库的及时率、数据上报的完整性、数据采集的一致性、数据入库的准确率。
5.数据质量辅助管理模型
数据质量辅助管理包括报告模版管理、权限管理、数据库资源占用情况等等。