数据质量评测方法与指标体系.docx

上传人:b****0 文档编号:25733862 上传时间:2023-06-12 格式:DOCX 页数:34 大小:225.38KB
下载 相关 举报
数据质量评测方法与指标体系.docx_第1页
第1页 / 共34页
数据质量评测方法与指标体系.docx_第2页
第2页 / 共34页
数据质量评测方法与指标体系.docx_第3页
第3页 / 共34页
数据质量评测方法与指标体系.docx_第4页
第4页 / 共34页
数据质量评测方法与指标体系.docx_第5页
第5页 / 共34页
点击查看更多>>
下载资源
资源描述

数据质量评测方法与指标体系.docx

《数据质量评测方法与指标体系.docx》由会员分享,可在线阅读,更多相关《数据质量评测方法与指标体系.docx(34页珍藏版)》请在冰豆网上搜索。

数据质量评测方法与指标体系.docx

数据质量评测方法与指标体系

项目编号

文档编号

中国科学院数据应用环境建设与服务

数据质量评测方法与指标体系

(征求意见稿)

中国科学院数据应用环境建设与服务项目组

2009年9月

前言本规范是“中国科学院数据应用环境建设与服务”之标准规范建设成果之一。

本规范由中国科学院计算机网络信息中心科学数据中心提出并归口。

本规范由中国科学院计算机网络信息中心科学数据中心负责起草。

1范围

2规范性引用文件

3应用

4术语

5数据质量评测制度

6数据质量评测原则

6.1科学性原则5

6.2客观性原则5

6.3系统性原则5

6.4可操作性原则6

6.5针对性原则6

6.6引导性原则6

7数据质量评测一般流程

7.1数据质量需求分析7

7.2确定评价对象及范围7

7.3选取数据质量维度及评价指标7

7.4确定质量测度及其评价方法8

7.5运用方法进行评价8

7.6结果分析及评级9

7.7质量结果及报告9

8数据质量评价主体的要求

9数据质量指标体系

9.1数据质量结构10

9.2主要数据质量指标11

9.2.1基本层12

9.2.2准则层13

9.2.3评价指标选取的基本要求16

9.2.4评价指标的筛选和权重16

9.2.5评测指标的冲突处理原则17

10数据质量评测方法

10.1定性方法18

10.1.1第三方评测法19

10.1.2用户反馈法19

10.1.3专家评议法20

10.2定量方法20

10.2.1访问量统计20

10.2.2计算机辅助检查21

10.3综合方法21

10.3.1层次分析法21

10.3.2缺陷扣分法26

数据质量评测方法与指标体系

1范围

本规范明确了用于中国科学院数据应用环境建设与服务项目中数据(资源)质量评测的一般方法与数据质量指标体系的建立方法。

本规范所提供的流程、方法和指标可适用于中国科学院数据应用环境建设与服务项目中建库单位内部的产品质量评价,日常统计监测制度,以及专家委员会领导下的项目质量检查。

本规范提供的评测方法与指标体系适用于数据资源(包括中间产物),不包括对数据生产与服务过程的评测。

2规范性引用文件

下列文件对于本文件的引用是必不可少的。

凡是注日期的引用文件,仅所注日期的版本适用于本文件。

凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

TRREC061数据应用环境建设与服务标准规范框架

3应用

本规范所提供的流程、方法与指标均为通用性内容,意在面向不同规模、不同学科背景和不同数据类型的各类数据库提供适应性,在执行过程中评测方可根据实际情况适当增删评测流程,并决定具体的指标体系和采样方法。

4术语

本规范所使用之术语遵循《TRREC061数据应用环境建设与服务标准规范

框架》第七部分的约定。

5数据质量评测制度

为确保科学数据信息资源管理与使用的有效与安全,最大限度保障投资者的利益与建设者的劳动,促进科学数据资源的共享利用,“中国科学院数据应用环境建设与服务”项目要求项目内数据库应建立数据质量评测制度。

“中国科学院数据应用环境建设与服务”项目资助建设的数据资源,应在项目结题前达到本规范提出的质量要求,并接受项目质量检查。

此外,建库单位应当根据具体情况适当开展以本标准为依据的日常数据质量监测统计。

6数据质量评测原则

科学数据质量评价应注重以下原则:

6.1科学性原则

质量评价的结果应能正确反映数据资源的质量状况。

主要体现在正确的质量指标选择,以及采用科学合理的评价方法等方面。

评价必须有一定的理论作为基础,但又不能够脱离实际。

另外,科学性还反映适度的简单,评价不可能穷尽所有因素,也不能过于简单。

6.2客观性原则

评价应是符合实际、客观可信的。

评价指标的选择须考虑当前数据资源环境的总体水平,反映出不同学科领域的差异。

6.3系统性原则

由于评价对象的广泛性、复杂性、必须使用若干指标来衡量,同时指标间可

能相互联系、相互制约。

但是,在评价中,每个指标又必须是独立的,不互相包

容的,需考虑指标的层次性、系统性,避免指标间冲突

6.4可操作性原则

科学合理的评价体系应该是可行的、操作方便的,指标的设计避免过于繁琐,还要考虑指标体系所涉及指标的量化及数据获取的难易程度和可靠性,注意选择能够反映科学数据质量状况的综合指标和具有代表性的指标。

6.5针对性原则

科学数据资源种类繁多,数据积累具有续性,各种资源除了具有与其他资源相同的共性之外,也具有其自身的特殊性。

数据质量评价应能充分考虑各类科学数据资源所特有的类型特征并能将其揭示出来,要在指标的权重和分值上予以区分,以体现其针对性的导向作用。

6.6引导性原则

进行科学数据质量评价,目的在于了解科学数据资源的质量情况,为有关的取舍提供判断依据,以帮助用户快速选择有针对性的信息。

因此,必须以方便专业人员快捷而有效的选择和获取有价值的信息资源为导向。

7数据质量评测一般流程

科学数据质量评价过程是评价者将数据质量评价程序应用于目标数据或数据集并最终获取评价对象质量状态的一系列步骤。

本规范提出科学数据质量评价的一般流程,具体于一个具体的执行过程中根据数据对象或学科背景有所不同仍可根据具体情况适当增删。

科学数据质量评价包括以下一般流程:

趣据匮帚评町般流肝

議据就呈需求分新

苗1匕對捉57!

•迪底站琳

r■-=『f■*_F‘!

■nar・mrmeir

r-tt:

nrrr-niF^.专甘艸柳十汕

■w.•jevff■・i■w-il

1

J」

运用方法竝行评Ifr

结果分忻朋评報■

质仗誥卑屍那吉

数据质量评测一般流程

数据质量评测过程是一个迭代过程,各个过程的先后顺序仅表达阶段活跃的大致顺序,根据实际执行情况的好坏决定,一些过程可能需要重复执行。

7.1数据质量需求分析

对科学数据的数据质量评价是以用户为中心进行的数据质量评价。

数据需求是人们在各项实践活动过程中,为解决所遇到的问题而产生的对数据的不足感和求足感。

数据资源不同于实体产品,具有用途个性化、多样化、不稳定等特点,因此,必须首先了解用户针对特定数据资源的需求特征才能建立针对性的评价指标体系。

7.2确定评价对象及范围

确定评价对象及其范围,评价对象既可以是数据项也可以是数据集。

7.3选取数据质量维度及评价指标

数据质量维度是进行质量活动中客体的具体质量反映,如正确性、准确性等,它是控制和评价数据质量的主要内容,因此,首先,要确定影响质量维度的因素有哪些,如人员素质、设备、设施等,必要时,要将这些质量影响因素在评价报告中进行分别说明。

对于有些影响多个质量维度的因素,应在具体情况下根据需要进一步细化其影响因素,或针对进一步细化目标环节在确定质量行为中的影响因素。

另外,要选取可测、可用的质量维度作为评价指标准则项,在不同的数据类型和不同的数据生产阶段,同一质量维度有不同的具体含义和内容,应该根据实际需要和生命阶段确定质量维度。

在此阶段要注意指标之间避免冲突,同时也要注意新增评价指标的层次、权重问题,以及与其它同层次指标的冲突问题。

对三级评价指标的选择可根据评价对象的类别、评价要求进行量化处理,必要时可进行计量评价法。

以当前技术条件无法量化的质量维度可适当使用具有相关性的替代指标。

7.4确定质量测度及其评价方法

数据质量评价在确定其对象范围后,应该根据每个评价对象的特点,确定其测度及实现方法,对于不同的评价对象一般是存在不同的测度的,以及需要不同的实现方法支持,所以应该根据质量对象的特点确定其测度和实现方法。

常用定性方法和定量方法,前者采用权重打分等方法进行,后者依据信息生产各阶段的质量规范一级缺陷判据进行。

7.5运用方法进行评价

就是根据前面四步确定的质量对象、质量范围、测量及其实现方法实现质量评测的活动过程。

评价对象的质量应当由多个质量维度和三级评价指标的评测来反映,单个数据质量测量是不能充分、客观评价由某一数据质量范围所限定的信息的质量状况,也不能为数据集的所有可能的应用提供全面的参考。

多个质量维度和三级评价指标的组合能提供更加丰富的信息,故对某数据质量范围限定的信息,应提供多个质量维度和三级评价指标的综合测量。

数据质量评测过程中应保证所采用的方法的正确和客观,尽量避免增加质量评价的干扰因素,最大程度的借助计算机及网络技术的自动化处理实现,追求全面客观的反映数据质量的真实情况。

特别对于定量的质量维度,要确定科学的定量测量的指标和方法,质量测量应当保证其所涉及的数据边界范围、系统参数等的正确和完备性。

7.6结果分析及评级

评测后要对评测结果进行分析:

•对评价目标与结果进行对比分析,确定是否达到评价指标;

•对评价的方案的有效性进行分析,确认是不是合适等。

之后,根据评

价结果确定对象的质量评价,如需要,可根据评价结果鉴定质

量级别。

确定评价对象的质量级别是建立在相应的质量分级方案基础上的,该分级方案是根据相应的质量规范或用户的需求确定的,也是判断数据质量成熟度的重要依据。

7.7质量结果及报告

质量评价结果和评测报告是所有科学数据质量评价项目及其评测结果的合集。

在完整的数据质量评价结果和报告中,应该包括全部上述内容。

此外,在数据质量评价报告中还应该把据此进行的评价过程的操作做出完整的记录,包括存在的质量级别的内容确定等。

数据质量评价主体的要求

评价主体是否具有专业的评价知识和科学的方法,对评价结果具有很大的影

响。

本规范认为,数据质量评价实施方应达到如下要求,评估结果才能被专家委员会认可:

•评估组领导者必须是专家委员会认可的专家委员会委员;

•评估组至少应有四人;

•工程经验:

整个小组在被评估学科领域总共至少有10年的工作经验;

•管理经验:

整个小组总共至少有10年管理经验;

被评估组织过程的相关领域,至少有两位相关专家;

评估小组成员不能是参加评估项目的管理者,其直接管理者或其他利益相关人员。

9数据质量指标体系

质量维度是指数据满足用户要求和使用目的的基本质量特性,是一个数据约束的类型,如完整性、一致性等。

数据质量是一个多维度的概念,可能涉及数据产品及其生产服务过程的多个方面,本身不可测度。

一般而言,对数据质量的认识通过将其分解为多个质量维度,并逐个识别实现。

数据资源不同于实体产品,具有用途个性化、多样化、不稳定等特点。

当前普遍的观点认为,数据质量要素受行业领域、数据类型和应用目的等因素的影响极大,不存在面向所有学科领域和资源类型的普适性数据质量指标体系,但针对一个具体行业背景下的特定数据类型,建立一组受到公众认可的质量维度和指标体系并指定其采集方法是完全可行的。

值得注意的是,数据质量的总体水平往往与其在质量因素中的短板关系更加密切,而对个别质量维度的测量可能不能正确反映数据资源的质量水平,在质量评价活动中质量指标体系的建立应在保持可行性的前提下尽可能周全。

9.1数据质量结构

数据质量的结构特性学术上目前仍无定论,为出于便于管理的需要,本规范根据科学数据以及质量需求的特征,将数据质量评价要素划分为基本层、准则层和指标层三层。

数据质量三层结构

其中:

指标层次

适用范围

基本层

该层提出适用于对所有科学数据进行评价的通用指标,通用指标归纳大部分科学数据共有的本质特征,以及普遍的技术特征,是数据质量评价的基本指标

准则层

该层根据科学数据的学科内容特性提出适用于特定学科领域范围的质量指标,准则层是对基本层质量指标面向特定学科领域的细化指标,要求根据领域特点细化质量评价指标并分配权重

指标层

该层根据科学数据的资源类型不冋提出适用于特定数据类型的质量指标,指标层是对准则层提出质量指标根据资源类型不冋提出具体质量评测执行方法,要求根据资源特点指定评价指标评测方法

9.2主要数据质量指标

基于上述层次结构,本规范提出一组科学数据质量评价常用指标,供评价方在科学数据质量评价过程中选择使用。

鉴于科学数据对象范围的复杂,本规范提仅将基本层质量指标作为要求性内容;而准则层指标为参考性内容,仅供评价方参考;未对指标层的具体执行方法进行约束。

具体的指标选取、权重确定和使用的评价方法由评价方与建库单位在实施检查时依照质量评价流程确定。

9.2.1基本层

基本层对数据质量,按照数据的形式、内容和效用,即语法、语义和语用的不同层面,对其内在结构从形式、内容和效用三个层次来认识。

质量指标

说明

形式质量

语法层次的数据质量。

语法层是最基本的层次,是以数据的形式特征为依据秩序化数据的方法,关于主题之间的数据形式的一致认同性:

形式上的数据质量主要基于数据的基本结构要素来反映数据的形式方面的质量特征。

考察处于不冋时空环境下的数据主体之间对数据载体和表达方式三方面来认识,如:

载体是否可以被数据用户感知和利用、表达数据的符号是否可以被用户识别并准确理解、数据表达是否采用了主体一致认冋的结构、格式和规范。

内容质量

语义层次的数据质量。

语义层面向客体事物,关注数据对描述对象事物状态与变化的表述程度,主要通过把握数据的一些内在质量维度来反映数据的内容方面的质量特征,需要遵循客观性原则、逻辑性原则和发展性原则。

语义层次的数据质量是基于数据内容认识来考察数据对事物状态的表述程度。

而反应事物运动状态极其变化的数据是一个集合体,本体论层次的实物信息是其全集,认识论层次的数据形成其不同的子集。

语义层次的数据质量不仅应考察个体信息对事物状态的表达程度,还应考察数据集合对事物状态的表述程度。

对个体信息而言,主要是信息的真实性、准确性和时变性;对于集合数据而言,一般还包括信息的相关性、可比性和顺序性。

效用质量

语用层次的数据质量。

语用层次是以前两者为基础,通过对数据的有用性等来把握。

语用层则面向数据用户,关注数据对用户的效用。

需要遵循目的性原则、实用性原则和个性化原则。

考察数据产品对数据用户的效用和价值,其数据质量考察数据满足数据用户需求的程度。

对于个体数据而言,主要是数据的有用性、重要性、精确度、时限性、有效性;对于集合数据而言还包括数据的完整性、适量性等。

9.2.2准则层

不同学科背景下使用的数据质量指标通常各不相同,本小节列出的准则层指标仅为科学数据质量评价活动中常见的质量指标,不保证其完备与权威,供参考使用,具体于一次评价活动中使用的质量指标仍需按照质量评价工作流程由评价方做出决定。

评价方不应因本小节的列举而回避使用本规范以外的其他更加适用于数据资源的质量指标。

质量扌曰标

说明

基本层

准则层

可获得性

可获得性就是数据资源的结构和形式与自然和社会实践相结合的程度。

用评价因素:

•信息的方便获得对信息用户很重要

•在数据库中需要很费劲才能找到所需数据

•所需信息应能很快检索到

•系统中还有很多所需信息不能自动、快捷查到,查全率不高

•信息检索(或查找)流程简洁、清晰

一致性

数据的一致性是指冋一个数据在冋一时刻只有一个值,如果数据没有重复,就不会出现不一致。

如果是系统可控制的数据重复,那么系统就会确保在更新(增加、删除或修改)时的一致性。

常用评价因素:

•经过加工整理前、后的信息(数据)经常出现不匹配、不一致

•信息集合内各个个体信息之间经常有冲突(例如某一指标有多个数值,多个版本;编码相同但信息实体不同等)

•普遍存在的相冋信息实体使用不冋的表达符号或不冋的

可理解性

可理解性是指阅的情况理解数据资源编码的难易程度常用评价因素:

•科学数据(内容、格式等)清晰易懂

•提供的数据非常容易判断出是否符合需要

•科学数据描述有太多专业术语难以明白,影响信息使用

•对信息描述、分类及编码等的不规范性易造成对信息难以理解

•用户对共享数据的技术规范、质量控制标准的了解、熟悉有助于信息理解

完整性

是指数据库中数据的正确性和相容性。

数据库完整性由各种各样的完整性约束来保证,因此可以说数据库完整性设计就是数

据库完整性约束的设计。

常用评价因素:

•信息(信息要素)尽可能完整对共享信息很重要

•科学数据记录格式、条目不完整

•数据库内普遍存在信息要素残缺、不完整的情况

•检索到的信息内容完整性应能够满足所需查找要求

•目前可检索到的有价值科学数据量仍然不够

内容质里

准确性

准确性也可称为精确性,也有两层含义:

一是数据所指内容对数据所指对象的反应、表现是否准确及其准确程度;二是数据形式对数据内容的表述、表达是否准确及其程度。

准确

性是一个关键的质量维度。

文本型数据的准确性可以通过语

句复杂度、对象数目和对象值三个参数描述。

图像型数据

的准确性定义为数据与其源数据在其所表达的基本内容意义

上的一致性或接近程度。

常用评价因素:

•提供的信息准确无误

•数据的表述(或值)很好地反映源信息的真实状态

•信息(数据)的表述不会引起歧义

•经过加工整理后的信息(数据)表述不够准确,与原始信息有较大误差

•信息(数据)的表述(或值)与实际误差在可接受的范

围内

正确性

正确性是指数据所指内容是否真实反映、表现出了数据所指对象的实际状况及其程度

常用评价因素:

•提供的信息(数据)符合信息质量控制标准或规范

•采集、传递、加工和整理后的信息(数据)偏离标准误差大

•有专门机构(或专业人员)审核检查信息的正确性

•有必要的程序或反馈流程来监测、修改信息的正确性

•对目前提供的信息(数据)的正确性不太满意

客观性

客观性是指数据采集和生产过程中是否受到主观因素影响以及被影响的程度

常用评价因素:

•科学数据应符合所述事实

•提供的数据应经得起再验证

•存在虚假的数据

•信息提交前信息内容没经过专家或专业人员的质量审核,造成与事实偏差

有效性

有效性是指数据对用户需求的满足程度常用评价因素:

•数据的有效性对其共享使用非常重要

•能查询到最新的数据

•查询到的科学数据满足当前的工作任务

•查到的结果比要求的还要好很多

•更新的信息与原信息没有区别标识

可靠性

指数据的“可信赖的”或“可信任的”程度常用评价因素:

•数据来源标注齐全且真实可靠

•数据来源标注普遍不齐全

•对来源清楚的信息可以放心采用

•加工编辑过的数据基本可靠

效用质里

相关性

指数据与用户需求匹配的程度

常用评价因素:

•查找到的信息与主题不完全一致,但却是其中的某一方面的阐述

•查找到的信息集合多数在用户需要的检索主题内

•提供的信息主题与用户检索主题意思匹配

•查找到的信息(数据)多数和用户需要信息无关

•信息必须要和用户需求(目的)有相关性

有用性

指数据的内容与用户需求匹配的程度常用评价因素:

•信息能过帮助解决问题

•一般经过加工、整理过的信息可用性较好

•数据具有增值性

•数据是对传统文献科技信息的有用补充

背景性

指数据资源是否提供背景资料以及背景资料的充分程度

背景资料包括元数据,用户使用手册等

常用评价因素:

•了解信息的背景资料对信息使用很有必要

•提供的科学数据有必要的背景资料说明

•所查询的数据库有完备的元数据信息说明

•所查询的数据库有清洗的信息加工、整理的数据质量说明

话量性

指查出的数据是否足够用户使用,以及是否远多于用户需求的数量等通常表现为查准率、查全率

、冗余等常用评价因素:

•检索到的信息有多余的、与要求不符的数据

•重复信息很多

•信息过量容易对信息吸收造成负荷(时间、精力、消耗)

•查询到的信息越多越好

•目前查找的信息量能足够满足要求

及时性

指数据的更新服务是否及时常用评价因素:

•服务是否稳定,响应是否及时

•用户反馈的问题能否及时得到解决

•存在过时的数据

是否经常更新,更新是否及时查询所花的时间和精力是否好过预期

9.2.3评价指标选取的基本要求

评价方决定一个学科领域内的科学数据质量指标时,应遵循以下原则:

•指标选取要有系统性,以保证综合评价的全面性和可信度;

•指标应意思明确,含义明确,不产生歧义;

•选取的指标要有可测性,数据资料收集方便,计算简单,易于掌握。

测量方法要长期保持有效;能被客观测量,而且能把数据质量在时间上做一个比较;

•指标之间应进肯能避免明显的包含关系和相互冲突。

对隐含的相关关系和相互冲突的指标,在模型中加以适当的消除和取舍;

•指标的选择要保持同趋势化,以保证可比性;

•指标设置要有重点,抓住主要因素。

9.2.4评价指标的筛选和权重

评价指标是总体评价目标的具体体现,是评价目标的具体分解。

不同学科背景的指标选择与权重侧重均应因对象不同而有所区别,但每个指标都应从一定的角度或侧面反映评价目标,与评价目标紧密相关,同时指标总体堆目标应具有足够的覆盖面,与评价目标保持高度的一致性。

评价指标的选择应与科学数据的主要质量特征基本一致,最注重的应是科学数据的真实性、可达性和实用性方面的指标。

对于学科领域数据质量评价指标的分析主要通过专家调查分析法确定:

•首先通过统计分析得出适用频次较多的数据质量维度,结合学科领域数据资源的特点,选择若干个维度进行统一定义;

•其次,从项目中对数据质量实际感知程度和理论认为重要程度两方面进

行问卷调查,打分采用19等比标度法;

-结果处理:

将专家打分汇总,分别去除一个最高分和一个最低分后,进行总平均,得到每项指标的权重;

-根据实际情况截取权重最高的一定数量指标作为实际使用的评价指标,并根据数据资源的类型决定其测量方法。

分析评价指标及其权重使用的专家调查表格式如下:

质量指标

定义

您认为这项指标的重要程度

您认为在这方面的表现如何

不重要重要

差好

准确性

数据所述状态对源事物状态的表达准确程度

123456789

123456789

正确性

数据内容符合事实或被认为正确的道理

123456789

123456789

有用性

指数据是否对用户有用

123456789

123456789

55

123456789

123456789

55

123456789

123456789

55

123456789

123456789

55

123456789

123456789

55

123456789

123456789

55

123456789

123456789

55

123456789

123456789

9.2.5评测指标的冲突处理原则

目前学术研究对数据

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1