1、2规范性引用文件.3应用.4术语.5数据质量评测制度.6数据质量评测原则.6.1 科学性原则56.2 客观性原则56.3 系统性原则56.4 可操作性原则66.5 针对性原则66.6 引导性原则67数据质量评测一般流程.7.1 数据质量需求分析77.2 确定评价对象及范围77.3 选取数据质量维度及评价指标77.4 确定质量测度及其评价方法87.5 运用方法进行评价87.6 结果分析及评级97.7 质量结果及报告98数据质量评价主体的要求.9数据质量指标体系.9.1 数据质量结构109.2 主要数据质量指标119.2.1 基本层129.2.2 准则层139.2.3 评价指标选取的基本要求169
2、.2.4 评价指标的筛选和权重169.2.5 评测指标的冲突处理原则1710数据质量评测方法.10.1 定性方法1810.1.1 第三方评测法1910.1.2 用户反馈法1910.1.3 专家评议法2010.2 定量方法2010.2.1 访问量统计2010.2.2 计算机辅助检查2110.3 综合方法2110.3.1 层次分析法2110.3.2 缺陷扣分法261 范围本规范明确了用于中国科学院数据应用环境建设与服务项目中数据(资源) 质量评测的一般方法与数据质量指标体系的建立方法。本规范所提供的流程、方法和指标可适用于中国科学院数据应用环境建设与服务项目中建库单位内部的产品质量评价,日常统计监
3、测制度,以及专家委员会领导下的项目质量检查。本规范提供的评测方法与指标体系适用于数据资源(包括中间产物),不包括对数据生产与服务过程的评测。2 规范性引用文件下列文件对于本文件的引用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。TRREC061 数据应用环境建设与服务标准规范框架3 应用本规范所提供的流程、方法与指标均为通用性内容,意在面向不同规模、不同学科背景和不同数据类型的各类数据库提供适应性,在执行过程中评测方可根据实际情况适当增删评测流程,并决定具体的指标体系和采样方法。4 术语本规范所使用之术语遵
4、循TRREC061 数据应用环境建设与服务标准规范框架第七部分的约定。5 数据质量评测制度为确保科学数据信息资源管理与使用的有效与安全,最大限度保障投资者的利益与建设者的劳动,促进科学数据资源的共享利用,“中国科学院数据应用环境建设与服务”项目要求项目内数据库应建立数据质量评测制度。“中国科学院数据应用环境建设与服务”项目资助建设的数据资源,应在项目结题前达到本规范提出的质量要求,并接受项目质量检查。此外,建库单位应当根据具体情况适当开展以本标准为依据的日常数据质量监测统计。6 数据质量评测原则科学数据质量评价应注重以下原则:6.1 科学性原则质量评价的结果应能正确反映数据资源的质量状况。主要
5、体现在正确的质量指标选择,以及采用科学合理的评价方法等方面。评价必须有一定的理论作为基础,但又不能够脱离实际。另外,科学性还反映适度的简单,评价不可能穷尽所有因素,也不能过于简单。6.2 客观性原则评价应是符合实际、客观可信的。评价指标的选择须考虑当前数据资源环境的总体水平,反映出不同学科领域的差异。6.3 系统性原则由于评价对象的广泛性、复杂性、必须使用若干指标来衡量,同时指标间可能相互联系、相互制约。但是,在评价中,每个指标又必须是独立的,不互相包容的,需考虑指标的层次性、系统性,避免指标间冲突。6.4 可操作性原则科学合理的评价体系应该是可行的、操作方便的,指标的设计避免过于繁琐, 还要
6、考虑指标体系所涉及指标的量化及数据获取的难易程度和可靠性,注意选择能够反映科学数据质量状况的综合指标和具有代表性的指标。6.5 针对性原则科学数据资源种类繁多,数据积累具有续性,各种资源除了具有与其他资源相同的共性之外,也具有其自身的特殊性。数据质量评价应能充分考虑各类科学数据资源所特有的类型特征并能将其揭示出来,要在指标的权重和分值上予以区分,以体现其针对性的导向作用。6.6 引导性原则进行科学数据质量评价,目的在于了解科学数据资源的质量情况,为有关的取舍提供判断依据,以帮助用户快速选择有针对性的信息。因此,必须以方便专业人员快捷而有效的选择和获取有价值的信息资源为导向。7 数据质量评测一般
7、流程科学数据质量评价过程是评价者将数据质量评价程序应用于目标数据或数据集并最终获取评价对象质量状态的一系列步骤。本规范提出科学数据质量评价的一般流程,具体于一个具体的执行过程中根据数据对象或学科背景有所不同仍可根据具体情况适当增删。科学数据质量评价包括以下一般流程:数据质量评测一般流程数据质量评测过程是一个迭代过程,各个过程的先后顺序仅表达阶段活跃的大致顺序,根据实际执行情况的好坏决定,一些过程可能需要重复执行。7.1 数据质量需求分析对科学数据的数据质量评价是以用户为中心进行的数据质量评价。数据需求是人们在各项实践活动过程中,为解决所遇到的问题而产生的对数据的不足感和求足感。数据资源不同于实
8、体产品,具有用途个性化、多样化、不稳定等特点, 因此,必须首先了解用户针对特定数据资源的需求特征才能建立针对性的评价指标体系。7.2 确定评价对象及范围确定评价对象及其范围,评价对象既可以是数据项也可以是数据集。7.3 选取数据质量维度及评价指标数据质量维度是进行质量活动中客体的具体质量反映,如正确性、准确性等, 它是控制和评价数据质量的主要内容,因此,首先,要确定影响质量维度的因素有哪些,如人员素质、设备、设施等,必要时,要将这些质量影响因素在评价报告中进行分别说明。对于有些影响多个质量维度的因素,应在具体情况下根据需要进一步细化其影响因素,或针对进一步细化目标环节在确定质量行为中的影响因素
9、。另外,要选取可测、可用的质量维度作为评价指标准则项,在不同的数据类型和不同的数据生产阶段,同一质量维度有不同的具体含义和内容,应该根据实际需要和生命阶段确定质量维度。在此阶段要注意指标之间避免冲突,同时也要注意新增评价指标的层次、权重问题,以及与其它同层次指标的冲突问题。对三级评价指标的选择可根据评价对象的类别、评价要求进行量化处理,必要时可进行计量评价法。以当前技术条件无法量化的质量维度可适当使用具有相关性的替代指标。7.4 确定质量测度及其评价方法数据质量评价在确定其对象范围后,应该根据每个评价对象的特点,确定其测度及实现方法,对于不同的评价对象一般是存在不同的测度的,以及需要不同的实现
10、方法支持,所以应该根据质量对象的特点确定其测度和实现方法。常用定性方法和定量方法,前者采用权重打分等方法进行,后者依据信息生产各阶段的质量规范一级缺陷判据进行。7.5 运用方法进行评价就是根据前面四步确定的质量对象、质量范围、测量及其实现方法实现质量评测的活动过程。评价对象的质量应当由多个质量维度和三级评价指标的评测来反映,单个数据质量测量是不能充分、客观评价由某一数据质量范围所限定的信息的质量状况,也不能为数据集的所有可能的应用提供全面的参考。多个质量维度和三级评价指标的组合能提供更加丰富的信息,故对某数据质量范围限定的信息,应提供多个质量维度和三级评价指标的综合测量。数据质量评测过程中应保
11、证所采用的方法的正确和客观,尽量避免增加质量评价的干扰因素,最大程度的借助计算机及网络技术的自动化处理实现,追求全面客观的反映数据质量的真实情况。特别对于定量的质量维度,要确定科学的定量测量的指标和方法,质量测量应当保证其所涉及的数据边界范围、系统参数等的正确和完备性。7.6 结果分析及评级评测后要对评测结果进行分析: 对评价目标与结果进行对比分析,确定是否达到评价指标; 对评价的方案的有效性进行分析,确认是不是合适等。 之后,根据评价结果确定对象的质量评价,如需要,可根据评价结果鉴定质量级别。确定评价对象的质量级别是建立在相应的质量分级方案基础上的,该分级方案是根据相应的质量规范或用户的需求确定的,也是判断数据质量成熟度的重要依据。7.7 质量结果及报告质量评价结果和评测报告是所有科学数据质量评价项目及其评测结果的合集。在完整的数据质量评价结果和报告中,应该包括全部上述内容。此外,在数据质量评价报告中还应该把据此进行的评价过程的操作做出完整的记录,包括存在的质量级别的内容确定
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1