误差理论参考习题汇编.docx
《误差理论参考习题汇编.docx》由会员分享,可在线阅读,更多相关《误差理论参考习题汇编.docx(23页珍藏版)》请在冰豆网上搜索。
误差理论参考习题汇编
能力验证结果的统计处理和能力评价指南(试用)
1.前言
本指南对CNAL能力验证的结果统计处理和能力评价提出建议使用的方法。
2.适用范围
本指南适用于CNAL的能力验证活动以及将结果应用于CNAL认可的能力验证活动。
3.参考文件
ISO/IEC导则43-1利用实验室间比对的能力验证——能力验证计划的建立和运作
APLACPT001检测实验室间的比对
APLACPT002校准实验室间的比对
NATA能力验证指南
4.统计处理
4.1统计设计
4.1.1能力验证的结果可以以很多形式出现,其数据类型多样,并构成多种统计分布。
分析数据的统计方法应与数据类型及其统计分布特性相适应。
无论使用哪一种方法对参加者的结果进行评价,一般宜包括以下几方面内容:
a)确定指定值;
b)计算能力统计量;
c)评价能力;
d)在某些情况下需预先确定被测样品的均匀性和稳定性。
4.1.2在统计设计中应考虑下列事项及其相互影响:
a)所涉及测试的精密性和真实性;
b)在要求的置信水平下检出参加者之间的最小差异;
c)参加者的数量;
d)待检样品的数目和对每一被测样品进行重复检测/测量的次数。
在校准能力验证计划中,应考虑比对的周期;
e)估算指定值所使用的程序,及识别离群值所使用的程序;
f)校准能力验证计划中,参考实验室必须能够给出优于参加者的测量不确定度(应尽量选择拥有国家基标准的实验室)。
4.1.3在缺乏4.1.2a)的可靠信息时,可能有必要组织一次先导性实验室间比对(协同试验),以获得该信息。
4.2指定值及其不确定度的确定
4.2.1确定指定值的方法有多种,下面是最常用的几种。
按不确定度增加的顺序(多数情况下如此)排列如下:
a)已知值——其结果由特定样品配制(如制备、稀释)时确定。
b)有证参考值——由定义法确定(用于定量检测)。
c)参考值——与一个可追溯到国家或国际标准的参考标准物质或标准进行分析、测量或比对检测物品所确定的值。
d)由各专家实验室获得的公议值。
专家实验室在对被测量的测定方面应具有可证实的能力,其使用的方法已经过确认,并且有较高的精密度和准确度,与通常使用的方法具有可比性。
在某些情况下,这些实验室可以是参考实验室。
e)从参加实验室获得的公议值——利用4.2.3中的统计量,并考虑到极端结果的影响。
4.2.2为公平地评价参加实验室,以及促进实验室之间和方法之间的协调一致,应确定指定值。
这一点通过选择共同的比对小组,并尽可能地使用共同的指定值就可以实现。
4.2.3下述统计量适合于使用公议方法来确定指定值:
定性值——预先确定的多数百分率的调公议值;
定量值——适当比对组的平均值,如:
a)可以是加权或变换(如修剪平均或几何均值)的平均值;
b)中位值、众数或其它稳健度量。
4.2.4在适宜条件下,应该运用“测量不确定度表示指南”(由BIPM、IEC、IFCC、ISO、IUPAC和OIML等联合制定)中规定的程序确定指定值的不确定度。
4.2.5极端结果
a)在使用参加实验室的数据确定指定值时,所用的统计方法应当使极端结果的影响降至最小,这可以通过使用稳健统计方法或在计算之前剔除离群值来实现(详见ISO5725-2)。
在规模较大或常规方案中,可用符合相应标准(例如ISO5725-2)要求的计算机程序自动识别离群值。
b)如果参加者的结果作为离群值被剔除,那么该剔除应仅为了计算总计统计量,而在能力验证报告中仍需对这些结果进行评估,并且给出适当的能力评价。
4.2.6其它需考虑的事项
a)按理想情况,如果用参考值或参加者的公议值来确定指定值,协调人应有一个程序来确定指定值的真实度以及检查数据的分布;
在确定指定值时,应根据所开展项目的特定技术要求,由技术专家组和统计专家组考虑指定值本身的不确定度要求以及数据的分布状况。
指定值的不确定度以及数据分布应能满足所开展项目的技术要求。
b)协调人必须有根据其不确定度判断指定值是否可接受的准则。
指定值的不确定度应小于具体项目应用中所要求的不确定度。
小的程度,根据具体项目的应用目的和要求来确定。
4.3能力统计量的计算
4.3.1单个检测项目的能力
4.3.1.1能力验证结果常需变换成一个能力统计量以便于说明和解释和衡量与指定值的偏差。
所用方法的难易程度不同,有的无需处理,有的要经过复杂的统计变换。
4.3.1.2检测能力的评价对于能力验证的参加者而言意义重大。
因此,检测项目应该和检测的需要相关,并能被很好地理解或符合特定领域里的惯例。
4.3.1.3变动性度量常用于计算能力统计量和能力验证计划的汇总报告中。
适用于以组进行比对的常用例子是:
-标准偏差(SD);
-变异系数(CV)或相对标准偏差(RSD);
-百分数,中位值绝对偏差或其它稳健度值。
4.3.1.4定性结果通常不需要经过计算。
定量结果常用的统计量如下(按参加者结果评价变换程度增加的顺序排列):
a)偏差D=x-X,这里x是参加者的结果值,X为指定值
b)偏差百分比率,D/X*100
c)百分数或秩
d)z比分数
这里S是变动性的适当的估计/度量值。
这种模式既适用于X和S由参加者结果推导出的情形,亦适用于X和S不是由全部参加者结果推导出的情形(例如,指定值和变动性可作出明确规定时。
参见(化学)分析实验室能力验证国际协调方案)。
利用稳健统计方法处理结果时,Z=(x-X)/0.7413IQR。
式中IQR为四分位间距。
e)En值(该统计量通常用于测量比对计划和测量审核活动)。
式中的ULAB为参加者结果的不确定度;UREF是指定值的不确定度。
4.3.1.5注意事项
a)参加者结果和指定值之间的简单差值可能足以确定能力,且易被参加者所理解。
数值(x-X)在ISO5725-4中称为“实验室偏移的估计值”。
b)百分率差反映集中程度的变化,参加者较易理解。
c)百分数或秩用于高度离散或偏态分布的结果和按序响应,或不同的响应值有限时的情形。
不要轻易使用该方法。
d)根据检测数据的性质,应优先考虑对结果实行变换。
有时这种变换是必要的,比如,稀释的结果以几何尺度变化,因而可以进行对数变换。
e)如果使用统计量作为评价标准(如Z比分数),变动性的估计必须可靠,即基于足够的观察来减少极端值的影响和降低不确定度。
4.4综合能力值
4.4.1在单一能力验证轮回中,可以根据一个以上的结果对实验室能力进行评估。
这种情况出现在一个特定测试物或一组相关的测试物有一个以上测试项目时,这样,将能提供更为全面的测试能力的评估方法。
绘图法,如(Youden)图或(Mandel)h-值图,都是表示测试能力的有效手段(见ISO5725-2)。
a)相同被测量的综合值
-满意结果的数目
-z比分数的平均值
-绝对偏差的平均值(以单位或百分比表示)
-绝对偏差(或平方偏差)之和
-重新按比例改变后的z比分数和(RSZ)
-重新按比例改变后的z比分数平方和(RSSZ)
b)不同被测量的综合值
-满意结果的数目或百分比
-绝对z比分数的平均值
-与评价极限相关的绝对偏差的平均值。
4.4.2注意事项
a)数值可以根据需要进行变换,这样可使他们都服从相同的假定分布(如Z比分数服从高斯分布,偏差的平方服从χ2分布)。
b)对严重影响综合值的极端值应进行检查。
4.5能力评价
4.5.1在建立能力的评价标准前,应考虑能力的度量值是否具有下列特点:
a)专家公议:
在这种情况下,顾问组或其它资深专家直接确定所报告的数据是否符合要求,专家调查是评价定性检测结果的主要途径。
b)与目标的符合性:
例如,考虑方法性能指标和参加者被承认的操作水平等。
c)数值的统计判定:
这里的标准应适用于各种结果值。
一般将Z比分数分为:
∣Z∣≤2满意结果
2<∣Z∣<3有问题
∣Z∣≥3不满意或离群的结果
将En值分为
En≤1满意结果
En>1不满意结果
d)参加者的公议:
由一定百分比的参加者或由某个参考标准组提供的比分数数值或结果的范围。
如:
-中心百分比(80%,90%或95%)满意,或
-单侧百分比(最低90%)满意。
4.5.2分割样品方案的设计,目的是识别不当的校准或结果中严重的随机影响。
在这些情况下,应依据足够数量的数据和较宽浓度范围的进行评估。
为识别和描述这些问题,可采用作图法,特别是实验室间差异对应平均值所作的图。
结果用适当的参数或非参数技术的回归分析和残差分析进行比较。
4.5.3只要可能,应使用图示法表示能力(如直方图、误差棒图和Z比分数次序图)这些图示法可用来表示:
-参加者结果的分布;
-多个检测项目数据间的关系;
-不同方法的分布比较。
4.5.3在利用能力验证计划结果对实验室的能力进行判定时,也应考虑到我国的相关方法或标准的规定。
例如,某些实验室出具的数据,在能力验证计划中为离群结果,但可能仍在其相关标准中规定的允差范围之内,该情况下,不应要求实验室进行整改,而是建议其进行整改。
鉴于此,利用参加能力验证的结果来对实验室的能力进行判定时,不应作出“合格”与否的结论,而是使用“满意/不满意”或“离群”的概念。
4.5.4利用其他的能力验证方式例如利用测量审核对实验室的能力进行判定时,稳健统计方法或许不适用。
应依据被测项目的特性,参照相关标准(包括统计技术方面的标准)进行判定。
附件A:
检测实验室间能力验证计划的
结果处理方法
A.1引言
本文件概括了CNAL用于处理能力验证计划结果的程序。
但仅适用于检测能力验证计划,而不适用于校准能力验证(测量比对)计划,校准能力验证计划的统计将在附录B中阐述。
在检测验证计划中,结果的评价是建立在与给定值的比较之上,给定值通常是从所有参加者的结果中获得即公议值。
本文件中所描述的统计程序能够适用于较大范围的检测能力验证计划。
只要可行,能力验证计划的结果分析应尽量采用这些程序,但在某些情况下,也可能需要采用其它更适合的统计技术。
对于所有的验证计划,统计分析只是评价其结果的一个部分。
如果一个结果被认为是离群值,这意味着,从统计上看它明显的不同于本组的其他结果。
然而,从所涉及的具体学科(如化学)的观点看,结果可能没有“错”。
这就是为什么规定结果的评价应由统计分析和技术专家联合提出的原因。
本附录的A.4、A.5和A.6列出了实际使用的统计分析(包括某些实例)──即能力验证计划最终报告中出现的统计、表格和图表。
在A.2中将探讨一些在验证计划的筹划过程中需考虑的理论背景;在A.3条中将描述开始统计分析前需进行的结果的收集、输入和检查。
A.2统计设计
提供给实验室的检测物品之间的所有差别已降至最小,因此结果的变异性主要有两个来源:
实验室间的变异(包括测量方法间的变动)和一个实验室内部的变异。
我们期望在这两种类型的变异上来进行评价和提供反馈。
为了评审实验室间和实验室内这两种变异性,实验室必须进行多于一次(如两次)的相同检测。
因此,只要可能,验证计划应设计成能够获得成对的相关结果。
如不可能,也可以通过使用成对的同类样品或要求对一个样品检测两次的结果来获得。
如果使用成对的样品,它们可以是等同的(“不易识别的复制件”)或者存在轻微的差别(即在不同的等级上检测其性质)。
依次获得的结果对分成两类:
均匀对,期望其结果是相同的(即两个样品完全相同或同一样品检测两次);以及分散对,其结果稍有差异。
对均匀对和分散对这两种类型的结果的统计分析是相同的,但在解释上稍有不同(见A.5)。
有些验证计划不可能获得结果对──即只能获得单一样品的单个结果。
在这种情况下,统计分析稍为简单,但不能区分出两种变异类型间的差别。
在验证计划筹划过程中,另一个重要的统计考虑是,所用的分析是基于结果是服从正态分布的假设。
这是统计分布中最常见的类型(见下图)。
正态分布
正态分布是一个连续的、对称的“钟形”曲线,并被定义为大约有68%的值处于平均值的一倍标准偏差内,95%的值处于两倍标准偏差内,99%的值处于三倍标准偏差内。
因此,计划组织者(特别是技术专家)必须注意从所用样品中获得的结果应近似于正态分布。
例如:
对于连续的结果,技术专家必须仔细考虑给出所需的单位和小数位数/有效数字──否则数据可能含有大量的重复值。
另一个应该避免的问题是当其特性是在非常低的水平上测试的──这种情况下,结果通常是不对称的(即偏向零点)。
A.3数据准备
在开始进行统计分析之前,应采取措施以确保所采集的数据对于分析而言是正确、合理的。
必须确保正确地输入所有提交的结果。
一旦收到了所有结果(或已超过了上报结果的最后期限),必须仔细复查输入的数据。
通过这个检查过程,一般可以识别出总体数据中的粗大误差和潜在问题。
在某些情况下,结果需经过转换──例如:
微生物的计数数据统计分析通常按结果的log10计算,而不是按原始的计算。
当所有结果已被输入并经过检查(必要时要经过转换)时,制出显示结果分布的数据直方图──以对正态性假设进行检验。
检查直方图可以看出结果是否连续和对称。
如果不是,统计分析可能无效。
还可能出现一个问题,即在直方图上出现两组有差异的结果(即双形分布)。
这通常是由于使用了产生不同结果的两种检测方法。
在这种情况下,应对两种方法的数据进行分离,然后对每一组进行统计分析。
A.4总计统计量
完成了数据准备,就可以用总计统计量来描述数据。
至少应包含七种综合的统计量──结果数量、中位值、标准四分位数间距(IQR)、稳健的变异系数(CV)、最小值、最大值和范围。
其中最重要的统计量是中位值和标准IQR──它们是数据的集中和分散的量度,与平均值和标准偏差相似。
使用中位值和标准IQR是因为它们是稳健的统计量,即它们不受数据中存在的离群值的影响。
结果数量是从一个特定检测/样品中得到的结果的总数,符号为N。
其它的大多数统计量是从编组结果中计算的,即从最低值到最高值。
在本附录中使用X来第i个编组数据值(例如:
X[1]是最低值,X[N]是最高值)。
中位值是一组数据的中间值,即有一半的结果高于它,一半的结果低于它。
如果N是奇数,那么中位值是一个单一的中心值,即X[(N+1)/2]。
如果N是偶数,那么中位值是两个中心值的平均,即是(X[N/2]+X[(N/2)+1])/2。
例如,如果N是9,中位值是第5个值,如果N是10,那么中位值是第5和第6个值的平均值。
标准IQR是一个结果变异性的量度。
它等同于四分位间距(IQR)乘以一个因子+(0.7413),使其与一个标准偏差相类似。
四分位间距是低四分位数值和高四分位数值的差值。
低四分位数值(Q1)是低于结果的四分之一处的最近的值,高四分位(Q3)是高于结果四分之三处的最近的值。
在大多数情况下Q1和Q3是通过数据值之间的内插法获得的。
IQR=Q3-Q1,标准IQR=IQR×0.7413。
稳健CV是一个变异系数(它可供比较不同样品/测试中的变异性时使用),它等于标准IQR除以中位值,用百分比表达──即稳健CV=100%×标准IQR÷中位值。
最小值是最低值(即X[1]),最大值是最高值(即X[N]),全距是它们之间的差值(即[N]-X[1])。
计算出了一个验证计划中的每个样品和测试的总计统计量后,应把中位值和标准IQR列成表格,列入中期报告返回参加实验室。
中期报告发布之后,组织者不应对数据再做改动和添加(如迟到的结果)。
A.8中给出了一个最终报告中的总计统计量的例子。
例中使用了三个样品,样品A和样品C是完全相同的(即均匀对),因此这两个样品的总计统计量非常相似。
注:
因子是从“标准”正态分布中得来的(在A.2节中描述),它有一个为零的平均值和等于1的标准偏差(SD)。
这样一个分布的四分位间距是[-0.6745,+0.6745],小于熟悉的±1SD的间隔。
为了把IQR转换为±1SD间距,必须用间隔宽度比例来标定,即2/1.3490。
接下来,为把这个±1SD间距(其宽度为2个标准偏差)转换为一个等同的1SD量值,将二等分这个间隔。
因此,要用IQR除以1.3490(或等同于乘以0.7413)来把它转换为一个标准偏差的估计值。
A.5稳健Z比分数和离群值
为了统计评价参加实验室的结果,应使用基于稳健总计统计量的z比分数(中位值和标准IQR)。
如已获得了结果对(在大多数情况下),将计算两个z比分数──一个实验室间z比分数和一个实验室内z比分数。
它们分别基于结果对的总和与差值。
假设结果对是从A和B两个样品中获得的。
把所有样品A结果的中位值和标准IQR分别写为中位值(A)和标准IQR(A)。
(样品B也类似)。
对一个实验室样品A的结果而言,简单的稳健z比分数(用Z表示)为:
结果对的标准化总和(用S表示)和标准化差值(D)为:
(B-A)/(中位值A<中位值B时)
和D=
(A-B)/(中位值A>中位值B时)
通过计算每个实验室的标准化总和及标准化差值,可以得出所有的S和D的中位值和标准IQR,即中位值(S),标准IQR(D)等(这些总计统计量通常在报告表中列出,允许参加者自己计算z比分数)。
随后计算实验室间z比分数(记为ZB)作为S的稳健z比分数;计算实验室内z比分数(ZW)作为D的稳健z比分数,即
和
在报告中相应结果旁,列表给出计算的z比分数(见A.8中的例表),并依据这些z比分数来评判结果。
把离群值定义为所有Z绝对值大于等于3的结果/结果对,即Z≥3或Z≤-3。
在表中,离群值在其z比分数边上以(§)标出。
这个离群标准êZï>3的置信度约为99%(相对于正态分布)——即在总体结果中有少于1%几率的确切结果/结果对非常容易出现问题。
类似的,z比分数减为2的置信度约为95%。
当实验室的z比分数处在此区间(即2<êZï<3)时,应鼓励实验室“认真地查一查”它们的结果。
对认为是离群的结果进行说明时,必须考虑z比分数的符号和能力验证计划的设计。
对于均匀对和分散对,一个正的实验室间离群值(即ZB≥3)表明结果/结果对都太高。
相似的,一个负的实验室间离群值(即ZB≤-3)表明其结果都太低。
对于均匀对,其结果来源于完全相同的样品,任一符号的实验室内离群值(即êZBï≥3)都表明其结果间的差值太大。
对于分散对,是对两个样品进行不同等级上的分析,一个正的实验室内离群值(即ZW≥3)表明结果间的差值太大;一个负的实验室内离群值(即ZW≤-3)表明结果间的差值太小或者对于中位值是在“相反的方向”。
对于涉及一个样品(X)得出单一结果的验证计划,一个简单的稳健z比分数是按照Z={X-中位值(X)}/标准IQR(X)计算的。
且其离群值的划分如上,即êZï≥3的X值。
当识别离群值时,z比分数的符号表明结果太高(正z比分数)或太低(负z比分数),但不能得知是由于实验室间或实验室内变动,还是二者皆有所造成。
本文件所选的数据例子是三个样品为一组──即一对样品和一个单一样品。
例中的结果引用的是Legionella能力验证计划,因此,微生物的数量在分析前已按log10转换。
其中,样品A和样品C是完全相同的(即均匀对),因此有三个z比分数──对于样品A和C,有—个实验室间和一个实验室内z比分数,对样品B有一个单一的稳健z比分数。
29号实验室有一个正的实验室间离群值,以及对样品B有一个负的离群值──这表明这三个结果都太高(对每个样品的结果都是最大值)。
三个参加者都有实验室内的离群(20,24和33),这表明对完全相同的样品A和C,其结果之间的差异太大。
A.6图形显示
验证计划报告除了包括结果、z比分数表和总计统计量之外,还应包含一定数量的数据图形显示。
两个最常使用的图形是z比分数序列直方图和Youden图──将在下面详细叙述。
这些图是用来帮助协调员和技术顾问解释结果的,而且对于参加者也非常有用──特别是那些带有离群值的参加者,由此他们能够看到他们的结果与其他实验室提交的结果上的差异。
z比分数序列直方图
对计算出的每种类型的z比分数都产生一份图表。
图表中按照大小的顺序显示出每个实验室的z比分数,并标有实验室的编号,使每个实验室能够很容易地与其它实验室的能力进行比较。
这些图中,在+3和-3处有实线,因此,很容易根据代表实验室的“条柱”超过了临界线而辨别出离群值。
y轴的极限范围为-5到+5,所以在某些情况下,当超过了图的边界时,出现了非常大或非常小的(负的)z比分数。
该图的优点是可以辩出每个实验室,并可清楚的指出离群值。
然而,它不象Youden图那样能表示实际结果。
Youden(尧敦)图
尧敦图是为结果对而设计的。
Youden双样品图能显著地表示出实验室的系统偏差。
它们根据的是每个实验室结果对的曲线,用黑点•表示。
图中对结果的双变量分析有约95%置信概率椭圆的特性,并用虚线来标明每个样品的中位值。
这个椭圆是通过在双变量z比分数空间中,再标定一个约95%的置信区间(为圆)转换回原始数据空间来估算的。
处于椭圆外的所有的点都标有相应的实验室编号。
但要注意,这些点可能并不意味着离群。
这是因为离群标准(êZï≥3)的置信水平约为99%,而椭圆是约95%的置信概率。
这意味着,如果数据中没有离群值,能够期望大约有5%(即二十分之一)的结果将在椭圆外。
然而因为能力验证的数据通常包含一些离群值,在大多数情况下将有多于5%的点在椭圆外。
Youden图中椭圆以外的点,大体相当于那些z比分数大于2或小于-2的值。
因此,鼓励结果在椭圆之外但还不是离群值(2<êZï<3的值)的实验室复查他们的结果。
尧敦图的优点在于它们是真实数据的图示。
在椭圆外的实验室能够看到它们的结果是怎样不同于其他实验室的──同时对z绝对值大于2的结果有明显标注。
Youden图说明指南:
(1)含有明显系统误差分量的实验室(即实验室间变异)将在椭圆的右上象限(通过中位值线划分)或者在左下象限,即两个样品的结果异常地高或低;
(2)随机误差分量(即实验室内变异)明显高于其他参加者的实验室将处于椭圆外,且(通常)在左上或右下象限,即一个样品的结果过高,而另一个过低。
然而应注意,Youden图只是说明数据,并不能用来评价结果(结果的评价由z比分数确定)。
A.7实验室综合表
对于每一个参加者,除了制备包扩统计分析整个细节的最终报告之外,还要制备一份综合表。
该表包含了参加者的所有结果,同时带有检测/样品的统计量和相关的z比分数。
也包含了在一般和特定的验证计划中对实验室的说明(如必要)。
综合表的主体内容包括8栏:
检测和样品标识;实验室结果;结果编号,检测/样品的中位值和标准IQR,样品对的两个z比分数(见下表)。
所有离群值在z比分数边用§号标出。
从综合表中我们能很快且容易看到:
(1)两种检测结果是该实验室不能提交的(砷和硒);实验室有两个实验室间离群值,都为负值(即它们的这个检测的所有结果都太低)且都是对于汞的;
(2)该实验室有一个z比分数在2<êZï<3范围内──即样品C和D对铜的实验室内z比分数。
这是因为该实验室对这些样品中的一个(样品D)的结果明显地低于中位值,而其他的较高。
虽然没有报告离群值,但能够整体地看到实验室z比分数也是非常有用的。
例如,如果所有实验室间z比分数都是负的(或正的),这可能表明实验室存在偏离——即所有结果都较低于(或较高)于公议值。
A.8举例
CNAL能力验证计划结果单
计划名称:
CNAL-TXXX食品能力验证计划-鱼中元素检测
实验室名称:
[实验室名称]实验室编号:
[##>
元素
(mg/kg)样品实验室
结果结果