误差分析和数据处理讲解.docx
《误差分析和数据处理讲解.docx》由会员分享,可在线阅读,更多相关《误差分析和数据处理讲解.docx(17页珍藏版)》请在冰豆网上搜索。
误差分析和数据处理讲解
误差和分析数据处理
1数据的准确度和精度
在任何一项分析工作中,我们都可以看到用同一个分析方法,测定同一个样品,虽然经过多少次测定,但是测定结果总不会是完全一样。
这说明在测定中有误差。
为此我们必须了解误差产生的原因及其表示方法,尽可能将误差减到最小,以提高分析结果的准确度。
1.1真实值、平均值与中位数
(一)真实值
真值是指某物理量客观存在的确定值。
通常一个物理量的真值是不知道的,是我们努力要求测到的。
严格来讲,由于测量仪器,测定方法、环境、人的观察力、测量的程序等,都不可能是完善无缺的,故真值是无法测得的,是一个理想值。
科学实验中真值的定义是:
设在测量中观察的次数为无限多,则根据误差分布定律正负误差出现的机率相等,故将各观察值相加,加以平均,在无系统误差情况下,可能获得极近于真值的数值。
故“真值”在现实中是指观察次数无限多时,所求得的平均值(或是写入文献手册中所谓的“公认值”)。
(二)平均值
然而对我们工程实验而言,观察的次数都是有限的,故用有限观察次数求出的平均值,只能是近似真值,或称为最佳值。
一般我们称这一最佳值为平均值。
常用的平均值有下列几种:
(1)算术平均值
这种平均值最常用。
凡测量值的分布服从正态分布时,用最小二乘法原理可以证明:
在一组等精度的测量中,算术平均值为最佳值或最可信赖值。
式中:
——各次观测值;n――观察的次数。
(2)均方根平均值
(3)加权平均值
设对同一物理量用不同方法去测定,或对同一物理量由不同人去测定,计算平均值时,常对比较可靠的数值予以加重平均,称为加权平均。
式中;
——各次观测值;
——各测量值的对应权重。
各观测值的权数一般凭经验确定。
(4)几何平均值
(5)对数平均值
以上介绍的各种平均值,目的是要从一组测定值中找出最接近真值的那个值。
平均值的选择主要决定于一组观测值的分布类型,在化工原理实验研究中,数据分布较多属于正态分布,故通常采用算术平均值。
(三)中位数(xM)
一组测量数据按大小顺序排列,中间一个数据即为中位数。
当测定次数为偶数时,中位数为中间相邻的两个数据的平均值。
它的优点是能简便地说明一组测量数据的结果,不受两端具有过大误差的数据的影响。
缺点是不能充分利用数据。
1.2准确度与误差
准确度与误差是指测定值与真实值之间相符合程度。
准确度的高低常以误差的大小来衡量。
即:
误差越小,准确度越高;误差越大,准确度越低。
误差有两种表示方法:
绝对误差和相对误差。
1、绝对误差(E)
某物理量在一系列测量中,某测量值与其真值之差称绝对误差。
实际工作中常以最佳值代替真值,测量值与最佳值之差称残余误差,习惯上也称为绝对误差。
绝对误差(E)=测定值(x)-真实值(T)
2、相对误差(RE)
为了比较不同测量值的精确度,以绝对误差与真值(或近似地与平均值)之比作为相对误差。
由于测定值可能大于真实值,也可能小于真实值,所以绝对误差和相对误差都有正、负之分。
绝对误差相同,相对误差可能相差很大。
相对误差是指误差在真实值中所占的百分比率。
相对误差不同说明它们的误差在真实值众所站的百分比率,用相对误差来衡量测定的准确度更具有实际意义。
但应注意有时为了说明一些仪器测量的准确度,用绝对误差更清楚。
例如分析天平的称量误差是±0.0002g,常量滴定的读书误差是±0.01mL等。
这些都是用绝对误差来说明的。
1.3精密度与偏差
精密度是指在相同条件下n次重复测定结果彼此相符合的程度。
精密度的大小用偏差表示,偏差愈小说明精密度愈高。
(一)偏差
偏差有绝对偏差和相对偏差。
绝对偏差(d)=
相对偏差是指单次测定值与平均值的偏差。
相对偏差=
相对偏差是指绝对偏差在平均值中所占的百分率。
绝对偏差和相对偏差都有正负之分,单次测定的偏差之和等于零。
对多次测定数据的精密度常用算术平均偏差表示。
(二)算术平均偏差
算术平均偏差是指单次测定值与平均值的偏差(取绝对值)之和,除以测定次数。
即
算数平均偏差
(
)
算术平均偏差和相对平均偏差不计正负。
例计算下面这一组测量值的平均值,算术平均偏差和相对平均偏差。
解:
55.51,55.50,55.46,55.49,55.51
平均值=
=
算数平均偏差=
=
相对平均偏差=
(三)标准偏差
在数理统计中常用标准偏差来衡量精密度。
1、总体标准偏差
总体标准偏差是用来表达测定数据的分散程度,其数学表达式为:
总体标准偏差
2、样本标准偏差一般测定次数有限,µ值不知道,只能用样本标准偏差来表示精密度,其数学表达式为:
样本标准偏差
上式中(n-1)在统计学中成为自由度,意思是在n次测定中,只有(n-1)个独立可变的偏差,因为n个绝对偏差之和等于零,所以只要知道(n-1)个绝对偏差,就可以确定第n个的偏差。
3、相对标准偏差
标准偏差在平均值中所占的百分率叫做相对标准偏差,也叫变异系数或变动系数(cv),其计算式为:
cv=
用标准偏差表示精密度比用算术平均偏差表示要好。
因为单次测定值的偏差经平方后,较大的偏差就能显著地反应出来。
所以产生和科研的分析报告中常用cv表示精密度。
例如,现有两组测量结果,各次测量的偏差分别为:
第一组0.30.20.4-0.2-0.40.00.1-0.30.2-0.3
第二组0.00.1-0.70.20.1-0.20.60.1-0.30.1
两组的算术平均偏差分别为:
第一组
第二组
从两组的算术平均偏差的数据看,都等于0.24,说明两组的算术平均偏差相同。
但很明显的可以看出第二组的数据较分散,其中有2个数据即-0.7和0.6偏差较大。
用算术平均值表示显示不出这两个差异,但用标准偏差表示时,就明显的显示第二组数据偏差较大。
各次的标准偏差分别为:
第一组
第二组
由此说明第一组的精密度较好。
4、样本标准偏差的简化计算
按上述公式计算,得先求出平均值,再求出
,然后计算出S值,比较麻烦。
可以通过数学推导,简化为下列等效公式:
S=
利用这个公式,可直接从测定值来计算S值,而且很多计算器上都有
功能,有的计算器上还有S及
功能,所以计算S值还是十分方便的。
(四)极差
一般分析中,平行测定次数不多,常用极差(R)来说明偏差的范围,极差也称为“全距”。
R=测定最大值—测定最小值
相对极差=
(五)公差
公差也称允差。
是指分析方法所允许的平行测定的绝对偏差,公差的数值是将多次测定的分析数据经过数理统计方法处理而确定的,生产实践中用以判断分析结果是否合格的依据。
若2次平行测定的数值之间在规定允差绝对值的2倍以内,认为有效,如果测定结果超出允许的公差范围,成为“超差”,就应重做。
例如:
重铬酸钾发测定铁矿石中含铁,2次平行测定结果为33.18%和32.78%,2次结果之差为33.18%-32.78%=-0.40%。
生产部门规定铁矿石含铁量在30%~40%之间,允差为±0.3%。
因为0.4%小于允差±0.3%的绝对值的2倍(即0.6%),所以测定结果有效。
可以用2次测定结果的平均值作为分析结果,即
这里要指出的是,以上公差表示方法只是其中的一种,在各种标准分析方法总公差的规定不尽相同,除上述表示方法外,还有用相对误差表示,或用绝对误差表示。
要看公差的具体规定。
1.4准确度与精密度的关系
关于准确度与精密度的关系的定义及确定方法,在前面已有叙述。
准确度和精密度是两个不同的概念,它们相互之间有一定的关系。
现举例说明。
例如现有2组各分析结果的数据如下表所示,并绘制成如图所示的图表(标准值为0.31)。
第一组测定结果:
精密度很高,但是平均值与标准值相差很大,说明准确度很低。
第二组测定的结果:
精密度不高,测定数据分散,虽然平均值接近标准值,但这是凑巧的来的,如只取2次或3次来平均,结果与标准值相差较大。
第三组数据的结果:
测定的数据较集中并接近标准数据,说明其精密度和准确度都较高。
由此可见欲使准确度高,首先必须要求精密度也要高。
但精密度高并不说明其准确度也高,因为可能在测定中存在系统误差,可以说精密度是保证准确度的先决条件。
2误差的来源与消除方法
我们进行样品分析的目的是为了获取准的分析结果,然而即使我们用最可靠的分析方法,最精密的仪器,熟悉细致的操作,所测得的数据也不可能和真实值完全一致。
这说明误差是可观存在的。
但是如果我们掌握了产生误差的基本规律,就可以将误差减小到允许的范围内。
为此必须了解误差产生的性质和产生的原因以及减免的方法。
根据误差产生的原因和性质,我们将误差分为系统误差和偶然误差两大类。
2.1系统误差
系统误差又可成为可测误差。
它是由分析操作过程中的某些经常原因造成的。
在重复测定时,它会重复表现出来,对分析结果的影响比较固定。
这种误差可以设法减小得到可忽略的程度。
化验分析中,将系统误差产生的原因归纳为一下几个方面。
1、仪器误差
这种误差是由于使用仪器本身不够精密所造成的。
如使用未经过校正的容量瓶、移液管和砝码等。
2、方法误差
这种误差是由于分析方法本身造成的。
如在滴定过程中,由于分应进行的不完全,化学计量点和滴定终点不相符合,以及由于条件没有控制好和发生其它副反应等等原因,都会引起系统的测定误差。
3、试剂误差
这种误差是由于所用蒸馏水含有杂质或所使用的试剂不纯所引起的。
4、操作误差
这种误差是由于分析操作者掌握分析操作的条件不熟练,个人观察器官不敏锐和固有的习惯所致。
如对滴定终点颜色的判断偏深或偏浅,对仪器刻度标线读数不准确等都会引起测定误差。
2.2偶然误差
(一)偶然误差的规律
偶然误差又称随机误差,是指测定值受各种因素的随机波动而引起的误差。
例如,测量时的环境温度、湿度和气压的微小波动,仪器性能的微小变化等,都会使分析结果在一定范围内波动。
偶然误差的形成取决于测定过程中一系列随机因素,其大小和方向都是不固定的。
因此,无法测量,也不可能校正,所以偶然误差又成不可测误差,它是客观存在的,是不可避免的。
根据上述规律,为了减少偶然误差,应该多做几次平行实验并取其平均值。
这样可使正负偶然误差相互抵消,在消除了系统误差的条件下,平均值就可能接近真实值。
除以上两类误差外,还有一种误差被称为过失误差,这种误差是由于操作不正确,粗心大意而造成的。
例如加错试剂,读错砝码,溶液溅失等,皆可引起较大的误差。
有较大误差的数据在找到误差原因之后应弃去不用。
绝不允许把过失误差当作偶然误差,只要工作认真操作正确,过失误差是完全可以避免的。
(三)随机不确定度
准确度和精密度只对测量结果的定性描述。
不确定度才是对结果的定量描述。
由于测量误差的存在,对被测量值不能肯定的程度称为不确定度。
对随机误差来说不能完全消除,所以测量结果总是存在随机不确定度。
单次测量的随机不确定度(△),可用标准偏差(σ)和置信因子(u)的乘积表示,即△=uσ。
2.3提高分析结果准确度的方法
要提高分析结果的准确度,必须考虑在分析过程中可能产生的各种误差,采取有效的措施,将这些误差减小到最小。
选择合适的分析方法
各种分析方法的准确度是不相同的。
化学分析法对高含量组分的测定,能获得准确和较满意的结果,相对误差一班在千分之几。
而对低含量组分的确定,化学分析法就达不到这个要求。
仪器分析法虽然误差较大,但是由于灵敏度高,可以测出低含量组分。
在选择分析方法时,主要根据组分含量对准确度的要求,在可能的条件下选择最佳的分析方法。
增加平行测定的次数
如前所述,增加测定次数可以减少偶然误差。
在一般的分析测定中,测定次数为3~5次,如果没有意外发生,基本上可以得到比较准确的分析结果。
减小测量误差
尽管天平和滴定管矫正过,但在使用中仍会引起一定的误差。
如果使用分析天平称取一份试样,就会引入±0.0002g的绝对误差,使用滴定管完成一次滴定,就会引入±0.02mL的绝对误差。
为了使测量的相对误差小于0.1%,则
试样的最低称取量为
试样质量=
滴定剂的最小消耗体积为:
V=
消除测定中的系统误差,消除系统误差可以采取以下措施:
空白试验由试剂和器皿引入的杂质所造成的系统误差,一般可做空白试验来加以校正。
空白试验是指在不加试剂的情况下,按试样分析规程在同样的操作条件下进行的测定。
空白试验所得的结果数值称为空白值。
从试样的测定值中减去空白值,就得到较准确的分析结果。
校正仪器分析测定中,具有准确体积和质量的仪器,如滴定管、移液管、容量瓶和分析天平砝码,都应进行校正,以消除仪器不准确所引起的系统误差。
因为这些仪器数据都是参加分析结果计算的。
对照试验常用的对照试验有三种:
用组成与待测试样相近,已知准确含量的标准样品,按所选方法测定,将对照试验的测定结果与标样的已知含量相比较,其比值称为校正系数。
校正系数=
,则试样中被测定组分的含量为:
被测试样组分的含量=测得的含量*校正系数。
用标准方法与所选用的方法测定同一试样,若测定结果符合公差要求,说明所选方案可靠。
用加标回收率的方法检验,即取2等份分试样,在一份中加入一定量待测组分的纯物质进行测定,用相同的方法测定,计算测定结果和加入纯物质的回收率,以检验分析方法的可靠性。
3分析结果的表示方法
3.1离群值的检验与取舍
由于随机误差的存在,对同一试样进行的多次测定结果中,测定值不可能完全相同。
因此,一组测定数据存在一定的离散性,处于一组数据中的极大值和极小值,称为极值,明显偏离一组数据中其它的测定值称为离群值(离异值)。
离群值包括极值,但也包能包括次极值等,所以离群值不等于极值。
一组测定值数据中,有的数据明显处于合理的偏差范围之外,它是一个异常值,必须舍去。
离群值可能是异常值,也可能不是异常值,所以必须对离群值进行检验以决定其取舍。
离群值的检验方法很多,一般分为两大类:
一类是标准偏差预先知道的场合,另一类是标准偏差未知的场合。
在标准偏差已知的场合,可采用2δ、3δ作为取舍标准,即离群值与平均值之差大于2δ、3δ作为异常值舍去。
在标准偏差未知的场合,可采用Q检验法作为取舍标准,这里不详述,可参阅有关专著。
3.2有效数字及修约规则
(1)准确数与近似数有些数是准确的,不存在误差,称为准确数。
例如1、2、3、……都是准确数。
但人们在分析测定工作中经常遇到近似数。
例如在测定数据时,读取的数据是近似数,而不是准确数。
读取数据的准确程度应与测试时所用的仪器和测试方法的精度一致。
(2)有效数字测定数据时,只保留1位不准确数字,其余数字都是准确数字的,称为有效数字。
所以有效数字是指分析测定中得到的有实际意义的数字,该数据除去最末1位数字为估计值外,其余数字都是准确的。
因此,有效数字的位数取决于测定仪器、工具和方法的精度。
比如,使用滴定管进行滴定,测定溶液的体积时,因为滴定管的最小刻度是0.1mL,所以只能读准至0.1mL,因而记录的体积有效数字位数为准确数外加1位估计数,例如45.25mL为4位有效数字。
“0”在数据首位不算有效数字位数,在数据中间及末尾可作为有效数字位数计算。
关于有效数字及位数应说明下面几个问题:
有效数字首位数≥8位时,可多计算1位有效数字,例如0.098mol/L的浓度可看成4位有效数字。
单位换算,要注意有效数字的位数,不能混淆。
例如:
1.37kg≠1370g,应视为1.37×103g。
非测量数据应视为准确数,例如色谱峰面积衰减2倍或溶液稀释10倍等,此处的2或10应视为准确数。
圆周率虽然为固定数,计算时,它所取得有效数字的位数应和其它的测定值的有效数位数一致。
有效数字修约和运算
有效数字修约采用“4舍6入5取舍”的修约规则,即有效数字后面第一位若≤4时舍去。
而≥6时应进位,当刚好=5时,入后看前面的数,该数为奇数时,5进位,该数为偶数时,5舍去。
按国家标准规定,凡产品标准中有界限数字不允许采用修约方法。
例如:
规定某产品含量≥98.0%时为合格产品,不允许将含量为97.96%的产品修约98.0%而成为合格产品;同样,如果规定某杂志含量<0.3%,也不能把杂质含量为0.32%修约为0.3%而成为合格产品。
有效数字的运算可分为如下几种情况。
①加减法几个数相加减得到的和与差的有效数字位数,应该以几个数中,小数点后位数最少的那个数的位数为准。
例如:
0.0154、34.37、4.32751三个数相加,应该以34.37为准,最后得到37.71291,修约成37.71.
②乘除法几个数相乘除得到的积与商的有效数字位数,应以几个数中,有效数字位数最少的那个数的位数为准。
例如:
0.0121、25.64、1.05782三个数相乘得到的积应该以0.0121的位数为准,即取3位有效数字为0.328.
③对数运算所得到的对数的小数部分(尾数)的位数应该和真数位数相同,而其整数部分(首数)只起定位作用。
例如:
lg143.7=2.1575,因为143.7为4位有效数字,所以对数的尾数(小数部分)也取4位。
为1575,而整数2仅仅是定位作用,不影响有效数字位数。
④乘方与开方运算得到结果的有效数字位数应该和原来数据的有效数字为数相同。
例如:
1892=357*102,0.049的开方结果为0.22。
应该指出在有效数字的运算过程中应注意如下几点:
数据中首位数大于或等于8者,可以多1为有效数字位数参加运算。
参加计算的准确度,入2倍等可视为无穷多位的有效数字,不决定计算结果的有效数字的位数。
参加计算的常数,例如Π。
气体常数等,它们所取得位数应该由其它测定值的位数决定,取相同位数。
多步骤运算,每步可多保留1位有效数字参加运算,而不要修约,直至得到最后结果再按规定修约,不允许连续累计修约,这样会增加误差。
3.3分析结果的表示
1)两个平行试样测定结果的表示,如果采取2个平行试样,得到2个测定结果
、
,一般用其算术平均值
来表示。
这是人们经常使用的。
2)1组式样测定结果的表示如果得到1组测试结果
、
、……,应该计算其算术平均值
和样本偏差s值:
分析结果的表示为真值µ:
µ
式中,n为测定次数;f为自由度,f=n-1;α为显著水平,置信度=1-α,若置信度为95%,则α=0.05%;ta,f为在置信度等于(1-α)×100%与自由度f=n-1情况下的置信系数,该系数可以从t分布表5.3-1中查得。
表5.3-1t分布值(α=0.05,f=n-1)
n
4
5
6
7
8
9
10
11
t
3.18
2.78
2.57
2.45
2.37
2.31
2.62
2.23
表5.3-1中列出当置信度为95%,f=n-1时不同测定次数n的置信系数t值。
4回归分析
在分析测定工作中,人们通常是通过测定试样的一组物理量来确定其组分含量的,这一点在仪器分析中尤其是这样。
例如,电化学分析是通过测定电量、电位等数值来测定其含量的,光学分析则是测定吸光度值来确定其含量的。
人们是通过变量x(例如电位值、吸光度值等)来求得组分含量y的。
变量x与y之间的关系变化规律如何?
回归分析就是处理变量之间的相关关系的数学工具,这里只介绍元线性回归方程的求法。
4.1回归方程的建立
假定配制了一系列的标准试样,它们的含量(c)为y1、y2、y3、…,假定它们的物理量(比如吸光度A)对应得到x1、x2、x3、…,它们的一元线性回归方程为:
式中:
xi、yi——单次测定值
4.2回归方程的检验
人们所建立的回归方程是否可信可以通过相关系数r的计算来检验:
R值越接近1,回归方程越可信。
例:
用分光光度法测定钴,得到下列数据:
吸光度A0.280.560.841.122.24xi
钴含量c3.05.58.211.021.5yi
试确定A和c之间的线性关系方程。
解:
设吸光度A为xi,钴浓度c为yi
=
=9.84-9.48
1.008=0.28
所以c=0.28+9.48A
相关系数,应用式
可见拟合的线性方程很好。