分析化学中的误差及数据处理精.docx
《分析化学中的误差及数据处理精.docx》由会员分享,可在线阅读,更多相关《分析化学中的误差及数据处理精.docx(33页珍藏版)》请在冰豆网上搜索。
分析化学中的误差及数据处理精
第三章分析化学中的误差及数据处理
本章基本要求:
1掌握误差和偏差的基本概念、准确度与精密度的概念和衡量其大小的方式;了解误差的分类、特点、产生的原因及其减免测定误差的措施。
了解准确度与精密度之间的关系和它们在实际工作中的应用。
2掌握有效数字的概念、有效数字在分析测定中的应用规则、可疑数据的取舍和有效数字的运算规则。
3掌握平均值的置信区间的概念和计算;掌握t检验法、F检验法以及Q检验法的应用;了解随机误差的分布特征—正态分布。
4掌握通过选择合适的分析方法、用标准样品对照、减小测量误差和随机误差、消除系统误差等提高分析结果准确度的方法。
分析人员用同一种方法对同一个试样进行多次分析,即使分析人员技术相当熟练,仪器设备很先进,也不可能做到每一次分析结果完全相同,所以在分析中往往要平行测定多次,然后取平均值代表分析结果,但是平均值同真实值之间还可能存在差异,因此分析中误差是不可避免的。
§3.1分析化学中的误差
一真值(xT)
某一物理量本身具有的客观存在的真实值。
真值是未知的、客观存在的量。
在特定情况下认为是已知的:
1理论真值(如某化合物的理论组成,例:
纯NaCl中Cl的含量)
2计量学约定真值(如国际计量大会确定的长度、质量、物质的量单位如米、千克等;
标准参考物质证书上给出的数值;有经验的人用可靠方法多次测定的平均值,确认消除了系统误差。
)
3相对真值(如认定精确度高一个数量级的测定值作为低一级测量值的真值。
(如标准试样(在仪器分析中常常用到)的含量)
二
一、平均值(
)
强调:
n次测量值的算术平均值虽不是真值,但比单次测量结果更接近真值,是对真值的最佳估计,它表示一组测定数据的集中趋势。
三中位数(xM)
一组测量数据按大小顺序排列,中间一个数据即为中位数XM,当测量值的个数位数时,中位数为中间相临两个测量值的平均值。
例1.小10.10,10.20,10.40,10.46,10.50大
=10.33xM=10.40
例2.10.10,10.20,10.40,10.46,10.50,10.54
=10.37xM=10.43
它的优点是能简单直观说明一组测量数据的结果,且不受两端具有过大误差数据的影响。
例3:
当有异常值时,10.10,10.20,10.40,10.46,10.50,12.80xM=10.43
=10.74
很多情况下,用中位数表示“中心趋势”比用平均值更实际。
其缺点是不能充分利用数据,因而不如平均值准确。
四准确度和误差
1准确度:
指测量值与真值之间接近的程度,其好坏用误差来衡量,用相对误差较好。
2误差(E):
测定结果与真实值之间的差值
(1)绝对误差:
测量值与真值间的差值,Ea=x-xT
测量值大于真实值,误差为正误值;测量值小于真实值,误差为负误值。
误差越小,测量值的准确度越好;误差越大,测量值的准确度越差。
(2)相对误差:
绝对误差占真值的百分比,Er=x-xT/xT×100%=Ea/xT100%
相对误差有大小、正负之分,它能反映误差在真实结果中所占的比例,因此在绝对误差相同的条件下,代测组分含量越高,相对误差越小;反之,相对误差越大。
例:
某同学用分析天平直接称量两个物体,一为5.0000g,一为0.5000g,试求两个物体的相对误差。
解:
用分析天平称量,两物体称量的绝对误差均为0.0001g,则两个称量的相对误差分别为
五精密度和偏差
1精密度:
平行测定结果相互靠近的程度,用偏差衡量
2偏差(d):
测量值与平均值的差值,用d表示
(1)绝对偏差:
个别测得值x-测得平均值
,即:
d=x-
偏差的大小反映了精密度的好坏,即多次测定结果相互吻合的程度。
偏差有正负号,如果将各单次测定的偏差相加,其和应为0或接近为0。
(2)相对偏差(dr):
绝对偏差与平均值的比值,即:
dr=d/
100%
(3)平均偏差(
):
各单个偏差绝对值的平均值,即:
(4)相对平均偏差(
r):
平均偏差与测量平均值的比值,即:
r=
/
100%
(5)标准偏差:
强调:
1S是表示偏差的最好方法,数学严格性高,可靠性大,能显示出较大的偏差。
测定次数在3-20次时,可用S来表示一组数据的精密度,
2式中n-1称为自由度,表明n次测量中只有n-1个独立变化的偏差。
因为n个偏差之和等于零,所以只要知道n-1个偏差就可以确定第n个偏差了,
3S与相对平均偏差的区别在于:
第一,偏差平方后再相加,消除了负号,再除自由度和再开根,标准偏差是数据统计上的需要,在表示测量数据不多的精密度时,更加准确和合理。
4S对单次测量偏差平方和不仅避免单次测量偏差相加时正负抵消,更重要的是大偏差能更显著地反映出来,能更好地说明数据的分散程度。
例:
有二组数据,各次测量的偏差为:
+0.3,-0.2,-0.4,+0.2,+0.1,+0.4,0.0,-0.3,+0.2,-0.3;
0.0,+0.1,-0.7,+0.2,-0.1,-0.2,+0.5,-0.2,+0.3,+0.1;
解:
两组数据的平均偏差均为0.24,但明显看出第二组数据分散大。
因为S1=0.28;S2=0.33
(注意计算S时,若偏差d=0时,也应算进去,不能舍去),可见第一组数据较好。
(6)相对标准偏差(Sr、RSD、CV):
六准确度与精密度的关系
ABCD
A.准确且精密B.不准确但精密C.准确但不精密D.不准确且不精密
结论:
准确度高精密度一定高;精密度是保证准确度的前提;精密度好,准确度不一定好,可能有系统误差存在;精密度不好,衡量准确度无意义;在确定消除了系统误差的前提下,精密度可表达准确度;准确度及精密度都高说明结果可靠。
七极差(R):
又称全距或范围误差,即:
R=xmax-xmin
相对极差=R/
100%
八公差(阅读P45):
生产部门对于分析结果允许误差表示法,超出此误差范围为超差,分析组分越复杂,公差的范围也大些。
九系统误差和随机误差
1.系统误差:
由某种固定原因造成,使测定结果系统地偏高或偏低。
可用校正地方法加以消除。
特点:
(1)单向性:
要么偏高,要么偏低,即正负、大小有一定地规律性
(2)重复性:
同一条件下,重复测定中,重复地出现;
(3)可测性:
误差大小基本不变。
来源:
(1)方法误差—选择的方法不够完善:
重量分析中沉淀的溶解损失、滴定分析中终点误差-用其他方法校正
(2)仪器误差—仪器本身的缺陷:
天平两臂不等,滴定管,容量瓶刻度不准、砝码磨损-校准(绝对、相对)
(3)操作误差:
颜色观察(多实践)
(4)试剂误差—所用试剂有杂质:
去离子水不合格;试剂纯度不够(含待测组份或干扰离子)-空白实验
(5)主观误差—个人误差,操作人员主观因素造成:
对指示剂颜色辨别偏深或偏浅;滴定管读数不准。
2.随机误差:
由某些不固定偶然原因造成,使测定结果在一定范围内波动,大小、正负不定,难以找到原因,无法测量。
不存在系统误差的情况下,测定次数越多其平均值越接近真值。
一般平行测定4-6次
特点:
(1)不确定性;
(2)不可避免性。
只能减小,不能消除。
每次测定结果无规律性,多次测量符合统计规律。
3.过失:
其实质是一种错误,由粗心大意引起,可以避免的,必须重做!
如:
加错指示剂、记录错误等
图1系统误差与随机误差的比较
项目
系统误差
随机误差
产生原因
固定因素,有时不存在
不固定因素,总是存在
分类
方法误差、仪器与试剂误差、
主观误差
环境的变化因素、主观的变化因素等
性质
重现性、单向性(或周期性)、
可测性
服从概率统计规律、不可测性
影响
准确度
精密度
消除或减小的方法
校正
增加测定的次数
十误差的传递(自阅)
1系统误差的传递
(1)加减法
R=mA+nB-pCER=mEA+nEB-pEC
(2)乘除法
R=mA×nB/pCER/R=EA/A+EB/B-EC/C
(3)指数运算
R=mAnER/R=nEA/A
(4)对数运算
R=mlgAER=0.434mEA/A
2随机误差的传递
(1)加减法
R=mA+nB-pCsR2=m2sA2+n2sB2+p2sC2
(2)乘除法
R=mA×nB/pCsR2/R2=sA2/A2+sB2/B2+sC2/C2
(3)指数运算
R=mAnsR/R=nsA/A
(4)对数运算
R=mlgAsR=0.434msA/A
3极值误差:
最大可能误差
R=A+B-CER=|EA|+|EB|+|EC|
R=AB/CER/R=|EA/A|+|EB/B|+|EC/C|
§3.2有效数字及运算规则
一有效数字:
实际能测到的数字。
在有效数字中,只有最后一位数是不确定的,可疑的。
有效数字位数由仪器准确度决定,它直接影响测定的相对误差。
1零的作用:
(1)数字前“0”定位作用不计有效数字,数字中、后的计入有效数字:
0.03040(四位)1.0008(五位)0.0382(三位)0.0040(两位)
(2)数字后的0含义不清楚时,有效位数不确定、含糊:
3600(有效位数不确定、含糊,因为可看成是4位有效数字,但它也可能是2位或3位有效数字,分别写成指数形式表示为3.600×103,3.6×103,3.60×103);1000(有效位数不确定、含糊,原因同上,分别写成指数形式表示为1.0×103,1.00×103,1.000×103)
2倍数、分数、常数可看成具有无限多位有效数字:
103、1/3、、e
3pH,pM,lgc,lgK等对数值,有效数字的位数取决于小数部分(尾数)位数,因整数部分代表该数的方次。
例:
pM=5.00(二位)[M]=1.0×10-5(二位);PH=10.34(二位);pH=0.03(二位)
4数据的第一位数大于等于8的,可多计一位有效数字,如9.45×104,95.2%,8.65(四位)
5不能因为变换单位而改变有效数字的位数,如:
24.01mL24.0110-3L
6误差只需保留1~2位
二有效数字的修约规则:
“四舍六入五成双”
1当测量值中修约的那个数字等于或小于4时,该数字舍去。
如:
3.1483.1
2等于或大于6时,进位。
如:
0.7360.74
3等于5时(5后面无数据或是0时),如进位后末位数为偶数则进位,舍去后末位数位偶数则舍去,如:
75.576。
当5后面还有不是0的任何数时,进位,如:
2.4512.5、1.25131.3
4修约数字时,只允许对原测量值一次修约到所需要的位数,不能分次修约(一次修约)如:
13.474813.47(对)、如:
13.456513.45613.4613.514(错)
三运算规则
1加减法:
当几个数据相加减时,它们和或差的有效数字位数,应以小数点后位数最少的数据为依据,因小数点后位数最少的数据的绝对误差最大。
例:
0.0121+25.64+1.05782=?
绝对误差±0.0001±0.01±0.00001
由于在加合的结果中总的绝对误差值取决于25.64,所以
0.0121+25.64+1.05782=0.01+25.64+1.06=26.71。
又如:
50.1+1.45+0.5812=52.1
2乘除法:
当几个数据相乘除时,它们积或商的有效数字位数,应以有效数字位数最少的数据为依据,因有效数字位数最少的数据的相对误差最大。
例:
0.0121×25.64×1.05782=?
相对误差±0.8%±0.4%±0.009%
由于结果的相对误差取决于0.0121,因它的相对误差最大,所以
0.0121×25.64×1.05782=0.0121×25.6×1.06=0.328
四有效数字运算规则在分析化学中的应用
1根据分析仪器和分析方法的准确度正确读出和记录测定值,且只保留一位不确定数字。
2在计算测定结果之前,先根据运算方法(加减或乘除)确定欲保留的位数,然后按照数字修约规则对各测定值进行修约,先修约,后计算。
3分析化学中的计算主要有两大类
(1)一类是各种化学平衡中有关浓度的计算,一般为四位,化学平衡计算中,结果一般为两位有效数字(由于K值一般为两位有效数字)。
(2)一类是计算测定结果,确定其有效数字位数与待测组分在试样中的相对含量有关。
对于高含量组分(一般大于10%)的测定,四位有效数字;对中含量组分(1%--10%),三位有效数字;微量组分(<1%=,两位有效数字。
(3)常量分析法一般为4位有效数字(Er≈0.1%),微量分析为2位。
(4)各种常数取值一般为两至三位。
§3.3分析化学中的数据处理
数理统计是一门研究随机现象统计规律的数学分支学科,它是建立在概率论基础上的。
1.事件:
在一定条件下的试验结果中,所发生的现象。
(1)必然事件:
在每次试验结果中,一定会发生的事件。
(2)不可能事件:
在每次试验结果中,一定不发生的事件。
(3)随机事件:
在每次试验结果中,可能发生也可能不发生的事件。
(偶然事件、概率事件)
2.概率:
随机事件发生的可能性大小。
频率=k/n,n→大,频率→接近概率,当n相当大时,频率近似于概率。
3.总体(母体):
研究对象的全体。
4.个体(子体):
组成总体的每个单元。
5.样本(子样):
自总体中随机抽取的一组测量值(自总体中随机抽取的一部分个体)。
6.样本容量(n):
样品中所包含个体的数目,用n表示。
例:
分析宁德霍童溪水总硬度,依照取样规则,从霍童溪取来供分析用2000ml样品水,这2000ml样品水是供分析用的总体,如果从样品水中取出20个试样进行平行分析,得到20个分析结果,则这组分析结果就是霍童溪样品水的一个随机样本,样本容量为20。
7.随机变量来自同一总体的无限多个测量值都是随机出现的,叫随机变量。
一概念
1样本平均值:
(n为有限次测量)
2总体平均值μ:
(n为无限次测量)
强调:
(1)当测定次数无限增多时,所得样本平均值即为总体平均值μ
(2)若没有系统误差,则总体平均值μ就是真值
3总体平均偏差δ:
4总体标准偏差(n为无限次测量)
5样本标准偏差S(n为有限次测量、已讲)
(n-1)-自由度
6相对标准偏差(已讲)
相对标准偏差(变异系数)
7总体标准偏差与总体平均偏差的关系
当测定次数非常多(n大于20)时,
,但是样本中
8平均值的标准偏差:
(p58-59)
统计学可证明平均值的标准偏差与单次测量结果的标准偏差存在下列关系:
增加测定次数,可使平均值的标准偏差减少,但测定次数增加到一定程度时,这种减少作用不明显,因此在实际工作中,一般平行测定3-4次即可;当要求较高时,可适当增加平行测量次数
,
(无限次测量)
,
(有限次测量)
总结:
用标准偏差比用平均偏差更科学更准确.
例:
两组数据
1x:
0.11,-0.73,0.24,0.51,-0.14,0.00,0.30,-0.21
n=8d1=0.28S1=0.38
2x:
0.18,0.26,-0.25,-0.37,0.32,-0.28,0.31,-0.27
n=8d2=0.28S2=0.29
d1=d2, S1>S2(第二组数据更准确!
)
二随机误差的正态分布
1频率分布
表1 某样品中镍的质量分数(%),n=90
1.601.671.671.641.581.641.671.621.571.60
1.591.641.741.651.641.611.651.691.641.63
1.651.701.631.621.701.651.681.661.691.70
1.701.631.671.701.701.631.571.591.621.60
1.531.561.581.601.581.591.611.621.551.52
1.491.561.571.611.611.611.501.531.531.59
1.661.631.541.661.641.641.641.621.621.65
1.601.631.621.611.651.611.641.631.541.61
1.601.641.651.591.581.591.601.671.681.69
(1)将n个数据从小到大依次排列。
(2)算出极差(R):
R=x最大-x最小R=1.74%-1.49%=0.25%
(3)确定组数和组距:
组数视测定次数n而定,组数必须是整数。
n=90 9组
组数第一组 1.485%+0.03%=1.515%
表2 分组、频数和概率密度统计
组序
分组(%)
频数
概率密度(相对频数)
1
1.485~1.515
2
0.022
2
1.515~1.545
6
0.067
3
1.545~1.575
6
0.067
4
1.575~1.605
17
0.189
5
1.605~1.635
22
0.244
6
1.635~1.665
20
0.222
7
1.665~1.695
10
0.111
8
1.695~1.725
6
0.067
9
1.725~1.755
1
0.011
Σ
90
1.00
(4)统计频数
频数:
落在某组内的数据个数。
∑频数=n
(5)计算概率密度(频率)
概率密度=频数/n,∑概率密度=1
所以,以各组分区间为横坐标,概率密度为纵坐标作图就可得频率分布直方图(p54)。
图中长方条面积:
面积=频率×组距,它表示了测定值出现在该区间的概率。
因有偶然误差存在,故分析结果有高有低,有两头小、中间大的变化趋势,即在平均值附近的数据出现机会最多。
(6)频率分布直方图的特点
A离散特性:
各数据是分散的,波动的,即;测定值在平均值周围波动。
波动的程度用总体标准偏差表示。
B集中趋势:
有向平均值集中的趋势。
用总体平均值表示。
在确认消除了系统误差的前提下,总体平均值就是真值。
2随机误差的正态分布(无限次测量)
(1)正态分布曲线:
如果以x-(随机误差)为横坐标,曲线最
高点横坐标为0,这时表示的是随机误差的正态分布曲线。
,记为:
N(,2),
式中y:
概率密度;x:
测量值;x-μ:
随机误差
μ:
总体平均值,反映测量值分布的集中趋势,决定
曲线在X轴的位置。
σ:
标准偏差,反映测量值分布的分散程度;决定
曲线的形状,小曲线高、陡峭,精密度好;
大曲线低、平坦,精密度差。
随机误差符合正态分布:
Ax=μ时,y值最大,体现了测量值的集中趋势。
大多数测量值集中在算术平均值的附近,算术平均值是最可信赖值,能很好反映测量值的集中趋势。
μ反映测量值分布集中趋势。
B曲线以x=μ这一直线为其对称轴,说明正误差和负误差出现的概率相等。
C当x趋于-∞或+∞时,曲线以x轴为渐近线。
即小误差出现概率大,大误差出现概率小,出现很大误差概率极小,趋于零。
Dσ越大,测量值落在μ附近的概率越小。
即精密度越差时,测量值的分布就越分散,正态分布曲线也就越平坦。
反之,σ越小,测量值的分散程度就越小,正态分布曲线也就越尖锐。
σ反映测量值分布分散程度。
Ex=时的概率密度为
(2)标准正态分布曲线
令
,
则:
记为:
N(0,1)
此时,横坐标改为u,纵坐标为概率密度,此时
曲线的形状与σ大小无关,不同σ的曲线合为一条。
3.随机误差的区间概率
正态分布曲线与横坐标-∞到+∞之间所夹的面积,代表所有数据出现概率的总和,其值应为1,即
。
若要求变量在某区间出现的概率,则
。
由此,可得到概率积分图(如下图)
注意:
表中列出的是单侧概率,求±u间的概率,需乘以2。
随机误差出现的区间测量值出现的区间概率
u=1x=10.3413×2=68.26%
u=±1.96x=μ±1.96σ95.0%
u=2x=20.4773×2=95.46%
u=±2.58x=μ±2.58σ99.0%
u=3x=30.4987×2=99.74%
结论:
随机误差超过3s的测量值出现的概率仅占0.3%。
当实际工作中,如果重复测量中,个别数据误差的绝对值大于3s,则这些测量值可舍去。
例:
已知某试样中Fe的标准值为3.78%,s=0.10,又已知测量时没有系统误差,求
(1)分析结果落在(3.780.20)%范围内的概率;
(2)分析结果大于4.0%的概率。
解:
(1)
查表,求得概率为2*0.4773=0.9546=95.46%
(2)分析结果大于4.0%的概率,
,查表求得分析结果落在3.78-4.00%以内的概率为0.4861,那么分析结果大于4.00%的概率为0.5000-0.4861=1.39%
§3.4少量数据的统计处理
一t分布曲线(有限次测量中随机误差服从t分布)
正态分布是无限次测量数据的分布规律,而对有限次测量数据则用t分布曲线处理。
用t代替u,用S代替,t定义为:
。
纵坐标仍为概率密度,但横坐
标则为统计量t。
如下图:
1正态分布与t分布区别
(1)正态分布—描述无限次测量数据;t分布—描述有限次测量数据
(2)正态分布——横坐标为u,t分布——横坐标为t
(3)两者所包含面积均是一定范围内测量值出现的概率P
正态分布:
P随u变化;u一定,P一定
t分布:
P随t和f变化;t一定,概率P与f有关
t分布曲线与正态分布曲线相似,只是t分布曲线随自由度f而改变。
当f趋近∞时,t分布就趋近正态分布,即:
f→∞时,t分布→正态分布。
2置信度(P):
表示在某一t值时,测定值落在(μ+ts)范围内的概率,说明估计的把握程度。
当f,t即为u
3显著性水平():
表示在某一t值时,测定值落在(μ+ts)范围之外的概率,即:
=1-P。
t值与置信度及自由度有关,一般表示为
,见p60,表3