数据处理基础知识.docx

资源描述

数据处理基础知识.docx

《数据处理基础知识.docx》由会员分享，可在线阅读，更多相关《数据处理基础知识.docx（12页珍藏版）》请在冰豆网上搜索。

数据处理基础知识.docx

数据处理基础知识

一月

二月

三月

产品名称

数量

金额

利润

产品名称

数量

金额

利润

产品名称

数量

金额

利润

合计

四月

五月

六月

产品名称

数量

金额

利润

产品名称

数量

金额

利润

产品名称

数量

金额

利润

合计

来源:

czyxyq时间:

2009-02-04字体:

[大中小]收藏我要投稿

误差及相关概念→真实值与标准值

　　误差是测量值与真实结果之间的差异，要想知道误差的大小，必须知道真实的结果，这个真实的值，我们称之“真值”。

1.真实值

　　从理论上说，样品中某一组分的含量必然有一个客观存在的真实数值，称之为“真实值”或“真值”。

用“μ”表示。

但实际上，对于客观存在的真值，人们不可能精确的知道，只能随着测量技术的不断进步而逐渐接近真值。

实际工作中，往往用“标准值”代替“真值”。

　　2.标准值

　　采用多种可靠的分析方法、由具有丰富经验的分析人员经过反复多次测定得出的结果平均值，是一个比较准确的结果。

　　实际工作中一般用标准值代替真值。

例如原子量、物理化学常数：

阿佛伽得罗常数为6.02×10等。

　　与我们实验相关的是将纯物质中元素的理论含量作为真实值。

1.准确度

　　准确度是测定值与真实值接近的程度。

　　为了获得可靠的结果，在实际工作中人们总是在相同条件下，多测定几次，然后求平均值，作为测定值。

一般把这几次在相同条件下的测定叫平行测定。

如果这几个数据相互比较接近，就说明分析的精密度高。

　　2.精密度

　　精密度是几次平行测定结果相互接近的程度。

　　3.精密度和准确度的关系

（1）精密度是保证准确度的先决条件。

（2）高精密度不一定保证高准确度。

　1.误差

（1）定义：

个别测定结果X、X…X与真实值μ之差称为个别测定的误差，简称误差。

（2）表示：

各次测定结果误差分别表示为X-μ、X-μ……X-μ。

　　（3）计算方法：

　　　　　　　　绝对误差

　　　　　　　　相对误差

　　对于绝对误差——测定值大于真值，误差为正值；测定值小于真值，误差为负值。

　　对于相对误差——反映误差在测定结果中所占百分率，更具实际意义。

　　2.偏差

　　偏差是衡量精密度的大小。

1.定义

　　由某种固定的原因造成的误差，若能找出原因，设法加以测定，就可以消除，所以也叫可测误差。

　　2.特点

　　具有单向性、可测性、重复性。

即：

正负、大小都有一定的规律性，重复测定时会重复出现。

　　3.产生原因

（1）方法误差：

分析方法本身所造成的误差。

方法误差是由于某一分析方法本身不够完善造成的。

如分析过程中，干扰离子的影响没有消除。

（2）操作误差：

由于操作人员的主观原因造成的。

如滴定分析时，每个人对滴定终点颜色变化的敏感程度不同，不同的人对终点的判断不同。

　　（3）仪器和试剂误差：

仪器误差来源于仪器本身不够精确。

例如天平两臂不等长，砝码长期使用后质量改变。

试剂误差来源于试剂不纯。

　　注意：

系统误差是重复地以固定形式出现的，增加平行测定次数不能消除。

随机误差由某些难以控制、无法避免的偶然因素造成。

也称偶然误差。

　　1.特点

　　大小、正负都不固定，不能通过校正来减小或消除，可以通过增加测定次数予以减小。

　　2.产生原因

　　操作中温度变化、湿度变化、甚至灰尘等都会引起测定结果波动。

　　系统误差和随机误差划分不是绝对的，对滴定终点判断的不同有个人的主观原因，也有偶然性。

随机误差比系统误差更具偶然性。

分析工作中的“过失”不同于这两种误差。

它是由于分析人员操作时粗心大意或违反操作规程所产生的错误。

随机误差的正态分布

1.分布曲线　　

y：

概率密度，表示测量值在此处出现的概率。

y越大，出现的可能性越大。

x：

测量值。

μ总体平均值：

无限次数据的平均值，相应于曲线最高点的横坐标值，表示无限个数据集中趋势。

在没有系统误差时，它就是真值。

σ总体标准偏差：

总体平均值到曲线两转折点之一的距离，表征数据分散程度。

σ小，数据集中，曲线又高又瘦，σ大，数据分散，曲线比较矮比较胖。

x-σ：

随机误差。

若以x-σ为横坐标，则曲线最高点对应横坐标为0。

对于一条曲线来说，μ和σ是这条曲线的两个参数，所以用N（μ，σ）表示这条曲线。

这条曲线可以用一个函数式表示。

2.概率密度函数　　　　

3.随机误差规律性　　

（1）小误差出现的概率比大误差多，特别大的误差出现的概率极少。

（2）正误差和负误差出现的概率是相等的。

4.标准正态分布：

　　横坐标用u表示，其定义式为：

　　即：

以σ为单位来表示随机误差。

　　函数表达式为：

　　　　因此曲线的形状与σ大小无关，不同的曲线都合并为一条。

　　记作N（0，1）

随机误差的区间概率

1.定义　　随机误差在某一区间出现的概率以某段正态分布曲线下所包含的面积表示。

　　一条完整的正态分布曲线所包含的面积，表示所有测量值出现的概率的总和，即是100%，等于1。

用算式表示为：

　　　　一般以为单位，计算不同值曲线所包含的面积，制成概率积分表供直接查阅。

2.计算公式　　概率＝面积＝　　　

有限数据的统计处理

　　随机误差分布的规律给数据处理提供了理论基础，但它是对无限多次测量而言。

实际工作中我们只做有限次测量，并把它看作是从无限总体中随机抽出的一部分，称之为样本。

样本中包含的个数叫样本容量，用n表示。

　1.算术平均值

　　n次测定数据的平均值。

　　是总体平均值的最佳估计。

对于有限次测定，测量值总朝算术平均值集中，即数值出现在算术平均值周围；对于无限次测定，即n→∞时，→μ。

　　2.中位数M

　　将数据按大小顺序排列，位于正中间的数据称为中位数M。

　　n为奇数时，居中者即是；n为偶数时，正中间两个数据的平均值即是。

　1.极差R（或称全距）：

指一组平行测定数据中最大者（Xmax）和最小者（Xmin）之差。

　　R＝Xmax-Xmin

　　2.平均偏差：

各次测量值与平均值的偏差的绝对值的平均。

　　绝对偏差di＝Xi-（i=1,2,…,n）

　　平均偏差

　　相对平均偏差

　　3.标准偏差S：

计算方法

　　标准偏差S＝

　　相对标准偏差，也叫变异系数，用CV表示，一般计算百分率。

　　相对标准偏差RSD＝×100%

　　自由度f：

f＝n-1

　1.置信度

　　置信度表示对所做判断有把握的程度。

　表示符号：

P。

　　有时我们对某一件事会说“我对这个事有八成的把握”。

这里的“八成把握”就是置信度，实际是指某事件出现的概率。

　　常用置信度：

P=0.90，P=0.95；或P=90%，P=95%。

　　2.置信度区间

　　按照t分布计算，在某一置信度下以个别测量值为中心的包含有真值的范围，叫个别测量值的置信度区间。

1.t的定义　　，与对比。

2.t分布曲线　　

（1）t分布曲线：

t分布曲线的纵坐标是概率密度，横坐标是t，这时随机误差不按正态分布，而是按t分布。

（2）与正态分布关系：

t分布曲线随自由度f变化，当n→∞时，t分布曲线即是正态分布。

t分布曲线

【t分布值表】　　由表可知，当f→∞时，S→σ，t即是u。

　　实际上，当f=20时，t与u已十分接近。

3.平均值的置信度区间：

（1）表示方法：

（2）含义：

在一定置信度下，以平均值为中心，包括总体平均值的置信度区间。

　　（3）计算方法：

　　　　①求出测量值的，S，n。

　　　　②根据要求的置信度与f值，从t分布值表中查出t值。

　　　　③代入公式计算。

显著性检验→平均值与标准值比较

　　常用的方法有两种：

t检验法和F检验法。

　　分析工作中常遇到两种情况：

样品测定平均值和样品标准值不一致；两组测定数据的平均值不一致。

需要分别进行平均值与标准值比较和两组平均值的比较。

1.比较方法

　　用标准试样做几次测定，然后用t检验法检验测定结果的平均值与标准试样的标准值之间是否存在差异。

　　2.计算方法

　　①求t。

　　②根据置信度（通常取置信度95%）和自由度f，查t分布表中t值。

　　③比较t和t，若t﹥t，说明测定的平均值出现在以真值为中心的95%概率区间之外，平均值与真实值有显著差异，我们认为有系统误差存在。

　　例：

某化验室测定标样中CaO含量得如下结果：

CaO含量=30.51%,S=0.05,n=6,标样中CaO含量标准值是30.43%,此操作是否有系统误差？

（置信度为95%）

　　解：

t==3.92

　　查表：

置信度95%，f=5时，t=2.57。

比较可知t＞t。

　　说明：

此操作存在系统误差。

显著性检验→两组平均值的比较

　　常用的方法有两种：

t检验法和F检验法。

　　分析工作中常遇到两种情况：

样品测定平均值和样品标准值不一致；两组测定数据的平均值不一致。

需要分别进行平均值与标准值比较和两组平均值的比较。

　1.比较方法

　　用两种方法进行测定，结果分别为，S，n；,S，n。

然后分别用F检验法及t检验法计算后,比较两组数据是否存在显著差异。

　　2.计算方法

（1）精密度的比较——F检验法：

　　①求F计算：

F＝＞1

　　②由F表根据两种测定方法的自由度，查相应F值进行比较。

　　【表2-2　95%置信水平（a=0.05）时单侧检验F值（部分）】

　　③若F＞F，说明S和S差异不显著，进而用t检验平均值间有无显著差异。

若F＞F，S和S差异显著。

（2）平均值的比较：

　　①求t:

t＝

　　若S与S无显著差异，取S作为S。

　　②查t值表，自由度f＝n＋n－2。

　　③若t＞t，说明两组平均值有显著差异。

　　例：

NaCO试样用两种方法测定结果如下：

　　方法1：

＝42.34，S＝0.10，n＝5。

　　方法2：

＝42.44，S＝0.12，n＝4。

　　比较两结果有无显著差异。

离群值的取舍

1.定义　　在一组平行测定数据中，有时会出现个别值与其他值相差较远，这种值叫离群值。

判断一个测定值是否是离群值，不是把数据摆在一块看一看，那个离得远，那个是离群值，而是要经过计算、比较才能确定，我们用的方法就叫Q检验法。

2.检验方法　　

（1）求Q：

Q=　　即：

求出离群值与其最邻近的一个数值的差，再将它与极差相比就得Q值。

（2）比较：

根据测定次数n和置信度查Q，若Q＞Q，则离群值应舍去，反之则保留离群值。

表2-3　90%置信水平的Q临界值表

数据数（n）　3　　　4　　5　　　　6　　7　　　8　　　　9　　10　　∞

　Ｑ90%　　0.90　　0.76　　0.64　　0.56　　0.51　　0.47　　0.44　　0.41　　0.00

　　例：

测定某溶液物质的量浓度，得如下结果：

0.1014,0.1012,0.1016,0.1025,问0.1025是否应该舍弃（置信度90%）？

方法的选择

　　方法的选择要根据分析试样的组成确定分析方法。

　　常量组分测定：

重量法、滴定法。

准确度高，灵敏度低。

　　微量组分测定：

仪器分析测定。

准确度高，灵敏度较差。

准确度的提高

1.减少测量误差　　测定过程中要进行重量、体积的测定，为保证分析结果的准确度，就必须减少测量误差。

　　例：

在重量分析中，称重是关键一步，应设法减少称量误差。

　　要求：

称量相对误差＜0.1%。

　　一般分析天平的称量误差为±0.0001克，试样重量必须等于或大于0.2克，才能保证称量相对误差在0.1%以内。

2.增加平行测定次数，减少随机误差　　增加平行测定次数，可以减少随机误差，但测定次数过多，没有太大的意义，反而增加工作量，一般分析测定时，平行测定4-6次即可。

3.消除测定过程中的系统误差　　3.1检查方法：

对照法　　

（1）对照试验：

选用组成与试样相近的标准试样进行测定，测定结果与标准值作统计处理，判断有无系统误差。

（2）比较试验：

用标准方法和所选方法同时测定某一试样，测定结果做统计检验，判断有无系统误差。

　　（3）加入法：

称取等量试样两份，在其中一份试样中加入已知量的待测组分，平行进行两份试样测定，由加入被测组分量是否定量回收，判断有无系统误差。

又叫回收实验。

　　3.2消除方法　　

（1）做空白实验：

在不加试样的情况下，按试样分析步骤和条件进行分析实验，所得结果为空白值，从试样测定结果中扣除。

可以消除试剂、蒸馏水和容器引入的杂质。

（2）校准仪器：

对砝码、移液管等进行校准，消除仪器引起的系统误差。

　　（3）引用其它方法校正。

有效数字

　　1.定义　　有效数字就是实际能测到的数字。

有效数字的位数和分析过程所用的分析方法、测量方法、测量仪器的准确度有关。

我们可以把有效数字这样表示。

　　有效数字＝所有的可靠的数字+一位可疑数字　　有效数字＝准确的数+一位欠准的数（±1）　　表示含义：

如果有一个结果表示有效数字的位数不同，说明用的称量仪器的准确度不同。

　　例：

7.5克　　　　用的是粗天平　　　　7.52克　　　用的是扭力天平　　　　7.5187克　　用的是分析天平　　2.“0”的双重意义　　作为普通数字使用或作为定位的标志。

　　例：

滴定管读数为20.30毫升。

两个0都是测量出的值，算做普通数字，都是有效数字，这个数据有效数字位数是四位。

　　改用“升”为单位，数据表示为0.02030升，前两个0是起定位作用的，不是有效数字，此数据是四位有效数字。

　　3.规定　　

（1）改变单位并不改变有效数字的位数。

（2）在数字末尾加0作定位时，要用科学计数法表示。

　　（3）在分析化学计算中遇到倍数、分数关系时，视为无限多位有效数字。

　　（4）对数数值的有效数字位数由该数值的尾数部分决定。

　　注意：

首位为8或9的数字，有效数字可多计一位

有效数字的修约规则

　　规定：

当尾数≤4时则舍，尾数≥6时则入；尾数等于5而后面的数都为0时，5前面为偶数则舍，5前面为奇数则入；尾数等于5而后面还有不为0的任何数字，无论5前面是奇或是偶都入。

　　例：

将下列数字修约为4位有效数字。

　　修约前　　　　　修约后　　0.526647--------0.5266　　0.36266112------0.3627　　10.23500--------10.24　　250.65000-------250.6　　18.085002--------18.09　　3517．46--------3517　

有效数字运算规则

　　由于与误差传递有关，计算时加减法和乘除法的运算规则不太相同。

　　1.加减法　　先按小数点后位数最少的数据保留其它各数的位数，再进行加减计算，计算结果也使小数点后保留相同的位数。

　　例：

计算50.1+1.45+0.5812=?

　　修约为：

50.1+1.4+0.6=52.1　　先修约，结果相同而计算简捷。

　　例：

计算12.43+5.765+132.812=?

　　修约为：

12.43+5.76+132.81=151.00　　注意：

用计数器计算后，屏幕上显示的是151，但不能直接记录，否则会影响以后的修约；应在数值后添两个0，使小数点后有两位有效数字。

　　2.乘除法　　先按有效数字最少的数据保留其它各数，再进行乘除运算，计算结果仍保留相同有效数字。

　　例：

计算0.0121×25.64×1.05782=?

　　修约为：

0.0121×25.6×1.06=?

　　计算后结果为：

0.3283456，结果仍保留为三位有效数字。

　　记录为：

0.0121×25.6×1.06=0.328　　注意：

用计算器计算结果后，要按照运算规则对结果进行修约　　例：

计算2.5046×2.005×1.52=?

　　修约为：

2.50×2.00×1.52=?

　　计算器计算结果显示为7.6，只有两位有效数字，但我们抄写时应在数字后加一个0，保留三位有效数字。

　　2.50×2.00×1.52=7.60

一月

二月

三月

产品名称

数量

金额

利润

产品名称

数量

金额

利润

产品名称

数量

金额

利润

合计

四月

五月

六月

产品名称

数量

金额

利润

产品名称

数量

金额

利润

产品名称

数量

金额

利润

合计

展开阅读全文