完整word版常用的数理统计及数据处理方法.docx

资源描述

完整word版常用的数理统计及数据处理方法.docx

《完整word版常用的数理统计及数据处理方法.docx》由会员分享，可在线阅读，更多相关《完整word版常用的数理统计及数据处理方法.docx（19页珍藏版）》请在冰豆网上搜索。

完整word版常用的数理统计及数据处理方法.docx

完整word版常用的数理统计及数据处理方法

常用的数理统计及数据处理方法

水泥厂生产中的质量控制和分析都是以数据为基础的技术活动。

如果没有数据的定量分析，就无法形成明确的质量概念。

因此，必须通过对大量数据的整理和分析，才能发现事物的规律性和生产中存在的问题，进而作出正确的判断并提出解决的方法。

第一节数理统计的有关概念

一、个体、母体与子样

在统计分析中，构成研究对象的每一个最基本的单位称为个体。

研究对象的所有个体的集合即全部个体称为母体或总体，它可以无限大，也可以是有限的，如一道工序或一批产品、半成品、成品，可根据需要加以选择。

进行统计分析，通常是从母体中随机地选择一部分样品，称为子样（又称样本）。

用它来代表母体进行观察、研究、检验、分析，取得数据后加以整理，得出结论。

取样只要是随机和足够的数量，则所得结论能近似地反映母体的客观实际。

抽取样本的过程被称作抽样；依据对样本的检测或观察结果去推断总体状况，就是所谓的统计推断，也叫判断。

例如，我们可将一个编号水泥看成是母体，每一包水泥看成是个体，通过随机取样（连续取样或从20个以上不同部位取样），所取出的12kg检验样品可称为子样，通过检验分析，即可判断该编号水泥（母体）的质量状况。

二、数据、计量值与计数值

1，数据

通过测试或调查母体所得的数字或符号记录，称为数据。

在水泥生产中，无任对原材料、半成品、成品的检验，还是水泥的出厂销售，都要遇到很多报表和数据，特别是评定水泥质量好坏时，更要拿出检验数据来说明，所以可用与质量有关的数据来反映产品质量的特征。

根据数据本身的特征、测试对象和数据来源的不同，质量检验数据可分为计量值和计算值两类。

2，计量值

凡具有连续性或可以利用各种计量分析一起、量具测出的数据。

如长度、质量、温度、化学成分、强度等，多属于计量值数据。

计量值也可以是整数，也可以是小数，具有连续性。

3，计数值

凡不能用测量工具和一起进行测量，而是用计数的方法得到的非连续性数据。

如合格率，废品个数等，数据计数值数据。

计数值是不连续的、间断的，以离散状态出现。

三、频数、频率与概率

随机变量是一种随着机会而改变其数值并且具有一定规律性的变量。

如测定水泥的强度，每一袋水泥的试验结果不可能完全相同，即使一袋水泥，抽取几组试样，其试验结果也不可能完全一致，但是在一定的范围内波动，这是由于水泥的均匀性及试验误差等因素的影响，使得每次试验结果都是一个随机变量。

1，频数、频率

测定的一组数据中某一数值重复出现的次数或在某一范围内数值重复出现的次数为频数。

频率为频数占数据总数的百分比。

2，概率

在质量管理实践中发现，生产中某质量数值是经常变化的，但在正常生产情况下，这些数值的变化又是遵循一定规律的，即统计规律—概率。

概率又叫几率，是表明事件发生的可能性大小的数。

如果某事件必然发生，它的概率就是1；如果某事件完全不可能发生，则它的概率为0；如果某事件可能，也可能不发生，则它的概率介于0与1之间。

概率的统计定义，就是把概率理解为频率的稳定值；在条件基本相同的大量重复试验中，随着试验总次数不断增加，频率总是在某一常数附近波动，相对地稳定下来，这就是频率的相对稳定性。

这个常数表现为该频率的相对稳定值，称为概率。

四、数据统计特征数

尽管质量数据是波动的，但根据数理统计理论，我们发现在相同条件下生产的产品的质量波动是有一定规律的，它们多数向一个数值集中，同时又在此数值的两旁分散开来。

统计特征数是用以表达随机变量波动规律的统计量，即数据的集中程度和离散（散差）程度。

常见的统计特征数有以下几个：

1，算术平均值

我们从总体抽了一个样本（子样），得到一批数据X1、X2、X3……Xn在处理这批数据时，经常用算术平均值X来代表这个总体的平均水平。

统计中称这个算术平均值为“样平均值”。

2，中位数

把数据按大小顺序排列，排在正中间的一个数即为中位数。

当数据的个数n为奇数时，中位数就是正中间的数值，当n为偶数时，则中位数为中间两个数的算术平均值。

3，极差R

极差就是数据中最大值和最小值的差，又称全距，用符号R表示。

R=Xmax-Xmin

式中Xmax—数据中的最大值

Xmin—数据中的最小值

4，标准偏差（子样S，母体O）

标准偏差是人们总结和推导出来的一个衡量总体分散程度的度量值，又称为均方根差。

其推导过程是：

设有n个数据，先技术出算术平均值X，将总体中各个数据减去平均值，即得离差。

离差可能是正数，也可能是负数或零。

如果将全部离差相加，其代数和将会为零。

为此先将各离差平方，计算出离差的平方和。

并除以数据的个数n，则求得各离差平方的算是平均值（即方差）。

子样的标准偏差用S表示，母样的标准偏差用O表示。

标准偏差给出数据中各值偏离平均值的趋势的大小。

如果标准偏差比较小，表明这批数据大多集中在它的平均值附近；如果标准偏差比较大，表明这批数据离开平均值的距离较大，较分散。

所以S是表示数据分散程度的一个重要的特征值。

对于控制产品的质量来说，标准偏差大的产品质量波动大，工艺因素不稳定。

反之则表示产品质量比较均匀、稳定。

故通过标准偏差的计算，而已评价产品质量，控制生产工艺和评定工艺改造的效果等。

5，变异系数CV

用极差和标准偏差都只反映数据波动的绝对大小。

当测量单位不同或测量单位相同，但不同组的平均数相差很大时，用标准偏差来衡量离散程度的大小是不合理的，必须用相对标准偏差（即变异系数）来表示离散程度。

如在做水泥均匀性试验时，就要求计算变异系数，通过变异系数就可以比较不同企业的水泥质量波动情况，这是一个比较合理的方法。

变异系数是数据的标准偏差与数据的算术平均值之比。

加权平均：

计算水泥28天强度平均标号：

当月产量剩以当月平均28天强度,加上,下月产量剩以当月平均28天强度,以此类推,最后除以总产量

月份

产量

4.1

2.8

5.8

5.5

5.0

4.9

4.7

4.8

5.2

5.0

6.0

28天强度

39.2

38.7

38.9

39.4

39.7

38.8

39.1

39.3

39.4

39.5

39.6

计算加权平均标号=4.1X39.2+2.8X38.7+5.8X38.9+5.5X39.4+5.0X39.7+4.9X38.8+4.7X39.1+

4.8X39.3+5.2X39.3+5.2X39.4+5.0X39.5+6.0X39.6/59=39.3mpa

算术平均标号=39.2+38.7+38.9+39.4+39.7+38.8+39.1+39.3+39.3+39.4+39.5+39.6/59=39.2mpa

包装质量抽查记录表

水泥编号

3B180

包装日期

2013年7月

18日

抽查时间

10：

包装人

A组

抽查人

张素芬

包装袋名称

32．5复合

抽查袋重

记录（含袋）

（kg）

50.3

49.8

50.6

50.9

51.3

49.8

49.9

50.6

50.7

50.2

50.1

49.9

50.4

50.6

50.3

49.6

50.5

50.3

50.6

统计

项目

20袋

总重量

（kg）

20只

包装袋重

（kg）

20袋

总净重

（kg）

单包平均

净含量（kg）

单包净含量

备注

合格

袋重

合格率

（％）

计算值

1006

1.5

1004.5

50.2

3M139

2.5

　2．01

2.1

4.5

5.6

7.9

7.7

19.5

27.3

38.1

3M140

2.5

　2．06

1.9

4.1

5.5

7.4

18.8

26.2

35.9

3M141

2.5

　2．05

2.0

4.3

5.6

7.5

6.9

19.6

26.7

36.2

3M142

2.5

　1．95

1.8

4.5

5.6

7.5

6.8

19.7

26.9

36.5

3M143

2.5

　1．86

2.1

4.4

5.5

7.4　

19.1

26.5

36.2　

3M144

2.5

　2．05

2.3

4.6

5.8

7.6

19.8

29.2

37.8　

3M145

2.5

　2．23

2.1

4.6

5.8

7.5

7.6

20.4

27.6

36.1　

3M146

2.5

　1．98

2.3

4.3

5.3

7.5

7.7

19.8

26.4

35.7　

3M147

2.5

　2．15

2.1

4.3

5.3

7.4　

19.8

27.3

35.9　

3M148

2.2

　2．24

2.0

4.3

5.4

7.6　

7.3

19.0

26.7

35.5　

3M149

2.4

　1．89

1.7

4.4

5.5

7.4　

6.4

19.3

26.8

35.6　

3M150

2.1

　2．04

2.0

4.5

5.6

7.6　

7.5

20.0

27.4

36.3　

3M151

2.3

　2．16

2.1

4.8

5.8

7.5　

20.5

28.1

36.8　

3M152

2.0

　2．20

2.0

4.8

5.6

7.5　

7.4

20.2

26.9

35.4

3M153

2.1

　1．98

1.8

4.4

5.5

7.4　

6.9

19.6

26.6

35.5　

平均值

2.4

#####

######

#####

2.1

4.6

5.8

7.4

7.6

20.5

28.4

36.7

最大值

2.6

2.35　

2.5

5.3

6.4

7.9

8.6

22.9

33.2

39.3

最小值

2.0

1.85　

1.7

4.1

5.3

6.8

6.4

18.8

26.2

35.3

标准偏差

0.30

0．26　

1.70

0.34

0.33

0.31

0.51

1.31

2.11

1.55

实验误差与数据处理

一、定量分析中的误差

定量分析中，反省结果应具有一定的准确度，因为不准确的分析结果会导致产品报废，资源浪费，甚至得出错误的结论。

但是在分析过程中，即使是技术很熟练的人，用同一方法对同一试样仔细地进行多次分析，也不能得到完全一致的分析结果，而是分析结果在一定的范围内波动。

这就是说，分析过程中误差是客观存在的。

因此要善于判断分析结果的准确性，查出产生误差的原因，进一步研究减小误差的方法，以不断提高分析结果的准确程度。

（一）准确度与误差

准确度是分析结果与真实值相符合的程度，通过用误差的大小来表示。

误差越小。

分析结果的准确度越高。

误差有两种表示方法：

绝对误差和相对误差。

绝对误差是测定值与真实值之差，相对误差是绝对误差在真实值中所占的百分率，即

绝对值=测定值—真实值

绝对误差

相对误差=——————X100％

真实值

由于一般分析测定中误差的数值是相当小的，因此有时也用测定结果代替真实值，即相对误差近视地等于绝对误差与测定结果之比，再乘以100％

从相对误差的计算公式可以看出，当绝对误差相同，被测定的结果较大，相对误差就比较小，测定的准确度也就比较高。

（二）精密度与偏差

精密度是指在相同条件下几次平行测定的结果相互接近的程度。

通常用偏差的大小来表示。

偏差越小，分析结果的精密度越高。

偏差也有绝对偏差和相对偏差之分。

测定结果（Xi）与平均值（X）之差为绝对偏差（d），即个别测定的绝对偏差;绝对偏差在平均值中所占的百分率为相对偏差（dr），即个别测定的相对偏差。

因此

绝对值=测定值–n次测定值的算术平均值

X⒈+X⒉+….+Xn

即X=——————————

d=X1-x

绝对偏差

相对偏差=———————X100％

算术平均值

即d

dr=————X100％

X¯

用统计方法处理数据时，广泛采用标准偏差来衡量数据的程度，表示多次测定结果互相接近的程度，其计算公式为：

标准偏差S=

相对标准偏差Rѕd=————X100％

X¯

式中n—测定次数

（X1—X2）一各个测定结果与测定结果平均值之差。

偏差小，说明测定的重复性好，精密度高。

在例行分析中，一个试样至少分别称去二分试料进行平行测定，所得结果的精密度可用方法中所注明的允许差进行判断。

允许差一般分为同一实验室和不同实验室两类。

精密度是准确度的必要条件，分析结果的精密度很差，或者说难于重复，就谈不上结果的准确度。

但精密度好并不一定意味着准确度高。

（三）准确度与精密度的关系

准确度表示测量的正确性，而精密度则表示测量的的重复性或者再现性。

检验工作要力求测量准确度高，精密度好。

事实证明只有首先保证精密度好，才有可能使准确度更高。

但是精密度好并不能保证准确度也高。

因为分析结果的精密度主要取决于实验操作的仔细与精密度程度（即由偶然误差所决定），而准确度则主要取决于分析方法本身（即由系统误差所决定）。

因此，粗心大意固然不能得出准确的分析结果，但分析方法本身带来的误差，显然也不会因操作精细而被完全消除。

因此，只有在消除了分析的系统误差之后，尽量提高分析的精密程度，这样所得到的测定结果才是准确、可靠地。

（四）误差的来源

根据误差的性质，可将误差分为两类。

即系统误差和偶然误差。

1、系统误差

系统误差又称可定误差或可测误差。

这是由于测定过程中某些经常性的原因所造成的误差，它影响分析结果的准确度。

产生误差的主要原因是：

方法误差。

由于分析方法本身不够完善而引入的误差。

它是由分析系统的化学或物理化学性质所决定的。

例如，反映不能定量地完成或者有副反应;干扰成分的存在；重量分析中沉淀的溶解损失、共沉淀和后沉淀现象。

灼烧沉淀时部分挥发损失或称量形式具有吸湿性；在滴定分析中，指示剂选择不适当、化学计量点和滴定终点不相符合都属于方法上的误差。

仪器误差。

由于仪器本身不精密或者有缺陷造成的误差。

例如，天枰两臂不相等，砝码、滴定管，容量瓶、移液管等未经校正，在使用过程中就会引入误差。

试剂误差。

由于试剂不纯或蒸馏水、去离子水不符合规格，含有微量的被测组分或对测定有干扰的杂质等所产生的误差，例如测定石英砂中铁的含量时，使用的硅酸盐中有铁的杂质，就会给分析结果造成的误差。

主管误差。

因操作者某些生理特点（如个人的判断能力缺陷或不良的习惯）所引起的误差。

例如，有的人视力的敏感程度较差，对颜色的变化感觉迟钝，因而引起的误差。

总之，系统误差是由于某种固定的原因所造成的，在各次测定中这类误差的数值大体相同，并且始终偏向一方（或者正误差或者负误差）。

因此它对分析结果的影响比较恒定，在同一条件下，重复测定时会重复出现，使测定的结果系统地偏高或偏低。

因而误差的大小往往可以估计，并可以设法减小或加以校正。

2，偶然误差

偶然误差又称非确定误差或随机误差。

这是由一些难以控制的偶然因素所造成的误差，没有一定的规律性。

虽然操作者仔细操作，外界条件也尽量保持一直，但测得的一系列数据仍有差别，并且所得数据误差的正负不定、大小不定。

产生这类误差的原因常常难于觉察，可能是由于室温、气压、温度等检验条件的偶然波动所引起；或是因使用的砝码偶然缺损，试剂质量或浓度改变所造成；也可能由于个人一时辨别的差异使读书不一致。

尽管这类误差在操作中不能完全避免，但当测定次数很多时，即可发现偶然误差的分布服从一定的规律：

1正误差和负误差出现的几率相等。

2小误差出现的次数多，而大误差出现的次数少，特别大的误差出现的次数极少。

（五）减少实验误差的措施

减少实验误差的途径就是减少检测过程中的系统误差和偶然误差，并杜绝一切操作上的过失错误。

具体措施如下：

1，减少系统误差的方法

1选择合适的分析方法。

这是减少系统误差的根本途径。

对不同种类的试样应采取不同的分析步骤，以防止不明成分的干扰。

2采用对比检验方法。

即用标样进行对比分析或用标准方法进行对比分析。

利用标准样来检查和校正分析结果消除系统误差的方法，在实际工作中应用得较为普遍。

通常应取用与分析样品的组成比较接近的标准样进行对比分析。

由于对比分析是在相同的试验条件下进行的，所以比较标准样的测得数据和标准数据，可以很容易看出所选用方法的系统误差有多大。

如果在允许误差的范围之内，一般可不予校正。

假如存在的系统误差比较大，对分析结果准备度有显著影响时，则须根据所得分析结果用如下计算公式进行校正：

标样的标准结果

被测组分在试样中的含量＝—————————×试样的分析结果

标样的分析结果

标样的标准结果

式中比值—————————，称为“校正系统”。

标样的分析结果

在生产控制中，有时采用简易的快速分析方法。

为检查所用方法是否准确，除应用标准样进行对比外，也常用国家标准方法或公认的准确度高的“经典”方法来分析同一个试样。

若简易方法所得分析结果与标准方法所得分析结果之差符合允许误差的要求，则说明简易快度方法是可行的。

在新方法的研究中，常常用标准方法或“经典”方法来进行对比分析。

3进行空白试验。

空白试验的目的是为了消除试验所用化学试剂和蒸馏水中含有的某些杂质给分析结果带来的系统误差。

对准确度要求高的分析，进行空白试验往往是必要的

4使用校正过的仪器和容量器皿。

在准备度要求高或进行某些特别需要的分析时，应根据情况对容量器皿如容量瓶、移液管、滴定管或天平砝码等进行校正，以消除或减小由所用仪器所带的系统误差。

2，减少偶然误差的方法。

根据偶然误差出现的规律得知，测定次数越多，其平均值越接近真值。

因此，适当增加平行测定的次数，取其平均值，是减少偶然误差的有效方法。

此外，由于检验人员工作上的粗枝大叶，不遵守操作规程，以致于在检验过程中引入某些操作错误。

例如器皿不洁净、试验溶液或沉淀损失、试剂用错、记录及计算上的错误等等。

都会对检验结果带来严重影响，必须避免。

但操作错误不是误差，如果已发现错误的测定结果，应予剔除，不得报出或参加平均值的计算。

二、测量不确定度及其评定基本常识

当对物质的特性量值进行测量时，由于测定用的仪器和工具的限制，测试方法的不完善，分析操作和测试环境的变化，测试人员本身的技术水平、经验的影响，使分析检测结果总是带有误差。

随着分析化学的发展，分析仪器自动化程度的提高，分析数据的获得越来越快速，因此正确估计测量误差是十分必要的。

在报告测量结果时不仅要给出测定的量值是多少，还应给出以数量表示的该值分散程度是多少。

它是测量质量的指标，用以判断该测定值的可靠程度。

1993年由国际计量局（BIPM）、国际标准化组织（ISO）、国际电工委员会（IEC）、国际法制计量组织（OIML）、国际理论和应用化学联合会（IUPAC）、国际理论和应用物理联合会（IUPAP）、国际临床化学联合会（IFCC）、联合制定了“测量不确定度表示指南”，使不确定度概念在测量领域得到了广泛应应用。

有效数字及数值修约

（一）有效数字的概念

有效数字是指试验中实际测定的数字。

由于测量仪器的精密程度总是有限的，所以测定数据的最后一位往往是估计出来的，不够准确，例如读取滴定管上的刻度，甲读数为23.43ml。

乙读数为23.42ml，这四位数中前三位是准确的，第四位数字因为没有刻度，是估计出来的，所以稍有差别，这第四位数是不确定的，故称为可疑值。

但它又不是臆造的，所以记录时应该保留它。

所记录的这四位数字都是有效数字，因此，所谓有效数字就是只保留末一位不准确数字，其余数字均为准确数字的数字。

有效数字不仅表示数值大小，而且反应测量结果的精密度。

例如用分析天平称量，得到的数据为3.5800g，就不同于3.580g，因为两个数据的精密度不同，若数据为3.5800g，其绝对误差为；±0.0001g，相对误差为：

±0.0001X100％=0.0028％

3.5800

若数据为3.580g，其绝对误差为±0.001g，相对误差为±0.001X100％=0.028％

3.580

数据相比，精密度相差10倍。

由此可见：

记录测试数据时不能随意乱写，是多少写多少，特别是末位数的“0“虽不改变数字的绝对值，也不能随便多写或少写。

不正确地多写了一位数字，则该数据部真实，因而也不可靠;少写了一位数字，则损失了测量的精密度。

实质上对测量该数据使用精密偏高的仪器和耗费大量的时间也是浪费。

总之，在分析测试、检验、计量等工作中，正确表达测量数据的位数非常重要。

（二）确定有效数字位数的方法

有效数字的位数直接与测试结果的精密度有关，在确定有效数字位数时应遵循下例原因：

1、数字1～9都是有效数字

2、“0”在数字中所处的位置不同，起的作用也不同，即可用是有效的数字，也可以不说有效数字。

①“0”在数字前，仅起定位作用，不是有效数字。

如在0.0257中，“2”前两个“0”均不是有效数字，因为这些“0”只与所取的单位有关，而与测量的精密度无关；若将单位缩小至百分之一，则0.0257就变成2.57，有效数字只有三位，前边的“0“就没有了。

类似像123、12.3、0.123、0.0123、0.00123等数字的有效数位都是三位。

②数字末尾的“0”属于有效数字。

如0.5000中，“5”后面的三个“0”均为有效数字；0.0040中，“4”后面的1个“0”也是有效数字。

故0.5000为四位有效数字，0.040为两位有效数字。

3数字之间的“0”为有效数字。

如1.008中间的两个“0”，8.01中间的一个“0”都是有效数字，所以1.008是四位有效数字，8.01是三位有效数字。

4以“0”结尾的正整数，有效数字的位数不确实，应根据测试结果的精密度确定。

如3600，有效数字位数不容易确定，可能是二位、三位，也可能是四位，遇到这种情况，应根据实际测试结果的精密度确定有效数字的位数，把“0”用10的乘法表示，有效数字用小数表示。

展开阅读全文