数据处理论文.docx

资源描述

数据处理论文.docx

《数据处理论文.docx》由会员分享，可在线阅读，更多相关《数据处理论文.docx（22页珍藏版）》请在冰豆网上搜索。

数据处理论文.docx

数据处理论文

《实验设计与数据处理》课程总结与体会

本文主要是总结了数据处理和实验设计两部分内容的一些概念、方法，详细地介绍其中方法的步骤和原理，并对数据处理方法和实验设计方法在实际实验应用中，各举了一个例子。

最后，还总结了自己对这门课程的一些体会。

一、数据处理

1、数据处理的目的

通过误差分析，评判试验数据的可靠性；

确定影响试验结果的因素主次，抓住主要矛盾，提高试验效率；

确定试验因素与试验结果之间存在的近似函数关系，并能对试验结果进行预测和优化；

研究试验因素对试验结果的影响规律，为控制试验提供思路；

确定最优试验方案或配方。

2、数据处理的有关概念及其计算方法

（1）真值在某一时刻和某一状态下，某量的客观值或实际值，在科学实验中，经常将多次试验值的平均值作为真值得近似值。

（2）平均值平均值的种类很多，常用的平均值及其算法和使用条件如下：

算术平均值

等精度试验值，试验值服从正态分布

加权平均值

适合不同试验值的精度或可靠性不一致时

③对数平均值

若数据的分布具有对数特性，则宜使用对数平均值

④几何平均值

当一组试验值取对数后所得数据的分布曲线更加对称时，宜采用几何平均值。

⑤调和平均值

常用在涉及到与一些量的倒数有关的场合

如果1/2≤x1/x2≤2时，可用算术平均值代替

（3）各种误差的定义及其计算和使用条件

绝对误差

绝对误差＝试验值－真值

相对误差

③算术平均误差

可以反映一组试验数据的误差大小

④标准误差

当试验次数n无穷大时，总体标准差：

试验次数为有限次时，样本标准差：

表示试验值的精密度，标准差↓，试验数据精密度↑小误差比大误差出现机会多；正、负误差出现的次数近似相等，当试验次数足够多时，误差的平均值趋向于零；可以通过增加试验次数减小随机误差，但随机误差不可完全避免的。

（4）精密度，反映了随机误差大小的程度，可以通过增加试验次数而达到提高数据精密度的目的

精密度判断方法：

极差：

标准差和方差：

方差↓，精密度↑

（5）试验数据误差的统计检验

①随机误差的检验

随机误差的大少可用实验数据的精密度来反映，而精密度也可以用方差来检验，所以对测试结果进行方差检验，即可判断各试验或结果的随机误差之间的关系。

检验

检验，就是试验数据的总体方差

已知的情况下，对试验数据的随机误差或精密度进行检验。

检验步骤：

如果数据服从正态分布，则统计量为：

且服从自由度为

的

分布，则通过查临界值

，（

为显著性水平，一般取0.05或0.1）来进行检验。

1’双侧检验：

当

，则判断两方差无显著差异，否则有显著差异

2’左侧（尾）检验：

当

，则判断该方差与原总体方差无显著减小，否则有显著减小

3’右侧（尾）检验:

当

，则判断该方差与原总体方差无显著增大，否则有显著增大

系统误差的检验

t检验法

目的：

检验服从正态分布数据的算术平均值是否与给定值有显著差异

检验步骤：

若试验数据服从正态分布，先计算统计量：

服从自由度为

的t分布,将t与临界值进行比较

1’双侧检验：

当

，则判断两方差无显著差异，否则有显著差异（给定值可以是真值、期望值或标准值）

2’左侧（尾）检验：

当

且

断该方差与原总体方差无显著减小，否则有显著减小

3’右侧（尾）检验:

当

且

，则判断该方差与原总体方差无显著增大，否则有显著增大

③秩和检验法

目的：

两组数据或两种试验方法之间是否存在系统误差、两种方法是否等效等，不要求数据具有正态分布

步骤：

设有两组试验数据，相互独立，n1，n2分别是两组数据的个数，总假定n1≤n2；将这个试验数据混在一起，按从小到大的次序排列；每个试验值在序列中的次序叫作该值的秩；

将属于第1组数据的秩相加，其和记为R1（R1—第1组数据的秩和）。

如果两组数据之间无显著差异，则R1就不应该太大或太小

检验：

查秩和临界值表：

根据显著性水平和n1，n2，可查得R1的上下限T2和T1

1’如果R1＞T2或R1＜T1，则认为两组数据有显著差异，另一组数据有系统误差

2’如果T1＜R1＜T2，则两组数据无显著差异，另一组数据也无系统误差

④异常值的检验

处理原则为：

在试验过程中，若发现异常数据，应停止试验，分析原因，及时纠正错误；

试验结束后，在分析试验结果时，如发现异常数据，则应先找出产生差异的原因，再对其进行取舍；　

在分析试验结果时，如不清楚产生异常值的确切原因，则应对数据进行统计处理；若数据较少，则可重做一组数据；　

对于舍去的数据，在试验报告中应注明舍去的原因或所选用的统计方法。

⑤拉依达（

）检验法

方法：

对可疑数据xp，若

，则剔除这一数据，可疑数据应逐一检验。

首先检验偏差最大的数。

剔除一个数后，如果还要检验下一个数，应重新计算平均值及标准偏差。

S取值方法：

3s为界时，要求n＞10；2s为界时，要求n＞5

（6）有效数字的运算

①加、减运算与其中小数点后位数最少的相同；

乘、除运算各乘、除数中有效数字位数最少的为准；

③乘方、方运算其底数的相同：

例如：

2.42=5.8；

④对数运算：

与其真数的相同如ln6.84＝1.92；lg0.00004＝－4；

⑤在4个以上数的平均值计算中，平均值的有效数字可增加一位；

所有取自手册上的数据，其有效数字位数按实际需要取，但原始数据如有限制，则应服从原始数据；

一些常数的有效数字的位数可以认为是无限制的；

一般在工程计算中，取2～3位有效数字；

3、试验的方差分析

方差分析是一种用于检验试验中有关因素对试验结果影响的显著性的检验方法。

试验指标衡量或考核试验效果的参数。

因素则是影响试验指标的条件。

可控因素是水平因素的不同状态或内容。

（1）单因素试验的方差分析

①目的：

检验一个因素对试验结果的影响是否显著性

②单因素试验方差分析基本步骤

1’

计算平均值：

组内平均值：

2’计算离差平方和

总离差平方和SST:

表示了各试验值与总平均值的偏差的平方和,反映了试验结果之间存在的总差异

组间离差平方和SSA:

反映了各组内平均值之间的差异程度,由于因素A不同水平的不同作用造成的

组内离差平方和SSe:

反映了在各水平内，各试验值之间的差异程度,由于随机误差的作用产生

3’计算自由度

总自由度：

dfT＝n－1组间自由度：

dfA＝r－1

组内自由度：

dfe＝n－r三者关系：

dfT＝dfA＋dfe

4’计算平均平方

均方＝离差平方和除以对应的自由度

MSA——组间均方MSA——组间均方:

5’F检验

服从自由度为（dfA,dfe）的F分布,对于给定的显著性水平，从F分布表查得临界值F（dfA，dfe）如果FA＞F（dfA，dfe），则认为因素A对试验结果有显著影响否则认为因素A对试验结果没有显著影响

6’方差分析表

差异源

显著性

组间（因素A）

SSA

r－1

MSA＝SSA／（r－1）

MSA／MSe

组内（误差）

SSe

n－r

MSe＝SSe／（n－r）

总和

SST

n－1

若FA＞F0.01（dfA，dfe），称因素A对试验结果有非常显著的影响，用“**”号表示；

若F0.05（dfA，dfe）＜FA＜F0.01（dfA，dfe），则因素A对试验结果有显著的影响，用“*”号表示；

若FA＜F0.05（dfA，dfe），则因素A对试验结果的影响不显著

（2）双因素试验的方差分析

双因素试验的方差分析，是用来讨论两个因素对试验结果影响的显著性，又称为二元方差分析。

①双因素无重复试验方差分析的基本步骤

1’计算平均值：

总平均：

Ai平均：

Bj平均：

2’计算离差平方和

总离差平方和：

因素A引起离差的平方和：

因素B引起离差的平方和：

误差平方和：

3’计算自由度

SSA的自由度：

dfA＝r－1SSB的自由度：

dfB＝s－1

SSe的自由度：

dfe＝（r－1）（s－1）SST的自由度：

dfT＝n－1＝rs－1

dfT＝dfA＋dfB＋dfe

4’计算均方

5’F检验

FA服从自由度为（dfA,dfe）的F分布；

FB服从自由度为（dfB,dfe）的F分布；

对于给定的显著性水平，查F分布表：

F（dfA,dfe），F（dfB,dfe）

若FA＞F（dfA,dfe），则因素A对试验结果有显著影响，否则无显著影响；

若FB＞F（dfB,dfe），则因素B对试验结果有显著影响，否则无显著影响；

4、试验数据的回归分析

回归分析是处理变量之间相关关系的统计方法。

目的是确定回归方程：

变量之间近似的函数关系式，进而检验回归方程的显著性，对试验结果进行预测。

（1）一元线性回归方程的建立

设有一组试验数据（如表），若x，y符合线性关系

a，b——回归系数

残差平方和：

由最小二乘法原理得：

1一元线性回归效果的检验

1’相关系数检验法

相关系数，用来描述变量x与y的线性相关程度，用r表示。

定义式：