数据处理论文.docx
《数据处理论文.docx》由会员分享,可在线阅读,更多相关《数据处理论文.docx(22页珍藏版)》请在冰豆网上搜索。
数据处理论文
《实验设计与数据处理》课程总结与体会
本文主要是总结了数据处理和实验设计两部分内容的一些概念、方法,详细地介绍其中方法的步骤和原理,并对数据处理方法和实验设计方法在实际实验应用中,各举了一个例子。
最后,还总结了自己对这门课程的一些体会。
一、数据处理
1、数据处理的目的
通过误差分析,评判试验数据的可靠性;
确定影响试验结果的因素主次,抓住主要矛盾,提高试验效率;
确定试验因素与试验结果之间存在的近似函数关系,并能对试验结果进行预测和优化;
研究试验因素对试验结果的影响规律,为控制试验提供思路;
确定最优试验方案或配方。
2、数据处理的有关概念及其计算方法
(1)真值在某一时刻和某一状态下,某量的客观值或实际值,在科学实验中,经常将多次试验值的平均值作为真值得近似值。
(2)平均值平均值的种类很多,常用的平均值及其算法和使用条件如下:
算术平均值
等精度试验值,试验值服从正态分布
加权平均值
适合不同试验值的精度或可靠性不一致时
③对数平均值
若数据的分布具有对数特性,则宜使用对数平均值
④几何平均值
当一组试验值取对数后所得数据的分布曲线更加对称时,宜采用几何平均值。
⑤调和平均值
常用在涉及到与一些量的倒数有关的场合
如果1/2≤x1/x2≤2时,可用算术平均值代替
(3)各种误差的定义及其计算和使用条件
绝对误差
绝对误差=试验值-真值
相对误差
③算术平均误差
可以反映一组试验数据的误差大小
④标准误差
当试验次数n无穷大时,总体标准差:
试验次数为有限次时,样本标准差:
表示试验值的精密度,标准差↓,试验数据精密度↑小误差比大误差出现机会多;正、负误差出现的次数近似相等,当试验次数足够多时,误差的平均值趋向于零;可以通过增加试验次数减小随机误差,但随机误差不可完全避免的。
(4)精密度,反映了随机误差大小的程度,可以通过增加试验次数而达到提高数据精密度的目的
精密度判断方法:
极差:
标准差和方差:
方差↓,精密度↑
(5)试验数据误差的统计检验
①随机误差的检验
随机误差的大少可用实验数据的精密度来反映,而精密度也可以用方差来检验,所以对测试结果进行方差检验,即可判断各试验或结果的随机误差之间的关系。
检验
检验,就是试验数据的总体方差
已知的情况下,对试验数据的随机误差或精密度进行检验。
检验步骤:
如果数据服从正态分布,则统计量为:
且服从自由度为
的
分布,则通过查临界值
,(
为显著性水平,一般取0.05或0.1)来进行检验。
1’双侧检验:
当
,则判断两方差无显著差异,否则有显著差异
2’左侧(尾)检验:
当
,则判断该方差与原总体方差无显著减小,否则有显著减小
3’右侧(尾)检验:
当
,则判断该方差与原总体方差无显著增大,否则有显著增大
系统误差的检验
t检验法
目的:
检验服从正态分布数据的算术平均值是否与给定值有显著差异
检验步骤:
若试验数据服从正态分布,先计算统计量:
服从自由度为
的t分布,将t与临界值进行比较
1’双侧检验:
当
,则判断两方差无显著差异,否则有显著差异(给定值可以是真值、期望值或标准值)
2’左侧(尾)检验:
当
且
断该方差与原总体方差无显著减小,否则有显著减小
3’右侧(尾)检验:
当
且
,则判断该方差与原总体方差无显著增大,否则有显著增大
③秩和检验法
目的:
两组数据或两种试验方法之间是否存在系统误差、两种方法是否等效等,不要求数据具有正态分布
步骤:
设有两组试验数据,相互独立,n1,n2分别是两组数据的个数,总假定n1≤n2;将这个试验数据混在一起,按从小到大的次序排列;每个试验值在序列中的次序叫作该值的秩;
将属于第1组数据的秩相加,其和记为R1(R1—第1组数据的秩和)。
如果两组数据之间无显著差异,则R1就不应该太大或太小
检验:
查秩和临界值表:
根据显著性水平和n1,n2,可查得R1的上下限T2和T1
1’如果R1>T2或R1<T1,则认为两组数据有显著差异,另一组数据有系统误差
2’如果T1<R1<T2,则两组数据无显著差异,另一组数据也无系统误差
④异常值的检验
处理原则为:
在试验过程中,若发现异常数据,应停止试验,分析原因,及时纠正错误;
试验结束后,在分析试验结果时,如发现异常数据,则应先找出产生差异的原因,再对其进行取舍;
在分析试验结果时,如不清楚产生异常值的确切原因,则应对数据进行统计处理;若数据较少,则可重做一组数据;
对于舍去的数据,在试验报告中应注明舍去的原因或所选用的统计方法。
⑤拉依达(
)检验法
方法:
对可疑数据xp,若
,则剔除这一数据,可疑数据应逐一检验。
首先检验偏差最大的数。
剔除一个数后,如果还要检验下一个数,应重新计算平均值及标准偏差。
S取值方法:
3s为界时,要求n>10;2s为界时,要求n>5
(6)有效数字的运算
①加、减运算与其中小数点后位数最少的相同;
乘、除运算各乘、除数中有效数字位数最少的为准;
③乘方、方运算其底数的相同:
例如:
2.42=5.8;
④对数运算:
与其真数的相同如ln6.84=1.92;lg0.00004=-4;
⑤在4个以上数的平均值计算中,平均值的有效数字可增加一位;
所有取自手册上的数据,其有效数字位数按实际需要取,但原始数据如有限制,则应服从原始数据;
一些常数的有效数字的位数可以认为是无限制的;
一般在工程计算中,取2~3位有效数字;
3、试验的方差分析
方差分析是一种用于检验试验中有关因素对试验结果影响的显著性的检验方法。
试验指标衡量或考核试验效果的参数。
因素则是影响试验指标的条件。
可控因素是水平因素的不同状态或内容。
(1)单因素试验的方差分析
①目的:
检验一个因素对试验结果的影响是否显著性
②单因素试验方差分析基本步骤
1’
计算平均值:
组内平均值:
2’计算离差平方和
总离差平方和SST:
表示了各试验值与总平均值的偏差的平方和,反映了试验结果之间存在的总差异
组间离差平方和SSA:
反映了各组内平均值之间的差异程度,由于因素A不同水平的不同作用造成的
组内离差平方和SSe:
反映了在各水平内,各试验值之间的差异程度,由于随机误差的作用产生
3’计算自由度
总自由度:
dfT=n-1组间自由度:
dfA=r-1
组内自由度:
dfe=n-r三者关系:
dfT=dfA+dfe
4’计算平均平方
均方=离差平方和除以对应的自由度
MSA——组间均方MSA——组间均方:
5’F检验
服从自由度为(dfA,dfe)的F分布,对于给定的显著性水平,从F分布表查得临界值F(dfA,dfe)如果FA>F(dfA,dfe),则认为因素A对试验结果有显著影响否则认为因素A对试验结果没有显著影响
6’方差分析表
差异源
SS
df
MS
F
显著性
组间(因素A)
SSA
r-1
MSA=SSA/(r-1)
MSA/MSe
组内(误差)
SSe
n-r
MSe=SSe/(n-r)
总和
SST
n-1
若FA>F0.01(dfA,dfe),称因素A对试验结果有非常显著的影响,用“**”号表示;
若F0.05(dfA,dfe)<FA<F0.01(dfA,dfe),则因素A对试验结果有显著的影响,用“*”号表示;
若FA<F0.05(dfA,dfe),则因素A对试验结果的影响不显著
(2)双因素试验的方差分析
双因素试验的方差分析,是用来讨论两个因素对试验结果影响的显著性,又称为二元方差分析。
①双因素无重复试验方差分析的基本步骤
1’计算平均值:
总平均:
Ai平均:
Bj平均:
2’计算离差平方和
总离差平方和:
因素A引起离差的平方和:
因素B引起离差的平方和:
误差平方和:
3’计算自由度
SSA的自由度:
dfA=r-1SSB的自由度:
dfB=s-1
SSe的自由度:
dfe=(r-1)(s-1)SST的自由度:
dfT=n-1=rs-1
dfT=dfA+dfB+dfe
4’计算均方
5’F检验
FA服从自由度为(dfA,dfe)的F分布;
FB服从自由度为(dfB,dfe)的F分布;
对于给定的显著性水平,查F分布表:
F(dfA,dfe),F(dfB,dfe)
若FA>F(dfA,dfe),则因素A对试验结果有显著影响,否则无显著影响;
若FB>F(dfB,dfe),则因素B对试验结果有显著影响,否则无显著影响;
4、试验数据的回归分析
回归分析是处理变量之间相关关系的统计方法。
目的是确定回归方程:
变量之间近似的函数关系式,进而检验回归方程的显著性,对试验结果进行预测。
(1)一元线性回归方程的建立
设有一组试验数据(如表),若x,y符合线性关系
a,b——回归系数
残差平方和:
由最小二乘法原理得:
1一元线性回归效果的检验
1’相关系数检验法
相关系数,用来描述变量x与y的线性相关程度,用r表示。
定义式:
相关系数特点如下:
-1≤r≤1;当r=±1:
x与y有精确的线性关系;r<0:
x与y负线性相关r>0:
x与y正线性相关;r≈0时,x与y没有线性关系,但可能存在其它类型关系;相关系数r越接近1,x与y的线性相关程度越高;试验次数越少,r越接近1;
(2)多元线性回归分析
由于在实际解决问题是,往往是由多个因素影响,所以设多元线性回归方程:
,在根据一元线性回归分析的原理求出相关系数。
(3)多元线性回归方程显著性检验
取用,上文中以介绍的F检验法或t检验法。
二、试验设计
1、优选法
优选法:
根据生产和科研中的不同问题,利用数学原理,合理地安排试验点,减少试验次数,以求迅速地找到最佳点的一类科学方法。
其适用于试验指标与因素间不能用数学形式表达或者表达式很复杂的情况。
其中,可分为单因素优选法和双因素优选法。
(1)单因素优选法
试验指标f(x)是定义区间(a,b)的单峰函数,为了用尽量少的试验次数,来确定f(x)的最大值的近似位置(取值范围),这时应用单因素优选法。
其方法有很多,如来回调试方法、黄金分割法(0.618法)、分数法、对分法、抛物线法、分批试验法(分为均分法、比例分割法)和逐步提高法(爬山法)。
下面就重点来介绍一下,黄金分割法、分批试验法和抛物线法。
①黄金分割法
将第一个试验点x1安排在试验范围内的0.618处,得试验结果y1=f(x1),再在x1的对称点x2。
做一次试验,得到试验结果y2=f(x2);比较y1=f(x1)和y2=f(x2)哪个大,如果y1=f(x1)大,就去掉(a,x2),如下图。
在留下的区间求x1的对称点,如此一直做到达到要求为止。
②抛物线法
在三个试验点x1,x2,x3,且x1<x2<x3,分别得试验值y1,y2,y3,根据Lagrange插值法可以得到一个二次函数:
设二次函数在x4取得最大值:
在x=x4处做试验,得试验结果y4,假定y1,y2,y3,y4中的最大值是由xi’给出.
除xi’之外,在x1,x2,x3和x4中取较靠近xi’的左右两点,将这三点记为x1’,x2’,x3’
此处x1’<x2’<x3,,若在处的函数值分别为y1’,y2’,y3’.如此重复,知道找出适合要求的范围。
(2)双因素优选法
双因素优选法问题,就是为了迅速地找到二元函数z=f(x,y)的最大值,及其对应的(x,y)点的问题,往往假定一个因素为固定值,继而进行是单峰问题出力。
双因素优选法有以下几种常用的方法,对开法、旋升法、平行线法、按格上升法
翻筋斗法。
(3)优选法在因素主次判断中的应用:
在因素的试验范围内做两个试验(可选0.618和0.382两点);如果这两点的效果差别显著,则为主要因素;如果这两点效果差别不大,在(0.382~0.618)、(0~0.382)和(0.618~1)三段的中点分别再做一次试验。
如果仍然差别不大,则此因素为非主要因素,可将该因素固定在0.382~0.618间的任一点。
当对某因素做了五点以上试验后,如果各点效果差别不明显,则该因素为次要因素
2、正交设计
正交试验设计利用正交表科学地安排与分析多因素试验的方法,大大减少试验次数。
适合于多因素试验。
(1)正交表表示
等水平正交表混合水平正交表
各因素水平数相等的正交表记号:
Ln(rm)
L——正交表代号
n——正交表横行数(试验次数)
r——因素水平数
m——正交表纵列数(最多能安排的因数个数)
(2)正交表特点
①等水平正交表
表中任一列,不同的数字出现的次数相同;表中任意两列,各种同行数字对(或称水平搭配)出现的次数相同。
这两性质合称为“正交性”,使试验点在试验范围内排列整齐、规律,也使试验点在试验范围内散布均匀。
②混合水平正交表
各因素的水平数不完全相同的正交表;表中任一列,不同数字出现次数相同;每两列,同行两个数字组成的各种不同的水平搭配出现的次数是相同的,但不同的两列间所组成的水平搭配种类及出现次数是不完全相同。
(3)正交试验设计的优点
能均匀地挑选出代表性强的少数试验方案,由少数试验结果,可以推出较优的方案,可以得到试验结果之外的更多信息。
(4)正交试验设计的基本步骤
明确试验目的,确定评价指标
②挑选因素(包括交互作用),确定水平
③选正交表,进行表头设计
④明确试验方案,进行试验,得到结果
⑤对试验结果进行统计分析
进行验证试验,作进一步分析
(5)正交试验设计结果的直观分析法
直观分析法简单直观、计算量小,其有四种情况,分别是单指标正交试验设计及其结果的直观分析、多指标正交试验设计及其结果的直观分析、有交互作用的正交试验设计及其结果的直观分析和混合水平试验设计及其结果的直观分析。
其方法大致相同,下面以单指标正交试验设计及其结果的直观分析,来说明方法的步骤
单指标正交试验设计及其结果的直观分析步骤
①选正交表
1’因素数≤正交表列数
2’因素水平数与正交表对应的水平数一致
3’选较小的表
②表头设计
将试验因素安排到所选正交表相应的列中,一个因素占有一列(可以随机排列),最好留有至少一个空白列.。
③明确试验方案
④按规定的方案做试验,得出试验结果
按照规定的方案完成每一号试验,试验次序可随机决定试验条件要严格控制
⑤计算极差,确定因素的主次顺序
三个符号:
Ki:
表示任一列上水平号为i时,所对应的试验结果之和。
ki:
ki=Ki/s,其中s为任一列上各水平出现的次数
R(极差):
在任一列上
R=max{K1,K2,K3}-min{K1,K2,K3},
或R=max{k1,k2,k3}-min{k1,k2,k3}
R越大,因素越重要
若空列R较大,可能原因:
漏掉某重要因素;因素之间可能存在不可忽略的交互作用
优方案的确定
优方案就是在所做的试验范围内,各因素较优的水平组合。
若指标越大越好,应选取使指标大的水平;若指标越小越好,应选取使指标小的水平;最后还应考虑:
降低消耗、提高效率等。
进行验证试验,作进一步的分析
因为优方案往往不包含在正交实验方案中,需要验证;优方案是在给定的因素和水平的条件下得到的,若不限定给定的水平,有可能得到更好的试验方案。
对所选的因素和水平进行适当的调整,以找到新的更优方案
(6)多指标正交试验设计及其结果的直观分析法
两种分析方法:
综合平衡法和综合评分法
1综合平衡法先对每个指标分别进行单指标的直观分析,再对对各指标的分析结果进行综合比较和分析,得出较优方案。
1’综合平衡原则:
次服从主(首先满足主要指标或因素);少数服从多数;降低消耗、提高效率
2’综合平衡特点:
计算量大;信息量大;有时综合平衡难
2综合评分法
综合评分法,就是根据各个指标的重要程度,对得出的试验结果进行分析,给每一个试验评出一个分数,作为这个试验的总指标,进行单指标试验结果的直观分析法。
1’评分方法:
直接给出每一号试验结果的综合分数;
对每号试验的每个指标分别评分,再求综合分;
Ø若各指标重要性相同:
各指标的分数总和
Ø若各指标重要性不相同:
各指标的分数加权和
2’对每个指标评出分数
非数量性指标:
依靠经验和专业知识给出分数。
有时指标值本身就可以作为分数,如回收率、纯度等,或用“隶属度”来表示分数
3’综合评分法特点将多指标的问题,转换成了单指标的问题,计算量小,准确评分难。
(6)正交试验设计结果的方差分析法
相对于直观分析法,方差分析法能估计误差的大小,精确地估计各因素的试验结果影响的重要程度。
其情况有单水水、二水平和三水平正交试验的方差分析。
方差分析的基本步骤与格式在数据处理部分以介绍,所以在这里就不做说明。
3、均匀设计
均匀设计,是一种只考虑试验点在试验范围内均匀散布的试验设计方法,通过均匀表来安排试验,其应用于试验因素变化范围较大,需要取较多水平时。
(1)均匀设计表
等水平均匀设计表
试验号
列号
1
2
3
1
(1)1
(2)1
(3)1
2
(2)1
(4)2
(6)2
3
(3)2
(6)3
(2)1
4
(4)2
(1)1
(5)2
5
(5)3
(3)2
(1)1
6
(6)3
(5)3
(3)2
Un(rl)或Un*(rl)
U——均匀表代号;
n——均匀表横行数(需要做的试验次数);
r——因素水平数,与n相等;
l——均匀表纵列数;
*——均匀性更好的表,优先选用Un*表
(2)等水平正交表特点
等水平正交表
等水平均匀表的试验次数与水平数一致;均匀设计:
试验次数的增加具有“连续性”
3混合水平均匀设计表
混合均匀表有较好的均衡性,即两列的水平组合要均衡;混合水平均匀表的任一列上,不同水平出现次数是相同的,但出现次数≥1。
(3)均匀设计基本步骤
①明确试验目的,确定试验指标
②选因素
③确定因素的水平
可以随机排列因素的水平序号
4选择均匀设计表
根据试验的因素数和水平数来选择,参考使用表,首选Un*表。
5进行表头设计
根据因素数和使用表,均匀表中的空列,既不能安排交互作用,也不能用来估计试验误差。
明确试验方案,进行试验
试验结果统计分析
1’直观分析法:
直接对所得到的几个试验结果进行比较,从中挑出试验指标最好的试验点。
2’回归分析法:
多元回归分析。
三、应用
1、数据处理之单因素方差分析
某饮料生产企业研制出一种新型饮料。
饮料的颜色共有四种,分别是橘黄色、粉色、绿色、和无色透明。
随机从五家超级市场收集了前一期该种饮料的销售量(万元),如下表所示。
试分析饮料颜色对销售量产生的影响。
颜色
销售量/万元
橘黄色
26.5
28.7
25.1
29.1
27.2
粉色
31.2
28.3
30.8
27.9
29.6
绿色
27.9
25.1
28.5
24.2
26.5
无色
30.8
29.6
32.4
31.7
32.8
解:
(1)由excel得有关数据如下:
因为FA2、试验设计之多指标正交实验设计直观分析
某种化工产品的转化率可能与反应温度A,反应时间B,某两种原料之配比C和真空度D有关.为了寻找最优的生产条件,因此考虑对A,B,C,D这4个因素进行试验.根据以往的经验,确定各个因素的3个不同水平,如表所示.
水平
因素
1 2 3
A:
反应温度(℃)
60 70 80
B:
反应时间(小时)
2.5 3.0 3.5
C:
原料配比
1.1∶1 1.15∶1 1.2∶1
D:
真空度(毫米汞柱)
500 550 600
试分析各因素对产品的转化率是否产生显著影响,并指出最好生产条件.
解 :
本题是4因素3水平,选用正交表L9(34).,如下表
将各因素的诸水平所表示的实际状态或条件代入正交表中,得到9个试验方案及其结果,如下表1所示.
表1:
列号
水平
试验号
A B C D
试验结果(%)
1
2
3
4
5
6
7
8
9
1(60) 1(2.5) 1(1.1:
1) 1(500)
1 2(3.0) 2(1.15:
1) 2(550)
1 3(3.5) 3(1.2:
1) 3(600)
2(70) 1 2 3
2 2 3 1
2 3 1 2
3(80) 1 3 2
3 2 1 3
3 3 2 1
38
37
76
51
50
82
44
55
86
对.试验结果的直观分析,得下表2
T1j
T2j
T3j
151 133 175 174
183 142 174 163
185 244 170 182
T=519
Rj
34 111 5 19
由极差大小顺序排出因素的主次顺序:
B>A>D>C
由此看出,特别要求在生产过程中控制好因素B,即反应时间.其次是要考虑因素A和D,即要控制好反应温度和真空度.至于原料配比就不那么重要了。
而转化率越高越好,所以应在第1列选最大的T31=185;即取水平A3,同理可选B3C1D3.故较好的因素水平搭配是A3B3C1D3.。
四、体会