正交实验结果如何能进行大数据分析报告文档格式.docx
《正交实验结果如何能进行大数据分析报告文档格式.docx》由会员分享,可在线阅读,更多相关《正交实验结果如何能进行大数据分析报告文档格式.docx(10页珍藏版)》请在冰豆网上搜索。
水'
、列
1
2
3
4
记号L4(23)的含意如下:
“L”代表正交表;
L下角的数字“4”表示有4横行(简称为行),即要做四次试验;
括号内的指数“3”表示有3纵列(简称为列),即最多允许安排的因素个数是3个;
括号内的数“2”表示表的主要部分只有2种数字,即因素有两种水平I与2,称之为I水平与2水平。
表L4(23)之所以称为正交表是因为它有两个特点:
1、每一列中,每一因素的每个水平,在试验总次数中出现的次数相等。
表-1里不同的水平只有两个一一1和2,它们在每一列中各出现2次。
2、任意两个因素列之间,各种水平搭配出现的有序数列(即左边的数放在前,右边的数放在后,按这一次序排出的数对)时,每种数对出现的次数相等。
这里有序数对共有四种(1,1),(1,2),(2,1),(2,2).它
们各出现一次。
常见的正交表有:
L4(23),L8(27),Lg15),L32(231),…;
L9(34),L27(313)...;
L16(45),…;
L25(56)……等。
此外还有混合水平正交表:
各列中出现的最大数字不完全相同的正交表称为混合水平正交表。
如L8(41X24),表中有一列最大数字为4,有4列最大数字为2。
也就是说该表可以安排1个4水平因素和4个2水平因素。
选择正交表的原则,应当是被选用的正交表的因素数与水平数等于或大于要进行试验考察的因素数与水平数,并且使试验次数最少。
如我们要进行3因素2水平的试验,选用
L4(23)表最理想。
但是,要进行5因素2水平的试验仍用L4(23)表,那么便放不下5个因素了。
这时,应当选用Ls(27)表,这样尽管只用了此表的5个因素列,还有两个因素列是空列,但这并不影响分析。
对试验结果(数据)的处理分析通常有两种方法,一是直观分析法,又叫极值分析法;
另一种方法是方差分析。
表一2
2分别求出各因素各水平结果的平均值:
即Ij/3,llj/3,IIIj
/3,并填入正交表中;
3分别求出各因素的平均值的差值(也叫极差),如果是三个以上水平则要找出平均值最大值或最小值之间的差值Rj。
根据极差数Rj的大小,可以判断各因素对实验结果的影响大小。
判断原则是:
极差愈大,所对应的因素愈重要;
由此可以确定出主、次要因素的排列顺序。
根据各因素各水平所对应指标结果的平均值的大小可以确定各因素取什么水平好。
确定的原则是:
如果要求指标愈小愈好,则取最小的平均值所对应的那个水平;
如果要求指标愈大愈好,则取最大的平均值所对应的那个水平;
如果要求指标适中(固定值),贝徵适中的平均值所对应的那个水平。
需要说明的是,最优的水平组合并不一定就在由正交实验设计所指定的实验当中。
所以,根据试验指标的数值要求所确定的各因素的最优水平组合,就可以筛选出最佳的试验方案条件、以及较好的试验方案条件。
对试验结果的直观分析法,除了极差分析外。
为了更形象直观的得出试验分析结果,我们还可以采用画趋势图(效应曲线图)的方法,得出正确的综合分析结论。
效应曲线图(因素指标分析)就是要画出各因素水平与指标的关系图,它是一种座标图,它的横座标用各因素的不同水平表示;
纵座标同为试验指标。
其实它就是根据极差分析数据所绘出来的,可以一目了然看出各因素的哪个水平为最优(根据指标的具体数值要求)。
2•方差分析法:
通过试验可以获得一组结果实验数据,这组数据之间一般会存在一定的差异,即使在相同的条件下做几次试验,由于偶然因素的影响,所得的数据数据也不完全相等,这说明实验数据的波动不仅与实验条件的改变有关,也包括实验误差的影响。
方差分析是用来区分所考察因子的由于水平不同对应的试验结果的差异是由于水平的改变所引起还是由于试验误差所引起的,以便进
一步(在直观分析的基础上)检验哪些因子对结果有影响,哪些没有影响,并区分哪些是影响结果的主要因素,哪些是次要因素。
我们通过一个例子来说明方差分析法的原理和计算方法。
在研究某胶料的过程中,为考察生胶的转动黏度对胶料压缩变形
有无显著的影响,进行了试验,其实验结果如表-3所示:
表-3
压\、黏
缩\
变\度试验'
、号Q
139
142
147
150
38.2
36.5
35.6
32.2
33.3
35.9
34.1
31.6
36.0
32.8
平均值
35.8
35.1
34.2
33.2
我们把转动黏度记做因子A,这是单因子4水平的实验,每个水平
都进行了3次重复试验,从这组试验数据,如何来判断A因子对压缩变形有无显著性影响呢?
首先从这组数据出发,计算出实验误差引起的数据波动及A因子水平的改变所引起的数据波动。
可以观察到在A的同一水平下,虽然试验条件没有改变,但所得的试验数据不完全一样,也就是说压缩变形值不完全一样。
这是由于试
验误差的存在使数据发生了波动。
例如,A的第一水平下(A1=139)
数据的平均数为:
X;
=1(38.2+33.3+36.0)=35.8
数据的波动值是:
S=(38.2-35.8)2+(33.3-35.8)2+(36.0-35.8)2=12.
05
我们称S为A的第一水平下的偏差平方和。
偏差平方和反映了一组实验数据的分散和集中的程度,S大表明这组数据分散,S小表明它们集中。
类似地,可以按公式:
3—2
S=,(Xj-Xi),i=1,2,3,4
计算各水平下数据的平均值及偏差平方和:
x2=35.1
2=7.89
x3=34.2S3=3.93
X4=33.2S4=8.96
将各因子A在各水平下的偏差平方和相加,得
43_
Si+S+S+S='
\(Xij一忘)2=32.83
i4j4
这完全是由试验误差引起的,它表征了试验误差在这组试验中引起的数据的总波动值,我们称S吴为试验的偏差平方和。
对因子A,可以注意到A的四个水平下的平均值X;
也各不相同。
这种数据平均值的波动不仅与试验误差有关,还包括由于A的水平不同引起的数据波动。
A的第一水平下的平均值X;
=35.8,这个平均值可代替各个1水平
(共3个)对压缩变形的影响,对其它的水平亦可作同样地考虑,记
做:
=14
x=—二Xi=34.6
4id
表示数据的总平均值,则A因子各水平平均值之间的偏差平方和
为:
4_=
Sa=3'
(Xi-X)2=11.43
iA
它刻划了A水平不同引起的数据波动值,称为因子A的偏差平方和,
如果记:
表示所有的数据围绕它们的总平均值的波动值,则可以证明:
S、=Sa+S误
从数据偏差平方和可见,数据个数多的,偏差平方和就可能大。
为了消除数据个数的影响,我们采用平均偏差平方和S/fA、S吴/f误,其中fA和f误分别表示偏差平方和S和S吴的自由度。
所谓自由度,就是独立的数据的个数。
与偏差平方和一样,自由度也可以分解为:
f总—fA+f误
f总一Nk1,N为同一水平的总试验次数;
fA—A的水平数一1;
f误—f总一fA;
考虑比值:
Sa/fA
S误/f误
若F比近似等于1,表明SJfa与S吴/f误差不多,也就说明因子A的水平改变对指标的影响在误差范围之内,即水平之间无显著差异。
那么,当F比多大时,才能说明因子A水平改变对结果有显著影响呢?
这时要查一下F分布临界值表。
F分布临界值表列出了各种自由度情况下F比的临界值。
在F分布临界值表上横行fi代表F比中分子的自由度fA,竖行f2代表F比中分母的自由度f误。
查得的临界值记做F,这里的:
•是预先给定的显著性水平,若F比一F-,我们就有(1—)的把握说明因子A的水平改变对结果(指标)有显著性影响,其几何意义见
图一1所示
图—1
对我们所讨论的例子,有:
f总=12-1=11;
fa=4-1=3;
f误=11—3=8;
把有关数据带入Fa的表达式,得:
F比二Sa/fA=11.43/3=1.08
S吴/f误32.83/8
我们给定显著性水平:
=0.10,从F分布临界值表中查出:
Fo.1o(3,8)=2.92
由于
H=1.08<
Fo.1o(3,8)=2.92
因此我们大概有90%的把握说因子A的水平改变对结果的影响无显著差异,也就是说我们有90%的把握,说生胶转动黏度水平的改变对压缩变形的影响无显著差异,试验结果所出
现的波动就主要是由试验误差造成的(有必要通过改变试验条件来减小试验结果数据的波动)。
反之,当F比-Fo.1o时,我们大概有90%的把握说因子A的水平改变对结果的影响有显著影响。
显著性水平:
•,是指我们对作出的判断大概有1—〉的把握。
对于不同的显著性水平,有不同的F分布表,常用的有:
=0.01,:
=0.05
和-=0.10三种。
为了区别显著性的程度,当F比>F0.0i(fi,f2)时,就说该因子水平的改变对试验结果有高度显著的影响,记做***;
当F0.01(f1,f2)>F比>F0.05(f1,f2)时,就说该因子水平的改变,对试验结果有显著的影响,记做**;
当F0.05(f1,f2)>FA>F0.10(f1,f2)时,就说该因子水平的改变,对试验结果有一定的影响,记做*。
根据是否要考虑两个因素的交互作用,又将双因素方差分析分为双因素重复试验的方差分析和双因素不重复试验的方差分析。
此外还有多因素方差分析,分析方法与此类同,这里不进行讨论。
3.交互作用:
在多因素对比试验中,某些因素对试验指标的影响往往有相互制