正交实验教材第一章.docx

资源描述

正交实验教材第一章.docx

《正交实验教材第一章.docx》由会员分享，可在线阅读，更多相关《正交实验教材第一章.docx（17页珍藏版）》请在冰豆网上搜索。

正交实验教材第一章.docx

正交实验教材第一章

第一章试验设计和均匀设计

1．1试验设计

在工农业生产和科学研究中，经常需要做试验，以求达到预期的目的。

例如在工农业生产中希望通过试验达到高质、优产、低消耗，特别是新产品试验，未知的东西很多，要通过试验来摸索工艺条件或配方。

如何做试验，其中大有学问。

试验设计得好，会事半功倍，反之会事倍功半，甚至劳而无功。

本世纪30年代，由于农业试验的需要，费歇尔（R.A.Fisher）在试验设计和统计分析方面做出了一系列先驱工作，从此试验设计成为统计科学的一个分支。

随后，F.Yates,R.C.

Bose,O.Kempthome,W.G.Cochran,D.R.Cox和G.E.P.Box对试验设计都作出了杰出的贡献，使该分支在理论上日趋完善，在应用上日趋广泛。

60年代，日本统计学家田口玄一将试验设计中应用最广的正交设计表格化，在方法解说方面深入浅出为试验设计的更广泛使用作出了众所周知的贡献。

田口玄一的方法对我国试验设计的普及和广泛应用有巨大的影响，70年代我国许多统计学家深入工厂、科研单位，用通俗的方法介绍正交试验设计，帮助工程技术人员进行试验的安排和数据分析，获得了一大批优秀成果，出版了许多成果汇编，举办了不少成果展览会。

在广泛使用试验设计方法的洪流中，必然会出现一些新的问题，这些总是用原有的各种试验设计方法不能圆满地解决，特别是当试验的范围较大，试验因素需要考察较多等级（在试验设计中这些等级称之为水平）时，用正交试验及其它流行的试验方法要求做较多的试验，常使得试验者望而生畏。

许多实际问题要求一种新的试验方法，它能有效地处理多水平的试验，于是王元和方开泰于1978年提出了均匀设计（见文献「1－3」），该设计考虑如何将设计点均匀地散布在试验范围内，使得能用较少的试验点获得最多的信息。

10多年来，均匀设计在国内得到了广泛应用，并获得不少好的成果。

试验设计在工业生产和工程设计中能发挥重要的作用，例如：

1）提高产量；

2）减少质量的波动，提高产品质量水准；

3）大大缩短新产品试验周期；

4）降低成本；

5）延长产品寿命。

在自然科学中，有些规律开始尚未由人们所认识，通过试验设计可以获得其统计规律，在此基础上提出科学猜想,这些猜想促进了学科的发展，例如遗传学的许多发现都藉助于上述过程。

材料工业是工业中的栋梁，汽车拖拉机的制造离不开各种合金钢，钛合金的发明和发现使飞机制造工业产生飞跃。

超导的研究和超导材料的配方息息相关。

配方试验又称混料试验（ExperimentswithMixtures），不仅出现于材料工业，而且在人们生活和其它工业中处处可见，例如在中药、饮料、混凝土的配方中。

由于在配方中各种材料的总和必须为100％，其试验设计必须考虑到这个约束条件，由于这个原因正交试验设计等方法不能直接用于配方设计。

针对配方设计的要求，Scheffé于1958年提出了单纯形格子点设计，随后于1963年他又提出了单纯形重心设计。

Cornell[27]对配方试验设计的各种方法作了详尽的介绍和讨论。

显然，均匀设计的思想也能用于配方试验，王元和方开泰[9]给出了配方均匀设计的设计方法和有关的讨论。

本书第五章将系统介绍配方试验设计和配方均匀设计。

不论是均匀设计或配方均匀设计,其数据分析都要藉助于回归分析，要用到线性回归模型、二次回归模型、非线性模型，，以及各种选择回归变量的方法（如前进法、后退法、逐步回归、最优回归子集等）。

有关回归分析的书籍成百上千，本书仅作梗概介绍。

读者很容易找到各种参考书籍获得更详细的介绍。

试验设计的方法很多，本书重点介绍均匀设计，这并不意味其它方法不重要，每种方法都有其优点，也有其局限性，根据实际情况选取合适的方法是应用统计的重要内容。

1．1试验的因素和水平

在工业、农业、科学研究和军事科学的研究中，经常需要作各种试验，以研究各种因素之间的关系，找到最优的工艺条件或最好的配方。

让我们先看一个例子：

　　例1在一个化工生产过程中，考虑影响得率（产量）的三个因素：

温度（A），时间（B）和加碱量（C）。

为了便于试验的安排，每个因素要根据以往的经验来选择一个试验范围，然后在试验范围内挑出几个有代表性的值来进行试验，这些值称做该因素的水平。

在该例中，我们选择的试验范围如下：

　　温度：

77.5℃～92.5℃

　　时间：

75分～165分

　　加碱量：

4.5%～7.5%

　　然后在上述范围内，每个因素各选三个水平，组成如下的因素水平表：

表1因素水平表

因素

温度（

）

时间（分）

120

150

加碱量（％）

　　选择因素和水平关系到一个试验能否成功的关键，下列的注意事项和建议对使用试验设计的人员可能是有益的。

　　1．在一个生产过程中，有关的因素通常是很多的，例如在例1的化工生产工艺中，有催化剂的品种，催化剂用量，加碱时的速度，容器中的压力等。

但根据这次试验目的，除了温度（A），时间（B），和加碱量（C）各取三个水平外，其余因素是固定的，或者讲，他们只取一个水平。

为了方便，通常这些固定的因素在试验方案中并不称为因素，只有变化的因素才称为因素。

　　2．在一项试验中，如何从众多的有关因子中挑选出试验方案中的因素？

我们建议课题的领导者应当要请有经验的工程师、技术员、工人共同讨论决定。

在一次试验中，因素不宜选得太多（如超过10个），那样可能会造成主次不分，丢了西瓜，拣了芝麻。

相反地，

因素也不宜选得太少，（如只选定一、二个因素），这样可能会遗漏重要的因素，或遗漏因素间的交互作用，使试验的结果达不到预期的目的。

例如，有这样的故事，原计划试验方案中只有三个因素，而利用试验设计的方法，可以在不增加试验数目的前提下，再增加一个因素，既然不费事何乐而不为呢？

试验的结果发现，最后添加的这个因素是最重要的，从而发现了历史上最好的工艺条件，正是“有心栽花花不成，无意插柳柳成荫。

”

　　3．试验的范围应当尽可能大一点。

如果试验在试验室进行，试验范围大比较容易实现；如果试验直接在生产中进行，则试验范围不宜太大，以防产生过多次品，或产生危险。

试验范围太小的缺点是不易获得比已有条件有显著改善的结果。

历史上有些重大的发明和发现，是由于“事故”而获得的，也就是说试验的范围大大不同于有经验的范围。

4．若试验范围允许大一些，则每一因素的水平个数最好适当多一些。

5．水平的间隔大小和生产控制精度是密切相关的。

若在例1中温度的控制只能作到

±3℃,且我们设定控制在85℃,于是在生产过程中温度将会在85°±3℃,即82—88℃波动。

不难看到，这时设定的三个水平80℃,85℃,90℃之间是太近了，应当加大，例如80℃,90℃,100℃。

如果温度控制的精度可达±1℃,则例1如设定的三个水平是合理的。

6．因素和水平的含意可以是广义的。

例如五种棉花用于织同一种布，要比较不同棉花影响布的质量的效应，这时“棉花品种”可设定为一个因素，五种棉花就是该因素下的五个水平。

1．2因素的主效应和因素间的交互效应

根据试验的目的，要预先确定一项或多项试验指标，为简单计，本书仅讨论只有一项试验指标（记作Y）的情形。

如例如1的试验Y是得率。

在数理统计中，称试验指标为响应（response）为通俗起见，本书中就叫试验指标。

考察一个因素对试验指标的影响是试验的目的之一。

若在一项试验中，考察温度和得率Y之间的关系，并取温度五个水平，其相应Y值如下：

温度

50℃

60℃

70℃

80℃

90℃

30%

35%

40%

45%

50%

我们看到，温度每增加10℃得率增加5%这5%就是温度的效应。

上述试验可以表成一个线性数学模型

（1.1）

其中

为第

次试验结果，

为温度从50℃到90℃范围内Y的平均值。

通常可以用五次试验的平均值来估计，记作

，即

表示温度取第

个水平时

的值与之

差。

不难发现，它们的估计值为

这里

称为温度在五个水平下的主效应，

为它们的估计值。

由于试验中总存在一些偶然因素的干扰，如室温的变化，电压的波动，材料的不均匀性，这些偶然因素总称为随机误差。

由于试验误差的存在，不可能产生上例那么理想的情况。

其实际数据可能为

温度

50℃

60℃

70℃

80℃

90℃

32%

34%

39%

46%

49%

这时数学模型为

（1.2）

这里

为第

次试验的试验误差。

这时试验必须有重复才能估计出

和

实际上，当试验的水平和相应的Y为连续变量时，其数学模型也可以用回归方程来表达，例如，用线性回归方程

（1.3）

其中X表示温度，

和

是回归系数，

为随机误差。

在第二章将介绍，

和

可以用最小二乘法由试验数据估出，由上述温度和得率的数据可得回归方程

（1.4）

这里

为试验结果Y的估计值。

利用方程（1.4）可以估出五次试验的结果如下：

30.8

35.4

40.0

44.6

49.2

1.2

-1.4

-1.0

1.4

-0.2

其中

称为残差，它的大小反映了回归方程（1.4）的精确程度，并可用它作回归诊断，更详细讨论请看第二章。

方程（1.4）中，X的回归系数0.46有明确的实际含意，它表示温度每增加一度，其得率Y平均增加0.46%，于是0.46反映了X对Y的效应，这里可以称为线性回归效应。

有一点是必须注意的，无论是模型（1.2）中的主效应

，还是模型（1.3）中的线性回归效应

，都强烈地依赖于试验条件，尤其是X的试验范围，也就是说，这两个模型只适用于X的试验范围内。

否则，当X为210°时，

的估值为104.4%，这是不可能的，因为得率总是小于100%的。

显然，模型（1.2）和（1.3）是最简单的情形，实际情况是多种多样的，例如X和Y之间可能有非线性回归关系，或其它相关关系。

这些将在以后讨论。

现在我们来介绍因素间交互作用的概念。

首先，设有两个因素A和B它们各取两个水平

和

。

这时共有四种不同的水平组合，其试验结果列于图1。

当

时，

变到

使Y增加30-10=20；类似地，当

时，

变到

使Y也增加40-20=20。

这就是说A对Y的影响与B取什么水平无关。

类似地，当B从

变到

时，Y增加20-10（或40-30=10），与A取的水平无关。

这时，我们称A和B之间没有交互作用。

判断和之间有没有交互作用,选用图2的作图方法更为直观。

当图中的两条线平行时（或接近平行时），判断A和B之间没有交互作用.图3和图4给出了一个有交互作用的例子，它们的含意和作图方法与图1

和图2是一样的。

交互作用在实际中是大量存在的，例如化学反应中催化剂的多少与其它成分的投入量通常是有交互作用的。

水中各种金属含量太多，对人体健康会造成危害，金属之间对人体的危害也存在交互作用（参见例5）。

当因素A，B及其它们的试验指标Y都为连续变量时，可以建立Y和A；B之间的回归方程。

若回归方程为

（1.5）

时，A对Y的影响由回归系数

完全决定，不受B取哪个水平的影响；类似地，B对Y的影响由回归系数γ完全决定，不受A取哪个水平的影响；类似地，对的影响由回归系数完全决定，不受取哪个水平的影响。

这时A和B没有交互作用。

当A和B之间有交互作用时，回归模型不可能为线性的，其中一定有非线性的。

最常见的模型之一为

（1.6）

其中

为回归系数，

为随机误差。

这时若

>0，称A和B之间有正交互作用；若

<0,称A和B之间有负交互作用.请看如下两个例子

当A=3.5,B=4.10时，相应两个回归方程的试验指标列于图5和图6。

我们看到两种情形均

展开阅读全文