协方差分析02_精品文档.ppt

资源描述

协方差分析02_精品文档.ppt

《协方差分析02_精品文档.ppt》由会员分享，可在线阅读，更多相关《协方差分析02_精品文档.ppt（65页珍藏版）》请在冰豆网上搜索。

协方差分析02_精品文档.ppt

协方差分析,第一节协方差分析的意义和功用,方差分析（六）,下列数据是研究镉作业工人暴露于烟尘的年数与肺活量的关系。

按暴露年数将工人分为两组：

甲组暴露10年，乙组暴露10年。

两组工人年龄未经控制。

问该两组暴露于镉作业工人平均肺活量是否相同？

镉作业工人接触烟尘年数与肺活量的关系研究,未经年龄校正时不同暴露年限的平均肺活量有差异（P=0.005）,不同暴露年限的平均年龄也有差异P=0.01,问题：

不同暴露年限的平均肺活量有差异吗？

方差不齐用校正t检验,如何分析？

假设1：

肺活量与暴露无关而与年龄有关？

假设2：

肺活量与暴露、年龄均有关？

假设3：

肺活量仅与暴露有关而与年龄无关？

假设4：

肺活量与暴露、年龄均无关？

研究因素（变量）：

暴露年限控制因素（变量）：

年龄结局变量：

肺活量,在不同的暴露水平上肺活量与年龄均呈线性关系！

在不同的暴露水平上肺活量与年龄均呈线性关系！

直接比较不同暴露年限的平均肺活量显然不合理,如何分析比较：

控制（或消除）年龄对肺活量的线性影响后，再比较不同暴露年限的平均肺活量！

方法：

协方差分析（线性回归+方差分析）,消除了年龄对肺活量的线性影响后，不同暴露年限的平均肺活量无统计学上的差异,一、协方差分析的意义,协方差是两个变量的协变异数，用COV（x,y）表示。

对于一个具有N对（x,y）的有限总体，x与y的协方差定义为双变量离均差乘积和的平均数，即：

对于具有n对观测值的样本，x与y的样本协方差COV（x,y）定义为双变量离均差乘积和与自由度的商，即：

样本协方差亦称为均积,简记为MP，是总体协方差的估计值。

方差是用来度量单个变量“自身变异”大小的总体参数，方差越大，该变量的变异越大；协方差是用来度量两个变量之间“协同变异”大小的总体参数，即二个变量相互影响大小的参数，协方差的绝对值越大，二个变量相互影响越大。

对于仅涉及单个变量的试验资料，由于其总变异仅为“自身变异”（如单因素完全随机设计试验资料，“自身变异”是指由处理和随机误差所引起的变异），因而可以用方差分析法进行分析；对于涉及两个变量的试验资料，由于每个变量的总变异既包含了“自身变异”又包含了“协同变异”（是指由另一个变量所引起的变异），须采用协方差分析法来进行分析，才能得到正确结论。

二、协方差分析的功用,

（一）对试验进行统计控制要提高试验结果的正确性，必须严格控制试验条件的均匀性，使各处理处于尽可能一致的试验条件下，这一做法在统计上叫做试验控制。

但试验控制有时不一定能实施。

例如，研究棉花的蕾铃脱落率要求各处理的单株有相同蕾铃数，研究不同肥料对梨树的单株产量的影响要求各株梨树起始干周完全相同等，都不易达到。

在这些情况下，要消除起始条件不等对试验结果的影响，提高试验结果分析的正确性，就应采用协方差分析。

如果那些不能很好地进行试验控制的因素是可量测的，且又和试验结果之间存在直线回归关系，就可利用这种直线回归关系将各处理的观测值都矫正到初始条件相同时的结果，使得处理间的比较能在相同基础上进行，而得出正确结论。

这一做法在统计上称为统计控制。

这时所进行的协方差分析是将回归分析和方差分析结合起来的一种统计分析方法，这种协方差分析称为回归模型的协方差分析。

（二）估计协方差分量方差分析中根据均方MS与期望均方EMS间的关系，可获得不同变异来源的方差分量估计值；在协方差分析中，根据均积MP与期望均积EMP间的关系，可获得不同变异来源的协方差分量估计值。

这种协方差分析称为相关模型的协方差分析。

第二节单因素完全随机设计试验资料的协方差分析,【例101】为研究A1、A2、A3、A44种不同肥料（k=4）对梨树单株产量的影响，选择40株梨树作试验，把40株梨树完全随机分为4组,每组包含10株梨树（n=10），每组施用1种肥料。

各株梨树的起始干周（x,cm）和单株产量（y,kg）列于表101，试检验4种肥料的单株产量是否有显著差异。

表101梨树4种肥料比较试验的起始干周（x,cm）与单株产量（y,kg）,试验用4种肥料分别施10株梨树，各组的单株产量y既包含了不同肥料所引起的“自身变异”，也包含了不同的起始干周x所引起的“协同变异”，因此应采用协方差分析法将“协同变异”从y的总变异中剔除，获得y的“自身变异”，然后才能正确地检验4种肥料平均单株产量是否有显著差异。

表101中观测值不仅具有肥料效应和随机误差，而且还受到起始干周的影响。

故单因素完全随机设计试验资料观测值的数据结构式为:

（一）试验资料的数学模型,其中x和y和分别是x和y的总体平均数；为第i个处理效应（固定效应）；为各组依总体的回归系数的加权平均数（假定成立），为由于偏离x所引起的y的变异部分；为随机误差、相互独立、且都服从N（0,2）。

（10-3）式就是单因素完全随机设计试验资料协方差分析的数学模型。

由（10-3）式移项可得若将yij用样本统计量来表示，则有:

若令或,则（10-4）式或（10-7）式说明,在观测值中剔除处理效应后，即误差项，进行与的线性回归分析，可求出的估计值be；若令或,则（10-5）式或（10-8）式说明,在对观测值进行回归矫正后,对进行方差分析就排出了xij不一致对yij的影响。

（二）计算变量x和y的各项自由度、平方和与乘积和,表10-2、表10-1资料的自由度、平方和与乘积和,乘积和计算如下,表10-3、起始干周x和单株产量y的方差分析表,（三）对x和y作方差分析,F检验结果表明，4种肥料的供试梨树起始干周差异不显著，单株产量差异极显著。

这里对y进行的F检验是在没有考虑x的影响下进行的,若x与y之间没有显著的回归关系,即x对y没有显著影响，上面对y进行的F检验结果可以接受；若x与y之间有显著的回归关系,即x对y有显著影响,则需对y矫正后再进行的F检验,才能获得正确结论。

（四）计算回归系数并进行显著性检验回归系数由误差项的统计数计算。

be=0.7359表示起始干周改变1cm，单株产量将平均改变0.7359kg。

对be进行显著性检验如下：

（五）对矫正后的单株产量作方差分析,矫正单株产量的总平方和与自由度，即总离回归平方和与自由度，记为SST、dfT：

1、求矫正后的单株产量的各项平方和及自由度,矫正单株产量的误差平方和与自由度，即误差离回归平方和与自由度，记为SSe、dfe,矫正单株产量处理间平方和与自由度，记为SSt、dft,2、对矫正单株产量进行方差分析表10-4矫正单株产量的方差分析表,F=19.835F0.01（3,35），p0.01，不同肥料的矫正单株产量间存在极显著的差异，须进一步进行多重比较。

3、根据线性回归关系计算各肥料的矫正平均单株产量,矫正平均单株产量计算公式如下：

其中：

为第i处理矫正单株平均产量；为第i处理实际单株平均产量；为第i处理实际平均起始干周；为全试验的平均数；为误差回归系数。

4、各肥料矫正单株平均产量间的多重比较,

（1）t检验法,例如，检验A1与A2矫正单株平均产量间的差异显著性：

查t值表,t0.05（35）=2.030，tt0.0（35），p0.05，表明肥料A1与A2矫正单株平均产量间的差异不显著。

其余的每两处理矫正平均数间的比较都须另行算出,再进行t检验。

（2）LSD法当误差项自由度在20以上，x变量的变异不甚大（即x变量各处理平均数间差异不显著），为简便起见，可计算一个平均的，采用LSD法进行多重比较。

查临界t值t,dfe，计算出最小显著差数：

本例查临界t值得t0.05（35）=2.030，t0.01（35）=2.724于是LSD0.05=2.0302.913=5.913LSD0.01=2.7242.913=7.935,表10-5不同肥料矫正单株平均产量多重比较表（LSD法）,多重比较结果表明：

除A3、A4矫正单株平均产量间的差异不显著外，其余各种肥料两两间单株平均产量差异显著或极显著。

这里表现为肥料A1的单株平均产量显著或极显著高于其余3种肥料的单株平均产量；肥料A2的单株平均产量极显著高于肥料A3、A4的单株平均产量。

4种肥料以A1的单株产量最高,A2次之,A3、A4的单株产量最低。

（3）LSR法当误差自由度在20以上，x变量的变异不甚大，还可以计算出平均的矫正平均数标准误，利用LSR法进行多重比较。

由误差自由度dfe和秩次距k查SSR值（或q值），计算最小显著极差：

对于【例101】SSR值与LSR值见表106。

表106SSR值与LSR值表,表10-7不同肥料的矫正单株产量平均重多重比较表（SSR法）,用SSR法进行多重比较的结果与LSD法相同。

第三节单因素随机区组设计试验资料的协方差分析,【例103】对6个菜豆品种（k=6）进行维生素C含量（y，mg/100g）比较试验，4次重复（n=4），随机区组设计。

根据前人的研究,菜豆维生素C含量不仅与品种有关,而且与豆荚的成熟度有关。

但在试验中又无法使所有小区的豆荚都同时成熟,所以同时测定了100g所采豆荚干物重百分率x，作为豆荚成熟度指标。

测定结果列于表10-7，试作协方差分析。

表10-7菜豆品种的维生素C含量与豆荚干物重百分率测定结果,

（一）试验资料的数学模型这个试验是单因素随机区组试验,总变异可分解成处理、区组、误差3项，因此，单因素随机区组设计试验资料观测值yij的数据结构式为：

其中，Rj为第j个区组效应，、的意义同前。

移项可得若用样本统计量来表示，则为其中，rj是Rj的估计值，、ti、be、eij的意义同前。

若令或,则（10-20）式或（10-23）式说明,在观测值yij中剔除处理效应、区组效应后，即误差项，进行Yij与xij的线性回归分析，可求出的估计值be；若令或,则（10-21）式或（10-24）式说明,在对观测值yij进行回归矫正后,对yij进行方差分析就排出了xij不一致对yij的影响。

（二）计算变量x和y的各项自由度、平方和与乘积和表10-8表10-资料的自由度、平方和与乘积和,乘积和计算如下：

（三）对x和y作方差分析表10-9豆荚干物重百分率x和维生素C含量y的方差分析表,F检验结果表明，6个品种的豆荚干物重百分率和维生素C含量差异均极显著。

（四）计算回归系数be并进行显著性检验对be进行显著性检验如下：

（五）对矫正后的维生素C含量作方差分析,矫正总平方和与自由度，即总离回归平方和与自由度，记为SST、dfT：

矫正误差项平方和与自由度，即误差离回归平方和与自由度，记为SSe、dfeSSe=SSer=732.6607dfe=dfer=14矫正品种间平方和与自由度，记为SSt、dft：

SSt=SST-SSe=1649.1818-732.6607=916.5211dft=dfT-dfe=k-1=4-1=3,2、对矫正维生素C含量进行方差分析,表10-10矫正维生素C含量的方差分析表,F0.05（5,14）=2.96，F0.01（5,14）=4.69，由于F0.05（5,14）FF0.01（5,14），0.01p0.05，表明不同品种的矫正维生素C含量间存在显著差异，故须进一步进行多重比较。

3、根据直线回归关系计算各品种的矫正平均维生素C含量,4、各品种矫正平均维生素C含量间的多重比较,由于6个品种的豆荚干物重百分率x差异极显著,只能用t检验法检验两个品种矫正平均维生素C含量间的差异显著性。

例如，检验品种A5与A6矫正平均维生素C含量间的差异显著性：

于是,表明品种A5与A6矫正平均维生素C含量间差异不显著。

再如，检验品种A6与A2矫正平均维生素C含量间的差异显著性：

t0.05（14）=2.145，t0.01（14）=2.977，t0.05（15）tt0.01（15），0.01p0.05表明A6与A2矫正平均维生素C含量间差异显著。

其它品种矫正平均维生素C含量两两之间的差异显著检验类似。

表10-11三组大鼠的进食量（x,g）与所增体重（y,g）,结果（解释略）,G

展开阅读全文