R语言学习系列27方差分析讲课教案.docx-资源下载

R语言学习系列27方差分析讲课教案.docx

1、R语言学习系列27方差分析讲课教案R语言学习系列27-方差分析22. 方差分析一、方差分析原理1. 方差分析概述方差分析可用来研究多个分组的均值有无差异，其中分组是按影响因素的不同水平值组合进行划分的。方差分析是对总变异进行分析。看总变异是由哪些部分组成的，这些部分间的关系如何。方差分析，是用来检验两个或两个以上均值间差别显著性（影响观察结果的因素：原因变量（列变量）的个数大于2，或分组变量（行变量）的个数大于1）。一元时常用F检验（也称一元方差分析），多元时用多元方差分析（最常用Wilks检验）。方差分析可用于：（1）完全随机设计（单因素）、随机区组设计（双因素）、析因设计、拉丁方设计和正交

2、设计等资料；（2）可对两因素间交互作用差异进行显著性检验；（3）进行方差齐性检验。要比较几组均值时，理论上抽得的几个样本，都假定来自正态总体，且有一个相同的方差，仅仅均值可以不相同。还需假定每一个观察值都由若干部分累加而成，也即总的效果可分成若干部分，而每一部分都有一个特定的含义，称之谓效应的可加性。所谓的方差是离均差平方和除以自由度，在方差分析中常简称为均方（Mean Square）。2. 基本思想基本思想是，将所有测量值上的总变异按照其变异的来源分解为多个部份，然后进行比较，评价由某种因素所引起的变异是否具有统计学意义。根据效应的可加性，将总的离均差平方和分解成若干部分，每一部分都与某一种

3、效应相对应，总自由度也被分成相应的各个部分，各部分的离均差平方除以各自的自由度得出各部分的均方，然后列出方差分析表算出F检验值，作出统计推断。方差分析的关键是总离均差平方和的分解，分解越细致，各部分的含义就越明确，对各种效应的作用就越了解，统计推断就越准确。效应项与试验设计或统计分析的目的有关，一般有：主效应（包括各种因素），交互影响项（因素间的多级交互影响），协变量（来自回归的变异项），等等。当分析和确定了各个效应项S后，根据原始观察资料可计算出各个离均差平方和SS，再根据相应的自由度df，由公式MS=SS/df，求出均方MS，最后由相应的均方，求出各个变异项的F值，F值实际上是两个均方之

4、比值，通常情况下，分母的均方是误差项的均方。根据F值的分子、分母均方的自由度f1和f2，在确定显著性水平为情况下，由F(f1, f2)临界值表查得单侧F界限值。当F，不拒绝原假设H0，说明不拒绝这个效应项的效应为0的原假设，也即这个效应项是可能对总变异没有实质影响的；若FF则P值，拒绝原假设H0，也即这个效应项是很可能对总变异有实质影响的。3.方差分析的实验设计为了确定方差分析表中各个有关效应项，需要在试验设计阶段就作出安排，再根据设计要求进行试验，得出原始观察值，按原来设计方案算出方差分析表中的各项。在试验设计阶段通常需要考虑如下4个方面：（1）研究的因变量即试验所要观察的主要指标，一次试验

5、时可以有多个观察指标，方差分析时也可以同时对多个因变量进行分析；（2）因素和水平试验的因素（factor）可以是品种、人员、方法、时间、地区等等，因素所处的状态叫水平（level）。在每一个因素下面可以分成若干水平。（3）因素间的交互影响多因素的试验设计，有时需要分析因素间的交互影响（interaction），2个因素间的交互影响称为一级交互影响（AB）；3个因素间的交互影响称为二级交互影响（ABC）。当交互影响项呈现统计不显著时，表明各个因素独立，当呈现统计显著时，就需要列出这个交互影响项的效应，以助于作出正确的统计推断。举例解释上述概念：要考察焦虑症的治疗疗效，一个因素是治疗方案，有2种治

6、疗方案，即该因素有2个水平；（治疗方案称为组间因子，因为每个患者只能被分配到一个组别中，没有患者同时接受两种治疗）；再考虑一个因素治疗时间，也有两个水平：治疗5周和治疗6个月，同一患者在5周和6个月不止一次地被测量（两次），称为重复测量（治疗时间称为组内因子，因为每个患者在所有水平下都进行了测量）。建立方差分析模型时，既要考虑两个因素治疗方案和治疗时间（主效应），又要考虑治疗方案和时间的交互影响（交互效应），此时即两因素混合模型方差分析。当某个因素的各个水平下的因变量的均值呈现统计显著性差异时，必要时可作两两水平间的比较，称为均值间的两两比较。二、R语言实现方差分析对数据的要求：满足正态性（

7、来自同一正态总体）和方差齐性（各组方差相等），在这两个条件下，若各组有差异，则只可能是来自影响因素的不同水平。用aov()函数进行方差分析，基本格式为：aov(formula, data=NULL, projections=FALSE, qr=TRUE,contrasts=NULL, .)其中，formula为方差分析公式；data为数据框；projection设置是否返回预测结果；qr设置是否返回QR分解结果；contrasts为公式中一些因子的列表。formula公式的表示：（y为因变量，ABC为分组因子）符号用法分隔符号，左边为响应变量，右边为解释变量eg：yA+B+C+分隔解释变量：表

8、示变量的交互项eg：yA+B+A:B*表示所有可能交互项eg：yA*B*C可展开为：yA+B+C+A:B+A:C+B:C+A:B:C表示交互项达到次数eg：y(A+B+C)2展开为：yA+B+C+A:B+A:C+B:C.表示包含除因变量外的所有变量eg：若一个数据框包括变量y,A、B和C，代码y.可展开为yA+B+C常见研究设计的表达式：（小写字母表示定量变量，大写字母表示组别因子，Subject是对被试者独有的标识变量）设计表达式单因素ANOVAyA含单个协变量的单因素ANCOVAyx+A双因素ANOVAyA*B含两个协变量的双因素ANCOVAyx1+x2+A*B随机化区组yB+A, B为区

9、组因子单因素组内ANOVAyA+Error(Subject/A)含单个组内因子(W)和单个组间因子(B)的重复测量ANOVAyB*W+Error(Subject/W)注意：非均衡设计时或存在协变量时，效应项的顺序对结果影响较大，越基础的效应越需要放在表达式前面，首先是协变量、然后是主效应、接着是双因素的交互项，再接着是三因素的交互项。若研究不是正交的，一定要谨慎设置效应的顺序。有三种类型的方法可以分解yA+B+A:B右边各效应对y所解释的方差：类型I（序贯型）效应根据表达式中先出现的效应做调整。A不做调整，B根据A调整，A:B交互项根据A和B调整。类型II（分层型）效应根据同水平或低水平的效应

10、做调整。A根据B调整，B依据A调整，A:B交互项同时根据A和B调整。类型III（边界型）每个效应根据模型其他各效应做相应调整。A根据B和A:B做调整，A:B交互项根据A和B调整。R默认调用类型I方法，其他软件（比如SAS和SPSS）默认调用类型III方法。car包中的Anova()函数（不要与标准anova()函数混淆）提供了使用类型II或类型III方法的选项，而aov()函数使用的是类型I方法。若想使结果与其他软件（如SAS和SPSS）提供的结果保持一致，可以使用Anova()函数。三、单因素方差分析1个因变量，1个影响因素：总差异Yij = 平均差异 + 因素差异i + 随机差异ij例1

11、比较4种品牌的胶合板的耐磨性，各抽取5个样品，相同转速磨损相同时间测得磨损深度（mm），比较4个品牌胶合板的耐磨性有无差异？部分数据如下（ex27_ex1.Rdata）：setwd(E:/办公资料/R语言/R语言学习系列/codes)load(ex27_ex1.Rdata)head(datas) wear brand1 2.30 A2 2.32 A3 2.40 A4 2.45 A5 2.58 A6 2.35 Battach(datas)table(brand) #各组的样本数brandA B C D 5 5 5 5 aggregate(wear,by=list(brand),mean) #各组

12、均值 Group.1 x1 A 2.4102 B 2.4043 C 2.0464 D 2.572aggregate(wear,by=list(brand),sd) #各组标准差 Group.1 x1 A 0.112694282 B 0.117601023 C 0.112160604 D 0.03271085library(car)qqPlot(lm(wearbrand,data=datas),simulate=TRUE) #用Q-Q图检验数据的正态性leveneTest(wearas.factor(brand),data=datas) #方差齐性检验Levenes Test for Homog

13、eneity of Variance (center = median) Df F value Pr(F)group 3 0.6987 0.5664 16 fitF) brand 3 0.7398 0.24660 24.55 3.15e-06 *Residuals 16 0.1607 0.01005 -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 说明：方差齐性检验，原假设H0：方差齐，p值=0.56640.05, 故接受原假设，即方差齐。单因素方差分析结果，brand是因素，Residuals是残差，各列依次为自由度、平方和、均方和、F统计量，

14、p值=3.15e-060.05, 拒绝原假设，即不同品牌的磨损（均值）有显著差别。library(gplots)plotmeans(wearbrand,xlab=品牌, ylab=磨损) #图形展示带95%置信区间的各组均值通过前面的分析知道，不同品牌的磨损（均值）有显著差别，但并不知道哪个品牌与其它品牌有显著差别。TukeyHSD()函数提供了对各组均值差异的成对检验。TukeyHSD(fit) Tukey multiple comparisons of means 95% family-wise confidence levelFit: aov(formula = wear brand,

15、data = datas)$brand diff lwr upr p adjB-A -0.006 -0.18735345 0.1753535 0.9996826C-A -0.364 -0.54535345 -0.1826465 0.0001610D-A 0.162 -0.01935345 0.3433535 0.0886142C-B -0.358 -0.53935345 -0.1766465 0.0001929D-B 0.168 -0.01335345 0.3493535 0.0744337D-C 0.526 0.34464655 0.7073535 0.0000019说明：可以看出（H0：无

16、差异），B与A的差异非常不显著，C与A、C与B、D与C的差异非常显著。multcomp包中的glht()函数提供了更为全面的多重均值比较方法。library(multcomp)attach(datas)tuk |t|) B - A = 0 -0.00600 0.06339 -0.095 0.9997 C - A = 0 -0.36400 0.06339 -5.742 0.001 *D - A = 0 0.16200 0.06339 2.556 0.0886 . C - B = 0 -0.35800 0.06339 -5.648 0.001 *D - B = 0 0.16800 0.06339

17、2.650 0.0743 . D - C = 0 0.52600 0.06339 8.298 0.001 *-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1(Adjusted p values reported - single-step method)plot(cld(tuk, level = 0.05), col = lightgrey)说明：标记相同字母（标记b）的品牌ABD认为是无显著差异，在同一亚组，而品牌C（标记a）与另外三个品牌有显著差异。另外，也可以进行多重t检验，使用函数：pairwise.t.test(x, g, p.adjus

18、t.method=,.)其中，x为因变量，g为因子型的分组变量；p.adjust.method设置p值的修正方法，由于多次重复t检验会大大增加犯第一类错误的概率，为此要进行p值的修正，使用bonferroni法修正效果较好。pairwise.t.test(wear,brand,p.adjust.method=bonferroni) Pairwise comparisons using t tests with pooled SD data: wear and brand A B C B 1.00000 - - C 0.00018 0.00022 - D 0.12695 0.10474 2.1e

19、-06P value adjustment method: bonferroni 说明：原假设H0: 无差异，可见A与B无差异，C与ABD有显著差异。最后，方差分析对离群点非常敏感，检验是否有离群点：library(car)outlierTest(fit)No Studentized residuals with Bonferonni p 0.05Largest |rstudent|: rstudent unadjusted p-value Bonferonni p9 2.528103 0.023182 0.46364说明：经检验无离群点。三、两因素方差分析1个因变量，2个影响因素：总差异Yi

20、jk = 平均差异 + 因素1差异i + 因素2差异i+ 因素1,2交互作用差异ij + 随机差异ijk例2 研究60只豚鼠的牙齿生长数据，按2种喂食方法：橙汁、维生素C，各喂食方法中抗坏血酸含量都有3个水平：0.5mg、1mg、2mg，分配为6组，每组各10只，牙齿长度为因变量。做两因素方差分析。attach(ToothGrowth)head(ToothGrowth) len supp dose1 4.2 VC 0.52 11.5 VC 0.53 7.3 VC 0.54 5.8 VC 0.55 6.4 VC 0.56 10.0 VC 0.5table(supp, dose) #各组样本数相同

21、，即为均衡设计 dosesupp 0.5 1 2 OJ 10 10 10 VC 10 10 10aggregate(len, by=list(supp, dose), mean) #计算各组均值 Group.1 Group.2 x1 OJ 0.5 13.232 VC 0.5 7.983 OJ 1.0 22.704 VC 1.0 16.775 OJ 2.0 26.066 VC 2.0 26.14aggregate(len, by=list(supp, dose), sd) #计算各组标准差 Group.1 Group.2 x1 OJ 0.5 4.4597092 VC 0.5 2.7466343

22、OJ 1.0 3.9109534 VC 1.0 2.5153095 OJ 2.0 2.6550586 VC 2.0 4.797731bartlett.test(lensupp,data=ToothGrowth) #关于因素supp的方差齐性检验 Bartlett test of homogeneity of variancesdata: len by suppBartletts K-squared = 1.4217, df = 1, p-value = 0.2331bartlett.test(lendose,data=ToothGrowth) #关于因素dose的方差齐性检验 Bartlett

23、 test of homogeneity of variancesdata: len by doseBartletts K-squared = 0.66547, df = 2, p-value = 0.717fitF) supp 1 205.4 205.4 12.317 0.000894 *dose 1 2224.3 2224.3 133.415 2e-16 *supp:dose 1 88.9 88.9 5.333 0.024631 * Residuals 56 933.6 16.7 -Signif.codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1说明：可以看出，主

24、效应supp和dose都非常显著（p值都远小于0.05），交互效应也显著（p值=0.02460.05）。若交互作用不显著，可以可以只做去掉交互效应的方差分析。图形化展示两因素方差分析的交互效应：par(mfrow=c(1,2)interaction.plot(dose, supp, len, type=b, col = c(red, blue), pch = c(16, 18), main=Interaction between Dose and Supp)interaction.plot(supp, dose, len, type=b, col=c(red, blue), pch = c(1

25、6, 18), main=Interaction between Supp and Dose) 说明：有一个图的线有交叉，说明有交互作用。可以看出随着橙汁和维生素C中的抗坏血酸剂量的增加，牙齿长度变长；。对于0.5 mg和1 mg剂量，橙汁比维生素C更能促进牙齿生长；对于2 mg剂量的抗坏血酸，两种喂食方法下牙齿长度增长相同。也可以用HH包中的interaction2wt()函数（也适合三因素方差分析）来展示更全面的可视化结果：library(HH)interaction2wt(lensupp*dose)三、重复测量方差分析重复测量方差分析，即受试者被测量不止一次。例3（1个组内1个组间因子

26、的重复测量）在某浓度CO2的环境中，对寒带植物（来自魁北克）和非寒带植物的（来自密西西比）光合作用率进行比较。因变量uptake为CO2吸收量，自变量Type（组间因子）为植物类型，自变量conc（组内因子）为七种水平的CO2浓度。attach(CO2)head(CO2) #注意CO2是长格式的数据 Plant Type Treatment conc uptake1 Qn1 Quebec nonchilled 95 16.02 Qn1 Quebec nonchilled 175 30.43 Qn1 Quebec nonchilled 250 34.84 Qn1 Quebec nonchille

27、d 350 37.25 Qn1 Quebec nonchilled 500 35.36 Qn1 Quebec nonchilled 675 39.2w1b1-subset(CO2, Treatment=chilled) #先只考虑寒带植物fitF) Type 1 2667.2 2667.2 60.41 0.00148 *Residuals 4 176.6 44.1 -Signif.codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1Error: Plant:conc Df Sum Sq Mean Sq F value Pr(F) conc 1 888.6 888.6 2

28、15.46 0.000125 *conc:Type 1 239.2 239.2 58.01 0.001595 * Residuals 4 16.5 4.1 -Signif.codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1Error: Within Df Sum Sq Mean Sq F value Pr(F)Residuals 30 869 28.97 说明：在0.01的显著水平下，主效应“类型”（p值=0.00148）和“浓度”（p值=0.000125）以及交叉效应“类型*浓度”（p值=0.001595）都非常显著。attach(w1b1)interaction.plot(conc, Type, uptake, type=b, col=c(red, blue), pch=c(16, 18), main=Interaction Plot for Plant Type and Concentration)boxplot(uptakeType*conc, data=w1b1, col=(c(gold, green), main=C

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？