整理第7章方差分析Word格式.docx-资源下载

整理第7章方差分析Word格式.docx

1、【分析与解答】关于正态性检验：H。：三组资料分别取自正态分布的总体；H1：三组资料并非取自正态分布的总体；=0.05。关于方差齐性检验：三组资料所取自的总体的方差相等；三组资料所取自的总体的方差不相等或不全相等；【SAS程序】DATA aa; DO g=1 TO 3; INPUT X; OUTPUT; END; CARDS; 234 509 851 318 518 562 402 555 918 382 758 631 621 845 653 408 712 843 243 585 659 141 448 849 42 753 762 98 896 901PROC SORT DATA=aa;

2、BY g;PROC PRINT;RUN;二、方差分析数据集的建立技巧1方差分析的数据集格式统计分析所用的数据格式和我们在分析整理资料时所用的格式是不同的。一般来说，数据集中应至少有一个结果变量，用于记录不同处理因素水平下观察值的大小；至少有一个处理因素变量，用于记录处理因素的类型及其水平数。以单因素方差分析为例，就应有一个结果变量和一个处理因素变量；而两因素的方差分析应有一个结果变量和两个处理因素变量。例A 某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量测定，请给出数据集的结构。解：数据集中应有两个变量，x和group。x记录肺活量的大小；group取值为1、2

3、或3，分别代表石棉肺患者、可疑患者及非患者。例B 某厂医务室测定了10名氟作业工人工前、工中及工后4小时的尿氟浓度，请给出数据集的结构。数据集中应有三个变量，x、group和worker。x记录尿氟浓度；group取值为1、2或3，分别代表工前、工中及工后；worker取值为1到10，分别代表10名工人。2方差分析数据集的建立方法可见方差分析的数据集其变量取值有一定的规律，因此可以利用循环语句和判断语句来简化输入。例72 请建立例B的数据集。此例中数据较有规律，各组的例数均相等，这可正是循环语句大显身手的时候。data NEW;do group=1 to 3; do worker=1 to 1

4、0; input X ; output; end; cards; 90.53 88.43 47.37 . 105.27 58.95proc print;run;7.2 ANOVA（Analysis of Variance）过程如果实验的每种组合安排相同数目的实验单位，则这种实验设计称为平衡设计。由于数据是平衡的，则平方和的计算可以简化。这样的方差分析可用ANOVA过程，不必用占机时更多的GLM过程。ANOVA过程可进行单向分组资料的方差分析、随机区组试验及拉丁方试验的统计分析等。一、过程格式PROC ANOVA 选择项;CLASS 变量表; 必需，指定要分析的处理因素MODEL 依变量表=效应

5、表/选择项; 必需，给出分析用的方差分析模型MEANS 效应表 /选择项; 指定要两两比较的因素及比较方法FREQ 变量名；TEST H=效果名称 E=效果名称; 指定多元方差分析的选项MANOVA H=效果名称 E=效果名称 M=变量的转换式 PREFIX=新变量的名称代号 MNAMES=新变量名表 /选择项;REPEATED 重复变量的名称组名变量转换/选择项;BY 变量表;二、语句说明程序中CLASS语句和MODEL语句是必需的，而且CLASS语句必须出现在MODEL语句之前。如果选用TEST和MANOVA语句，则必须放在MODEL语句之后。MEANS、TEST和MANOVA语句可以

6、重复使用，其他语句只能使用一次。1PROC ANOVA语句选择项DATA=数据集指定用来分析的数据集名，若缺省，则使用最新建立的数据集。MANOVA 要求PROC ANOVA语句将含一个或一个以上依变量缺失值的观察值剔除。当使用交互式进行方差分析时，最好指定此选择项。OUTSTAT=数据集输出结果中包括离差平方和（SS）、F值以及各试验效果的显著程度。2CLASS语句声明方差分析中因素的分类水平处理变量，也称为分类变量，指明数据集中的自变量，可以是数值型，也可以是字符型。若为字符变量，其长度不超过16个字母。3MODEL语句指明依变量（因子变量）效应。效应是分类变量的各种组合，效应可以是主

7、效应、交互效应、嵌套效应和混合效应。MODEL语句的选择项有两个：NOUNI 抑制单变量方差分析结果的输出；INTERCEPT或INT 要求SAS将线性模型内的截距（也称为数据的总平均数）当作一个参数，同时对该参数作是否为零的测验。4MEANS语句计算并输出所列的效应对应的依变量均数。其主要选择项可分三类：多重比较选择项若指明了该选择项，则将进行主效应平均数间的测验，即多重比较。常用的多重比较方法选择项如DUNCAN（Duncan新复极差法）、T或LSD（配对t测验或Fisher氏最小显著差数法）、SNK（Q测验）、TUKEY（Tukey固定极差测验）、DUNNETT和DUNNETU（Dun

8、nett氏最小显著差数两尾和单尾测验法）、BON、CABRIEL、REGWF、REGWQ、SCHEFFE、SIDAK、SMM（GT2）、WALLER等。统计显著水平以ALPHA=P设定，如ALPHA=0.01设定显著水平为0.01，缺省值为0.05。E=效应名称规定F测验的分母,若缺省则试验设计的误差的均方将自动成为分母。5FREQ语句指定频次变量。其用法与第5章用法相同。6TEST语句一般情况下，SAS默认采用误差的均方（MS Residual）作为F测验的分母。但也可自定F测验的分子和分母以进行不同的F测验，该语句中H=分子，E=分母。如：“TEST H=A B E=A*B;”表示F=A

9、/（A*B），F=B/（A*B）。7MANOVA语句当MODEL中有一个以上依变量时，要求进行多变量的方差分析。8REPEATED语句指定在一个或多个独立变量上对分析单位进行重复测量设计的分析。在某些情况下采用此语句可以精简程序代码。9BY语句要求按其指定变量分别进行方差分析。三、使用说明：设有三个因素A、B及C，一个观测变量Y。（1）如果只考虑主效应，则需下列语句： PROC ANOVA： CLASS A B C； MODEL YA B C；（2）如果具有交叉因素，则需下列语句： PROC ANOVA； MODEL A B C A*B A*C B*C A*B*C；（3）如果A和B是主效应，C

10、嵌套于A和B中（对A和B的每一组合，观测到C的水平是不同的），则需下列语句： MODEL YA B C（A B）其中C（AB）表示C嵌套于A和B中。再如C（A）表示C嵌套于A中。（4）如果既有嵌套又有交叉效应，则在MODEL语句中可同时使用*和（）。例如： MOOEL YA B（A）C（A）B*C（A）；四、输出说明（1）CLASS LEVEL INFORMATION分类水平信息。其中包括： CLASS CLASS语句中列出的效应名。 LEVELS 因素效应的水平数。 VALUES 因素效应中各水平的值或标记。（2）SOURCE变异来源。（3）SUM OF SOUARES（SS）平方和。

11、（4）MEAN SQUARE（MS）均方。（5）F VALUE F值。其中MODEL（模型）的下值为MODEL（模型）的均方除以ERROR（误差）的均方。用于检验模型中所有效应均为零的假设，以便说明模型的重要程度。（6）PrF显著水平。（7）MODEL模型。它的平方和等于各因素效应的平方和之和，其均方等于它的平方和除以自由度。（8）ERROR误差。（9）CORRECTED TOTAL校正总变异。（10）R-SQUANE R2，其值为模型的平方和除以校正总平方和。一般来说，R2值越大，模型拟合数据越好。（11）C.V变异系数。样本的变异系数为该样本的标准差除以均值，表示单位量的变

12、异。（12）ROOT MSE 误差均方根，是观测变量的标准差的估计值。（13）T TEST FOR VARIABLE 各处理平均数的多重比较T检验，凡有一个相同标记字母的即为差异不显著，凡具有不同标记字母的即为差异显著。 7.3 GLM（General Linear Model）过程GLM是General Linear Model（一般线性模型）的缩写，用于非均衡数据方差分析。在SAS/STAT中，GLM过程的分析功能最多，回归分析、方差分析、偏相关分析、协方差分析、多元方差分析等比较复杂的分析过程均可采用GLM过程。这里只介绍GLM过程在方差分析中的应用。前面介绍的ANOVA过程只能用于均

13、衡设计资料的方差分析，当不均衡时，只能用采用GLM过程进行分析。PROC GLM 选择项;MODEL 依变量=效应表/选择项;MEANS 效应表/选择项;MANOVA H=效果名称 E=效果名称 M=变量的转换式PREFIX=新变量的名称代号MNAMES=新变量名表 /选择项;RANDOM 效应表/选择项;CONTRAST “对比说明” 各组效应系数/选择项;ID 变量表;CLASS语句和MODEL语句是必需的，且CLASS语必须出现在MODEL语句之前。1PROC GLM语句选择项ORDER=FREQ|DATA|INTERNAL|FORMATTED 指定某一变量下各类别的输出次序。FREQ按

14、递减计数次序排列；DATA按首先出现在输入数据集中的顺序放置；INTERNAL按值的内部表示排列；FORMATTED按外部的格式排列。缺省值为ORDER=INTERNAL。OUTSTAT=数据集输出结果中含离差平方和（SS）、F值以及各试验效果的显著程度。NOPRINT 要求PROC GLM抑制分析结果在报表上的输出。2RANDOM语句用于指定模型中的随机效应。在MODEL语句后可多次应用RANDOM语句，若缺省则GLM过程将MODEL语句中的所有的效应为固定效应。其选择项有两个：Q 要求输出固定效应的二次式函数值。TEST 要求对RANDOM语句中所指定的各项随机效应执行适当的F测验，并且

15、F测验的分母完全根据各效应的期望均方而定。需要注意的是：若某两个主效应被RANDOM指定为随机效应，其交互项并没有被相应指定为随机效应，需要特别指定。3CONTRAST语句用于对比测验。比较式的名字必须放在引号内，其长度最多为20个字符，命名方式可随意，但在其中不能出现“；”。各组效应系数前必须注明所要比较的效应，这些效应必须是MODEL语句中出现过的，这些系数的总和必须为0，而且只能是整数或小数，各系数间以空格隔开。该语句的选择项有：E规定输出线性函数的向量；E=效应名称指定以E的效应为CONTRAST中F测验的分母，系统默认值是误差的均方（MS Error）；ETYPE=1|2|3|4

16、用于指定计算E=效应名称中效应的离差均方的类型。4PROC GLM过程中其他语句CLASS语句、MODEL语句、MEANS语句等参见PROC ANOVA过程。三、ANOVA过程和GLM过程中常用的数学模型在使用ANOVA和GLM过程进行方差分析时，关键在于定义线性数学模型。同一试验资料选用不同的数学模型，结果将不同。因而需要依据试验设计选定正确的线性数学模型。模型定义语句的一般格式是：依变量=线性模型效应。线性模型效应主要有三类：主效应直接写出效应变量，如：a。交互效应以一个或多个以“*”号连接的变量表表示，如：a*b*c。嵌套效应假定自变量b嵌套在主效应a中，则写作：b（a）。常用的模

18、（b）等价于a（b） c（b） a*c（b）a|b（a）|c 等价于a b（a） c a*c b（a）*ca|b（a）|c2 等价于a b（a） c a*ca（b）|b（d e）等价于a（b） b（d e）四、使用说明（1）对平衡资料的方差分析可用ANOVA过程，也可用GLM过程。但前者效率更高。对于非平衡资料的方差分析只能用GLM过程。（2）设有如下数据（因素A有2个水平，因素日有2个水平）：因素Np水平N1N2P1101816P292428 例7.3 程序示例如下:data new; input n$ p$ y; n1 p1 10 n1 p1 18 n2 p1 16 n2 p1 1

19、6 n1 p2 9 n1 p2 . n2 p2 24 n2 p2 28proc glm; class n p; model y=n p n*p;上述程序中的数据也可用下面的方法读入：例74 do p=1 to 2; do n=1 to 2; input y; 10 18 16 16 9 . 24 287.4 单向分组资料的方差分析观察值仅按一个方向分组，同组各供试单位受相同处理，不同组受不同处理，也称完全随机设计实验。7.4.1 组内观察值数目相等的单向分组资料的方差分析例7.5 研究6种氮肥施用法（K=6）对小麦的效应，每种施肥法种5盆小麦（n=5），完全随机设计，最后测定它们的含氮量（mg

20、），其结果见表10.1，试作方差分析。表10.1 种施肥法小麦植株的含氮量（mg）12345612.914.012.610.514.612.313.83.210.813.312.213.410.714.413.712.513.613.512.713.0由于组内观测值数目相等，故采用ANOVA过程分析。程序如下：1程序及说明/*数据来源：南京农业大学，田间试验和统计方法，P102*/DATA new; DO i=1 TO 5; DO trt=1 TO 6; INPUT y;DROP i; /*删除临时变量I */CARDS; 12.9 14.0 12.6 10.5 14.6 14.0 12.3

21、13.8 13.2 10.8 14.6 13.3 12.2 13.8 13.4 10.7 14.4 13.7 12.5 13.6 13.4 10.8 14.4 13.5 12.7 13.6 13.0 10.5 14.4 13.7PROC ANOVA; /*调用ANOVA过程作方差分析*/CLASS trt; /*规定以trt为分类变量 */MODEL y=trt;MEANS trt/DUNCAN; /*选用新复极差法作多重比较 */2输出结果及说明 Analysis of Variance Procedure 方差分析过程 Class Level Information 处理水平信息 Clas

22、s Levels Values 处理因素变量名水平数具体值 TRT 6 1 2 3 4 5 6 Number of observations in data set = 30 数据集中有30个观察值Dependent Variable: Y 依变量名为y Sum of MeanSource DF Squares Square F Value Pr F变异来源自由度平方和均方 F值概率值PModel 5 44.46300000 8.89260000 164.17 0.0001Error 24 1.30000000 0.05416667Corrected Total 29 45.763

23、00000 R-Square C.V. Root MSE Y Mean所用模型的决定系数变异系数剩余标准差依变量均数 0.971593 1.786165 0.232737 13.0300000Source DF Anova SS Mean Square F Value Pr TRT 5 44.46300000 8.89260000 164.17 0.0001 Analysis of Variance Procedure Duncans Multiple Range Test for variable: Y 用DUNCAN法测验 NOTE: This test controls the t

24、ype I experimentwise error rate under the complete null hypothesis but not under partial null hypotheses. Alpha= 0.05 df= 24 MSE= 0.054167 水平为0.05，自由度为24，MS误差为0.054167 Number of Means 2 3 4 5 6 Critical Range 0.3038 0.3191 0.3289 0.3358 0.3410 两两比较时的界值，两平均数之差大于该界值时则两组有统计学差异 Means with the same letter are not significantly different. 标有相同字母的两平均数间无差异 Duncan Grouping M

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

整理第7章 方差分析Word格式.docx