1、Stata基本操作和数据分析入门第五讲 多组平均水平的比较Stata软件基本操作和数据分析入门第五讲 多组平均水平的比较赵耐青一、复习和补充两组比较的统计检验1. 配对设计资料(又称为Dependent Samples)a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对t检验(ttest 差值变量=0)b)大样本的情况下,可以用配对t检验c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验(signrank 差值变量=0)2. 成组设计(Two Independent Samples)a)如果方差齐性并且大样本情况下,可以用成组t检验(ttest 效应指标变量,by(分组
2、变量)b)如果方差齐性并且两组资料分别呈正态分布,可以用成组t检验c)如果方差不齐,或者小样本情况下偏态分布,则用秩和检验(Ranksum test)groupx0790930910920940770930740910101083073088010209001000810910830106084078087095010111011100111418611061107110719418911041981110189110318911211941951921109198198112011041110二、多组比较1. 完全随机分组设计(要求各组资料之间相互独立)a)方差齐性并且独立以及每一组资料都服
3、从正态分布(小样本时要求),则采用完全随机设计的方差分析方法(即:单因素方差分析,One Way ANOVA)进行分析。b)方差不齐或小样本情况下资料偏态,则用Kruskal Wallis 检验(H检验)例5.1 为研究胃癌与胃粘膜细胞中DNA含量(A.U)的关系,某医师测得数据如下,试问四组人群的胃粘膜细胞中平均DNA含量是否相同?组别groupDNA含量(A.U)浅表型胃炎19.8112.7312.2912.5312.959.5312.68.912.2714.2610.68肠化生214.6117.5415.11713.3915.3213.7418.2413.8112.6314.5316.1
4、7早期胃癌323.2620.820.623.517.8521.9122.1322.0419.5318.4121.4820.24晚期胃癌423.7319.4622.3919.5325.920.4320.7120.0523.4121.3421.3825.70由于这四组对象的资料是相互独立的,因此属于完全随机分组类型的。检验问题是考察四组DNA含量的平均水平相同吗。如果每一组资料都正态分布并且方差齐性可以用One way-ANOVA进行分析,反之用Kruskal Wallis检验。STATA数据输入格式gx19.81112.73112.29112.53112.9519.53112.618.9112.
5、27114.26110.68214.61217.54215.1217213.39215.32213.74218.24213.81212.63214.53216.17323.26320.8320.6323.5317.85321.91322.13322.04319.53318.41321.48320.24423.73419.46422.39419.53425.9420.43420.71420.05423.41421.34421.38425.7分组正态性检验,a=0.05. sktest x if g=1 Skewness/Kurtosis tests for Normality - joint -
6、 Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Probchi2-+- x | 0.491 0.485 1.07 0.5861. sktest x if g=2 Skewness/Kurtosis tests for Normality - joint - Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Probchi2-+- x | 0.482 0.541 0.96 0.6201. sktest x if g=3 Skewness/Kurtosis tests for Normality -
7、 joint - Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Probchi2-+- x | 0.527 0.750 0.52 0.7704. sktest x if g=4 Skewness/Kurtosis tests for Normality - joint - Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Probchi2-+- x | 0.260 0.616 1.75 0.4166上述结果表明每一组资料都服从正态分布。单因素方差分析的STATA命令:oneway 效应指标变量
8、分组变量,t b其中t表示计算每一组均数和标准差,b表示采用Bonferroni统计方法进行两两比较。本例命令为oneway x group,t b. oneway x g,t b | Summary of x g | Mean Std. Dev. Freq.-+- 1 | 11.686364 1.6884388 11 2 | 15.173333 1.749173 12 3 | 20.979167 1.7668279 12 4 | 22.0025 2.2429087 12-+- Total | 17.583191 4.6080789 47 Analysis of Variance Source
9、 SS df MS F Prob F-Between groups 824.942549 3 274.98085 77.87 0.0000 Within groups 151.839445 43 3.53114987- Total 976.781994 46 21.2343912Bartletts test for equal variances: chi2(3) = 1.1354 Probchi2 = 0.769方差齐性的检验为:卡方=1.1354,自由度=3,P值=0.769,因此可以认为方差是齐性的。H0: 1= 2= 3= 4 四组总体均数相同H1: 1, 2, 3, 4不全相同 =0
10、.05,相应的统计量F=77.87以及相应的自由度为3和43,P值 g = 1 - Binom. Interp. - Variable | Obs Percentile Centile 95% Conf. Interval-+- x | 11 50 12.29 9.729564 12.7932- g = 2 - Binom. Interp. - Variable | Obs Percentile Centile 95% Conf. Interval-+- x | 12 50 14.855 13.74745 16.91172- g = 3 - Binom. Interp. - Variable
11、| Obs Percentile Centile 95% Conf. Interval-+- x | 12 50 21.14 19.60552 22.12043- g = 4 - Binom. Interp. - Variable | Obs Percentile Centile 95% Conf. Interval-+- x | 12 50 21.36 20.09042 23.69596得到这4组中位数分别为:M1=12.29,M2=14.855,M3=21.14和M4=21.36ranksum x if g=1 | g=2,by(g)Two-sample Wilcoxon rank-sum
12、 (Mann-Whitney) test g | obs rank sum expected-+- 1 | 11 72 132 2 | 12 204 144-+- combined | 23 276 276unadjusted variance 264.00adjustment for ties 0.00 -adjusted variance 264.00Ho: x(g=1) = x(g=2) z = -3.693 Prob |z| = 0.0002P值M1),并且差别有统计学意义。第1组与第3组比较ranksum x if g=1 | g=3,by(g)Two-sample Wilcoxon
13、 rank-sum (Mann-Whitney) test g | obs rank sum expected-+- 1 | 11 66 132 3 | 12 210 144-+- combined | 23 276 276unadjusted variance 264.00adjustment for ties 0.00 -adjusted variance 264.00Ho: x(g=1) = x(g=3) z = -4.062 Prob |z| = 0.0000P值M1),并且差别有统计学意义,其他比较类似进行。要注意的问题:在方差分析中,要求每一组资料服从正态分布(小样本时),并不是要
14、求各组资料服从一个正态分布(因为这就意味各组的总体均数相同,失去统计检验的必要性),所以不能把各组的资料合在一起作正态性检验。总的讲,方差分析对正态性具有稳健性,即:偏态分布对方差分析的结果影响不会太大,故正态性检验的a取0.05也就可以了。样本量较大时,方差分析对正态性要求大大降低(根据中心极限定理可知:样本均数近似服从正态分布)。并且由于大多数情况下,样本资料只是近似服从正态分布而不是完全服从正态分布。由于在大样本情况下,用正态性检验就变为很敏感,对于不是完全服从正态分布的资料往往会拒绝正态性检验的H0:资料服从正态分布。因为正态性检验不能检验资料是否近似服从正态分布,而是检验是否服从正态
15、分布。故在大样本情况下,考察资料的近似正态性,应用频数图进行考察。方差齐性问题对方差分析相对比较敏感,并且并不是随着样本量增大而方差齐性对方差分析减少影响的。但是当各组样本量接近相同或相同时,方差齐性对方差分析呈现某种稳健性。即:只有当各组样本量相同时,方差齐性对方差分析结果的影响大大降低。这时随着样本量增大,影响会进一步降低。相反,如果各组样本量相差太大时,方差齐性对方差分析结果的影响很大。这时随着样本量增大,影响会进一步加大。2. 随机区组设计(处理组之间可能不独立)a)残差(定义为:,也就是随机区组方差分析中的误差项)的方差齐性且小样本时正态分布,则用随机区组的方差分析(无重复的两因素方
16、差分析,Two-way ANOVA)。b)不满足方差齐性或小样本时资料偏态,则对用秩变换后再用随机区组的方差分析也可以直接用非参数随机区组的秩和检验Fredman test)。例2下表是某湖水中8个观察地点不同季节取样的氯化物含量测定值,请问在不同季节该湖水中氯化物的含量有无差别?表2 某湖水中不同季节的氯化物含量测定值(mg/L)location no春夏秋冬121.2818.3317.2714.91222.7819.8116.5514.85320.9018.9316.3616.30419.9021.2317.8615.73521.4919.0915.1117.05622.3817.9216
17、.5714.34721.6719.3917.1916.31822.0619.6516.5814.33显然同一地点不同季节的氯化物含量有一定的相关性,故不能采用完全随机设计的方差分析方法对4个季节的氯化物含量进行统计分析。可以把同一地点的4个季节氯化物含量视为一个区组,因此可以用随机区组的方差分析进行统计分析。设第8个地点在冬季的氯化物总体均数为 0,同样在冬季,第i个地点的氯化物总体均数与第8个地点在冬季的氯化物总体均数相差 i,i=1,2,3,4,5,6,7。因此在冬季的这8个地点在冬季的氯化物总体均数可以表示为地点编号12345678冬季氯化物均数 0+ 1 0+ 2 0+ 3 0+ 4
18、0+ 5 0+ 6 0+ 7 0假定在同一地区,春季的氯化物总体均数与冬季的氯化物总体均数相差 1,因此春节和冬季的氯化物总体均数可以表示为地点编号12345678冬季氯化物均数 0+ 1 0+ 2 0+ 3 0+ 4 0+ 5 0+ 6 0+ 7 0春季氯化物均数 0+ 1+ 1 0+ 1+ 2 0+ 1+ 3 0+ 1+ 4 0+ 1+ 5 0+ 1+ 6 0+ 1+ 7 0如果 10说明在同一地点,冬季和春季的氯化物总体均数相同; 10说明春季的氯化物含量平均高于冬季氯化物含量,反之 0,说明春季氯化物含量均数低于冬季氯化物含量。同理假定在同一地区,夏季和秋季的氯化物总体均数与冬季的氯化
19、物总体均数分别相差 2和 3,则四个季节的氯化物总体均数可以表示为地点编号12345678冬季氯化物均数 0+ 1 0+ 2 0+ 3 0+ 4 0+ 5 0+ 6 0+ 7 0春季氯化物均数 0+ 1+ 1 0+ 1+ 2 0+ 1+ 3 0+ 1+ 4 0+ 1+ 5 0+ 1+ 6 0+ 1+ 7 0夏季氯化物均数 0+ 2+ 1 0+ 2+ 2 0+ 2+ 3 0+ 2+ 4 0+ 2+ 5 0+ 2+ 6 0+ 2+ 7 0春季氯化物均数 0+ 3+ 1 0+ 3+ 2 0+ 3+ 3 0+ 3+ 4 0+ 3+ 5 0+ 3+ 6 0+ 3+ 7 0根据上述总体均数表示,可以知道:
20、在四个季节中的氯化物总体均数(同一地点)无变化就是H0: 1= 2= 3=0(在随机区组方差分析中称为无处理效应,但不能称4组的总体均数相同,因为在同一季节中不同地点的总体均数可能不同)。H1: 1, 2, 3不全为0Stata 数据输入格式Tidx1121.275891222.776491320.899431419.90431521.49291622.380851721.673441822.061332118.334052219.805382318.929192421.228142519.092152617.92372719.385692819.649713117.271413216.545673316.360193417.855483515.112963616.565073717.187343816.582794114.905594214.851274316.297824415.72864517.051694614.340884716.313674814.33015其中id表示观察地点编号,t1,2,3,4对应表示春节、夏季、秋季和冬季。Stat
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1