均值比较与检验.docx
《均值比较与检验.docx》由会员分享,可在线阅读,更多相关《均值比较与检验.docx(20页珍藏版)》请在冰豆网上搜索。
均值比较与检验
第五章均值比较和检验
(内部资料,禁止外流)
统计分析常常采取抽样研究的方法,即从总体中随机抽取一定数量的样本进行研究来推断总体的特性。
由于总体中的每个个体间均存在差异,即使严格遵守随机抽样原则也会由于多抽到一些数值较大或较小的个体致使样本统计量与总体参数之间有所不同。
又由于实验者测量技术的差别或测量仪器精确程度的差别等等也会造成一定的偏差,使样本统计量与总体参数之间存在差异。
由此可以得到这样的认识:
均值不相等的两组样本不一定来自均值不同的总体。
能否用样本均值估计总体均值?
两个变量均值接近的样本是否来自均值相同的总体?
换句话说,两组样本某变量均值不同,其差异是否具有统计意义?
能否说明总体差异?
这是各种研究工作中经常提出的问题。
这就要进行均值比较。
在正态或近似正态分布的计量资料中(如临床常见的体温、血压、脉搏、身高、体重等测量值,几乎均为此类资料),经常在使用前一章计量资料描述过程分析后,还要进行组与组之间平均水平的比较。
本章将分别介绍这一统计方法:
即常用的t检验和单因素方差分析(后面介绍)。
MEANS过程:
不同水平下(不同组)的描述统计量,如男女的平均工资,各工种的平均工资。
目的在于比较。
术语:
水平数(指分类变量的值数,如sex变量有2个值,称为有两个水平)、单元Cell(指因变量按分类变量值所分的组)、水平组合
Ttest过程:
对样本进行T检验的过程
单一样本的T检验:
检验单个变量的均值是否与给定的常数之间存在差异。
独立样本的T检验:
检验两组不相关的样本是否来自具有相同均值的总体(均值是否相同,如男女的平均收入是否相同,是否有显著性差异)
配对T检验:
检验两组相关的样本是否来自具有相同均值的总体(前后比较,如训练效果,治疗效果)
如果分析变量明显是非正态分布的,应该选择非参数检验过程
假设检验中非常基础和重要的t检验,采用小概率反证法原理,基本思想是:
首先假设
成立,然后考察在
成立的条件下,按照现有样本量做随机抽样,在相应的总体中抽到现有样本,以及比现有样本和总体的差异更大的样本的累积概率,如果相应的概率
(检验水平),则拒绝
假设,接受对立的
假设,认为现有样本并非来自于所假定的总体
第一节Means过程
5.1.1主要功能
与第四章中Descriptives过程相比,若仅仅计算单一组别的均数和标准差,Means过程并无特别之处;但若用户要求按指定条件分组计算均数和标准差,如分性别同时分年龄计算各组的均数和标准差,则用Means过程更显简单快捷。
功能:
分组计算、比较指定变量的描述统计量。
包括均值、标准差、总和、观测数、方差等等,还可以给出方差分析表和线性检验结果。
5.1.2实例操作
[例5.1]某医师测得如下血红蛋白值(g%),试作基本的描述性统计分析:
对象编号
性别
年龄
血红蛋白值
对象编号
性别
年龄
血红蛋白值
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
女
男
女
女
男
男
女
男
女
女
男
男
男
女
女
女
男
男
女
男
18
16
18
17
16
18
16
18
18
17
18
18
16
17
17
17
17
16
16
18
12.83
15.50
12.25
10.06
10.88
9.65
8.36
11.66
8.54
7.78
13.66
10.57
12.56
9.87
8.99
11.35
14.56
12.40
8.05
14.03
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
女
男
男
女
女
女
女
男
男
男
男
女
女
女
男
男
男
男
女
男
16
16
18
18
17
18
17
16
16
18
16
16
18
18
18
18
17
17
16
16
11.36
12.78
15.09
8.67
8.56
12.56
11.56
14.67
7.88
12.35
13.65
9.87
10.09
12.55
16.04
13.78
11.67
10.98
8.78
11.35
5.1.2.1数据准备
激活数据管理窗口,定义变量名:
性别为sex,年龄为age,血红蛋白值为hb。
按顺序输入数据(sex变量中,男为1,女为2),结果见图5.1。
图5.1原始数据的输入
5.1.2.2统计分析
激活Statistics菜单选CompareMeans中的Means...项,弹出Means对话框(如图5.2示)。
今欲分性别同时分年龄求血红蛋白值的均数和标准差,故在对话框左侧的变量列表中选hb,点击钮使之进入DependentList框,选sex点击钮使之进入IndependentList框,点击Next,可选定分组的第二层次(Layer2of2),选age点击钮亦使之进入IndependentList框。
点击Options...可选统计项目:
在CellDisplays项中,Mean为均数、Standarddeviation为标准差、Variance为方差、Count为观察单位数、Sum为观察值总和,在StatisticsforFirstLayer项中,将为第一层次的分组计算方差分析(ANOVAtableandeta)和线性检验(Testoflinearity)。
选好后点击Continue钮返回Means对话框,点击OK钮即可。
图5.2Means对话框
5.1.2.3结果解释
在结果输出窗口中将看到如下统计数据:
--DescriptionofSubpopulations--
SummariesofHB
BylevelsofSEX
AGE
VariableValueLabelSumMeanStdDevVarianceCases
ForEntirePopulation457.7911.44482.26905.148440
SEX1265.7112.65292.05314.215421
AGE16111.6712.40782.24555.04239
AGE1737.2112.40331.89933.60743
AGE18116.8312.98112.09334.38219
SEX2192.0810.10951.69892.886319
AGE1646.429.28401.34941.82095
AGE1768.179.73861.40361.97007
AGE1877.4911.07001.91583.67037
TotalCases=40
ForEntirePopulation一行表示40个观察值合计为457.79,均数为11.4448,标准差为2.2690,方差为5.1484,例数为40;接下去各行分别表示先按性别分组(分男性与女性),再按年龄分组(16,17,18岁三组)的观察值合计、均数、标准差、方差和例数。
若在IndependentList中未分层次,即sex和age一起放在Layer1of1中,则结果是分别计算男性与女性(不作年龄分组)、16,17,18岁三组(不作性别分组)的观察值合计、均数、标准差、方差和例数(如下所示)。
--DescriptionofSubpopulations--
SummariesofHB
BylevelsofSEX
VariableValueLabelSumMeanStdDevVarianceCases
ForEntirePopulation457.7911.44472.26905.148440
SEX1265.7112.65292.05314.215421
SEX2192.0810.10951.69892.886319
TotalCases=40
SummariesofHB
BylevelsofAGE
VariableValueLabelSumMeanStdDevVarianceCases
ForEntirePopulation457.7911.44482.26905.148440
AGE16158.0911.29212.46496.075914
AGE17105.3810.53801.94213.771910
AGE18194.3212.14502.18274.764016
TotalCases=40
第二节One-SamplesTTest过程
概念:
检验单个变量的均值是否与给定的常数(指定的检验值)之间是否存在显著差异。
如:
研究人员可能想知道一组学生的IQ平均分与100分的差异。
要求样本来自正态分布总体。
菜单:
Analyze->CompareMeans->One-SamplesTtest
TestVariable(s):
要求平均值的变量(一般是定距变量)
TestValue:
常数
零假设H0:
样本均值Mean=常数(检验值);
结果中比较有用的值:
Mean和Sig显著性概率值
例:
某工厂用自动打包机打包,每包标准质量为100kg。
为保证生产顺利进行,每天开工后需要先行试机,检查打包机是否有系统偏差,以及时进行调整。
某日开工后在试机中共打了9个包,测得9包的质量(kg)为:
99.398.7100.5101.298.399.799.5102.1100.5
现希望做出判断,明确打包机是否需要进行调整
这个问题只有一个随机抽取的样本,研究目的是推断这个样本相应的总体均数是否等于(大于、小于)某个已知总体均数。
首先建立相应假设
打包机正常工作
打包机不正常工作,
具体操作见前,可得对话框:
One-SampleTest
TestValue=100
t
df
Sig.(2-tailed)
MeanDifference
95%ConfidenceIntervaloftheDifference
Lower
Upper
weight
-.055
8
.957
-.02222
-.9540
.9096
上表为单样本t检验的分析结果,表格第一行表明了用于比较的已知总体均数为100,下面从左到右依次为t值,自由度,P值、两均数的差值、差值的95%的置信区间。
由上面的检验结果t=-0.055,P值为0.957可知,由于P值远大于检验水平0.05,因此不拒绝原假设,即认可打包机正常工作
第三节Independent-SamplesTTest过程
5.2.1主要功能
调用此过程可完成两样本均数差别的显著性检验,即通常所说的两组资料的t检验。
用于检验对于两组来自独立总体的样本,其独立总体的均值或中心位置是否一样。
如果两组样本彼此不独立,应使用配对T检验(Paired-SampleTTest)。
如果分组不止一个,应使用One-WayANOVA过程进行单变量方差分析。
如果想比较的变量是分类变量,应使用Crosstabs功能。
独立样本T检验还要求总体服从正态分布,如果总体明显不服从正态分布,则应使用非参数检验过程(Nonparametrictest)
要求:
a.被比较的两组样本彼此独立,没有配对关系
b.两组样本均来自正态总体
c.均值是对于检验有意义的描述统计量
两组样本方差相等和不等时使用的计算t值的公式不同。
因此应该先对方差进行齐次性检验。
SPSS的输出,在给出方差齐和不齐两种计算结果的t值,和t检验的显著性概率的同时,还给出对方差齐次性检验的F值和F检验的显著性概率。
用户需要根据F检验的结果自己判断选择t检验输出中的哪个结果,得出最后结论。
进行方差齐次检验使用F检验。
对应的零假设是:
两组样本方差相等。
概率p<0.05时,否定原假设,说明方差不齐;否则两组方差无显著性差异。
F计算公式为:
F=MAX(v1,v2)/MIN(v1,v2)(方差比)
菜单:
Analyze->CompareMeans->IndependentSamplesTtest
TestVariable(s):
要求平均值的变量(一般是定距或定序变量)
GroupingVariable:
分组变量(只能分成两组)
结果中比较有用的值:
方差齐次性检验F的Sig和方差相等或不相等的Sig(Sig为显著性概率值)
5.2.2实例操作
[例5.2]分别测得14例老年性慢性支气管炎病人及11例健康人的尿中17酮类固醇排出量(mg/dl)如下,试比较两组均数有无差别。
病人
2.905.415.484.604.035.104.974.244.362.722.372.097.105.92
健康人
5.188.793.146.463.726.645.604.577.714.994.01
5.2.2.1数据准备
激活数据管理窗口,定义变量名:
把实际观察值定义为x,再定义一个变量group来区分病人与健康人。
输入原始数据,在变量group中,病人输入1,健康人输入2。
结果如图5.3所示。
图5.3两组资料t检验的原始数据
5.2.2.2统计分析
激活Statistics菜单选CompareMeans中的Independent-samplesTTest...项,弹出Independent-samplesTTest对话框(如图5.4示)。
从对话框左侧的变量列表中选x,点击钮使之进入TestVariable(s)框,选group点击钮使之进入GroupingVariable框,点击DefineGroups...钮弹出DefineGroups定义框,在Group1中输入1,在Group2中输入2,点击Continue钮,返回Independent-samplesTTest对话框,点击OK钮即完成分析。
图5.4Independent-samplesTTest对话框
5.2.2.3结果解释
在结果输出窗口中将看到如下统计数据:
t-testsforindependentsamplesofGROUP
Number
VariableofCasesMeanSDSEofMean
---------------------------------------------------------------
X
GROUP1144.37791.450.387
GROUP2115.52821.735.523
---------------------------------------------------------------
MeanDifference=-1.1503
Levene'sTestforEqualityofVariances:
F=.440P=.514
这一部分显示两组资料的例数(Numbersofcases)、均数(Mean)、标准差(SD)和标准误(SEofMean),显示两均数差值为1.1503,经方差齐性检验:
F=.440P=.514,即两方差齐。
t-testforEqualityofMeans95%
Variancest-valuedf2-TailSigSEofDiffCIforDiff
-----------------------------------------------------------------------
Equal-1.8123.084.637(-2.468,.167)
Unequal-1.7719.47.093.651(-2.513,.213)
-----------------------------------------------------------------------
这一部分显示t检验的结果,第一行表示方差齐情况下的t检验的结果,第二行表示方差不齐情况下的t检验的结果。
依次显示值(t-value)、自由度(df)、双侧检验概率(2-TailSig)、差值的标准误(SEofDiff)及其95%可信区间(ClforDiff)。
因本例属方差齐性,故采用第一行(即Equal)结果:
t=1.81,P=0.084,差别有显著性意义,即老年性慢性支气管炎病人的尿中17酮类固醇排出量低于健康人。
第三节Paired-SamplesTTest过程
5.3.1主要功能
要求:
a.被比较的两组样本有配对关系
b.两组样本均来自正态总体
c.均值是对于检验有意义的描述统计量。
配对样本T检验实际上是先求出每对观测值之差值,对差值变量求平均。
检验配对变量均值之间差异是否显著。
实质是检验差值变量的均值与0之间差异的显著性。
菜单:
Analyze->CompareMeans->PairedSamplesTtest(注意数据结构,即前后在一个观测量中)
PairedVariables:
配对两变量
结果中比较有用的值:
差值变量的均值Mean和Sig显著性概率值
调用此过程可完成配对资料的显著性检验,即配对t检验。
在医学领域中,主要的配对资料包括:
同对(年龄、性别、体重、病况等非处理因素相同或相似者)或同一研究对象分别给予两种不同处理的效果比较,以及同一研究对象处理前后的效果比较。
前者推断两种效果有无差别,后者推断某种处理是否有效。
5.3.2实例操作
[例5.2]某单位研究饲料中缺乏维生素E与肝中维生素A含量的关系,将大白鼠按性别、体重等配为8对,每对中两只大白鼠分别喂给正常饲料和维生素E缺乏饲料,一段时期后将之宰杀,测定其肝中维生素A含量(mol/L)如下,问饲料中缺乏维生素E对鼠肝中维生素A含量有无影响?
大白鼠对别
肝中维生素A含量(mol/L)
正常饲料组
维生素E缺乏饲料组
1
2
3
4
5
6
7
8
37.2
20.9
31.4
41.4
39.8
39.3
36.1
31.9
25.7
25.1
18.8
33.5
34.0
28.3
26.2
18.3
5.3.2.1数据准备
激活数据管理窗口,定义变量名:
正常饲料组测定值为x1,维生素E缺乏饲料组测定值为x2,数据输入后结果如图5.5所示。
图5.5配对t检验的原始数据
5.3.2.2统计分析
激活Statistics菜单选CompareMeans中的Paired-samplesTTest...项,弹出Paried-samplesTTest对话框(如图5.6示)。
从对话框左侧的变量列表中点击x1,这时在左下方的CurrentSelections框中Variable1处出现x1,再从变量列表中点击x2,左下方的CurrentSelections框中Variable2处出现x2。
点击钮使x1、x2进入Variables框,点击OK钮即完成分析。
图5.6Paried-samplesTTest对话框
5.3.2.3结果解释
在结果输出窗口中将看到如下统计数据:
---t-testsforpairedsamples---
Numberof2-tail
VariablepairsCorrSigMeanSDSEofMean
--------------------------------------------------------------------------------------------------------------
X134.75006.6492.351
8.586.127
X226.23755.8212.058
-------------------------------------------------------------------------------
这段结果显示本例共有8对观察值,相关系数(C)为0.586,相关系数的显著性检验表明P=0.127;变量x1的均数(Mean)、标准差(SD)、标准误(SEofMean)分别为34.7500、6.649、2.351,变量x2的均数、标准差、标准误分别为26.2375、5.821、2.058。
PairedDifferences|
MeanSDSEofMean|t-valuedf2-tailSig
----------------------------------------------------|--------------------------------------------------
8.51255.7192.022|4.217.004
95%CI(3.730,13.295)|
这段结果显示变量x1、x2两两相减的差值均数、标准差、标准误95%可信区间(95%Cl)分别为8.5125、5.719、2.022,95%可信区间(95%Cl)为3.730,13.295。
配对检验结果为:
t=4.21,P=0.004,差别具高度显著性意义,即饲料中缺乏维生素E对鼠肝中维生素A含量确有影响。
作业:
(不用交)
1data08-01表示不同性别的学生的身高和体重,请分析不同性别的学生身高和体重是否存在差异?
2某地12岁男孩的平均身高为142.5cm,而某市测量120名12岁男孩身高资料data08-02,检验该市12岁男孩平均身高与该地区12岁男孩平均身高是否有显著性差异
3用某药治疗10名高血压病人,对每个病人资料前、后的舒张压(mmHg)进行测量,问该药有无将压作用?
编号
1
2
3
4
5
6
7
8
9
10
资料前
120
127
141
107
110
114
115
138
127
122
资料后
123
108
120
107