均值的比较CompareMeans.docx
《均值的比较CompareMeans.docx》由会员分享,可在线阅读,更多相关《均值的比较CompareMeans.docx(39页珍藏版)》请在冰豆网上搜索。
均值的比较CompareMeans
第三讲:
均值比较与回归分析
教学目的:
能应用SPSS软件进行:
单个均值假设检验、均值比较分析、相关分析、回归分析等
教学内容:
1)均值的比较
2)相关分析
3)回归分析
教学重点:
均值比较分析、回归分析
教学难点:
均值比较分析
教学时间:
1学时
均值的比较CompareMeans
调查研究中的个案(Cases)被称为样本。
如果样本来自总体,那么,总体的特征可以采用集中趋势或离中趋势加以描述和统计,其结果可以准确地描述总体。
一般地,数据总体的均值应为0,方差应为1,即服从标准正态分布。
现实中,样本的均值与方差都不能满足该条件,但可加大样本规模使之分布接近总体的正态分布。
在SPSS中,将两个总体均值近比较称为CompareMeans,可选择Analyze→CompareMeans来实现。
CompareMeans集中了几个用于计量资料均值间比较的过程。
具体有:
●Means过程:
对准备比较的各组计算描述指标,进行预分析,也可直接比较。
●One-SamplesTTest过程:
进行样本均值与已知总体均值的比较。
●Independent-SamplesTTest过程:
进行两样本均值差别的比较,即通常所说的两组资料的t检验。
●Paired-SamplesTTest过程:
进行配对资料的显著性检验,即配对t检验。
●One-WayANOVA过程:
进行两组及多组样本均值的比较,即成组设计的方差分析,还可进行随后的两两比较。
1.1 Means过程
和上一章所讲述的几个专门的描述过程相比,Means过程的优势在于各组的描述指标被放在一起便于相互比较,并且如果需要,可以直接输出比较结果,无须再次调用其他过程。
显然要方便得多。
1.1.1 界面说明
选择Analyze→CompareMeans→Means,进入Means对话框,见图1.1a。
其各部分解释如下:
图1.1aMeans对话框
●DependentList框:
用于选入需要分析的变量。
●IndependentList框:
用于选入分组变量。
●Options:
弹出Options对话框(见图1.1b),选择需要计算的描述统计量和统计分析:
●Statistics框:
可选的描述统计量。
它们是:
1.sum,numberofcases总和,记录数
2.mean,geometricmean,harmonicmean均值,几何均值,修正均值
3.standarddeviation,variance,standarderrorofthemean标准差,均值的标准误,方差
4.median,groupedmedian中位数,频数表资料中位数(比如30岁组有5人,40岁组有1人,则在计算groupedmedian时均按组中值35和45进行计算)。
5.minimum,maximum,range最小值,最大值,全距
6.kurtosis,standarderrorofkurtosis峰度系数,峰度系数的标准误
7.skewness,standarderrorofskewness偏度系数,偏度系数的标准误
8.percentageoftotalsum,percentageoftotalN总和的百分比,样本例数的百分比
●CellStatistics框:
选入的描述统计量。
●StatisticsforFirstlayer复选框组
1.Anovatableandeta对分组变量进行单因素方差分析,并计算用于度量变量相关程度的eta值。
2.Testforlinearity检验线性相关性,实际上就是上面的单因素方差分析。
图1.1bMeans中的Options对话框
1.1.2 分析案例
例1.1利用111.sav文件中的数据分析,不同性别sex、月收入income、年龄age等q9(即被访问者最近一次参加促销活动的消费)的不同表现。
上述问题采用Means来解决。
如果分析消费与性别的关系,或者说研究男女消费的差异,则月收入和年龄就是两个控制变量。
当然,也可分析消费与与收入的关系、消费与年龄的关系,相应地,另两个变量就成了控制变量了。
这里只给出男女消费差异求解的简化操作:
1.Analyze→CompareMeans→Means
2.Dependentlist框:
选入q9
3.Independentlist框:
依次选入sex、income、age(注意:
sex一定要放在第一位)
4.单击option:
选中Anovatableandeta复选框,单击Continue
5.单击OK
1.1.3 结果解释
有了上一章的基础,Means过程的输出看起来就不太困难了。
它的输出结果包括CaseProcessingSummary、Report、ANOVATable、MeasuresofAssociation等。
●缺失值报告。
312个Cases均有效。
CaseProcessingSummary
Cases
Included
Excluded
Total
N
Percent
N
Percent
N
Percent
被访问者最近一次参加促销活动的消费*被访问者性别*被访问者年龄*被访问者月收入
312
100.0%
0
.0%
312
100.0%
●常用统计描述量报表。
由于Report表太长,这里只给出了一部分,但人可以看出表的结构。
表中的结果是按默认情况输出均值、样本量和标准差。
因为选择了分组变量,所以三项指标均给出分组及合计值,可见以这种方式列出统计量可以非常直观的进行各组间的比较。
●单因素方差分析表。
在选择了Anovatableandeta或Testforlinearity复选框时出现。
实际上就是在检验各组间均值有无差异。
表中结果显示:
组间BetweenGroups的离差平方和为154.914,自由度为1(即只有一个因素Sex);而组内WithinGroups的离差平方和为1415811.715,自由度为310;最后F值为0.033,F值的概率为0.851>>0.05,表明没有理由拒绝系统默认的原假设——不同性别的消费相同,可认为男女参加促销活动的消费没有什么区别。
ANOVATable
SumofSquares
df
MeanSquare
F
Sig.
被访问者最近一次参加促销活动的消费*被访问者性别
BetweenGroups
(Combined)
154.914
1
154.914
.033
.851
WithinGroups
1415811.715
310
4728.102
Total
1411021.179
311
●相关性度量指标,给出Eta值以及Eta值的平方根。
表中数据说明两者关系较弱。
MeasuresofAssociation
Eta
EtaSquared
被访问者最近一次参加促销活动的消费*被访问者性别
.010
.000
1.2 One-SamplesTTest过程
One-SamplesTTest过程用于进行样本所在总体均值与已知总体均值的比较,可以自行定义已知总体均值为任意值,该对话框的界面非常简单。
1.2.1 界面说明
选择Analyze→CompareMeans→One-SamplesTTest,进入对话框,见图1.2a。
其各部分解释如下:
图1.2aOne-SamplesTTest对话框
●TestVariables框:
用于选入需要分析的变量。
●TestValue框:
在此处输入已知的总体均值,默认值为0。
●Options:
弹出Options对话框(见图1.2b),用于定义相关的选项,有:
●ConfidenceInterval框输入需要计算的均值差值可信区间范围,默认为95%。
如果是和总体均值为0相比,则此处计算的就是样本所在总体均值的可信区间。
●MissingValues单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludescasesanalysisbyanalysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludescaseslistwise)。
默认为前者,以充分利用数据。
图1.2bOne-SamplesTTest的Options对话框
1.2.2 分析案例
比如要检验数据l11.sav中q9(消费)的总体均值是否等于200。
采用One-SamplesTTest的简要操作步骤如下:
1.Analyze→CompareMeans→One-SamplesTTest
2.TestVariable(s)框:
选入q9
3.TestValue框:
填入200
4.单击OK
1.2.3结果解释
One-SamplesTTest过程的输出也是比较简单的,由描述统计表和t检验表组成。
上例的输出如下:
●One-SampleStatistics分析表。
所分析变量的基本情况描述,有样本量、均值、标准差和标准误。
One-SampleStatistics
N
Mean
Std.Deviation
Std.ErrorMean
被访问者最近一次参加促销活动的消费
312
114.03
18.158
3.887
●单样本t检验表,第一行注明了用于比较的已知总体均值为200,下面从左到右依次为t值(t)、自由度(df)、P值(Sig.2-tailed)、两均值的差值(MeanDifference)、差值的95%可信区间。
由上表可知:
t=-9.253,P=0.000<0.05。
因此可以认为消费的总体均值不等于200。
One-SampleTest
TestValue=200
t
df
Sig.(2-tailed)
MeanDifference
95%ConfidenceIntervaloftheDifference
Lower
Upper
被访问者最近一次参加促销活动的消费
-9.253
311
.000
-35.97
-43.12
-28.32
1.3 Independent-SamplesTTest过程
Independent-SamplesTTest过程用于进行两样本均值的比较,即常用的两样本t检验。
该对话框的界面和上面的One-SamplesTTest对话框非常相似。
1.3.1 界面说明
选择Analyze→CompareMeans→Independent-SamplesTTest,进入对话框,见图1.3a。
其各部分解释如下:
图1.3aIndependent-SamplesTTest对话框
●TestVariables框:
用于选入需要分析的变量。
●GroupingVariable框:
用于选入分组变量。
注意选入变量后还要定义需比较的组别。
●DefineGroups:
单击后进入对话框(见图1.3b),用于定义需要相互比较的两组的分组变量值。
如果分组变量有3个取值(即有三组),而这个t检验是比较其中的某两组,这时就可以用DefineGroups框来指定需比较的两组。
当然,如果分组变量只有2个取值时,仍然要再该框中进行定义,这也算是SPSS对话框存在的一个小缺陷吧。
图1.3bIndependent-SamplesTTest的DefineGroups对话框
●Options:
和One-SamplesTTest对话框的Options完全相同,此处不再重复。
1.3.2分析案例
要求检验数据l11.sav中不同年龄组的消费q9是否相同。
当然只能两个年龄组相比,如比较25岁以下与25-35岁两个组的消费均值是否相同。
采用Independent-SamplesTTest的简要操作步骤如下:
1.Analyze→CompareMeans→Independent-SamplesTTest
2.TestVariable(s)框:
选入q9
3.GroupingVariable框:
选入age
4.单击DefineGroups:
在Group1框内输入1,Group2框内输入2,然后单击Continue
5.单击OK
1.3.3结果解释
用Independent-SamplesTTest过程的结果输出如下:
●两组需检验变量的基本情况描述。
GroupStatistics
被访问者年龄
N
Mean
Std.Deviation
Std.ErrorMean
被访问者最近一次参加促销活动的消费
25岁以下
53
110.12
11.441
9.121
25-35岁
188
113.39
18.385
4.987
●IndependentSamplesTest分析表。
该结果分为两大部分:
第一部分为Levene's方差齐性检验,用于判断两总体方差是否齐,这里的检验结果为F=0.251,P=0.113>0.05,可见在本例中方差是齐的;第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果,由于前面的方差齐性检验结果为方差齐,第二部分就应选用方差齐时的t检验结果,即上面一行列出的t=-0.212,df=239,P=0.793>0.05,从而拒绝H0,认为这两个年龄组的消费没什么不同。
从上面的统计结果看,两个样本均值相差无几,也可认为两个组的消费无显著差异。
最后面还附有一些其他指标,如两组均值的可信区间等,以对差异情况有更直观的了解。
1.4 Paired-SamplesTTest过程
该过程用于进行配对设计的样本差值均值与总体离差均值0比较的t检验,它和One-SamplesTTest过程相重复的(等价于已知总体均值为0的情况),但Paired-SamplesTTest过程使用的数据输入格式和前者不同,即通常所称的统计表格格式,因此仍然有存在的价值。
1.4.1 界面说明
选择Analyze→CompareMeans→Paired-SamplesTTest,即可进入对话框,见图1.4。
整个界面上只有一个PairedVariable框需要介绍,它用于选入希望进行比较的一对或几对变量(注意这里的量词是对而不是个)。
选入变量需要成对成对的选入,即按住Ctrl键,选中两个成对变量,再单击
将其选入。
如果只选中一个变量,则
按钮为灰色,不可用。
图1.4Paired-SamplesTTest对话框
1.4.2 分析实例
例1.2某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中维生素A含量有无差别?
大白鼠对号
正常饲料组
维生素E缺乏
1
3550
2450
2
2000
2400
3
3000
1800
4
3950
3200
5
3800
3250
1
3750
2700
7
3450
2500
8
3050
1750
为了说明问题,此处假设输入数据时就按照上表格式输入,其中正常饲料组变量名为G1,维生素E缺乏组变量名为G2。
操作如下:
1.同时选中G1、G2:
选入PairedVariables框
2.单击OK
1.4.3 结果解释
以例1.1为例,其输出结果如下:
●配对变量各自的统计描述,此处只有1对,故只有Pair1。
●此处进行配对变量间的相关性分析。
等价于Analyze→Correlate→Bivariate。
●配对t检验表,给出最终的检验结果,由上表可见P=0.004,故可认为两种饲料所得肝中维生素A含量有差别,即维生素E缺乏对大白鼠肝中维生素A含量有影响。
上表的标题内容翻译如下:
对子间的差异
差值均值
标准差
标准误
均值的95%可信区间
t值
自由度
P值(双侧)
下限
上限
第一对
G1-G2
812.5000
541.2535
193.1298
355.8207
1219.1793
4.207
7
.004
1.5 One-WayANOVA过程
One-WayANOVA过程用于进行两组及多组样本均值的比较,即成组设计的方差分析,如果做了相应选择,还可进行随后的两两比较,甚至于在各组间精确设定哪几组和哪几组进行比较,在本章的内容中,它是最为复杂的一个,但是有了前面的基础,拿下他应该不成问题。
1.5.1 界面说明
选择Analyze→CompareMeans→Paired-One-WayANOVA,即可进入对话框,见图1.5a。
其各部分的解释如下:
图1.5aPaired-One-WayANOVA对话框
●DependentList框:
选入需要分析的变量,可选入多个结果变量(因变量)。
●Factor框:
选入需要比较的分组因素,只能选入一个。
●Contrast:
弹出Contrast对话框(见图1.5b),用于对精细趋势检验和精确两两比较的选项进行定义,由于该对话框太专业,也较少用,这里只做简单介绍。
●Polynomial复选框:
定义是否在方差分析中进行趋势检验。
●Degree下拉列表:
和Polynomial复选框配合使用,可选则从线性趋势一直到最高五次方曲线来进行检验。
●Coefficients框:
定义精确两两比较的选项。
这里按照分组变量升序给每组一个系数值,注意最终所有系数值相加应为0。
如果不为0仍可检验,只不过结果是错的。
比如说在下面的例1.2中要对第一、三组进行单独比较,则在这里给三组分配系数为1、0、-1,就会在结果中给出相应的检验内容。
●PostHoc:
弹出PostHocMultipleComparisons对话框(见图1.5c),用于选择进行各组间两两比较的方法,有:
●EquarVariancesAssumed复选框组:
一组当各组方差齐时可用的两两比较方法,共有14种。
这里不一一列出了,其中最常用的为LSD、S-N-K、Tukey等。
●EquarVariancesNotAssumed复选框组:
一组当各组方差不齐时可用的两两比较方法,共有4种,其中以Dunnetts'sC法较常用。
●SignificanceLevel框:
定义两两比较时的显著性水平,默认为0.05。
图1.5bOne-WayANOVA中的Contrasts对话框
图1.5cOne-WayANOVA中的PostHocMultipleComparisons对话框
●Options:
弹出Options对话框(见图1.5d),用于定义相关的选项,有:
●Statistics复选框组:
选择一些附加的统计分析项目,有统计描述(Descriptive)和方差齐性检验(Homogeneity-of-variance)。
●Meansplot复选框:
用各组均值做图,以直观的了解它们的差异。
●MissingValues单选框组:
定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludescasesanalysisbyanalysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludescaseslistwise)。
默认为前者,以充分利用数据。
图1.5cOne-WayANOVA中的Options对话框
1.5.2 分析实例
例1.3利用111.sav文件中q9(消费)、income(月收入)数据,研究四种收入群体的消费是否显著不同。
设111.sav数据文件已打开,分组变量为income,因变量为q9。
此处先进行单因素方差分析,然后进行两两比较,这里选择Tukey法进行两两比较。
操作如下:
1.Analyze→CompareMeans→Paired-One-WayANOVA
2.DependentList框:
选入q9
3.Factor框:
选入income
4.单击PostHoc:
选中Tukey复选框,单击Continue
5.单击OK
1.5.3 结果解释
上题的输出结果如下:
●一个典型的方差分析表。
给出了单因素方差分析的结果,可见F=1.001,P=0.390>0.05。
因此可认为四组收入群体的最近一次参加促销活动的消费无显著差异。
ANOVA
被访问者最近一次参加促销活动的消费
SumofSquares
df
MeanSquare
F
Sig.
BetweenGroups
14222.725
3
4740.908
1.001
.390
WithinGroups
1451798.955
308
4713.133
Total
1411021.179
311
上表的标题内容翻译如下:
离均差平方和SS
自由度
均方MS
F值
P值
组间变异
14222.725
3
4740.908
1.001
.390
组内变异
1451798.955
308
4713.133
总变异
1411021.179
311
●用Tukey法进行两两比较的结果。
简单的说,在表格的纵向上有各配对组的均值差异、标准差、P值及95%的置信区间,表格的横向上被分成了若干个亚组。
表中结果显示:
不同亚组间的P值都大于0.05,表明各组间两两比较均无有显著差异,可认为不同收入群体的消费几乎趋同。
PostHocTests
MultipleComparisons
DependentVariable:
被访问者最近一次参加促销活动的消费
TukeyHSD
(I)被访问者月收入
(J)被访问者月收入
MeanDifference(I-J)
Std.Error
Sig.
95%ConfidenceInterval
LowerBound
UpperBound
1000元以下
1000-1500元
9.55
8.901
.701
-13.45
32.51
1500-2000元
-5.55
11.418
.913
-35.17
24.07
2000元以上
21.09
18.050
.147
-25.54
17.72
1000-1500元
1000元以下
-9.