计数数据统计分析的SPSS操作.docx

上传人:b****6 文档编号:4560005 上传时间:2022-12-06 格式:DOCX 页数:15 大小:294.82KB
下载 相关 举报
计数数据统计分析的SPSS操作.docx_第1页
第1页 / 共15页
计数数据统计分析的SPSS操作.docx_第2页
第2页 / 共15页
计数数据统计分析的SPSS操作.docx_第3页
第3页 / 共15页
计数数据统计分析的SPSS操作.docx_第4页
第4页 / 共15页
计数数据统计分析的SPSS操作.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

计数数据统计分析的SPSS操作.docx

《计数数据统计分析的SPSS操作.docx》由会员分享,可在线阅读,更多相关《计数数据统计分析的SPSS操作.docx(15页珍藏版)》请在冰豆网上搜索。

计数数据统计分析的SPSS操作.docx

计数数据统计分析的SPSS操作

 

第七节计数数据统计分析的SPSS操作

对于计数数据的统计分析,SPSS提供了不同的分析和检验方法,从总体上来说,大致可以分为:

用于比率差异的非参数二项检验,用于离散型变量配合度检验的卡方检验、用于连续型变量配合度检验的单样本K-S检验和正态图检验法和用于独立性检验的列联表分析等,这一节我们简单介绍如何通过SPSS操作解决这些常见的计数数据分析的统计问题。

一、二项分布的非参数检验方法

我们常常需要检验一个事件在特定条件下发生的概率是否与已知结论相同,如某地区出生婴儿的性别比例是否与通常男女各半的结论相符,或在一次抽样中,男女两性所占的比例是否与原先设计好的比例相符。

此时即可用二项分布(Binomial)方法进行检验。

下面结合具体数据说明Binomial方法在检验比率差异时的应用。

1.数据

所用数据文件为SPSS目录下之GSS93subset.sav。

这里我们将该数据文件另寸为“8-6-1.sav”。

该文件中有一变量SEX,是回答者的性别,我们想检验这些回答者的性别是否各占一半。

2.理论分析

从上面数据来看,我们的目的是检验数据中男生和女生所占的比例是否相等,这等价于检验男生所占的比例是否等于0.5,可以用比例检验的方法进行检验。

在SPSS中对应于二项分布的检验(BinomialTest)过程。

3.二项分布检验过程

(1)打开该数据文件后点击菜单Analyze,在下拉菜单中选择NonparametricsTests子菜单中的Binomial…,单击可进入二项检验(BinomialTest)的主菜单。

把SEX变量选入到检验变量表列中,其他选项请保持默认(图8-1)。

图8-1:

二项分布检验主对话框

(2)请单击Options…按钮,打开对话框如图8-2所示。

在此我们想同时在结果中输出一些描述统计量及百分位数,可设置如图所示。

设置完成单击Continue按钮回到主对话框。

图8-2:

二项分布Options窗口

(3)在主对话框中点击OK得到程序运行结果。

4.结果及解释

(1)输出数据描述统计量信息

NParTests

DescriptiveStatistics

N

Mean

Std.Deviation

Minimum

Maximum

Percentiles

25th

50th(Median)

75th

Respondent'sSex

1500

1.57

.49

1

2

1.00

2.00

2.00

在描述统计表中,程序提供了样本容量、平均数、标准差、极值及三个百分位数。

(2)输出二项分布检验结果

BinomialTest

Category

N

ObservedProp.

TestProp.

Asymp.Sig.(2-tailed)

Respondent'sSex

Group1

Male

641

.43

.50

.000

Group2

Female

859

.57

Total

1500

1.00

aBasedonZApproximation.

在BinomialTest表中,所检验变量的有关信息,如男女两性的数目及比例,最后一项是双侧检验的显著性水平值。

本例数据检验结果表明:

男生组的人数641,在总人数中所占的比例为0.43,假设的总体比例为0.5,双侧检验的显著性小于.05,所以我们可以说男女两性回答者比例相同的假设不能成立,从表中可以看出,女性被试远多于男性被试(女生人数859人,所占比例0.57)。

5.非对称二项分布的检验

也可以用该程序来检验样本数据分布是否来自非对称分布的二项总体。

以刚才我们用过的数据为例,假如在调查设计时,调查者想控制被试性别比例(男:

女)为4:

6,在调查结束后分析数据资料中的性别比例是否与原先所设想的一致。

操作如下:

打开Binomial对话框,设置如下图8-3所示(指定检验的概率值为0.40):

图8-3:

非对称二项分布比率定义

用户可以自行检验程序运行的结果。

如果用户指定分析的变量中含有三个或更多的变量值,在定义二分值时,需要选择Cutpoint项,并在后面的方框中填入一个分界点,该分界点必须小于最大变量值,大于最小变量值。

小于或等于分界点的值形成第一项,大于分界点的值将形成第二项。

此时请注意如果指定检验概率值,它所对应的将是第一项的概率值。

请用户自行检验该程序。

二、配合度的检验

(一)、离散变量配合度检验——单样本χ2检验

这种方法可用于离散型变量的配合度检验,分析实际频数与理论频数是否一致。

它要求至少有一个变量,变量值为几个固定值,即一个因素多项分类的情况。

1.数据

采用SPSS文件夹中的CARS.SAV数据为例,具体说明这一方法的应用。

CARS.SAV数据文件中有一变量为origin,变量值为1、2、3三个整数,分别代表三个地区,这三个整数出现的总次数是405。

我们现在欲检验这三个地区所出现的频率是否与预期的270、65、70一致。

将该数据文件另存为“8-6-2.sav”。

2.理论分析

从上面数据来看,我们的主要目的是检验三个地区的实际观测频率与理论假设的270、65、70是否存在差异,属于离散变量配合度检验的问题,应用卡方检验。

3.单样本χ2检验过程和结果

(1)请单击主菜单Analyze/NonparametricTests/Chi-Square…,可进入单样本χ2检验的主对话框。

从左边变量表列中把指定分析的地区变量选入到右边检验变量表中去,在下面Expectedvalues中选择Values一项,并分别把理论次数填入到小方框中,并点击Add按钮完成设置。

如果我们欲检验的理论次数各组相等,则可以直接选择Allcategorieseaqual项即可。

在Expectedrange项中保持默认选择项即Getfromdata。

如果我们只想使用一部分按大小顺序排列的数据来进行分析,就可以选择Usespecifiedrange,并指定数据的下限与上限。

本例设置如下图11-1所示:

图11-1

(2)Exact…按钮可以保持默认选项。

Options…按钮允许用户指定输出结果是否包括描述性统计量,以及对缺失值的处理方法。

因与前面所讲述的用法相同,在此不再赘述。

点击Continue返回主对话框。

(3)在主对话框中点击OK,得到输出结果。

4.结果及解释

(1)描述统计量表列出了变量名、样本容量、平均数、标准差、最小值、最大值。

DescriptiveStatistics

N

Mean

Std.Deviation

Minimum

Maximum

CountryofOrigin

405

1.57

.80

1

3

(2)实际观测数与理论次数对照表列出了每个变量值的实际频数与理论次数及差值。

CountryofOrigin

ObservedN

ExpectedN

Residual

American

253

270.0

-17.0

European

73

65.0

8.0

Japanese

79

70.0

9.0

Total

405

本例中,美国(American)实际观测次数253人,理论期望次数270人,实际观测次数与理论次数的差异为-17;欧洲(European)实际观测次数73人,理论期望次数65人,实际观测次数与理论次数的差异为8;日本(Japanese)实际观测次数79人,理论期望次数70人,实际观测次数与理论次数的差异为9。

(3)χ2检验表列出了χ2值,自由度及显著性水平值。

在这种基于渐近分布的检验方法中,显著性水平小于0.05即可认为实际次数与理论次数差异显著,否则差异不显著。

TestStatisticsa

CountryofOrigin

Chi-Square

3.212

df

2

Asymp.Sig.

.201

a0cells(.0%)haveexpectedfrequencieslessthan5.Theminimumexpectedcellfrequencyis65.0.

在本例中,对应的卡方统计量的值为3.212(χ2=3.212),对应的自由度为2(df=2),显著性水平值为0.201>0.05,故可认为实际次数与理论次数无差异。

(二).连续型变量的配合度检验——正态分布的检验

有时在执行统计分析前,需要确定样本是否来自一个正态分布的总体。

在此我们介绍一种非参数检验的方法及相应的图形检验法。

1.单样本的K-S检验

(1)数据我们仍以SPSS目录下的数据文件GSS93subset.sav(或盘中文件8-6-1.sav)为例,我们欲检验educ变量值是否来自正态分布的总体。

(2)变量受教育程度可以看成是一个连续型的变量,要检验其分布是否为正态分布属于配合度检验的问题,可以用单样本的K-S检验。

(3)操作过程

单击主菜单Analyze/NonparametricsTest/1-SampleK-S…,进入主对话框,请设置如下图8-4所示:

图8-4:

单样本的柯尔莫哥洛夫—斯米诺夫检验主对话框

程序所能检验的四种分布:

Normal(正态分布)、Uniform(均匀分布)、Poisson(普阿松分布)和Exponedtial(指数分布)。

②单击Exact…可进入选择检验方法的对话框,如下图8-5所示:

图8-5:

K—S检验的Exact选项

Asymptoticonly是一种基于渐近分布的显著性水平的检验指标,通常显著性水平小于0.05则认为显著,适于大样本,如果样本过小或分布不好,该指标的适用性会降低。

MonteCarlo精确显著性水平的无偏估计,适用于样本过大无法使用渐近方法估计显著性水平的情况,可以不必依赖渐近方法的假设前提。

Exact精确计算观测结果的概率值,通常小于0.05即被认为显著,表明行变量与列变量之间存在相关。

同时允许用户键入每次检验的最长时间限制,可以键入1到9,999,999,999之间的数字,但只要一次检验超过指定时间的30分钟,就应该使用MonteCarlo方法。

注:

只要有可能,程序会提供显著性水平的精确值,而不是MonteCarlo估计值。

③单击Options按钮可以进入对话框。

选择是否输出描述统计量和百分位数,以及以缺失值的处理,由于与以前所用过的程序相差无几,所以在此不赘述。

④在主对话框点击OK得到程序执行结果。

(4)结果及解释

①描述统计量信息

DescriptiveStatistics

N

Mean

Std.Deviation

Minimum

Maximum

Percentiles

25th

50th(Median)

75th

HighestYearofSchoolCompleted

1496

13.04

3.07

0

20

12.00

12.00

15.75

描述统计量表列指定检验变量的标签、样本容量、平均数、标准差、最大值、最小值及三个百分位数。

②单样本的K-S检验结果

One-SampleKolmogorov-SmirnovTest

HighestYearofSchoolCompleted

N

1496

NormalParameters

Mean

13.04

Std.Deviation

3.07

MostExtremeDifferences

Absolute

.163

Positive

.134

Negative

-.163

Kolmogorov-SmirnovZ

6.317

Asymp.Sig.(2-tailed)

.000

aTestdistributionisNormal.

bCalculatedfromdata.

上表中输出了指定检验变量的正态参数,包括平均数与标准差,极端差的最大绝对值、正值及负值,K-SZ值,双侧检验的显著性水平。

由于渐近方法所检验的显著性水平小于0.05,所以变量educ的值并非来自一个正态分布的总体。

2.检验正态分布的图形

(1)Q-Q正态检验图

为了更形象地说明这一种结果,我们还将介绍一种图形检验方法。

仍以K-S检验所用数据文件和分析变量为例。

Q-Q正态检验图的操作过程如下:

单击主菜单Graphs/Q-Q…,请保持对话框如下图8-6所示的设置(即把欲检验的变量选入到指定变量表列中去,在TestDistribution选项中选择Normal即正态分布检验,其他设置保持默认):

图8-6:

Q-Q图定义窗口

单击完成后输出两个统计图如下所示。

图8-7为正态分布Q-Q检验图,横坐标为实际观测值按从小到大的顺序排列,纵坐标为正态分布下的期望值。

如果实际观测值取自正态分布的总体,那么图中所示的落点应该分布在趋势线的附近,并且应该表现出一定的集中趋势,即平均数附近应该聚集较多的落点,越靠近两个极端落点越少。

现在图中落点的分布尽管呈现出线性状态,但由于没有表现出集中趋势,所以可以判断它并非正态分布或接近正态分布。

图8-7:

正态分布Q-Q检验图

图8-8为无趋势正态检验图

图8-8为无趋势正态检验图,它以实际观测值为横坐标,以实际观测值与期望值的差为纵坐标。

在符合正态分布的情况下,图中的落点应该分布在中央横线的附近,甚至完全落到这条横线上,而且也应表现出集中在平均数周围的趋势。

现在图中所示的落点分布离散性较大,不符合正态分布标准,所以我们可以说该样本属非正态分布。

从这个图中,我们还可以发现极端值的存在,例如图中离中央线最远的几个落点,都落在下方,表明样本数据中存在极端小的观测值,这时,需要检查数据录入是否有误。

如果变量分布明显地呈现非正态,在进行一些要求正态分布前提下的分析以前,应当考虑对数据进行必要的变换。

(2)P-P正态检验图

单击主菜单Graphs/P-P…,进入主对话框。

设置与Q-Q程序相同,它的输出图形也与Q-Q极相似,唯一不同之处在于图形的横纵坐标都变成了累加百分比,横坐标为实际观测值的累加百分比,纵坐标为假定正态分布下有累加百分比。

是否接近正态分布的判断标准与Q-Q输出图相同。

三.独立性检验——列联表分析

列联表分析可以为我们提供每类的实际观测值、理论值、所占百分比、及差异检验结果。

1.数据

仍以SPSS文件夹中的数据文件GSS93subset.sav(或盘中文件“”8-6-1.sav)为例,在此数据中,有两个变量为income4(家庭年收入)与degree(学历)。

这两个变量都是按人为标准划分的定性变量(用户可以双击变量名,并在Labels按钮中看到变量值及其标签说明)。

现在我们想知道这两个变量之间是否存在关联,也就是说学历是否在年收入的不同分类上存在差异,反之亦然。

2.理论分析

如果要研究的两个变量都具有两项或更多的分类值,如体育项目的划分、人种的划分,或只是研究者按一定的标准分为不同的类别,如优、良、中、差,这种定性数据(或计数数据)之间关系(是指一个变量的不同分类在另一变量分类上是否存在差异,或者说两个变量是否相互关联)的研究通常使用列联表分析。

在分析过程中由于主要根据χ2分布进行,所以又常称其为χ2检验。

3.操作过程

(1)单击主菜单Analyze/DescriptiveStatistics/Crosstabs…可进入列联表分析的主对话框。

从左边变量表列中把指定分析的两个变量degree与income4分别选到到右边Row与Column框中,如图8-9所示:

图8-9:

Crosstabs…主对话窗口

(2)为了检验两个变量是否关联,我们需要对其进行检验。

这一步可以通过Statistics按钮进行。

单击该按扭可进入其设置对话框。

一般我们都需要输出χ2值及其检验结果,同时,在Nominal组中,我们还发现可以选择列联相关系数C,即Contingencycoefficient,这是检验R×C表品质相关常用的一个指标。

完成设置如下图8-10所示:

图8-10:

Crosstabs…统计量输出选择窗口

(3)SPSS在列联表时,允许用户自己控制表中的输出内容。

该项设置可以单击主菜单中Cells按钮来进行。

打开它的对话框如图8-11所示,可以看到共有三组可选项,下面具体说明:

·Counts次数

Observed实际观测频数

Expected理论次数

·Percentages百分比

Row横行次数百分比

Column纵列次数百分比

Total总共

·Resduals残差

Unstandardized残差,实际次数与理论次数之差。

Standardized标准化残差,残差除以其标准误,又称Pearson残差,其均值为0,准差为1。

Adj.Standardized调整标准化残差

图8-11:

Crosstabs…单元格输出选择窗口

点击Continue,返回主对话框。

(4)在主对话框中点击OK,得到程序运行结果。

4.结果及解释

(1)文件中观测量的概括描述列出了有效观测量、缺失值及全部观测量的个数和百分比。

CaseProcessingSummary

Cases

Valid

Missing

Total

N

Percent

N

Percent

N

Percent

INCOME4TotalFamilyIncome*DEGREERSHighestDegree

1496

99.7%

4

.3%

1500

100.0%

上表显示,总的观测为1500个,有效样本1496个,占99。

7%,缺失值4个,占0。

3%。

(2)R⨯C表表中列出了两个变量每项分类,由用户指定输出的内容,如实际次数与理论次数。

INCOME4TotalFamilyIncome*DEGREERSHighestDegreeCrosstabulation

DEGREERSHighestDegree

Total

0LessthanHS

1Highschool

2Juniorcollege

3Bachelor

4Graduate

INCOME4TotalFamilyIncome

1.0024,999orless

Count

196

315

25

39

9

584

ExpectedCount

108.9

304.5

35.1

91.3

44.1

584.0

2.0025,000to39,999

Count

28

175

21

58

18

300

ExpectedCount

55.9

156.4

18.0

46.9

22.7

300.0

3.0040,000to59,999

Count

16

121

23

52

18

230

ExpectedCount

42.9

119.9

13.8

36.0

17.4

230.0

4.0060,000ormore

Count

39

169

21

85

68

382

ExpectedCount

71.2

199.2

23.0

59.8

28.9

382.0

Total

Count

279

78

96

ExpectedCount

279.0

780.0

90.0

234.0

113.0

1496.0

(3)χ2检验表列出了三种χ2值及其显著性水平,若显著性水平小于临界值如0.05,则表明两变量互相关联,但不反映两变量的关联强度及方向。

在表的下方还附有单元格的理论次数小于5的个数及百分比,以及单元格的最小理论次数。

已有研究者建议当最小理论次数小于1或超过20%的单元格的理论次数小于5的时候不应选择该项,也有研究者建议所有单元格的理论次数都应大于或等于5。

为了达到这样的要求,在条件不具备的时候应该考虑对分类项目进行合并处理。

Chi-SquareTests

Value

df

Asymp.Sig.(2-sided)

PearsonChi-Square

264.299

12

.000

LikelihoodRatio

266.638

12

.000

Linear-by-LinearAssociation

194.175

1

.000

NofValidCases

1496

a0cells(.0%)haveexpectedcountlessthan5.Theminimumexpectedcountis13.84.

本例中数据检验结果表明:

3个统计量的值检验结果都达到了显著水平,说明检验的两个变量之间存在显著的关联。

(4)两变量的相关系数表列出了名义变量间的品质相关系数及显著性水平。

SymmetricMeasures

Value

Approx.Sig.

NominalbyNominal

ContingencyCoefficient

.387

.000

NofValidCases

1496

aNotassumingthenullhypothesis.

bUsingtheasymptoticstandarderrorassumingthenullhypothesis.

在此C=0.387,虽然相关不是很高,但检验结果表明足以达到相关的显著性水平。

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 高中教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1