SPSS与次数分布及数据检查.docx
《SPSS与次数分布及数据检查.docx》由会员分享,可在线阅读,更多相关《SPSS与次数分布及数据检查.docx(22页珍藏版)》请在冰豆网上搜索。
SPSS与次数分布及数据检查
Analyze、Graphs部分用法
1.Analyze简要介绍
Analyze是SPSS主要的分析工具,下面有多个菜单:
报告--Rports
描述性统计分析--DescriptiveStatistics菜单
表格--Tables
均数间的比较--CompareMeans菜单
一般线性模型――GeneralLinearModel菜单
相关分析――Correlate菜单
多元线性回归与曲线拟合――Regression菜单
对数线性模型——Loglinear菜单
聚类分析与判别分析——Classify菜单
因子分析与对应分析——DataReduction菜单
信度分析与多维尺度分析——Scale菜单
非参数检验――NonparametricTests菜单
时间序列分析--Timeseries
2.描述性统计分析(DescriptiveStatistics)的用法
描述性统计分析(DescriptiveStatistics)是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。
SPSS的许多模块均可完成描述性分析(比如说GRAPH中就直接可以做散点图)但专门为该目的而设计的几个模块则集中在DescriptiveStatistics(描述统计)菜单中,主要包括以下几种:
Frequencies(频数分布分析):
频数分析过程,通过频数分布表、直方图、以及集中趋势、离散趋势的各种统计量,描述数据的分布特征。
(主要针对分类变量);
Descriptives(描述性统计分析):
数据描述过程,进行一般性的统计描述(主要针对数值型变量),除了用来描述集中趋势和离散趋势的各种统计量之外(比方说均值、标准差、最大值、最小值之外),还有一个重要的功能就是对变量做标准化变化,也就是Z变换。
Explore(探索性分析):
数据探察过程,用于对数据概况不清时的探索性分析,主要作用是对数据进行初步检查,判断有没有极端值,是否符合正太分布等。
探索分析时在对数据的基本特征统计量有了初步了解的基础上,对数据进行的更为深入详细的描述性观察分析,在上面所进行的一般描述性统计指标的基础上,增加了有关数据的其他特征的文字与图形描述,显得更加细致与全面,有助于使用者对数据进行进一步分析的方案。
Crosstabs:
多维频数分布交叉表分析(列联表分析)
Ratiostatistics:
比率分析
下面对Frequencies(频数分布分析)、Explore(探索性分析)的用法进行介绍
1)频数分析(Frequencies):
基本统计分析往往从频数分析开始。
目的:
通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用
的。
基本任务:
频数分析的第一个基本任务是编制频数分布表。
即变量值落在某个区间
(或某个类别)中的次数;频数分析的第二个任务是绘制统计图,可绘制的统计图包括:
条形图(BarChart,用宽度相同的条形的高度或长短来表示频数分布变化的图形,适用于定序和定类变量的分析);饼图(PieChart,用圆形及圆内扇形的面积来表示频数百分比变化的图形,以利于研究事物内在结构组成等问题);直方图(Histograms,用矩形的面积来表示频数分布变化的图形,适用于定距型变量的分析)
SPSS基本操作:
频数分析的基本操作
(1)选择菜单Analyze—DescriptiveStatistics—Frequencies。
(2)将若干频数分析变量选择到Variable(s)框中。
(3)单击statistics
图Statistics对话框
单击Chart按钮选择绘制统计图形,在ChartValues框中选择条形图中纵坐标(或饼图中扇形面积)的含义,其中Frequencies表示频数;Percentages表示百分比。
图Chart对话框
单击Format可得下面的对话框,对频数表中的排列顺序进行设置;此外可以选择处理多种变量的方式。
具体入下:
调整频数分布表中数据的输出顺序(Orderby):
频数分布表中的内容的输出顺序可以按变量值的升序输出(Ascendingvalues),按变量值的降序输出(Descendingvalues),按频数的升序输出(Ascendingcounts),按频数的降序输出(Descendingcounts)。
multiplevariables单选框组:
如果选择了两个以上变量作频数表,则comparevariables可以将所有变量的结果在同一个频数表过程输出结果中显示,便于互相比较;organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示,每一个变量一张表。
压缩频数分布表(Suppresstableswithmorethanncategories)
如果变量取值的个数或取值区间的个数太多,频数分布表将很庞大,此时可以压缩它。
SPSS默认,如果变量取值的个数或取值区间的个数大于10,则不输出相应的频数分布表,应用中可以修改该值。
具体实例操作(英文视窗版SPSS与行为科学研究):
了解474名企业员工在任职年资(year)这个变量上的次数分布情形,并计算四分位数,以及百分比等级27及73所对应的百分位数,同时绘制任职年资的直方图。
操作步骤:
①Analyze—descriptivestatistics—frequency—选中year
②点击statistics---quartiles、percenties(27,73)—continue
③点击charts---选中直方图histograms—continue
④Ok
统计量
YEAR
N
有效
474
缺失
0
百分位数
25
5.00
27
5.00
50
8.00
73
11.75
75
12.00
结果分析
474名有效样本,百分等级,百分之25对应的百分位数为5年,百分等级27对应的百分位数为5年,(因为选了四分位,又选了27、73的百分位数,所以有25、50、75、27、73)。
需要注意的是百分等级27、73多对应的百分位数的计算,可以根据这个指标对数据的高中低的数值进行了解。
YEAR
频率
百分比
有效百分比
累积百分比
有效
2
18
3.8
3.8
3.8
3
34
7.2
7.2
11.0
4
41
8.6
8.6
19.6
5
37
7.8
7.8
27.4
6
35
7.4
7.4
34.8
7
27
5.7
5.7
40.5
8
66
13.9
13.9
54.4
9
61
12.9
12.9
67.3
10
16
3.4
3.4
70.7
11
11
2.3
2.3
73.0
12
26
5.5
5.5
78.5
13
21
4.4
4.4
82.9
14
7
1.5
1.5
84.4
15
24
5.1
5.1
89.5
16
11
2.3
2.3
91.8
17
11
2.3
2.3
94.1
18
12
2.5
2.5
96.6
19
16
3.4
3.4
100.0
合计
474
100.0
100.0
第一列是指样本在变量year上的编码值,也就是实际任职年限,第二列是该编码值出现的次数,第三列是出现的次数所占得百分比,第四列排除缺失值后出现的次数所占的百分比,第五列是累计百分比。
对直方图的解释:
横轴:
任职年限,纵轴是实际次数。
曲线为理论的正太分布曲线,如果变量的实际分布次数与该曲线吻合,就表示该变量的概率分布越接近正太分布,从分析的结果可以看出,低年资的比例较多,呈现正偏态。
最后图中还显示出年资的均值为8.8,标准差为4.523,有效观察值数为474。
除了制作次数分布表和直方图,之外,frequency这个指令还有其他的功能。
比如,在一些行为科学的研究中,研究者想要利用方差分析来探讨两个连续变量之间的因果关系,比如说成绩在成就上的差异,由于这个自变量是连续变量,而因变量是类别变量,在做分析时就需要把连续性变量转换称类别变量,就是将成绩的分值划分为不同的组别,比如说按27、73的百分位进行划分,这时候研究者就能知道这三组间的临界分数,然后利用上次讲到的transform----visualbinning将观察值进行分组,然后再探讨两者之间的关系。
2)Explore(探索性分析)
数据探察过程,用于对数据概况不清时的探索性分析,主要作用是对数据进行初步
检查,判断有没有极端值,是否符合正太分布等。
探索分析时在对数据的基本特征统计量有了初步了解的基础上,对数据进行的更为深入详细的描述性观察分析,在上面所进行的一般描述性统计指标的基础上,增加了有关数据的其他特征的文字与图形描述,显得更加细致与全面,有助于使用者对数据进行进一步分析的方案。
那我们看看初步的数据检查工作怎么展开:
analyze-descriptivestatistics-explore
图Explore对话框
选中要进行数据检查的变量移到dependentlist,这里可以同时移入多个变量进行数据检查工作。
如果想要根据某一类别(比如性别、种族)分别对dependentlist中列出的变量进行数据检查,可以点击该类别变量后移入factorlist。
选好想要进行数据检查的变量之后,点击右侧Statistics:
图explore-Statistics对话框
在这个对话框中,第一个descriptives就是描述性,如果选择了这一项,就会生成一个描述性统计表格,表中会显示样本数据的描述统计量,包括平均值、中位数、标准误差、最大值、最小值、组距、四分位数、峰度、偏度等。
下面的这个事均值的置信区间,系统默认的置信度为95%。
下面的M估计量(M-estimators):
如果选择这项的话,将会计算并生成文件估计量,M估计在计算时对所有观测量赋予权重,权重会跟随观测量距离分布中心的远近而变化,通过给远离中心至的数据赋予较小的权重来减少异常值的影响。
Outliers界外值,如果选择了这一项,就会将输出分析数值中的5个最大值和5个最小值作为异常嫌疑值或者异常值。
极端值可能就是那些与绝大部分观察值有极大差异的观察值,造成这种极端值的原因可能是数据填写时的问题,数据录入时的问题等。
最后一个百分位数:
选择这一项会计算制定的百分位数,包括5%,10%,25%等。
一般数组应遵循正态分布,但一列数组中有可能会出现异常值,从而影响数据的方差和统计结果,因此挡在SPSS中输入数据后,首先要检查数据中是否存在异常值。
点击右侧plots:
图explore-plot对话框
“箱图(Boxplots)栏(单选项组)”:
箱图,又称箱锁图。
▪“按因子水平分组(Factorlevelstogether,系统默认)”:
选择此项,将为每个因变量创建一个箱锁图,在每个箱锁图内根据分组变量的不同水平的取值创建箱形单元。
▪“不分组(Dependentstogether)”:
选择此项,将为每个分组变量的水平创建一个箱锁图,在每个箱锁图内用不同的颜色区分不同因变量所对应的箱形单元,方便用户进行比较。
▪“无(None)”:
选择此项,不创建箱图。
“描述性(Descriptive)栏”:
选择该组内的选项,可以生成茎叶图和(或)直方图。
▪“茎叶图(Stem-and-leaf,系统默认)”:
茎叶图主要由3个部分组成,即频率(Frequency)、茎(Stem)和叶(Leaf),在图中按从左到右的顺序依次排列,在图的底端,注明了茎的宽(StemWidth)和每一叶所代表的观测量数(EachLeaf)。
▪“直方图(Histogram)”:
直接绘制直方图
▪“带检验的正态图(Normalityplotswithtest,复选框)”:
选择此项,将进行正态性检验,并生成正态Q-Q概率图和无趋势正态Q-Q概率图。
“伸展与级别Levene检验(SpreadvslevelwithLeveneTest)栏(单选项组)”:
对所有的展布-水平图进行方差齐性检验和数据转换,同时输出回归直线的斜率及方差齐性的Levene检验,但如果没有指定分组变量,则此选项无效。
点击右侧Option:
图explore-options
在这个对话框中,可选择缺失值的处理方式,SPSS提供了3种处理方式:
▪“按列表排除个案(Excludecaseslistwise,系统默认)”:
选择此项,对所有的分析过程剔除分组变量和因变量中所有带有缺失值的观测量数据;
▪“按对排除个案(Excludecasespairwise)”:
同时剔除带缺失值的观测量及与缺失值有成对关系的观测量。
在当前分析过程中用到的变量数据中剔除带有缺失值的观测量数据,在其他分析过程中可能包含缺失值;
▪“报告值(Reportvalues)”:
选择此项,将分组变量的缺失值单独分为一组,在输出频数表的同时输出缺失值。
具体操作:
了解男性企业员工在起薪变量上的分布是否符合正太性的假设,同时检查数据中是否出现了极端值。
操作步骤:
第一步:
选择男性:
data—selectcases----ifconditionissatisfied---continue—ok
第二步:
数据检验:
analyze---descriptivestatistics---explore—选中起薪begsal---移到dependentlist(因变量)中,这时还可以选中code移到labelcasesby中用作报表输出时辨认极端值在数据文件中的编号
在statistics中点击discriptive,outliers---continue
Plot---stem-and-leaf,normallyplotswithtests(正太图)-continue
输出结果分析:
案例处理摘要
案例
有效
缺失
合计
N
百分比
N
百分比
N
百分比
BEGSAL
216
100.0%
0
0.0%
216
100.0%
描述
统计量
标准误
BEGSAL
均值
5226.60
76.462
均值的95%置信区间
下限
5075.89
上限
5377.31
5%修整均值
5139.83
中值
4950.00
方差
1262836.306
标准差
1123.760
极小值
3600
极大值
9996
范围
6396
四分位距
1248
偏度
1.334
.166
峰度
2.039
.330
极值
案例号
CODE
值
BEGSAL
最高
1
461
758
9996
2
450
866
9800
3
31
737
7992
4
413
319
7992
5
47
713
7800a
最低
1
217
921
3600
2
206
459
3600
3
190
245
3600
4
223
754
3900
5
220
491
3900b
a.上限值表中仅显示一部分具有值7800的案例。
b.下限值表中仅显示一部分具有值3900的案例。
SPSS输出了10个可能的极端值,(outlier)的统计结果,由表可知,可能的极端值的编码最大者是原数据文件中的第461笔数据,他的员工识别码是758,值为9996,其次依次是员工识别码为866、737、319、713的观察值,这是初步的数据检查,那么观察者也可以进行进一步的检查数据,确定观察值在起薪这个变量上是极端值的原因。
图中下端注解的意思:
编码值为7800的观察值,只列出了一部分。
正态性检验
Kolmogorov-Smirnova
Shapiro-Wilk
统计量
df
Sig.
统计量
df
Sig.
BEGSAL
.142
216
.000
.886
216
.000
a.Lilliefors显著水平修正
用来检验数据是否服从正太性的统计量为Kolmogorov-Smirnov,Kolmogorov-Smirnov当检验结果达到显著性水平时,可以拒绝原假设(原假设为是正太性分布)Shapiro-Wilk,Shapiro-Wilk主要用于研究的样本为小样本时,采用这个方法进行正太性检验,较不容易出现偏差。
可以在表中看到,满足a=0.05,sig值的意思就是显著性(significance),也就是说不服从正太分布。
BEGSALStem-and-LeafPlot
FrequencyStem&Leaf
9.003.666999999
46.004.0000000000000000000000222223333333333333334444
58.004.5555555555555555555555555566666668888888888888888888999999
39.005.111111*********222234444444444444444444
19.005.5555555677777777778
12.006.000001133333
12.006.666666679999
8.007.22222222
4.007.5555
9.00Extremes(>=7800)
Stemwidth:
1000
Eachleaf:
1case(s)
茎叶图:
Frequency:
出现的次数;
9.00Extremes(>=7800):
大于7800的观察值共有9名,经与其他观察值相较后,都被归于极值。
Stemwidth:
1000,表示组距1代表1000。
正太概率分布图,可以先将分布图表的右上角及左下角亮点的对角线画出,这一45度角的对角线就是理论的正太累计概率分布线,再与圆圈构成的实际累计概率分不限相比较,由图可知,圆圈构成的实际累计概率分布线偏离45度角对角线特别多,因此违反正太分布假设,不是正太分布。
这与上面提到的Kolmogorov-Smirnov检验结果一致。
方格内的直线是中位数,中位线没有在方盒的中间位置,而是偏低一些,且下限的盒须较上限段,表示观察值呈正偏态。
圆圈代表该观察值可能为界外值(outlier)星号表示该观察值可能是极值。
3.散点图
除了上述提到的直方图、茎叶图之外,SPSS还提供了相当多的绘图指令,在
Graphs中可以做散点图,散点图也可以检验数据中存不存在极端值,通过散点图可以比较直观地看出来,此外,散点图是描述变量之间关系的一种直观地方法,可以从散点图中直观地看出两个变量之间是否存在相关关系、是正线性相关还是负线性相关。
也可以大致看出变量之间关系强度如何,但是具体的相关性还要根据后面相关分析中的相关系数来判断。
如果散点图显示你选的变量没有相关性,那么你就要重新去思考你的研究是不是哪里出了问题。
点击GRAPH,得到下面菜单栏:
其中,提供了四中散点图模式:
Simple:
简单散点图,只显示一对相关变量的散点图;
Matrix:
矩阵散点图,显示三个相关变量之间的散点图;
Simpledot:
简单点图,只显示一个变量的点图。
Overlay:
重叠散点图,可显示多个相关变量的散点图。
3-D:
三维散点图,显示三个相关变量之间的散点图。
在实际应用中我们多选用简单散点图,选中simple,然后点击define,进入简单散点图窗口。
实际例子操作:
起薪与目前薪资的交叉散点图
操作步骤:
选择simple;现在薪酬—Y,基本薪酬----X,
title写标题:
Line1:
目前薪资对起薪的交叉散点图;Subtitle:
474企业员工;
圈圈表示有多少个观察值,在这个结果中我们可以看到,大致呈现从右上到左下的椭圆形分布,同时分布点颇为集中,而且也没有出现语种不同的极端值,可以大致推测下目前薪资与起薪之间应该是正相关的关系,而且相关强度不弱。