SPSS数据分析报告.docx
《SPSS数据分析报告.docx》由会员分享,可在线阅读,更多相关《SPSS数据分析报告.docx(24页珍藏版)》请在冰豆网上搜索。
SPSS数据分析报告
SPSS期末报告
关于员工受教育程度对其工资水平的影响统计分析报告
课程名称:
SPSS统计分析方法
姓名:
汤重阳
学号:
08
所在专业:
人力资源管理
所在班级:
三班
一、数据样本描述
分析数据来自于“微盘——SPSS数据包data02-01”。
(/cLUq3Ep3X1lp?
archive_ref=F0I4kg0FObO2f&archive_path=%2FSPSS%E6%95%B0%E6%8D%AE%E5%8C%85&category_id=0)
本次分析的数据为某公司474名职工状况统计表,其中共包含11个变量,分别是:
id(职工编号),gender(性别),bdate(出生日期),edcu(受教育水平程度),jobcat(职务等级),salbegin(起始工资),salary(现工资),jobtime(本单位工作经历<月>),prevexp(以前工作经历<月>),minority(民族类型),age(年龄)。
通过运用SPSS统计软件,对变量进行统计分析,以了解该公司职工总体状况,并分析职工受教育程度、起始工资、现工资的分布特点及相互间的关系。
二、要解决的问题描述
1数据管理与软件入门部分
1.1分类汇总
以受教育水平程度为分组依据,对职工的起始工资和现工资进行数据汇总。
1.2个案排秩
对受教育水平程度不同的职工起始工资和现工资进行个案排秩。
1.3连续变量变分组变量
将被调查者的年龄分为10组,要求等间距。
2统计描述与统计图表部分
2.1频数分析
利用了某公司474名职工基本状况的统计数据表,在性别、受教育水平程度不同的状况下进行频数分析,从而了解该公司职工的男女职工数量、受教育状况的基本分布。
2.2描述统计分析
以职工受教育水平程度为依据,对职工起始工资进行描述统计分析,得到它们的均值、标准差、偏度峰度等数据,以进一步把握数据的集中趋势和离散趋势。
3假设检验方法部分
3.1分布类型检验
3.1.1正态分布
分析职工的现工资是否服从正态分布。
3.1.2二项分布
抽样数据中职工的性别分布是否平衡。
3.1.3游程检验
该样本中的抽样数据是否随机。
3.2单因素方差分析
把受教育水平和起始工资作为控制变量,现工资为观测变量,通过单因素方差分析方法研究受教育水平和起始工资对现工资的影响进行分析。
3.3卡方检验
职工的起始工资水平和现工资水平与其受教育程度之间是否存在关联性。
3.4相关与线性回归的分析方法
3.4.1相关分析(双变量相关分析&偏相关分析)
对受教育程度和现工资两个变量进行相关性分析。
3.4.2线性回归模型
建立用受教育程度预测现工资水平的回归方程
4高级阶段方法部分
对该样本数据进行信效度检测
三、具体步骤描述
1数据管理与软件入门部分
1.1分类汇总
以受教育水平为分组依据,对职工的起始工资和现工资进行数据汇总。
图1.1分类汇总数据
由图1.1所示,受教育等级以年为单位划分可分为8年、12年、14年等图中所示10个等级。
以等级为8年为例,现工资均值为24399.06美元,起始工资均值为13064.15美元,统计量为53人。
经比较可知,教育年限为12年和15年的职工在公司中占大多数,教育年限为20年和21年的职工在公司中的初始工资平均水平较高,但教育年限为19年的职工现工资平均水平较高。
1.2个案排秩
对受教育水平程度不同的职工起始工资和现工资进行个案排秩。
表1.2-1现工资水平个案排秩统计量
統計資料
Rankofsalarybyeduc
N
有效
遺漏
474
0
平均數
中位數
標準偏差
範圍
最小值
最大值
60.43460
46.50000
50.975992
189.000
1.000
190.000
表1.2-2初始工资水平个案排秩统计量
統計資料
Rankofsalbeginbyeduc
N
有效
遺漏
474
0
平均數
中位數
標準偏差
範圍
最小值
最大值
60.43460
47.50000
50.865407
189.000
1.000
190.000
1.3连续变量变分组变量
将被调查者的年龄分为5组。
表1.3被调查者年龄分布(已分组)
agec
次數
百分比
有效的百分比
累積百分比
有效
<33
>73
33~43
43~53
53~63
63~73
總計
1
6
267
71
67
62
474
.2
1.3
56.3
15.0
14.1
13.1
100.0
.2
1.3
56.3
15.0
14.1
13.1
100.0
.2
1.5
57.8
72.8
86.9
100.0
根据表1.3所示,该公司474名职员年龄几乎全部在33岁以上、73岁以下,年龄层分布集中在已有工作经验的人当中,其中33~43岁的员工为该公司的主体。
2统计描述与统计图表部分
2.1频数分析
利用了某公司474名职工基本状况的统计数据表,在性别、受教育水平程度不同的状况下进行频数分析,从而了解该公司职工的男女职工数量、受教育状况的基本分布。
表2.1-1职工性别频数统计表
Gender
次數
百分比
有效的百分比
累積百分比
有效
Female
Male
總計
216
258
474
45.6
54.4
100.0
45.6
54.4
100.0
45.6
100.0
由表2.1-1可知,在该公司的474名职工中,有216名女性,258名男性,男女比例分别为45.6%和54.4%,该公司职工男女数量差距不大,男性略多于女性。
下面对该公司员工受教育程度进行频数分析:
表2.1-2职工受教育程度频数统计表
EducationalLevel(years)
次數
百分比
有效的百分比
累積百分比
有效
8
12
14
15
16
17
18
19
53
190
11.2
11.2
11.2
40.1
40.1
51.3
6
1.3
1.3
52.5
116
24.5
24.5
77.0
59
12.4
12.4
89.5
11
2.3
2.3
91.8
9
1.9
1.9
93.7
27
5.7
5.7
99.4
20
2
.4
.4
99.8
21
1
.2
.2
100.0
總計
474
100.0
100.0
图2.1-2职工受教育程度频数分布直方图
表2.1-2及其直方图说明,被调查的474名职工中,受过12年教育的职工是该组频数最高的,为190人,占总人数的40.1%,其次为15年,共有116人,占总人数的24.5%。
且接受过高于20年的教育的人数只有1人,比例很低。
2.2描述统计分析
以职工受教育水平程度为依据,对职工起始工资进行描述统计分析,得到它们的均值、标准差、偏度峰度等数据,以进一步把握数据的集中趋势和离散趋势。
(由于输出结果较长,为了便于解释,仅截取职工受教育水平年限为8年的分析结果)
图2.2-1职工起始工资描述统计表(部分)
图2.2-2职工起始工资描述统计直方图(部分)
图2.2给出的就是以受教育年限为8年时职工起始工资的描述统计,由此得出结论如下:
(1)集中趋势指标:
由图2.2-1可知,职工起始工资均值为$13064.15,5%截尾均数为$13016.35,中位数为$13050.00,三者差异较大,说明数据分布的对称性较差。
(2)离散趋势指标:
起始工资方差为5799170.900,其平方根即标准差为2408.147,样本中极小值为$9750,极大值为美元18750,两者之差为全距(范围)$9000,中间一半样本的全距为四分位间距$4875。
(3)参数估计:
职工起始工资的标准误差为$330.784,相应的总体均数95%可信区间为$12400.38-$13727.92。
(4)分布特征指标:
根据描述统计数据可知,该样本数据中偏度为0.148>0,曲线右偏;峰度为-1.219<3,曲线较为平缓(该结论也可从图2.2-2的直方图及其曲线中看出)。
3假设检验方法部分
3.1分布类型检验
3.1.1正态分布
分析职工的现工资是否服从正态分布。
H0:
职工的现工资服从正态分布
H1:
职工的现工资不服从正态分布
α=0.05
表3.1.1职工现工资正态分布检验结果
單一樣本Kolmogorov-Smirnov檢定
CurrentSalary
N
474
常態參數a,b
平均數
$34,419.57
標準偏差
$17,075.661
最極端差異
絕對
.208
正
.208
負
-.143
測試統計資料
.208
漸近顯著性(雙尾)
.000c
a.檢定分配是常態的。
b.從資料計算。
c.Lilliefors顯著更正。
图3.1.1K-S检验详细模型输出结果
如表
P=0.000
P<α
接受H1,认为职工的现工资统计量不服从正态分布。
3.1.2二项分布
抽样数据中职工的性别分布是否平衡。
H0:
抽样数据中职工性别比例无差异
H1:
抽样数据中职工性别比例有差异
α=0.05
表3.1.2职工性别二项分布检验结果
二項式檢定
類別
N
觀察比例。
檢定比例。
精確顯著性(雙尾)
gender
群組1
群組2
male
female
258
216
.54
.46
.50
.060
總計
474
1.00
P=0.06
P>α
接受H0,认为抽样数据中职工性别比例无差异。
3.1.3游程检验
该样本中的抽样数据是否随机(检测数据均以均值为分割点)。
(1)性别:
H0:
抽样数据中性别序列为随机序列
H1:
抽样数据中性别序列不为随机序列
α=0.05
表性别序列游程检验
連檢定
gender
測試值a
.46
觀察值<檢定值
258
觀察值>=檢定值
216
總箱數
474
連個數
110
Z
-11.692
漸近顯著性(雙尾)
.000
a.平均數
图性别序列游程检验详细模型输出
P=0.000
P<α
接受H1,认为样本数据中性别序列不是随机序列。
(2)年龄:
H0:
抽样数据中年龄序列是随机序列
H1:
抽样数据中年龄序列不是随机序列
α=0.05
表年龄序列游程检验结果
連檢定
Years
測試值a
47.14
觀察值<檢定值
298
觀察值>=檢定值
175
總箱數
473
連個數
196
Z
-2.519
漸近顯著性(雙尾)
.012
a.平均數
图年龄序列游程检验详细模型输出结果
P=0.012
P<α
接收H1,认为年龄序列不是随机序列。
3.2单因素方差分析
把受教育水平和起始工资作为控制变量,现工资为观测变量,通过单因素方差分析方法研究受教育水平和起始工资对现工资的影响进行分析。
(1)起始工资对现工资的影响分析
H0:
认为起始工资对现工资没有显著影响
H1:
认为起始工资对现工资有显著影响
α=0.05
表3.2-1起始工资对现工资的影响分析结果
變異數分析
CurrentSalary
平方和
df
平均值平方
F
顯著性
群組之間
3521.736
89
94.626
33.040
.000
在群組內
.603
384
.528
總計
5436.340
473
P=0.000
P<α
接受H1,认为起始工资对现工资有显著影响。
(2)受教育水平对现工资的影响分析
对受教育水平与现工资之间进行方差齐性检测,其结果如下:
表3.2-2方差齐性检验结果
變異數同質性測試
CurrentSalary
Levene統計資料
df1
df2
顯著性
16.169
8
464
.000
P=0.000<0.05,认为该样本方差不齐的要求,因此下面进行的方差分析结论的稳定性较差。
单因素方差检验:
H0:
认为受教育水平对现工资没有显著影响
H1:
认为受教育水平对现工资有显著影响
α=0.05
表3.2-3受教育水平对现工资的影响分析结果
變異數分析
CurrentSalary
平方和
df
平均值平方
F
顯著性
群組之間
061.984
9
84.665
92.779
.000
在群組內
374.356
464
3.221
總計
5436.340
473
P=0.000
P<α
接受H1,认为职工受教育水平对现工资有显著影响。
3.3卡方检验
职工的起始工资水平和现工资水平与其受教育程度之间是否存在关联性。
(1)
H0:
起始工资水平与受教育程度之间不存在关联性
H1:
起始工资水平与受教育程度之间存在关联性
α=0.05
表3.3-1起始工资与受教育程度的分析结果
卡方測試
數值
df
漸近顯著性(2端)
皮爾森(Pearson)卡方
1969.189a
801
.000
概似比
765.651
801
.811
線性對線性關聯
189.643
1
.000
有效觀察值個數
474
a.878資料格(97.6%)預期計數小於5。
預期的計數下限為.00。
P=0.000
P<α
接受H1,认为起始工资与受教育程度之间存在关联性。
(2)
H0:
现工资与起始工资之间不存在关联性
H1:
现工资与起始工资之间存在关联性
α=0.05
表3.3-2现工资与起始工资的分析结果
卡方測試
數值
df
漸近顯著性(2端)
皮爾森(Pearson)卡方
26391.304a
19580
.000
概似比
2672.323
19580
1.000
線性對線性關聯
366.389
1
.000
有效觀察值個數
474
a.19890資料格(100.0%)預期計數小於5。
預期的計數下限為.00。
P=O.OOO
P<α
接受H1,认为现工资与起始工资之间存在关联性。
3.4相关与线性回归的分析方法
3.4.1相关分析
(1)双变量相关分析
对受教育程度与现工资之间进行相关性分析。
表受教育程度与现工资间相关性检测
相關
EducationalLevel(years)
CurrentSalary
EducationalLevel(years)
皮爾森(Pearson)相關
1
.661**
顯著性(雙尾)
.000
N
474
474
CurrentSalary
皮爾森(Pearson)相關
.661**
1
顯著性(雙尾)
.000
N
474
474
**.相關性在0.01層上顯著(雙尾)。
由表,受教育程度与现工资之间存在相关性,相关系数为0.661,对相关系数的检验双侧P=0.000,所以可以认为两变量间的正相关是有统计学意义的,受教育程度影响职工的现工资水平,即受教育程度越高,现工资水平越高。
(2)偏相关分析
由于上述检测数据无法说明相关系数中有多少是反映“受教育程度-初始工资水平-现工资水平”这样一种简介的链条影响,也就是说,在控制了初始工资水平之后,受教育程度与现工资水平之间的相关性不确定,因此,下面采用偏相关分析对这三个因素进行分析。
表受教育程度与现工资水平偏相关分析
相關
控制變數
CurrentSalary
EducationalLevel(years)
BeginningSalary
CurrentSalary
相關
1.000
.281
顯著性(雙尾)
.
.000
df
0
471
EducationalLevel(years)
相關
.281
1.000
顯著性(雙尾)
.000
.
df
471
0
如图,在控制初始工资后计算出受教育水平与现工资的偏相关系数为0.281,对相关系数检验双侧P=0.000,虽然相关系数有所减小,但仍然具有统计学意义。
在控制初始工资后仍可以认为受教育程度影响职工现工资水平,且受教育程度越高,现工资水平越高。
3.4.2线性回归模型
建立用受教育程度预测现工资的回归方程。
图3.4.2受教育程度与现工资水平散点图
由图,受教育程度与现工资水平之间存在线性相关关系,且可以用回归方程来解释两变量之间的关系。
表回归方程模型汇总
模型摘要
模型
R
R平方
調整後R平方
標準偏斜度錯誤
1
.661a
.436
.435
$12,833.540
a.預測值:
(常數),EducationalLevel(years)
由表,决定系数R2=0.436,说明在对现工资水平的影响因素中,受教育程度起到一定的作用,但是并非决定性作用。
表回归模型方差分析结果
變異數分析a
模型
平方和
df
平均值平方
F
顯著性
1
迴歸
760.000
1
760.000
365.381
.000b
殘差
676.339
472
0.840
總計
5436.340
473
a.應變數:
CurrentSalary
b.預測值:
(常數),EducationalLevel(years)
由表,对该回归方程模型的方差分析中,F值为365.381,P值小于0.05,所以该模型具有统计意义,也就是说,自变量受教育程度的回归系数具有统计意义。
表回归方程常数项及回归系数检验结果
係數a
模型
非標準化係數
標準化係數
T
顯著性
B
標準錯誤
Beta
1
(常數)
-18331.178
2821.912
-6.496
.000
EducationalLevel(years)
3909.907
204.547
.661
19.115
.000
a.應變數\:
CurrentSalary
由表,回归方程中a=-18331.178,b=3909.907,因此可以写出如下回归方程:
现工资水平=-18331.178+3909.907*受教育程度(年)
由该方程可得出如下信息:
(1)当受教育年限是0年时,在该公司内的现工资水平为$-18331.2。
(2)受教育年限每增加一个单位,在该公司内的现工资水平将增加$3909.9。
4高级阶段方法部分
对该样本数据进行信效度检测。
4.1信度
表5.1-1样本数据信度检测
可靠性統計資料
Cronbach的Alpha
項目個數
.601
3
表4.1-2除去某项后信度检测结果
項目總計統計資料
尺度平均數(如果項目已刪除)
尺度變異數(如果項目已刪除)
更正後項目總數相關
Cronbach的Alpha(如果項目已刪除)
EducationalLevel(years)
51435.65
3.948
.669
.802
CurrentSalary
17029.58
.433
.880
.001
BeginningSalary
34433.06
1.912
.880
.000
由表4.1-1可得出结论:
该样本数据总体α=0.601,信度良好。
由表4.1-2可得出结论:
当信度检测中除去受教育程度后的α=0.802,大于总体信度0.601,说明该项目的信度对总体信度检测产生负向影响。
4.2效度
表4.2-1效度分析数据描述
Communalities
起始
擷取
EducationalLevel(years)
1.000
.719
EmploymentCategory
1.000
.791
CurrentSalary
1.000
.900
BeginningSalary
1.000
.888
MonthssinceHire
1.000
.999
PreviousExperience(months)
1.000
.944
擷取方法:
主體元件分析。
表4.2-2效度分析结果
說明的變異數總計
元件
起始特徵值
擷取平方和載入
總計
變異的%
累加%
總計
變異的%
累加%
1
3.134
52.225
52.225
3.134
52.225
52.225
2
1.103
18.386
70.611
1.103
18.386
70.611
3
1.004
16.734
87.345
1.004
16.734
87.345
4
.414
6.898
94.243
5
.247
4.112
98.355
6
.099
1.645
100.000
擷取方法:
主體元件分析。
由表4.2-2可以看出,该样本数据中第一项的累计百分比为52.225%,大于50%,因此可以认为该样本数据中的效度较高。