spss统计软件期末课程考试题.docx
《spss统计软件期末课程考试题.docx》由会员分享,可在线阅读,更多相关《spss统计软件期末课程考试题.docx(24页珍藏版)》请在冰豆网上搜索。
spss统计软件期末课程考试题
《SPSS统计软件》课程作业
要求:
数据计算题要求注明选用的统计分析模块和输出结果;并解释结果的意义。
完成后将作业电子稿发送至
1.某单位对100名女生测定血清总蛋白含量,数据如下:
74.378.868.878.070.480.580.569.771.273.5
79.575.675.078.872.072.072.074.371.272.0
75.073.578.874.375.865.074.371.269.768.0
73.575.072.064.375.880.369.774.373.573.5
75.875.868.876.570.471.281.275.070.468.0
70.472.076.574.376.577.667.372.075.074.3
73.579.573.574.765.076.581.675.472.772.7
67.276.572.770.477.268.867.367.367.372.7
75.873.575.073.573.573.572.781.670.374.3
73.579.570.476.572.777.284.375.076.570.4
计算样本均值、中位数、方差、标准差、最大值、最小值、极差、偏度和峰度,并给出均值的置信水平为95%的置信区间。
解:
描述
统计量
标准误
血清总蛋白含量
均值
73.6680
.39389
均值的95%置信区间
下限
72.8864
上限
74.4496
5%修整均值
73.6533
中值
73.5000
方差
15.515
标准差
3.93892
极小值
64.30
极大值
84.30
范围
20.00
四分位距
4.60
偏度
.054
.241
峰度
.037
.478
样本均值为:
73.6680;中位数为:
73.5000;方差为:
15.515;标准差为:
3.93892;最大值为:
84.30;最小值为:
64.30;极差为:
20.00;偏度为:
0.054;峰度为:
0.037;均值的置信水平为95%的置信区间为:
【72.8864,74.4496】。
2.绘出习题1所给数据的直方图、盒形图和QQ图,并判断该数据是否服从正态分布。
解:
正态性检验
Kolmogorov-Smirnova
Shapiro-Wilk
统计量
df
Sig.
统计量
df
Sig.
血清总蛋白含量
.073
100
.200*
.990
100
.671
a.Lilliefors显著水平修正
*.这是真实显著水平的下限。
表中显示了正态性检验结果,包括统计量、自由度及显著性水平,以K-S方法的自由度sig.=0.671,明显大于0.05,故应接受原假设,认为数据服从正态分布。
3.正常男子血小板计数均值为
今测得20名男性油漆工作者的血小板计数值(单位:
)如下:
220188162230145160238188247113
126245164231256183190158224175
问油漆工人的血小板计数与正常成年男子有无异常?
解:
下表给出了单样本T检验的描述性统计量,包括样本数(N)、均值、标准差、均值的标准误差:
单个样本统计量
N
均值
标准差
均值的标准误
血小板计数值
20
192.1500
42.23652
9.44437
单个样本检验
检验值=225
t
df
Sig.(双侧)
均值差值
差分的95%置信区间
下限
上限
血小板计数值
-3.478
19
.003
-32.85000
-52.6173
-13.0827
本例置信水平为95%,显著性水平为0.05,从上表中可以看出,双尾检测概率P值为0.003,小于0.05,故原假设不成立,也就是说,油漆工人的血小板计数与正常成年男子有异常。
4.在某次考试中,随机抽取男女学生的成绩各10名,数据如下:
男:
99795989798999828085
女:
88545623756573508065
假设总体服从正态分布,比较男女得分是否有显著性差异。
解:
组统计量
性别
N
均值
标准差
均值的标准误
成绩
a
10
84.0000
11.52774
3.64539
b
10
62.9000
18.45385
5.83562
上表给出了本例独立样本T检验的基本描述统计量,包括两个样本的均值、标准差和均值的标准误差。
独立样本检验
方差方程的Levene检验
均值方程的t检验
差分的95%置信区间
F
Sig.
t
df
Sig.(双侧)
均值差值
标准误差值
下限
上限
成绩
假设方差相等
1.607
.221
3.067
18
.007
21.10000
6.88065
6.64429
35.55571
假设方差不相等
3.067
15.096
.008
21.10000
6.88065
6.44235
35.75765
根据上表“方差方程的Levene检验”中的sig.为0.221,远大于设定的显著性水平0.05,故本例两组数据方差相等。
在方差相等的情况下,独立样本T检验的结果应该看上表中的“假设方差相等”一行,第5列为相应的双尾检测概率(Sig.(双侧))为0.007,在显著性水平为0.05的情况下,T统计量的概率p值小于0.05,故应拒绝零假设,,即认为两样本的均值不是相等的,在本例中,能认为男女得分有显著性差异。
5.设有5种治疗荨麻疹的药,要比较它们的疗效。
假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:
药物类别
治愈所需天数
1
5,8,7,7,10,8
2
4,6,6,3,5,6
3
6,4,4,5,4,3
4
7,4,6,6,3,5
5
9,3,5,7,7,6
问所有药物的效果是否一样?
解:
ANOVA
治愈所需天数
平方和
df
均方
F
显著性
组间
36.467
4
9.117
3.896
.014
组内
58.500
25
2.340
总数
94.967
29
上表是几种药物分析的结果,组间(BetweenGroups)平方和(SumofSquares)为36.467,自由度(df)为4,均方为9.117;组内(WithinGroups)平方和为58.500,自由度为25,均方为2.340;F统计量为3.896。
由于组间比较的相伴概率Sig.(p值)=0.014<0.05,故应拒绝H0假设(五种药物对人的效果无显著差异),说明五种药物对人的效果有显著性差异。
通过上面的步骤,只能判断5种药物对人的效果是否有显著差异。
如果想进一步了解究竟是哪种药物与其他组有显著性的均值差别(即哪种药物更好)等细节问题,就需要在多个样本均值间进行两两比较。
由于第3步检验出来方差具有齐性,故选择一种方差相等的方法,这里选LSD方法;显著性水平默认取0.05;
多重比较
因变量:
治愈所需天数
(I)药物类别
(J)药物类别
均值差(I-J)
标准误
显著性
95%置信区间
下限
上限
LSD
1.00
2.00
2.50000*
.88318
.009
.6811
4.3189
3.00
3.16667*
.88318
.001
1.3477
4.9856
4.00
2.33333*
.88318
.014
.5144
4.1523
5.00
1.33333
.88318
.144
-.4856
3.1523
2.00
1.00
-2.50000*
.88318
.009
-4.3189
-.6811
3.00
.66667
.88318
.457
-1.1523
2.4856
4.00
-.16667
.88318
.852
-1.9856
1.6523
5.00
-1.16667
.88318
.198
-2.9856
.6523
3.00
1.00
-3.16667*
.88318
.001
-4.9856
-1.3477
2.00
-.66667
.88318
.457
-2.4856
1.1523
4.00
-.83333
.88318
.354
-2.6523
.9856
5.00
-1.83333*
.88318
.048
-3.6523
-.0144
4.00
1.00
-2.33333*
.88318
.014
-4.1523
-.5144
2.00
.16667
.88318
.852
-1.6523
1.9856
3.00
.83333
.88318
.354
-.9856
2.6523
5.00
-1.00000
.88318
.268
-2.8189
.8189
5.00
1.00
-1.33333
.88318
.144
-3.1523
.4856
2.00
1.16667
.88318
.198
-.6523
2.9856
3.00
1.83333*
.88318
.048
.0144
3.6523
4.00
1.00000
.88318
.268
-.8189
2.8189
*.均值差的显著性水平为0.05。
从整个表反映出来五种药物相互之间均存在显著性差异,从效果来看是第1种最好。
上图为几种药物均值的折线图,可以看均值差异较大。
6.某公司在各地区销售一种特殊化妆品。
该公司观测了15个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2,得到数据如下:
地区
销售(箱)
人数(千人)
人均收入(元)
1
162
274
2450
2
120
180
3254
3
223
375
3802
4
131
205
2838
5
67
86
2347
6
169
265
3782
7
81
98
3008
8
192
330
2450
9
116
195
2137
10
55
53
2560
11
252
430
4020
12
232
372
4427
13
144
236
2660
14
103
157
2088
15
212
370
2605
(1)画出这三个变量的两两散点图,并计算出两两之间的相关系数。
解:
相关性
人均收入X2
销售Y
人均收入X2
Pearson相关性
1
.639*
显著性(双侧)
.010
平方与叉积的和
7473615.733
405762.200
协方差
533829.695
28983.014
N
15
15
销售Y
Pearson相关性
.639*
1
显著性(双侧)
.010
平方与叉积的和
405762.200
53901.600
协方差
28983.014
3850.114
N
15
15
*.在0.05水平(双侧)上显著相关。
其中包括了叉积离差矩阵、协方差矩阵、Pearson相关系数及相伴概率p值。
从表中可看出,相关系数为0.639>0,说明呈正相关
相关性
人数X1
人均收入X2
人数X1
Pearson相关性
1
.569*
显著性(双侧)
.027
平方与叉积的和
191088.933
679452.467
协方差
13649.210
48532.319
N
15
15
人均收入X2
Pearson相关性
.569*
1
显著性(双侧)
.027
平方与叉积的和
679452.467
7473615.733
协方差
48532.319
533829.695
N
15
15
*.在0.05水平(双侧)上显著相关。
其中包括了叉积离差矩阵、协方差矩阵、Pearson相关系数及相伴概率p值。
从表中可看出,相关系数为0.569>0,说明呈正相关
相关性
销售Y
人数X1
销售Y
Pearson相关性
1
.995**
显著性(双侧)
.000
平方与叉积的和
53901.600
101031.400
协方差
3850.114
7216.529
N
15
15
人数X1
Pearson相关性
.995**
1
显著性(双侧)
.000
平方与叉积的和
101031.400
191088.933
协方差
7216.529
13649.210
N
15
15
**.在.01水平(双侧)上显著相关。
表格中包括了叉积离差矩阵、协方差矩阵、Pearson相关系数及相伴概率p值。
从表中可看出,相关系数为0.995>0,说明呈正相关
(2)
同时预测适合购买此化妆品的人数为220千人,人均收入为2500元的某城市对该化妆品的销量。
输入/移去的变量
模型
输入的变量
移去的变量
方法
1
人均收入X2,人数X1a
.
输入
a.已输入所有请求的变量。
表中显示回归模型编号、进入模型的变量、移出模型的变量和变量的筛选方法。
可以看出,进入模型的自变量为“人均收入X2和人数X1”。
模型汇总
模型
R
R方
调整R方
标准估计的误差
更改统计量
R方更改
F更改
df1
df2
Sig.F更改
1
.999a
.999
.999
2.17722
.999
5679.466
2
12
.000
a.预测变量:
(常量),人均收入X2,人数X1。
R=0.999,说明自变量与因变量之间的相关性很强。
R方(R2)=0.999,说明自变量“人均收入和人数”可以解释因变量“销售量”的99.9%的差异性。
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
53844.716
2
26922.358
5679.466
.000a
残差
56.884
12
4.740
总计
53901.600
14
a.预测变量:
(常量),人均收入X2,人数X1。
b.因变量:
销售Y
表中显示因变量的方差来源、方差平方和、自由度、均方、F检验统计量的观测值和显著性水平。
方差来源有回归、残差。
从表中可以看出,F统计量的观测值为5679.466,显著性概率为0.000,即检验假设“H0:
回归系数B=0”成立的概率为0.000,从而应拒绝原假设,说明因变量和自变量的线性关系是非常显著的,可建立线性模型
系数a
模型
非标准化系数
标准系数
t
Sig.
B的95.0%置信区间
相关性
B
标准误差
试用版
下限
上限
零阶
偏
部分
1
(常量)
3.453
2.431
1.420
.181
-1.843
8.749
人数X1
.496
.006
.934
81.924
.000
.483
.509
.995
.999
.768
人均收入X2
.009
.001
.108
9.502
.000
.007
.011
.639
.940
.089
a.因变量:
销售Y
表中显示回归模型的常数项、非标准化的回归系数B值及其标准误差、标准化的回归系数值、统计量t值以及显著性水平(Sig.)因此可以得到回归方程:
Y=0.496*X1+0.009*X2即,销售量=0.496*人数+0.009*人均收入。
回归系数的显著性水平为0.000,明显小于0.05,故应拒绝T检验的原假设,这也说明了回归系数的显著性,说明建立线性模型是恰当的。
那么当化妆品的人数为220千人,人均收入为2500元,代入到上面公式可以得到Y=0.496*220000+0.009*2500=109142.5元。
7.研究青春发育阶段的年龄和远视率的变化关系,测得数据如下
年龄
6
7
8
9
10
11
12
13
14
15
16
17
18
远视率
63.64
61.06
38.84
13.75
14.5
8.07
4.41
2.27
2.09
1.02
2.51
3.12
2.98
请对年龄与远视率的关系进行曲线估计。
解:
线性
模型汇总
R
R方
调整R方
估计值的标准误
.821
.674
.644
13.498
对数
模型汇总
R
R方
调整R方
估计值的标准误
.939
.882
.871
8.128
倒数
模型汇总
R
R方
调整R方
估计值的标准误
.908
.825
.809
9.896
二次
模型汇总
R
R方
调整R方
估计值的标准误
.971
.943
.931
5.937
三次
模型汇总
R
R方
调整R方
估计值的标准误
.979
.959
.945
5.313
复合
模型汇总
R
R方
调整R方
估计值的标准误
.891
.794
.775
.650
幂
模型汇总
R
R方
调整R方
估计值的标准误
.923
.851
.838
.553
增长
模型汇总
R
R方
调整R方
估计值的标准误
.891
.794
.775
.650
指数
模型汇总
R
R方
调整R方
估计值的标准误
.891
.794
.775
.650
Logistic
模型汇总
R
R方
调整R方
估计值的标准误
.891
.794
.775
.650
S
模型汇总
R
R方
调整R方
估计值的标准误
.891
.794
.775
.650
三次曲线的方差分析图:
ANOVA
平方和
df
均方
F
Sig.
回归
5887.850
3
1962.617
69.538
.000
残差
254.013
9
28.224
总计
6141.863
12
从决定系数(R方即R2)来看,三次曲线效果最好(因为其R2值最大),并且方差分析的显著性水平(Sig.)为0。
故重新进行上面的过程,只选“三次曲线(Cubic)”一种模型。
系数
未标准化系数
标准化系数
t
Sig.
B
标准误
Beta
个案顺序
-25.922
4.829
-4.462
-5.368
.000
个案序列**2
2.361
.786
5.847
3.002
.015
个案序列**3
-.069
.037
-2.213
-1.868
.095
(常数)
93.576
8.107
11.543
.000
从表中可知因变量与自变量的三次回归模型为:
y=-93.576-25.922*x+2.361*x2-0.069*x3
拟合效果图:
从图形上看,拟合效果很好。
8.谈谈你对数理统计和统计软件课程的学习心得和想法,有何收获,有何建议等。
关于SPSS软件的学习已经有一段时间了,初次接触这个软件是在上次数学建模比赛,因为统计的需要,所以我就大概的了解了一下,这次通过系统的学习,发现自己对以前利用SPSS统计的数据已经有了更深的认识,知道了一些统计数据的具体涵义。
提到SPSS,我们初步学习了怎么分析一些数据;怎样利用图表来显示数据,使我们更加直观的通过图表来显示数据之间的关系;怎样通过探索分析,寻求数据之间的交错关系;知道了几种常见的统计方法:
假设检验,方差分析,回归分析;有些情况下还要用到非参数检验……总之,对SPSS的学习,感觉自己的知识又有了增加,而且通过这次学习,深刻的了解到了要学好数理统计的重要性,明白了数理统计也是学好这个软件,分析数据的基础;知道了理论与实践相结合的内涵,一定要在学好理论的基础上也要学会利用软件来处理一些问题,做到学有所用,融会贯通!