数据分析试题.docx
《数据分析试题.docx》由会员分享,可在线阅读,更多相关《数据分析试题.docx(24页珍藏版)》请在冰豆网上搜索。
数据分析试题
上海第二工业大学(试卷编号:
)2011~2012学年第二学期数据分析期末考试卷A卷
姓名:
王赞学号:
094860117班级:
09计算A1
题号
一
二
三
得分
一、某医院管理工作者希望了解病人对医院工作的满意程度
和病人的年龄
、病情的严重程度
和忧虑程度
之间的关系,他们随机选取了23位病人,得到下表所列数据:
(本题40分,每小题5分)
1
2
3
4
5
6
7
8
9
10
11
12
50
36
40
41
28
49
42
45
52
29
29
43
51
46
48
44
43
54
50
48
62
50
48
53
2.3
2.3
2.2
1.8
1.8
2.9
2.2
2.4
2.9
2.1
2.4
2.4
48
57
66
89
89
36
46
54
26
77
89
67
13
14
15
16
17
18
19
20
21
22
23
38
34
53
36
33
29
33
55
29
44
43
55
51
54
49
56
46
49
51
52
58
50
2.2
2.3
2.2
2.0
2.5
1.9
2.1
2.4
2.3
2.9
2.3
47
51
57
66
79
88
60
49
77
52
60
(1)拟合
关于
的线性回归模型,写出回归方程;根据所得的回归模型中回归系数给出初步的分析结果;
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
4472.725
3
1490.908
12.072
.000a
残差
2346.579
19
123.504
总计
6819.304
22
a.预测变量:
(常量),Xi3,Xi1,XI2。
b.因变量:
Yi
表一
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
177.445
27.839
6.374
.000
Xi1
-1.069
.326
-.514
-3.284
.004
XI2
-.839
.887
-.212
-.947
.356
Xi3
-13.193
13.221
-.228
-.998
.331
a.因变量:
Yi
表二
由方差分析看出:
F统计量的值为12.072,根据p值检验法知F检验的p值显然小于0.0001,因此拒绝原假设,接受对立假设,即因变量与3个自变量之间具有高度显著的线性回归关系。
由表二可以看出,如果显著水平
为0.05,而t检验的3个p值分别为0.004、0356、0.331显然小于显著水平,因此拒绝原假设,接受对立假设,则说明因变量和XI1存在着高度显著的线性回归关系,与XI2、XI3没有显著的线性关系。
并且得到回归方程为:
Yi=177.455-1.069Xi1。
其意义是在Xi1每增加一个单位,则
减少1.069个单位。
(2)、设误差项
独立同分布于
,在
=0.01水平上检验回归关系的显著性;(写出原假设、对立假设和检验统计量)
解:
由表1可以看出SSR为4472.725,SSE为2346.579,SST为6619.304;
设y与X1,X2,X3的观测值之间满足关系
(i=1,2……18)其中
(i=1,2……18)相互独立,均服从正态分布N(0,
),利用SPSS可得到下列分析结果。
由此表可知,
的估计值
2=MSE=123.504,MSR=1490.908检验假设:
H0:
H1:
至少有一个非零的,统计量F=
=12.072
检验值P从表看几乎接近于零<
=0.01,则拒绝H0,此结果表明Y与X1,X2,X3之间存在高度显著的线性回归关系。
(3)、在
=0.05时,检验各自变量对
的影响的显著性;(写出原假设、对立假设和检验统计量);
解:
假设检验为:
,检验统计量
t检验的3个p值分别为0.004、0.356、0.331,显然XI1小于显著水平0.05,因此拒绝原假设,接受对立假设,则说明因变量只和XI1之间都存在着高度显著的线性回归关系。
(4)、根据
(2)(3)的结果解释由
(1)所得到的模型是否合理?
为什么?
合理,有表一的结果可知,三个变量总体和Y具有高度的线性关系,但是有表二可知对每一个变量分析时只有XI1和Y具有高度现象关系。
(5)用逐步回归法来选择最优回归方程,取
;
系数a
模型
非标准化系数
标准系数
t
Sig.
B的95.0%置信区间
B
标准误差
试用版
下限
上限
1
(常量)
121.994
12.618
9.668
.000
95.753
148.235
Xi1
-1.510
.312
-.726
-4.843
.000
-2.159
-.862
2
(常量)
157.527
18.182
8.664
.000
119.599
195.454
Xi1
-1.111
.322
-.534
-3.453
.003
-1.782
-.440
Xi3
-22.368
8.970
-.386
-2.493
.022
-41.080
-3.656
a.因变量:
Yi
表三
已排除的变量c
模型
BetaIn
t
Sig.
偏相关
共线性统计量
容差
1
XI2
-.375a
-2.467
.023
-.483
.782
Xi3
-.386a
-2.493
.022
-.487
.752
2
XI2
-.212b
-.947
.356
-.212
.362
a.模型中的预测变量:
(常量),Xi1。
b.模型中的预测变量:
(常量),Xi1,Xi3。
c.因变量:
Yi
表四
解:
根据表三和表四结果知道最终的选取的结果是只有XI1保留,也就是变量XI2和XI3被删除。
根据t检验的p值可以看出,最终模型只有变量XI1与因变量之间具有高度显著的线性相关关系。
(6)写出残差向量,通过残差分析来分析模型的合理性;
RES_1为:
-2.82240
-12.99019
.64668
16.08086
1.34021
-5.45738
-15.53577
-3.36804
-5.53378
.24370
14.52278
11.69058
-14.61579
-16.93157
10.58460
-5.42982
16.83504
5.24722
-13.31846
4.84355
4.56127
8.55382
.85289
残差关于拟合值的残差图如图1:
图1
从图1看出,该残差图中各点分布近似长条矩形,因此认为该线性回归模型比较合理。
残差关于XI1的残差图如图2:
从图2看出,该残差图中各点分布近似长条矩形,因此说明该模型中不需要添加该自变量的高阶项和交叉项。
残差关于XI2的残差图如图3:
(7)计算数据的标准化残差,并利用残差正态性的频率检验法来检验误差
的正态性假设是否合理?
解:
数据标准化残差以变量名为ZRE_1存储在数据中:
-.25397
-1.16889
.05819
1.44700
.12060
-.49107
-1.39795
-.30307
-.49794
.02193
1.30680
1.05195
-1.31517
-1.52355
.95243
-.48859
1.51486
.47216
-1.19843
.43584
.41044
.76970
.07674
落在(-1,1)区间的概率为14/23=0.61与0.68很接近
落在(-1.5,1.5)区间的概率为21/23=0.91与0.87很接近
落在(-2,2)区间的概率为23/23=1.0与0.95很接近
认为正态性假设是合理的。
(8)对自变量一组新的观测值(48,50,2.2)T,给出
的预报值的99%的置信区间;
解:
置信区间为:
(43.72601,66.25573)。
二、各地区居民消费水平(2006年)数据见附录中数据文件xfsp.sav中,设对应于全体居民、农村居民、城镇居民的数据变量分别记为
,(本大题共40分,每小题5分)
(1)从样本协方差矩阵出发,求出样本
的第一和第二主成分,计算各样本主成分的贡献率;将第一样本主成分
从小到大排序,并分析排序的实际含义。
解释的总方差
成份
初始特征值a
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
原始
1
30588315.942
98.549
98.549
30588315.942
98.549
98.549
2
335962.375
1.082
99.631
335962.375
1.082
99.631
3
114484.513
.369
100.000
114484.513
.369
100.000
重新标度
1
30588315.942
98.549
98.549
2.939
97.964
97.964
2
335962.375
1.082
99.631
.032
1.070
99.034
3
114484.513
.369
100.000
.029
.966
100.000
提取方法:
主成份分析。
a.分析协方差矩阵时,初始特征值在整个原始解和重标刻度解中均相同。
表一
成份矩阵a
原始
重新标度
成份
成份
1
2
3
1
2
3
qtjm
3927.371
319.851
-147.964
.996
.081
-.038
ncjm
1798.050
170.375
304.126
.982
.093
.166
czjm
3454.141
-452.360
9.923
.992
-.130
.003
提取方法:
主成份。
a.已提取了3个成份。
表二
解:
表一的第二列表示相关系数矩阵的特征值,第三列表示样本主成分的贡献率,第四列表示样本的累积贡献率。
可见到第一个主成分,累积贡献率已经超过98%以上。
根据表二的数据可以很快算出样本的主成分,每一列分别对应除以
得出对应的特征向量。
第一主成分的系数向量为:
(3927.371,1798.050,3454.141)/
=(0.71,0.33,0.62)所以第一主成分为:
Y1=0.71*x1+0.33*x2+0.62*x3
从而计算数据在第一主成分上的得分为:
西藏7206.00
贵州8296.53
青海8343.05
甘肃8404.29
新疆8528.76
广西8787.97
江西8819.13
安徽8884.00
云南8920.08
海南9050.48
黑龙江9086.47
陕西9146.91
四川9193.57
山西9253.16
河南9682.78
宁夏9834.55
河北9995.16
吉林10096.79
重庆10218.44
湖北10468.41
内蒙古10653.94
湖南10794.94
辽宁11862.07
山东13094.62
福建14232.36
江苏14664.97
天津16858.35
广东18322.30
浙江19847.38
北京25907.81
上海32037.40
从得分的结果来看,作为发达城市的上海,北京,浙江,广东等城市居民消费平均消费显然要比西藏、贵州、青海等地的人均消费要多,这个是符合实际情况的。
(2)从样本的相关系数矩阵出发,求出样本
的第一和第二主成分,计算各样本主成分的贡献率,将第一样本主成分
从小到大排序,并分析排序的实际含义。
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
2.945
98.175
98.175
2.945
98.175
98.175
2
.038
1.276
99.450
.038
1.276
99.450
3
.016
.550
100.000
.016
.550
100.000
提取方法:
主成份分析。
表一
成份矩阵a
成份
1
2
3
qtjm
.994
-.009
-.104
ncjm
.989
-.133
.058
czjm
.989
.143
.047
提取方法:
主成份。
a.已提取了3个成份。
表二
解:
表一的第二列表示相关系数矩阵的特征值,第三列表示样本主成分的贡献率,第四列表示样本的累积贡献率。
可见到第一个主成分,累积贡献率已经超过98%以上。
根据表二的数据可以很快算出样本的主成分,每一列分别对应除以
得出对应的特征向量。
第一主成分的系数向量为:
(0.994,0.989,0.989)/
=(0.579,0.576,0.576)所以第一主成分为:
Y1=0.579*x1+0.576*x2+0.576*x3
从而计算数据在第一主成分上的得分为:
西藏6951.85
贵州7864.83
青海7983.37
甘肃8008.04
新疆8123.27
广西8484.22
云南8536.45
安徽8554.25
江西8613.93
黑龙江8714.75
陕西8770.57
海南8778.62
山西8865.35
四川8871.23
河南9340.49
宁夏9381.10
河北9621.36
重庆9687.29
吉林9719.85
湖北10042.46
内蒙古10188.98
湖南10413.29
辽宁11393.33
山东12551.96
福建13747.25
江苏14279.18
天津16095.76
广东17281.96
浙江19236.75
北京24779.72
上海30806.26
从得分的结果来看,作为发达城市的上海,北京,浙江,广东等城市居民消费平均消费显然要比西藏、贵州、青海等地的人均消费要多,这个是符合实际情况的。
(3)比较两种结果有何差异,试说明哪种结果更好?
并说明你的理由。
两种结果差异不大,使用哪种方法都可以,因为原始数据的量纲相差不大,几乎都在同一数量级,所以使用协方差和使用相关系数都差不多。
(4)本题数据是否适合进行因子分析?
理由是什么?
KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin度量。
.765
Bartlett的球形度检验
近似卡方
177.109
df
3
Sig.
.000
相关矩阵a
qtjm
ncjm
czjm
相关
qtjm
1.000
.979
.977
ncjm
.979
1.000
.962
czjm
.977
.962
1.000
Sig.(单侧)
qtjm
.000
.000
ncjm
.000
.000
czjm
.000
.000
a.行列式=.002
解:
由KMO检验值0.756(>0.6)和从变量的相关系数矩阵可以看出,各变量间的相关性很高,因此变量间所表示的信息量有交叉部分,因此可以进行因子分析。
(5)取公共因子数为1时,对
进行因子分析,并进行解释;对公共因子
得分从小到大进行排序,并进行分析解释。
公因子方差
初始
提取
qtjm
1.000
.989
ncjm
1.000
.979
czjm
1.000
.977
提取方法:
主成份分析。
选取一个因子,从上表可以看出因子可以解释qtim,ncjm,czjm,因此本因子的提取效果是理想的
(6)取公共因子数为2时,采用方差最大正交旋转进行因子分析,对公共因子
得分从小到大进行排序。
再对公共因子
进行解释。
旋转成份矩阵a
成份
1
2
qtjm
.715
.692
ncjm
.798
.600
czjm
.604
.796
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在3次迭代后收敛。
因子一只要解释qtjm,ncjm,因子二主要解释czjm。
(7)根据第(5)(6)小题的结果分析哪种取法更加合理?
为什么?
解:
(5)的方法更合理,因为一个因子就可以解释所有变量了。
(8)简单说明因子分析中采用正交旋转的目的是什么?
解:
为了使一部分变量仅与第一个因子相关,另一部分变量与第二个因子相关。
三、各地区历年电力消费量见附件中数据文件dlxf.sav(单位:
亿千瓦小时);变量
分别代表2000年、2002年、2003年、2004年、2005年、2006年的电力消费:
(本大题共20分,每小题4分)
(1)选择三种不同的谱系聚类法聚类,并给出这三种方法分3类的结果;
1、采用最长距离:
群集成员
案例
3群集
1:
北京
1
2:
天津
1
3:
河北
2
4:
山西
1
5:
内蒙古
1
6:
辽宁
2
7:
吉林
1
8:
黑龙江
1
9:
上海
1
10:
江苏
3
11:
浙江
2
12:
安徽
1
13:
福建
1
14:
江西
1
15:
山东
3
16:
河南
2
17:
湖北
1
18:
湖南
1
19:
广东
3
20:
广西
1
21:
海南
1
22:
重庆
1
23:
四川
1
24:
贵州
1
25:
云南
1
26:
陕西
1
27:
甘肃
1
28:
青海
1
29:
宁夏
1
30:
新疆
1
分类结果:
第1类:
1、2、4、5、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、27、28、29、30.
第2类:
3、6、11、16。
第3类:
10、15、19、
2、最短距离:
群集成员
案例
3群集
1:
北京
1
2:
天津
1
3:
河北
1
4:
山西
1
5:
内蒙古
1
6:
辽宁
1
7:
吉林
1
8:
黑龙江
1
9:
上海
1
10:
江苏
2
11:
浙江
1
12:
安徽
1
13:
福建
1
14:
江西
1
15:
山东
2
16:
河南
1
17:
湖北
1
18:
湖南
1
19:
广东
3
20:
广西
1
21:
海南
1
22:
重庆
1
23:
四川
1
24:
贵州
1
25:
云南
1
26:
陕西
1
27:
甘肃
1
28:
青海
1
29:
宁夏
1
30:
新疆
1
分类结果:
第1类:
1,2,、3、4、5、6、7、8、9、11、12、13、14、16、17、18、20、21、22、23、24、25、26、27、28、29、30.
第2类:
10、15。
第3类:
19。
3、质新法:
群集成员
案例
3群集
1:
北京
1
2:
天津
1
3:
河北
2
4:
山西
1
5:
内蒙古
1
6:
辽宁
1
7:
吉林
1
8:
黑龙江
1
9:
上海
1
10:
江苏
2
11:
浙江
2
12:
安徽
1
13:
福建
1
14:
江西
1
15:
山东
2
16:
河南
2
17:
湖北
1
18:
湖南
1
19:
广东
3
20:
广西
1
21:
海南
1
22:
重庆
1
23:
四川
1
24:
贵州
1
25:
云南
1
26:
陕西
1
27:
甘肃
1
28:
青海
1
29:
宁夏
1
30:
新疆
1
分类结果:
第1类:
1、2、4、5、6、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、27、28、29、30.
第2类:
3、10、11、15、16。
第3类:
19。
(2)用快速聚类法进行聚类,分别写出分3类和4类的结果;
分为3类为:
聚类成员
案例号
地区
聚类
距离
1
北京
2
227.373
2
天津
2
197.649
3
河北
1
600.121
4
山西
1
532.452
5
内蒙古
2
404.109
6
辽宁
1
192.567
7
吉林
2
180.935
8
黑龙江
2
278.295
9
上海
1
585.090
10
江苏
3
284.503
11
浙江
1
859.277
12
安徽
2
209.794
13
福建
2
568.947
14
江西
2
209.294
15
山东
3
654.848
16
河南
1
307.871
17
湖北
2
669.441
18
湖南
2
436.859
19
广东
3
897.880
20
广西
2
81.107
21
海南
2
852.741
22
重庆
2
264.783
23
四川
1
517.956
24
贵州
2
67.380
25
云南
2
131.648
26
陕西
2
83.849
27
甘肃
2
43.459
28
青海
2
585.657
29
宁夏
2
392.516
30
新疆
2
363.615
分类结果:
第1类:
3、4、6、9、11、16、23。
第2类:
1、2、5、7、8、12、13、14、17、18、20、21、22、24、25、26、27、28、29、30.
第3类:
10、15、19。
分为四类为:
聚类成员
案例号
地区
聚类
距离
1
北京
2
292.729
2
天津
2
1