《统计分析与SPSS的应用第五版》课后练习答案第10章.docx
《《统计分析与SPSS的应用第五版》课后练习答案第10章.docx》由会员分享,可在线阅读,更多相关《《统计分析与SPSS的应用第五版》课后练习答案第10章.docx(18页珍藏版)》请在冰豆网上搜索。
《统计分析与SPSS的应用第五版》课后练习答案第10章
《统计分析与SPSS的应用(第五版)》(薛薇)
课后练习答案
第10章SPSS的聚类分析
1、根据“高校科研研究.sav”数据,利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。
要求:
1)根据凝聚状态表利用碎石图对聚类类数进行研究。
2)绘制聚类树形图,说明哪些省市聚在一起。
3)绘制各类的科研指标的均值对比图。
4)利用方差分析方法分析各类在哪些科研指标上存在显著差异。
采用欧氏距离,组间平均链锁法
利用凝聚状态表中的组间距离和对应的组数,回归散点图,得到碎石图。
大约聚成4类。
步骤:
分析→分类→系统聚类→按如下方式设置……
结果:
凝聚计划
阶段
组合的集群
系数
首次出现阶段集群
下一个阶段
集群1
集群2
集群1
集群2
1
26
30
328.189
0
0
2
2
26
29
638.295
1
0
7
3
宽宽的门大大的窗红红的苹果20
(14)自己学会(生活)的本领,才能成为(真正)的狮子。
25
1053.423
1、音节补充声母、韵母、声调。
0
0
又细又长又白又胖又唱又跳又紫又亮5
4
非和飞气和汽以和已请和情玩和完很和得跳和桃4
九、语气词及标点符号的使用12
一(幅)画一(束)鲜花一(座)天安门一(艘)军舰1209.922
一把尺一双手一个人一群人一堆土0
0
15
5
8
例:
我已经长大了。
小树已经发芽了。
20
鲜艳的花朵甜甜的笑容高高的灯笼1505.035
0
3
6
6
8
16
1760.170
5
0
9
7
24
26
1831.926
0
2
10
8
7
11
1929.891
0
0
11
9
5
8
2302.024
0
6
22
10
24
31
2487.209
7
0
22
11
2
7
2709.887
0
8
16
12
22
28
2897.106
0
0
19
13
6
23
2916.551
0
0
17
14
10
19
3280.752
0
0
25
15
4
21
3491.585
4
0
21
16
2
3
4229.375
11
0
21
17
6
13
4612.423
13
0
20
18
9
18
5377.253
0
0
25
19
14
22
5622.415
0
12
24
20
6
15
5933.518
17
0
23
21
2
4
6827.276
16
15
26
22
5
24
7930.765
9
10
24
23
6
27
9475.498
20
0
26
24
5
14
14959.704
22
19
28
25
9
10
19623.050
18
14
27
26
2
6
24042.669
21
23
28
27
9
17
32829.466
25
0
29
28
2
5
48360.854
26
24
29
29
2
9
91313.530
28
27
30
30
1
2
293834.503
0
29
0
将系数复制下来后,在EXCEL中建立工作表。
选中数据列,点击“插入”菜单→拆线图……
碎石图:
由图可知,北京自成一类,江苏、广东、上海、湖南、湖北聚成一类。
其他略。
接下来,添加一个变量CLU4_1,其值为类别值。
(1、2、3、4),再数据→汇总→设置……→确定。
均值对比,依据聚类解,利用分类汇总,计算各个聚类变量的均值
方差分析结果:
分析→比较均值→单因素ANOVA→设置……→确定
ANOVA
平方和
df
均方
F
显著性
投入人年数
组之间
59778341.196
3
19926113.732
26.428
.000
组内
20357294.159
27
753973.858
总计
80135635.355
30
投入高级职称的人年数
组之间
16485966.820
3
5495322.273
34.553
.000
组内
4294074.147
27
159039.783
总计
20780040.968
30
投入科研事业费(百元)
组之间
132451401880.884
3
44150467293.628
324.318
.000
组内
3675602946.794
27
136133442.474
总计
136127004827.677
30
课题总数
组之间
16470536.564
3
5490178.855
32.181
.000
组内
4606273.436
27
170602.720
总计
21076810.000
30
专著数
组之间
7203690.385
3
2401230.128
61.327
.000
组内
1057167.809
27
39154.363
总计
8260858.194
30
论文数
组之间
219675698.219
3
73225232.740
17.693
.000
组内
111743385.717
27
4138643.915
总计
331419083.935
30
获奖数
组之间
169882.049
3
56627.350
3.619
.026
组内
422436.790
27
15645.807
总计
592318.839
30
不同组在各个聚类变量上的均值均存在显著差异。
2、试说明当变量存在数量级上的差异,进行层次聚类分析时为什么要对数据进行标准化处理?
因为数量级将对距离产生较大影响,并影响最终聚类结果。
3、试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响?
为什么?
会。
如果所选变量之间存在较强的线性关系,能够相互替代,在计算距离时同类变量将重复“贡献”,占有较高权重,而使最终的聚类结果偏向该类变量。
4、试说明K-Mean聚类分析的基本步骤。
K-Means聚类分析步骤:
确定聚类数目K--确定K个初始类中心点--根据距离最近原则进行分类--重新确定K个类中心点--判断是否已经满足终止条件。
是一个反复迭代的分类过程。
在聚类过程中,样本所属的类会不断调整,直至达到最终稳定为止。
5、收集到我国2007年各地区城镇居民家庭平均每人全年消费支出数据,数据文件名为:
“消费结构.sav”,变量包括:
地区、消费性支出总额、食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信、教育文化娱乐服务、医疗保健、杂项商品和服务支出。
若采用层次聚类法(个体间距离定义为平方欧氏距离,类间距离定义为组间平均链锁距离),绘制的碎石图如下:
(1)依据上图,数据聚成几类较为恰当?
(2)试采用K-MEANS聚类方法,从类内相似性和类间差异性角度分析将数据聚成几类较为恰当。
(1)聚成3类较为恰当。
注:
碎石图可按第9章第1题方式绘制,也可按如下方式绘制。
步骤:
分析→降维→因子分析→导入全部变量到变量框中(地区变量除外)→抽取:
选中碎石图→继续→确定。
得到:
(可以看出,分成3类恰当)
(2)用K-MEANS聚类方法进行分类,比较分类数为2、3、4时的差别。
步骤:
分析→分类→K-平均聚类→地区变量导入到标注个案,其他变量全部导入到变量框中→聚类数填2→选项:
选中初始聚类中心和ANOVA→继续→确定。
得到:
ANOVA
聚类
错误
F
显著性
均方
df
均方
df
食品
13927902.967
1
246753.779
29
56.445
.000
衣着
278718.565
1
37555.425
29
7.422
.011
居住
667583.436
1
31940.764
29
20.901
.000
家庭设备用品及服务
411657.258
1
14558.041
29
28.277
.000
医疗保健
325304.302
1
34400.296
29
9.456
.005
交通和通信
10285607.457
1
57486.400
29
178.922
.000
教育文化娱乐服务
5226361.465
1
69080.933
29
75.656
.000
杂项商品和服务
248312.931
1
6496.550
29
38.222
.000
仅当出于描述目的时才应该使用F检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。
受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。
每个聚类中的个案数量
聚类
1
4.000
2
27.000
有效
31.000
缺失
.000
将上图中的聚类数修改为3,则得到:
ANOVA
聚类
错误
F
显著性
均方
df
均方
df
食品
8311754.509
2
159294.770
28
52.178
.000
衣着
100878.509
2
41645.317
28
2.422
.107
居住
565811.147
2
16508.690
28
34.274
.000
家庭设备用品及服务
237257.836
2
12833.027
28
18.488
.000
医疗保健
198689.996
2
33054.746
28
6.011
.007
交通和通信
4709934.064
2
90458.748
28
52.067
.000
教育文化娱乐服务
2676015.304
2
67059.926
28
39.905
.000
杂项商品和服务
150742.666
2
4829.555
28
31.213
.000
仅当出于描述目的时才应该使用F检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。
受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。
每个聚类中的个案数量
聚类
1
1.000
2
25.000
3
5.000
有效
31.000
缺失
.000
将上图中的聚类数修改为4,则得到:
ANOVA
聚类
错误
F
显著性
均方
df
均方
df
食品
6461251.597
3
62963.251
27
102.619
.000
衣着
135334.013
3
35623.106
27
3.799
.022
居住
237725.271
3
32618.140
27
7.288
.001
家庭设备用品及服务
142250.914
3
15077.322
27
9.435
.000
医疗保健
111992.289
3
36553.186
27
3.064
.045
交通和通信
3596731.324
3
43056.263
27
83.536
.000
教育文化娱乐服务
1812882.568
3
66335.586
27
27.329
.000
杂项商品和服务
97486.291
3
5342.741
27
18.246
.000
仅当出于描述目的时才应该使用F检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。
受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。
每个聚类中的个案数量
聚类
1
1.000
2
3.000
3
15.000
4
12.000
有效
31.000
缺失
.000
从3个ANOVA表可以看出,分为2类时,P-值均小于0.05,表明有显著差异;分为3类时,出现了“衣着”的P-值为0.107,大于0.05;分为4类时,P-值均小于0.05,表明有显著差异。
表明仅从ANOVA表看,分为3类,不合适。
再看F值,F值大表明组间差大,组内差小,即类内相似性大,类间差异性大,经比较可以看出,分类2类时,组间方差和组内方差均较大,而分为4类时,组间方差和组内方差相对来说,组内方差缩小得明显一些。
故分为4类较为恰当。