spss作业聚类分析.docx
《spss作业聚类分析.docx》由会员分享,可在线阅读,更多相关《spss作业聚类分析.docx(17页珍藏版)》请在冰豆网上搜索。
spss作业聚类分析
聚类分析
为了研究全国各地的城镇家庭收支的分布规律,共抽取28个省、市、自治区的农民生活消费支出的6个有关指标的数据资料。
用表中的数据做谱系聚类,画出谱系图,确定消费支出类型。
地区
食品支出
住房支出
衣着支出
其他支出
北京
190
43
60
49
天津
135
36
44
36
河北
95
22
22
22
山西
104
25
9
18
内蒙
128
27
12
23
辽宁
145
32
27
39
吉林
159
33
11
25
黑龙江
116
29
13
21
上海
221
38
115
50
江苏
144
29
42
27
浙江
169
32
47
34
安徽
153
23
23
18
福建
144
21
19
21
江西
140
21
19
15
山东
115
30
33
33
河南
101
23
20
20
湖北
140
28
18
20
湖南
164
24
22
18
广东
182
20
42
36
江西
139
18
13
20
四川
137
20
17
16
贵州
121
21
14
12
云南
124
19
14
15
陕西
106
20
10
18
甘肃
95
16
6
12
青海
107
16
5
8
宁夏
113
24
9
22
新疆
123
38
4
17
【结果与分析】
一、欧氏距离平方、组间平均距离连接法
CaseProcessingSummary(a)
Cases
Valid
Missing
Total
N
Percent
N
Percent
N
Percent
28
100.0
0
.0
28
100.0
aAverageLinkage(BetweenGroups)
上表表示进行聚类分析的有效样品是28个,无缺失值。
AgglomerationSchedule
Stage
ClusterCombined
Coefficients
StageClusterFirstAppears
NextStage
Cluster1
Cluster2
Cluster1
Cluster2
1
14
21
15.000
0
0
6
2
22
23
22.000
0
0
12
3
4
24
30.000
0
0
10
4
3
16
45.000
0
0
15
5
8
27
51.000
0
0
10
6
14
20
55.500
1
0
8
7
13
17
67.000
0
0
8
8
13
14
82.167
7
6
16
9
12
18
123.000
0
0
14
10
4
8
141.000
3
5
15
11
25
26
161.000
0
0
18
12
5
22
179.000
0
2
16
13
2
10
215.000
0
0
19
14
7
12
302.500
0
9
22
15
3
4
310.750
4
10
18
16
5
13
333.600
12
8
20
17
11
19
342.000
0
0
23
18
3
25
386.000
15
11
25
19
2
6
396.500
13
0
21
20
5
28
617.250
16
0
22
21
2
15
833.667
19
0
24
22
5
7
915.222
20
14
24
23
1
11
1021.000
0
17
26
24
2
5
1225.875
21
22
25
25
2
3
1757.844
24
18
26
26
1
2
5112.264
23
25
27
27
1
9
18396.630
26
0
0
上表表示聚类过程,从中可知,聚类共进行27步;第一步首先合并距离最近的14号和21号样品,形成类G1;因为nextstage=6,所以在第6步G1和20号进行复聚类,因此,在StageClusterFirstAppears里列的Cluster1=1,Cluster2=0;第二步,合并22号和23号样品,形成类G2;因为nextstage=12,所以在第12步,G2和第5号样品进行复聚类,且Cluster1=0,Cluster2=2;第一次出现类类的合并在第8步,Cluster1=7,Cluster2=6,表示第7步和第6步合并形成的类在第8步合并;其余的类似,不再详细叙述。
另外,Coefficients值伴随着聚类的进行逐渐增大,开始增加的慢,后来增加的快,表明聚类开始时类间的差异小,结束时类间的差异大,这正是分层聚类所表现出来的特征。
ClusterMembership
Case
6Clusters
5Clusters
4Clusters
3Clusters
北京
1
1
1
1
天津
2
2
2
2
河北
3
3
3
2
山西
3
3
3
2
内蒙
4
4
2
2
辽宁
2
2
2
2
吉林
4
4
2
2
黑龙江
3
3
3
2
上海
5
5
4
3
江苏
2
2
2
2
浙江
6
1
1
1
安徽
4
4
2
2
福建
4
4
2
2
江西
4
4
2
2
山东
2
2
2
2
河南
3
3
3
2
湖北
4
4
2
2
湖南
4
4
2
2
广东
6
1
1
1
江西
4
4
2
2
四川
4
4
2
2
贵州
4
4
2
2
云南
4
4
2
2
陕西
3
3
3
2
甘肃
3
3
3
2
青海
3
3
3
2
宁夏
3
3
3
2
新疆
4
4
2
2
上表显示用欧氏距离平方、组间平均距离加连接法生成的分类为3类、4类、5类时的聚类解。
******HIERARCHICALCLUSTERANALYSIS******
DendrogramusingAverageLinkage(BetweenGroups)
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
上表表明组间平均距离连接法将28个样品分为六类Ⅰ(2,10,6,15)Ⅱ(11,19,1)Ⅲ(12,18,7)Ⅳ(14,21,20,13,17,22,23,5,28)Ⅴ(25,26,3,16,4,24,8,27)孤立点(9)
二、欧氏距离、重心聚类法法
CaseProcessingSummary(a)
Cases
Valid
Missing
Total
N
Percent
N
Percent
N
Percent
28
100.0
0
.0
28
100.0
aCentroidLinkage
上表表示进行聚类分析的有效样品是28个,无缺失值。
AgglomerationSchedule
Stage
ClusterCombined
Coefficients
StageClusterFirstAppears
NextStage
Cluster1
Cluster2
Cluster1
Cluster2
1
14
21
15.000
0
0
6
2
22
23
22.000
0
0
12
3
4
24
30.000
0
0
9
4
3
16
45.000
0
0
20
5
8
27
51.000
0
0
9
6
14
20
51.750
1
0
7
7
13
14
53.333
0
6
8
8
13
17
69.000
7
0
19
9
4
8
120.750
3
5
14
10
12
18
123.000
0
0
15
11
25
26
161.000
0
0
20
12
5
22
173.500
0
2
14
13
2
10
215.000
0
0
18
14
4
5
236.382
9
12
16
15
7
12
271.750
0
10
19
16
4
28
316.551
14
0
21
17
11
19
342.000
0
0
24
18
2
6
342.750
13
0
22
19
7
13
380.004
15
8
23
20
3
25
412.500
4
11
21
21
3
4
353.859
20
16
25
22
2
15
721.667
18
0
23
23
2
7
783.578
22
19
25
24
1
11
935.500
0
17
26
25
2
3
1222.563
23
21
26
26
1
2
4271.384
24
25
27
27
1
9
17433.340
26
0
0
上表表示聚类过程,从中可知,聚类共进行27步;第一步首先合并距离最近的14号和21号样品,形成类G1;因为nextstage=6,所以在第6步G1和20号进行复聚类,因此,在StageClusterFirstAppears里列的Cluster1=1,Cluster2=0;第二步,合并22号和23号样品,形成类G2;因为nextstage=12,所以在第12步,G2和第5号样品进行复聚类,且Cluster1=0,Cluster2=2;第一次出现类类的合并在第9步,Cluster1=3,Cluster2=5,表示第3步和第5步合并形成的类在第9步合并;其余的类似,不再详细叙述。
另外,Coefficients值伴随着聚类的进行逐渐增大,开始增加的慢,后来增加的快,表明聚类开始时类间的差异小,结束时类间的差异大,这正是分层聚类所表现出来的特征。
ClusterMembership
Case
6Clusters
5Clusters
4Clusters
3Clusters
北京
1
1
1
1
天津
2
2
2
2
河北
3
3
3
2
山西
3
3
3
2
内蒙
3
3
3
2
辽宁
2
2
2
2
吉林
4
2
2
2
黑龙江
3
3
3
2
上海
5
4
4
3
江苏
2
2
2
2
浙江
6
5
1
1
安徽
4
2
2
2
福建
4
2
2
2
江西
4
2
2
2
山东
2
2
2
2
河南
3
3
3
2
湖北
4
2
2
2
湖南
4
2
2
2
广东
6
5
1
1
江西
4
2
2
2
四川
4
2
2
2
贵州
3
3
3
2
云南
3
3
3
2
陕西
3
3
3
2
甘肃
3
3
3
2
青海
3
3
3
2
宁夏
3
3
3
2
新疆
3
3
3
2
上表显示用欧氏距离、重心聚类法生成的分类为3类、4类、5类时的聚类解。
******HIERARCHICALCLUSTERANALYSIS******
DendrogramusingCentroidMethod
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
上图表示欧氏距离、最近距离连接法效果不如组间平均距离连接法效果好。
三、欧氏距离、离差平方和法
CaseProcessingSummary(a)
Cases
Valid
Missing
Total
N
Percent
N
Percent
N
Percent
28
100.0
0
.0
28
100.0
aWardLinkage
上表表示进行聚类分析的有效样品是28个,无缺失值。
AgglomerationSchedule
Stage
ClusterCombined
Coefficients
StageClusterFirstAppears
NextStage
Cluster1
Cluster2
Cluster1
Cluster2
1
14
21
7.500
0
0
7
2
22
23
18.500
0
0
12
3
4
24
33.500
0
0
13
4
3
16
56.000
0
0
18
5
8
27
81.500
0
0
13
6
13
17
115.000
0
0
9
7
14
20
149.500
1
0
9
8
12
18
211.000
0
0
15
9
13
14
272.700
6
7
22
10
25
26
353.200
0
0
19
11
2
10
460.700
0
0
16
12
5
22
576.367
0
2
17
13
4
8
697.117
3
5
18
14
11
19
868.117
0
0
21
15
7
12
1049.283
0
8
23
16
2
6
1277.783
11
0
20
17
5
28
1528.617
12
0
22
18
3
4
1874.200
4
13
19
19
3
25
2260.492
18
10
26
20
2
15
2801.742
16
0
24
21
1
11
3425.408
0
14
25
22
5
13
4133.819
17
9
23
23
5
7
5705.292
22
15
24
24
2
5
7965.667
20
23
26
25
1
9
12517.500
21
0
27
26
2
3
19170.292
24
19
27
27
1
2
42819.536
25
26
0
上表表示聚类过程,从中可知,聚类共进行27步;第一步首先合并距离最近的14号和21号样品,形成类G1;因为nextstage=7,所以在第7步G1和20号进行复聚类,因此,在StageClusterFirstAppears里列的Cluster1=1,Cluster2=0;第二步,合并22号和23号样品,形成类G2;因为nextstage=12,所以在第12步,G2和第5号样品进行复聚类,且Cluster1=0,Cluster2=2;第一次出现类类的合并在第13步,Cluster1=3,Cluster2=5,表示第3步和第5步合并形成的类在第13步合并;其余的类似,不再详细叙述。
另外,Coefficients值伴随着聚类的进行逐渐增大,开始增加的慢,后来增加的快,表明聚类开始时类间的差异小,结束时类间的差异大,这正是分层聚类所表现出来的特征。
ClusterMembership
6Clusters
5Clusters
4Clusters
3Clusters
1
1
1
1
2
2
2
2
3
3
3
3
3
3
3
3
4
4
2
2
2
2
2
2
5
4
2
2
3
3
3
3
6
5
4
1
2
2
2
2
1
1
1
1
5
4
2
2
4
4
2
2
4
4
2
2
2
2
2
2
3
3
3
3
4
4
2
2
5
4
2
2
1
1
1
1
4
4
2
2
4
4
2
2
4
4
2
2
4
4
2
2
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
4
4
2
2
上表显示用欧氏距离、离差平方和法生成的分类为3类、4类、5类时的聚类解。
******HIERARCHICALCLUSTERANALYSIS******
DendrogramusingWardMethod
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
上图表明用欧氏距离、离差平方和法分类效果不好。
最终,结合实际,并综合上述结果,确定最终分类如下表所示:
类别
地区
第一类
天津江苏辽宁山东
第二类
浙江广东北京
第三类
安徽湖南吉林
第四类
江西四川广西福建湖北贵州云南内蒙新疆
第五类
甘肃青海河北河南山西陕西黑龙江宁夏
待定
上海