聚类分析报告与判别分析报告操作及案例文档格式.docx
《聚类分析报告与判别分析报告操作及案例文档格式.docx》由会员分享,可在线阅读,更多相关《聚类分析报告与判别分析报告操作及案例文档格式.docx(20页珍藏版)》请在冰豆网上搜索。
836.84
131.84
461.2
308.73
1195.54
河北
17235.48
2207.34
7983.86
975.97
1491.92
1157.8
247.14
525.67
612.4
2033.38
山西
7358.31
477.59
3518.88
474.92
523.38
557.86
203.58
361.64
173.31
1067.15
9740.25
929.6
4503.33
610.67
773.29
915.89
294.73
291.1
286.65
1134.99
辽宁
15212.49
1414.9
6925.63
980.71
790.56
1410.33
318.8
560.2
605.27
2206.09
吉林
7278.75
980.57
3054.6
487.32
341.76
673.12
157.73
180.83
200.14
1202.68
8587
1154.33
3549.73
510.99
433.55
757.36
211
227.54
301.18
1441.32
上海
15046.45
113.82
5408.75
593.03
635.01
2183.85
238.36
1804.28
1237.56
2831.79
江苏
34457.3
2261.86
16464.94
2101.43
1423.25
3579.81
678.36
1596.98
2025.39
4325.28
浙江
22990.35
1163.08
10518.21
1390.28
888.02
2119.39
416.84
1899.33
1316.83
3278.36
安徽
10062.82
1495.45
4064.72
840.5
467.92
733.19
157.14
359.6
497.94
1446.36
福建
12236.53
1182.74
5106.38
898.92
751.42
1043.42
235.98
612.2
656.61
1748.86
江西
7655.18
1098.66
3196.56
722.89
394.9
553.89
167.59
165.1
305.9
1049.69
山东
33896.65
3226.64
16896.14
2005.69
1742.33
3106.24
594.5
1044.9
1329.59
3950.63
河南
19480.46
2769.05
9900.27
1110.23
823.57
1057.81
526.51
499.92
622.98
2170.12
湖北
12961.1
1795.9
5183.68
854.4
642.72
979.14
337.81
479.11
546.11
2142.23
湖南
13059.69
1969.69
4819.4
867.79
704.83
1221.2
304.93
402.57
400.11
2369.17
广东
39482.56
2010.27
18091.56
1328.14
1595.34
3907.43
945.76
2283.29
2470.63
6850.14
广西
7759.16
1458.49
2863.84
517.7
378.75
551.14
208
336.82
348.98
1095.45
海南
1654.21
462.19
300.63
142.8
88.68
168.75
60.22
65.73
121.76
243.45
重庆
6530.01
606.8
2917.4
531.37
347.98
524.36
132.88
389.97
229.09
850.16
四川
14151.28
2240.61
5678.24
1033.63
520.71
868.98
405.45
524.63
548.14
2330.89
贵州
3912.68
550.27
1252.67
223.95
399.77
293.53
153.41
.44
136.15
708.49
云南
6169.75
1067.6
2088.17
494.36
179.45
571.03
162.1
351.74
205.14
1050.16
西藏
441.36
63.88
33.11
103.52
21.19
27.06
14.7
23.17
13.28
141.45
陕西
8169.8
789.64
3501.25
735.17
423.24
707.39
175.01
336.21
239.92
1261.97
甘肃
3387.56
497.05
1203.7
323.54
213.64
231.21
88.52
88.27
101.37
640.26
青海
1081.27
107.4
470.33
105
49.32
66.13
14.54
45.63
23.05
.87
宁夏
1353.31
127.25
520.38
141.94
114.77
74.52
25.59
75.54
47.56
225.76
新疆
4277.05
759.74
1555.84
373.75
209.095
253.6
62.25
115.23
748.67
(2)定义聚类类型:
在“Analyze”菜单“Classify”中选择Hierarchical命令,在弹出的HierarchicalClusterAnalysis对话框中,从对话框左侧的变量列表中选择地区变量,使之添加到LableCasesby框中,同样将指标第一产业,工业,建筑业,交通运仓储及邮电通讯业,批发零售贸易及餐饮业,金融保险业,房地产业,其他行业添加到Variable(s)框中。
在Cluster栏中选择聚类类型“Cases”,在Display中选择显示容,为系统默认选项。
(3)设置统计量的值:
单击Statistics按钮,打开Statistics对话框,同时选中对话框上方的聚类进度“Agglomerationschedule”和相似性矩阵“Proximitymatrix”选项,同时选中ClusterMembership中的Rangeofsolutions,选择3到5。
(4)设置输出图表:
单击Plots按钮,打开Plots对话框,选中树枝图。
(5)选择聚类方法:
单击Method按钮,打开Method对话框,选择默认的Between-groupslinkage(即组间连接法),Interval中也选择默认选项(二元变量欧氏距离)。
TransformValues中的Standardize选择z-cores。
(6)单击OK,即可得到SPSS聚类分析的分析结果。
表2为数据汇总表,是Processing过程中的输出信息,即数据的基本信息。
31个样本参与分析,没有缺失值。
表2数据汇总表
案例处理摘要a
案例
有效
缺失
合计
N
百分比
31
100.0%
0.0%
a.平方Euclidean距离已使用
表3是使用两组间的连接统计量进行聚类的详细过程。
有31个样本,经30步聚类。
Stage:
聚类步骤;
Cluster1,Cluster2:
该步被合并的两类中的样品号或类号,合并结果取小的序号。
StageClusterfirstappears:
非零数值表示合并两项前一次出现的聚类步序号,而0表示第一次出现。
NextStage:
表示合并结果在下一步合并时的步序号[2]。
表4、5为聚类结果,分别为分类表(表4)和树状图(表5)。
由以上树状图可以看出,如若将全国各省和直辖市的经济类型分为三类,则分类如下:
(Ⅰ)、、;
(Ⅱ)、、、、、、、、、、、、新疆、、、、、、、、、广西、天津、、;
(Ⅲ)、、。
若将全国各省和直辖市的经济类型分为四类,则分类如下:
(Ⅲ)、;
(Ⅳ)。
而若将全国各省和直辖市的经济类型分为五类,则分类如下:
(Ⅱ)、、、、、、、新疆、、、、、、、、、广西、天津;
(Ⅲ)、、、、、、;
(Ⅳ)、;
(Ⅴ)。
表3数据聚类表
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
1
26
29
.020
2
30
.060
7
3
28
.169
10
4
8
.234
9
5
17
18
.256
15
6
14
27
.281
21
.289
22
.359
13
.402
12
24
.449
11
20
25
.554
.580
16
.621
.669
19
23
.764
1.
1.130
1.443
1.493
1.687
1.949
3.635
4.088
4.543
4.564
8.098
10.355
14.498
18.538
61.978
表4分类表
群集成员
5群集
4群集
3群集
1:
市
2:
天津市
3:
省
4:
5:
自治区
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
广西壮族自治区
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
回族自治区
31:
新疆维吾尔自治区
表5树枝图
2.2判别分析
判别分析也是一种数据的分析方法。
在生产活动、经济管理、科学实验甚至日常活动中,人们常常需要判定所研究问题的归属问题。
例如经济分析中根据一个国家或地区的若干经济指标,判断该国家或地区经济发展的程度和状态。
在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。
判别分析是先根据已知类别的事物的性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未知类别的新事物进行判断以将之归入已知的类别中。
通常使用的判别分析方法有:
距离判别法、Bayes判别法以及Fisher判别法等方法。
本文中将使用SPSS17.0的Classify→Discriminate程序随机选取、、省份进行判别分析,以确定这些地区所属的经济类型。
本文使用的Fisher判别法的函数系数列表如表6,从表6可列各类的Fisher判别函数,输入相关经济指标就可以判别其它市的经济类型。
表6Fisher判别函数(分类函数系数表)
分类函数系数
V12
1.00
2.00
3.00
4.00
生产总值
.014
-.001
.008
.
第一产业
-.003
.002
-.018
-.
工?
?
业
-.012
.000
-.004
-.027
-.011
-.201
交通运输和邮政业
.007
-.030
-.106
批发和零售业
.005
-.064
住宿和餐饮业
-.162
.016
(常量)
-100.574
-4.267
-57.
-216.965
Fisher的线性判别式函数
设:
地区生产总值=X1,第一产业=X2,工业=X3,建筑业=X4,交通运输和邮政业=X5,批发和零售业=X6,住宿和餐饮业=X7,金融业=X8,房地产业=X9。
Y1=0.014X1-0.003X2-0.012X3-0.053X4-0.027X5-0.027X6-0.012X7+0.163X8-0.081X9-100.574
Y2=-0.001X1+0.002X2+0.014X4+0.007X5+0.005X6+0.014X7+0.014X8-0.011X9-4.267
Y3=0.008X1-0.018X2-0.004X3-0.011X4-0.030X5+0.023X6-0.064X7-0.055X8+0.024X9-57.
Y4=0.048X1-0.058X2-0.027X3-0.201X4-0.106X5-0.064X6-0.162X7-0.016X8+0.010X9-216.965
将、、省份的指标代入四个判别函数,判别函数值最大函数所属类别即为这个省份的分类。
经判别可知属于第一类,属于第二类,属于第三类。
表7为分类结果表,图1为分类散点图。
表7分类结果表
分类结果b,c
预测组成员
初始
计数
%
100.0
.0
交叉验证a
a.仅对分析中的案例进行交叉验证。
在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。
b.已对初始分组案例中的100.0%个进行了正确分类。
c.已对交叉验证分组案例中的92.9%个进行了正确分类。
图1分类散点图
从表8判别结果可见,9、14分别是和出现错判,从2.2聚类分析可以看出,,和是比较有代表性的省份,所以在缺少的情况下进行判别分类,造成的误判也是可能的。
分析与结论:
将全国各省和直辖市的经济类型分为四类,则分类如下:
表8判别结果
按照案例顺序的统计量
案例数目
最高组
第二最高组
判别式得分
P(D>
d|G=g)
实际组
预测组
p
df
P(G=g|D=d)
到质心的平方Mahalanobis距离
组
函数1
函数2
函数3
.067
1.000
7.161
128.851
-.039
-.888
-.362
.931
.444
206.848
2.970
-.630
.553
2.
193.545
2.496
-1.605
.076
6.880
238.429
3.389
1.654
1.773
6.909
147.418
.476
1.499
-.137
.811
.959
222.382
3.450
.011
.231
.943
.388
.937
2.452
-.382
.693
.726
1.313
160.
-12.153
-1.102
-2.558
160.131
-12.804
11.
.763
162.819
-10.
-.678
-3.323
5.727
166.281
1.462
1.512
-1.249
.173
4.982
213.333
3.040
1.900
-.534
12.000
219.924
2.210
3.561
.427
2.781
155.366
.996
-.899
.092
.478
2.486
231.463
3.896
-.732
-.341
238.882
-24.869
-5.316
2.494
.867
.727
.00