北航数理统计判别分析大作业Word下载.docx
《北航数理统计判别分析大作业Word下载.docx》由会员分享,可在线阅读,更多相关《北航数理统计判别分析大作业Word下载.docx(24页珍藏版)》请在冰豆网上搜索。
2466.9
23150.26
辽宁
17998.7
21836.3
56649
2178.8
23222.67
吉林
12276.3
9511.5
43415
1566.2
20208.04
黑龙江
11600.8
9694.7
35711
2812.7
17759.75
上海
36892.9
5117.6
85373
2807.3
40188.34
江苏
19452.3
30854.2
68347
7329.0
29676.97
浙江
22844.7
17649.4
63374
4013.3
34550.30
安徽
10977.7
15425.8
28792
1876.3
21024.21
福建
16143.9
12439.9
52763
1854.8
28055.24
江西
10572.9
10774.2
28800
1560.5
19860.36
山东
15095.0
31256.0
51768
5960.3
25755.19
河南
10380.3
21450.0
31499
3584.0
20442.62
湖北
12283.0
15578.3
38572
2897.3
20839.59
湖南
11739.5
14523.2
33480
2397.7
21318.76
广东
21823.3
18751.5
54095
6241.8
30226.71
广西
10519.5
9808.6
27952
1612.2
21242.80
海南
10634.5
2145.4
32377
448.3
20917.71
重庆
13655.4
8736.2
38914
1389.3
22968.14
四川
11280.2
17040.0
29608
2831.4
20306.99
贵州
8372.0
5717.8
19710
1039.7
18700.51
云南
9781.6
7831.1
22195
1763.2
21074.50
西藏
5339.5
670.5
22936
289.6
18028.32
陕西
11852.2
12044.5
38564
1944.9
20733.88
甘肃
8542.0
5145.0
21978
1131.9
17156.89
青海
10289.1
1883.4
33181
410.2
17566.28
宁夏
12120.4
2096.9
36394
404.2
19831.41
新疆
10675.1
6158.8
33796
1891.8
17920.68
三聚类分析
3.1聚类分析过程
首先将数据导入SPSS中,并剔除待分析的河北、浙江、新疆三省数据。
表3所示的为聚类分析的汇总结果:
表3案例处理汇总
案例
有效
缺失
总计
N
百分比
28
100.0
.0
a.平方Euclidean距离已使用
b.平均联结(组之间)
从表3中可以看到28个样本的数据全都有效,均用于系统聚类分析过程。
表中列出了有效样本、缺失样本和样本总数的个数和百分数。
表4显示的是样本的凝聚过程。
对本文选取的28个样本,系统进行了27步分析,并在每一步中给出了凝聚过程中两类之间的相关系数。
表4聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
1
12
18
3568152.164
11
2
10
21
4789624.428
9
3
22
26
7892087.384
8
4
19
27
12067895.815
7
5
15
25
13591635.444
6
14116255.332
14
19190996.708
23
21666276.496
13
16
23240192.308
20
30411453.520
41848265.896
42054641.615
24
53920958.101
54768430.052
64763844.618
81191025.397
17
96231017.522
1.141E8
1.218E8
1.515E8
1.868E8
2.597E8
2.667E8
3.113E8
3.780E8
1.133E9
3.450E9
表4所列各项的意义如下:
阶——聚类步骤号;
群集组合——在某步中合并的个案;
系数——距离或相似系数;
首次出现阶群集——新生成聚类;
下一阶——对应步骤生成的新类将在第几步与其它个案或新类合并。
从中可以看出聚类的进度和类详细合并的步骤。
可以从表中看出,第12和第18个样本最先进行了聚类,样本间的距离为3568152.164。
表5显示的是聚类后的集群成员:
表5群集成员
群集
1:
北京
2:
天津
3:
山西
4:
内蒙古
5:
辽宁
6:
吉林
7:
黑龙江
8:
上海
9:
江苏
10:
安徽
11:
福建
12:
江西
13:
山东
14:
河南
15:
湖北
16:
湖南
17:
广东
18:
广西
19:
海南
20:
重庆
21:
四川
22:
贵州
23:
云南
24:
西藏
25:
陕西
26:
甘肃
27:
青海
28:
宁夏
从表5可以看到系统聚类分析的最终结果为:
北京市、天津市、上海市属于第一类,内蒙古、辽宁省、江苏省、福建省、山东省、广东省被分为第三类,其他省、直辖市、自治区被分为第二类。
图1为垂直冰柱图,形状类似于冬天屋檐上垂下的冰柱,因此得名。
横轴:
案例(Case)表示被聚类的对象;
纵轴:
群集数(Numberofclusters)表示被聚成几类;
图1以冰柱图表示聚类分析结果。
图中第1列为聚类步骤号,第1行为样本及样本号。
图中每一列代表一个冰柱,深色柱代表冰柱的长短。
从冰柱的长短变化可以看出聚类的全过程。
即如果样本或新类在第n步合并,则在图中第n步以上合并项对应列中用深色填充,没有空格。
由于冰柱图是按照聚类的编号进行排列,所以其与聚结表的顺序刚好相反,也就是说聚结表的第一步对应于冰柱图的最后一步。
冰柱图一般从表格的最后一行开始观察。
最后一行中,类的数目为27,即聚积成27类,其中样本江西和广西用深色柱连接在一起,表示成两个样本聚成一类,其余每个样本构成一类。
因此从冰柱图中可以非常清楚地看到,聚成n时类时,各个样本的类归属情况。
图1冰柱图
图2为聚类分析之后的树状图:
图2树状图
图2清晰地表示出了聚类的全过程。
它将实际的距离按比例调整到0-25的范围内,用逐级连线的方式连接性质相近的个案和新类,直至并为一类。
在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺划线,该垂线将和水平线相交,则相交的交点数即为分类的类别数,相交水平连线所对应的样本聚成一类。
3.2聚类分析结果总结
从上一部分的聚类分析过程可以看出,SPSS软件将本文所采用的数据分为3类,如表6所示:
表6
集群
第一类
北京、天津、上海
第二类
其他省、自治区、直辖市
第三类
内蒙古、辽宁、江苏、福建、山东、广东
北京市、天津市、上海市构成一类。
北京、天津作为老牌经济强省,同时也是北方京津冀经济圈的主要经济贡献力量,其在全国经济整体盘面上表现一直相对强劲。
上海市作为中国的经济中心,其整体发展水平高于全国其他地市,其在居民消费水平、人均地区生产均值、城镇居民人均总收入等诸多指标中都有着明显的优势。
内蒙古由于近几年煤炭等能源生产增长,还有富饶的草原畜牧业,经济发展迅速。
而辽宁、江苏、福建、山东、广东这些沿海地区,由于受到改革开放经济政策的影响,经济实力仅次于北京、上海、天津。
故以上几个省份被划为一类。
其余省市被划分为一类。
这些省市中也包括黑龙江省等经济条件较好的省市,但各行业领域发展并不均衡,故将其划入该类中。
4判别分析
4.1判别分析过程
根据聚类分析的结果,将省份分为3类,在SPSS中添加一个新变量G用来表示类别,取值为1、2和3,同时在表中添加了三个个案河北、浙江、新疆,作为待判样本。
下面是判别结果相关表格。
下表7为参与分析的个案处理的摘要显示,可以看出,共有28个样本作为判别基础数据进入分析。
表7分析案例处理摘要
未加权案例
90.3
排除的
缺失或越界组代码
9.7
至少一个缺失判别变量
缺失或越界组代码还有至少一个缺失判别变量
合计
31
下表8为分组的统计量统计信息。
由下表可以看出一共有3个组,其中第一组3例,第二组19例,第三组6例。
同时,下表给出了各组中变量的均值和标准差。
表8组统计量
G类别
均值
标准差
有效的N(列表状态)
未加权的
已加权的
居民消费水平
30075.4667
6958.49808
3.000
社会固定资产投资
6388.2667
1428.71648
人均地区生产总值
88673.6667
4035.79005
城镇居民人均总收入
35427.8333
5357.35214
政府消费支出
2985.9333
1385.21562
10686.6263
1816.10285
19.000
9417.9158
5710.44151
31458.2105
6544.42549
20020.6563
1518.89422
1661.3158
938.74936
17618.1167
2668.37565
6.000
21168.9333
8537.01207
57918.0000
6708.25283
26681.1733
3121.52932
4338.6000
2430.30174
14249.3214
6810.84948
28.000
11611.3857
7880.56214
43258.3929
20322.59927
23098.6789
5646.00438
2376.9429
1755.02985
下表9为组均值的均等性检验表:
表9组均值的均等性的检验
Wilks的Lambda
F
df1
df2
Sig.
.153
69.121
.000
.570
9.437
.001
.092
123.026
.172
60.366
.592
8.615
该检验方法的原假设是组均值对应相等,此时各变量间没有显著差异。
本例中的各变量的显著性概率均小于0.05,所以拒绝原假设,即认为各变量之间存在显著的差异。
下表10为汇聚的组内矩阵表,该表显示了各个变量两两之间的协方差和相关系数。
表10汇聚的组内矩阵
协方差
7672426.660
3033279.657
5216758.878
5283078.918
1480414.129
38217995.847
8001104.608
3391896.304
6634790.857
41140382.873
960452.898
1465320.179
5905955.377
1618204.396
1969279.350
相关性
1.000
.177
.294
.785
.381
.202
.226
.765
.062
.163
.474
a.协方差矩阵的自由度为25。
下表11的协方差矩阵,展示了聚类分析后的各个类的变量两两之间的协方差:
表11协方差矩阵
48420695.503
-9852735.767
-27368710.967
36940141.442
4156123.882
2041230.773
5741544.133
-7654132.957
-1084074.793
16287601.333
-21531547.583
-3479584.133
28701221.961
4071622.683
1918822.303
3298229.580
4319615.980
9662694.105
1680206.960
662639.440
32609142.188
8424512.846
3916161.119
4982434.632
42829504.953
3747667.059
1404456.119
2307039.664
413414.266
881250.360
7120228.610
3556875.065
2245580.000
5590592.956
3354119.110
72880575.051
7380659.140
5922954.673
15670819.526
45000656.000
-76717.890
3662392.520
9743945.307
4974081.553
5906366.532
46387670.622
6278134.148
1.252E8
36970857.207
5704313.183
62103259.585
30401569.858
8345411.101
11060870.150
4.130E8
1.003E8
16762748.823
31877365.455
5444351.363
3080129.790
a.总的协方差矩阵的自由度为27。
4.2判别分析结果总结
首先,对协方差矩阵的均等性进行箱式检验。
下表12为对数行列式表,该表包括各类别和合并组内的对应的秩和对数行列式:
表12对数行列式
秩
对数行列式
.a
.b
74.080
80.611
汇聚的组内
78.557
打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。
a.秩<
3
b.案例太少无法形成非奇异矩阵
通过表13得出检验结果:
表13检验结果a
箱的M
79.900
近似。
3.083
339.325
对相等总体协方差矩阵的零假设进行检验。
a.有些协方差矩阵是奇异