主成分分析和聚类分析报告.docx
《主成分分析和聚类分析报告.docx》由会员分享,可在线阅读,更多相关《主成分分析和聚类分析报告.docx(20页珍藏版)》请在冰豆网上搜索。
主成分分析和聚类分析报告
北京建筑工程学院
理学院信息与计算科学专业实验报告
课程名称《数据分析》实验名称《主成分分析和聚类分析》实验地点:
基础楼C-423日期__2016.5.5_____姓名张丽芝班级信131学号201307010108___指导教师王恒友成绩
【实验目的】
(1)熟悉利用主成分分析进行数据分析,能够使用SPSS软件完成数据的主成分分析;
(2)熟悉利用聚类分析进行数据分析,能够运用主成分分析的结果,做进一步分析,如聚类分析、回归分析等,能够使用SPSS软件完成该任务。
【实验要求】
根据各个题目的具体要求,分别运用SPSS软件完成实验任务。
【实验内容】
1、表4.9(数据见exercise4_5.txt)给出了1991年我国30个省市、城镇居民的月平均消费数据,所考察的八个指标如下:
(单位均为元/人)
X1:
人均粮食支出;X2:
人均副食支出;
X3:
人均烟酒茶支出;X4:
人均其他副食支出;
X5:
人均衣着商品支出;X6:
人均日用品支出;
X7:
人均燃料支出;X8:
人均非商品支出。
(1)求样本相关系数矩阵R。
(2)从R出发做主成分分析,求出各主成分的贡献率及前两个主成分的累积贡献率;
2、
(1)对题1中的数据,按照原有的八个指标,对30个省份进行聚类,给出分为3类的聚类结果。
(2)利用题1得到的前2个主成分指标,分别按最短距离法(最近邻居距离)、最长距离法(最远邻居距离)、类平均距离法(组间平均距离)、重心距离法;其中距离均采用欧式平方距离,对样本进行谱系聚类分析,并画出谱系聚类图;给出分为3类的聚类结果。
并与
(1)的结果进行比较
【实验步骤】(此部分主要包括实验过程、方法、结果、对结果的分析、结论等)
1
1)
相关矩阵
V2
V3
V4
V5
V6
V7
V8
V9
相关
V2
1.000
.334
-.055
-.061
-.289
.199
.349
.319
V3
.334
1.000
-.023
.399
-.156
.711
.414
.835
V4
-.055
-.023
1.000
.533
.497
.033
-.139
-.258
V5
-.061
.399
.533
1.000
.698
.468
-.171
.313
V6
-.289
-.156
.497
.698
1.000
.280
-.208
-.081
V7
.199
.711
.033
.468
.280
1.000
.417
.702
V8
.349
.414
-.139
-.171
-.208
.417
1.000
.399
V9
.319
.835
-.258
.313
-.081
.702
.399
1.000
2)
表:
方差贡献率和累计贡献率
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
合计
方差的%
累积%
1
3.096
38.704
38.704
3.096
38.704
38.704
3.079
38.485
38.485
2
2.367
29.590
68.294
2.367
29.590
68.294
2.385
29.809
68.294
3
.920
11.500
79.794
4
.706
8.824
88.618
5
.498
6.231
94.848
6
.230
2.874
97.722
7
.131
1.635
99.357
8
.051
.643
100.000
提取方法:
主成份分析。
由上图可知,只有前两个成分的特征值大于1,所以只选择前两个主成分。
第一个主成分的方差贡献率是38.704%,第二个主成分的方差贡献率是29.590%,前两个主成分的方差占所有主成分方差的64.294%。
前两个主成分的累计贡献率为68.294%,选择前两个主成分即可代表绝大多数原来的变量。
最终聚类中心
聚类
1
2
3
V2
8.79
8.48
10.38
V3
47.05
31.14
70.37
V4
8.82
7.07
6.76
V5
12.80
9.14
16.73
V6
16.96
16.31
17.29
V7
12.80
10.21
18.56
V8
1.88
1.78
3.09
V9
13.63
11.51
24.20
2
每个聚类中的案例数
聚类
1
10.000
2
18.000
3
2.000
有效
30.000
缺失
.000
由上图可知,聚类2包含样本数最多,聚类3包含样本数最少。
通过K中心聚类分析,可以对我国各地区生活中的人均支出类别情况有一个基本的了解。
我们可以将不同地区的人均消费情况分为3类;其中第二类包含的省市最多,有18个,其他两类包含城市较少。
通过分析结果也可知每个地区所属类别。
(2)
按最短距离法(最近邻居距离)对样本进行谱系聚类分析
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
1
2
3.299
0
0
15
2
5
6
4.854
0
0
3
3
5
7
4.910
2
0
6
4
8
9
6.314
0
0
6
5
12
13
10.409
0
0
10
6
5
8
10.539
3
4
7
7
5
10
11.730
6
0
9
8
3
4
12.469
0
0
14
9
5
11
15.194
7
0
14
10
12
14
17.539
5
0
12
11
15
16
18.698
0
0
13
12
12
18
19.264
10
0
13
13
12
15
20.778
12
11
16
14
3
5
22.778
8
9
15
15
1
3
25.407
1
14
18
16
12
17
27.956
13
0
19
17
24
25
33.748
0
0
19
18
1
19
37.414
15
0
20
19
12
24
37.945
16
17
20
20
1
12
38.070
18
19
23
21
21
22
39.765
0
0
22
22
21
23
47.432
21
0
25
23
1
20
52.468
20
0
24
24
1
26
64.048
23
0
25
25
1
21
82.053
24
22
26
26
1
27
82.066
25
0
27
27
1
28
259.409
26
0
28
28
1
29
300.223
27
0
29
29
1
30
396.775
28
0
0
由聚类表可知聚类的具体过程。
以第一步为例,样品1和2合并为一类,距离系数为3.299,在“首次出现阶段集群”里显示为0,因此合并两项都是第一次出现,合并结果取15,即归为第15类。
群集成员
案例
3群集
1:
山西
1
2:
内蒙古
1
3:
吉林
1
4:
黑龙江
1
5:
河南
1
6:
甘肃
1
7:
青海
1
8:
河北
1
9:
陕西
1
10:
宁夏
1
11:
新疆
1
12:
湖北
1
13:
云南
1
14:
湖南
1
15:
安徽
1
16:
贵州
1
17:
辽宁
1
18:
四川
1
19:
山东
1
20:
江西
1
21:
福建
1
22:
广西
1
23:
海南
1
24:
天津
1
25:
江苏
1
26:
浙江
1
27:
北京
1
28:
西藏
1
29:
上海
2
30:
广东
3
集群成员表如图,当划分为3个类别时,各个地区所属类别。
与上一问所得结论有较大出入。
上图直观的反应了样品逐步合并的过程。
最长距离法(最远邻居距离)
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
1
2
3.299
0
0
15
2
5
6
4.854
0
0
5
3
8
9
6.314
0
0
7
4
12
13
10.409
0
0
8
5
5
7
12.276
2
0
16
6
3
4
12.469
0
0
10
7
8
10
15.294
3
0
15
8
12
14
17.559
4
0
12
9
15
16
18.698
0
0
12
10
3
11
27.077
6
0
17
11
17
18
27.956
0
0
18
12
12
15
28.855
8
9
18
13
24
25
33.748
0
0
22
14
21
22
39.765
0
0
21
15
1
8
40.887
1
7
16
16
1
5
49.520
15
5
17
17
1
3
67.778
16
10
23
18
12
17
68.931
12
11
20
19
26
27
82.066
0
0
24
20
12
19
86.817
18
0
22
21
21
23
102.216
14
0
27
22
12
24
160.503
20
13
26
23
1
20
219.108
17
0
28
24
26
28
333.013
19
0
26
25
29
30
396.775
0
0
27
26
12
26
459.195
22
24
28
27
21
29
821.706
21
25
29
28
1
12
846.540
23
26
29
29
1
21
3198.129
28
27
0
群集成员
案例
3群集
1:
山西
1
2:
内蒙古
1
3:
吉林
1
4:
黑龙江
1
5:
河南
1
6:
甘肃
1
7:
青海
1
8:
河北
1
9:
陕西
1
10:
宁夏
1
11:
新疆
1
12:
湖北
2
13:
云南
2
14:
湖南
2
15:
安徽
2
16:
贵州
2
17:
辽宁
2
18:
四川
2
19:
山东
2
20:
江西
1
21:
福建
3
22:
广西
3
23:
海南
3
24:
天津
2
25:
江苏
2
26:
浙江
2
27:
北京
2
28:
西藏
2
29:
上海
3
30:
广东
3
类平均距离法(组间平均距离)
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
1
2
3.299
0
0
17
2
5
6
4.854
0
0
4
3
8
9
6.314
0
0
7
4
5
7
8.593
2
0
14
5
12
13
10.409
0
0
8
6
3
4
12.469
0
0
13
7
8
10
13.512
3
0
10
8
12
14
17.549
5
0
11
9
15
16
18.698
0
0
11
10
8
11
21.704
7
0
13
11
12
15
24.981
8
9
18
12
17
18
27.956
0
0
18
13
3
8
32.350
6
10
14
14
3
5
32.651
13
4
17
15
24
25
33.748
0
0
20
16
21
22
39.765
0
0
21
17
1
3
40.437
1
14
24
18
12
17
47.824
11
12
19
19
12
19
68.645
18
0
22
20
24
26
74.041
15
0
23
21
21
23
74.824
16
0
25
22
12
20
110.184
19
0
24
23
24
27
126.926
20
0
25
24
1
12
134.045
17
22
27
25
21
24
197.455
21
23
27
26
29
30
396.775
0
0
29
27
1
21
453.036
24
25
28
28
1
28
489.847
27
0
29
29
1
29
1591.227
28
26
0
群集成员
案例
3群集
1:
山西
1
2:
内蒙古
1
3:
吉林
1
4:
黑龙江
1
5:
河南
1
6:
甘肃
1
7:
青海
1
8:
河北
1
9:
陕西
1
10:
宁夏
1
11:
新疆
1
12:
湖北
1
13:
云南
1
14:
湖南
1
15:
安徽
1
16:
贵州
1
17:
辽宁
1
18:
四川
1
19:
山东
1
20:
江西
1
21:
福建
1
22:
广西
1
23:
海南
1
24:
天津
1
25:
江苏
1
26:
浙江
1
27:
北京
1
28:
西藏
2
29:
上海
3
30:
广东
3
重心距离法
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
1
2
3.299
0
0
14
2
5
6
4.854
0
0
4
3
8
9
6.314
0
0
6
4
5
7
7.379
2
0
13
5
12
13
10.409
0
0
8
6
8
10
11.933
3
0
9
7
3
4
12.469
0
0
12
8
12
14
14.947
5
0
11
9
8
11
18.000
6
0
12
10
15
16
18.698
0
0
11
11
12
15
15.250
8
10
16
12
3
8
23.080
7
9
13
13
3
5
19.932
12
4
14
14
1
3
27.520
1
13
23
15
17
18
27.956
0
0
16
16
12
17
32.272
11
15
19
17
24
25
33.748
0
0
21
18
21
22
39.765
0
0
20
19
12
19
53.945
16
0
22
20
21
23
64.883
18
0
25
21
24
26
65.605
17
0
24
22
12
20
91.421
19
0
23
23
1
12
94.200
14
22
26
24
24
27
106.723
21
0
25
25
21
24
141.246
20
24
26
26
1
21
346.674
23
25
27
27
1
28
375.156
26
0
29
28
29
30
396.775
0
0
29
29
1
29
1368.518
27
28
0
群集成员
案例
3群集
1:
山西
1
2:
内蒙古
1
3:
吉林
1
4:
黑龙江
1
5:
河南
1
6:
甘肃
1
7:
青海
1
8:
河北
1
9:
陕西
1
10:
宁夏
1
11:
新疆
1
12:
湖北
1
13:
云南
1
14:
湖南
1
15:
安徽
1
16:
贵州
1
17:
辽宁
1
18:
四川
1
19:
山东
1
20:
江西
1
21:
福建
1
22:
广西
1
23:
海南
1
24:
天津
1
25:
江苏
1
26:
浙江
1
27:
北京
1
28:
西藏
1
29:
上海
2
30:
广东
3