主成分分析和聚类分析报告.docx

上传人:b****3 文档编号:26531097 上传时间:2023-06-20 格式:DOCX 页数:20 大小:116.24KB
下载 相关 举报
主成分分析和聚类分析报告.docx_第1页
第1页 / 共20页
主成分分析和聚类分析报告.docx_第2页
第2页 / 共20页
主成分分析和聚类分析报告.docx_第3页
第3页 / 共20页
主成分分析和聚类分析报告.docx_第4页
第4页 / 共20页
主成分分析和聚类分析报告.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

主成分分析和聚类分析报告.docx

《主成分分析和聚类分析报告.docx》由会员分享,可在线阅读,更多相关《主成分分析和聚类分析报告.docx(20页珍藏版)》请在冰豆网上搜索。

主成分分析和聚类分析报告.docx

主成分分析和聚类分析报告

北京建筑工程学院

理学院信息与计算科学专业实验报告

课程名称《数据分析》实验名称《主成分分析和聚类分析》实验地点:

基础楼C-423日期__2016.5.5_____姓名张丽芝班级信131学号201307010108___指导教师王恒友成绩

【实验目的】

(1)熟悉利用主成分分析进行数据分析,能够使用SPSS软件完成数据的主成分分析;

(2)熟悉利用聚类分析进行数据分析,能够运用主成分分析的结果,做进一步分析,如聚类分析、回归分析等,能够使用SPSS软件完成该任务。

【实验要求】

根据各个题目的具体要求,分别运用SPSS软件完成实验任务。

【实验内容】

1、表4.9(数据见exercise4_5.txt)给出了1991年我国30个省市、城镇居民的月平均消费数据,所考察的八个指标如下:

(单位均为元/人)

X1:

人均粮食支出;X2:

人均副食支出;

X3:

人均烟酒茶支出;X4:

人均其他副食支出;

X5:

人均衣着商品支出;X6:

人均日用品支出;

X7:

人均燃料支出;X8:

人均非商品支出。

(1)求样本相关系数矩阵R。

(2)从R出发做主成分分析,求出各主成分的贡献率及前两个主成分的累积贡献率;

2、

(1)对题1中的数据,按照原有的八个指标,对30个省份进行聚类,给出分为3类的聚类结果。

(2)利用题1得到的前2个主成分指标,分别按最短距离法(最近邻居距离)、最长距离法(最远邻居距离)、类平均距离法(组间平均距离)、重心距离法;其中距离均采用欧式平方距离,对样本进行谱系聚类分析,并画出谱系聚类图;给出分为3类的聚类结果。

并与

(1)的结果进行比较

【实验步骤】(此部分主要包括实验过程、方法、结果、对结果的分析、结论等)

1

1)

相关矩阵

V2

V3

V4

V5

V6

V7

V8

V9

相关

V2

1.000

.334

-.055

-.061

-.289

.199

.349

.319

V3

.334

1.000

-.023

.399

-.156

.711

.414

.835

V4

-.055

-.023

1.000

.533

.497

.033

-.139

-.258

V5

-.061

.399

.533

1.000

.698

.468

-.171

.313

V6

-.289

-.156

.497

.698

1.000

.280

-.208

-.081

V7

.199

.711

.033

.468

.280

1.000

.417

.702

V8

.349

.414

-.139

-.171

-.208

.417

1.000

.399

V9

.319

.835

-.258

.313

-.081

.702

.399

1.000

 

2)

表:

方差贡献率和累计贡献率

解释的总方差

成份

初始特征值

提取平方和载入

旋转平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

合计

方差的%

累积%

1

3.096

38.704

38.704

3.096

38.704

38.704

3.079

38.485

38.485

2

2.367

29.590

68.294

2.367

29.590

68.294

2.385

29.809

68.294

3

.920

11.500

79.794

4

.706

8.824

88.618

5

.498

6.231

94.848

6

.230

2.874

97.722

7

.131

1.635

99.357

8

.051

.643

100.000

提取方法:

主成份分析。

由上图可知,只有前两个成分的特征值大于1,所以只选择前两个主成分。

第一个主成分的方差贡献率是38.704%,第二个主成分的方差贡献率是29.590%,前两个主成分的方差占所有主成分方差的64.294%。

前两个主成分的累计贡献率为68.294%,选择前两个主成分即可代表绝大多数原来的变量。

最终聚类中心

聚类

1

2

3

V2

8.79

8.48

10.38

V3

47.05

31.14

70.37

V4

8.82

7.07

6.76

V5

12.80

9.14

16.73

V6

16.96

16.31

17.29

V7

12.80

10.21

18.56

V8

1.88

1.78

3.09

V9

13.63

11.51

24.20

2

 

每个聚类中的案例数

聚类

1

10.000

2

18.000

3

2.000

有效

30.000

缺失

.000

 

由上图可知,聚类2包含样本数最多,聚类3包含样本数最少。

通过K中心聚类分析,可以对我国各地区生活中的人均支出类别情况有一个基本的了解。

我们可以将不同地区的人均消费情况分为3类;其中第二类包含的省市最多,有18个,其他两类包含城市较少。

通过分析结果也可知每个地区所属类别。

(2)

按最短距离法(最近邻居距离)对样本进行谱系聚类分析

聚类表

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

1

1

2

3.299

0

0

15

2

5

6

4.854

0

0

3

3

5

7

4.910

2

0

6

4

8

9

6.314

0

0

6

5

12

13

10.409

0

0

10

6

5

8

10.539

3

4

7

7

5

10

11.730

6

0

9

8

3

4

12.469

0

0

14

9

5

11

15.194

7

0

14

10

12

14

17.539

5

0

12

11

15

16

18.698

0

0

13

12

12

18

19.264

10

0

13

13

12

15

20.778

12

11

16

14

3

5

22.778

8

9

15

15

1

3

25.407

1

14

18

16

12

17

27.956

13

0

19

17

24

25

33.748

0

0

19

18

1

19

37.414

15

0

20

19

12

24

37.945

16

17

20

20

1

12

38.070

18

19

23

21

21

22

39.765

0

0

22

22

21

23

47.432

21

0

25

23

1

20

52.468

20

0

24

24

1

26

64.048

23

0

25

25

1

21

82.053

24

22

26

26

1

27

82.066

25

0

27

27

1

28

259.409

26

0

28

28

1

29

300.223

27

0

29

29

1

30

396.775

28

0

0

由聚类表可知聚类的具体过程。

以第一步为例,样品1和2合并为一类,距离系数为3.299,在“首次出现阶段集群”里显示为0,因此合并两项都是第一次出现,合并结果取15,即归为第15类。

群集成员

案例

3群集

1:

山西

1

2:

内蒙古

1

3:

吉林

1

4:

黑龙江

1

5:

河南

1

6:

甘肃

1

7:

青海

1

8:

河北

1

9:

陕西

1

10:

宁夏

1

11:

新疆

1

12:

湖北

1

13:

云南

1

14:

湖南

1

15:

安徽

1

16:

贵州

1

17:

辽宁

1

18:

四川

1

19:

山东

1

20:

江西

1

21:

福建

1

22:

广西

1

23:

海南

1

24:

天津

1

25:

江苏

1

26:

浙江

1

27:

北京

1

28:

西藏

1

29:

上海

2

30:

广东

3

集群成员表如图,当划分为3个类别时,各个地区所属类别。

与上一问所得结论有较大出入。

上图直观的反应了样品逐步合并的过程。

最长距离法(最远邻居距离)

聚类表

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

1

1

2

3.299

0

0

15

2

5

6

4.854

0

0

5

3

8

9

6.314

0

0

7

4

12

13

10.409

0

0

8

5

5

7

12.276

2

0

16

6

3

4

12.469

0

0

10

7

8

10

15.294

3

0

15

8

12

14

17.559

4

0

12

9

15

16

18.698

0

0

12

10

3

11

27.077

6

0

17

11

17

18

27.956

0

0

18

12

12

15

28.855

8

9

18

13

24

25

33.748

0

0

22

14

21

22

39.765

0

0

21

15

1

8

40.887

1

7

16

16

1

5

49.520

15

5

17

17

1

3

67.778

16

10

23

18

12

17

68.931

12

11

20

19

26

27

82.066

0

0

24

20

12

19

86.817

18

0

22

21

21

23

102.216

14

0

27

22

12

24

160.503

20

13

26

23

1

20

219.108

17

0

28

24

26

28

333.013

19

0

26

25

29

30

396.775

0

0

27

26

12

26

459.195

22

24

28

27

21

29

821.706

21

25

29

28

1

12

846.540

23

26

29

29

1

21

3198.129

28

27

0

群集成员

案例

3群集

1:

山西

1

2:

内蒙古

1

3:

吉林

1

4:

黑龙江

1

5:

河南

1

6:

甘肃

1

7:

青海

1

8:

河北

1

9:

陕西

1

10:

宁夏

1

11:

新疆

1

12:

湖北

2

13:

云南

2

14:

湖南

2

15:

安徽

2

16:

贵州

2

17:

辽宁

2

18:

四川

2

19:

山东

2

20:

江西

1

21:

福建

3

22:

广西

3

23:

海南

3

24:

天津

2

25:

江苏

2

26:

浙江

2

27:

北京

2

28:

西藏

2

29:

上海

3

30:

广东

3

 

类平均距离法(组间平均距离)

聚类表

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

1

1

2

3.299

0

0

17

2

5

6

4.854

0

0

4

3

8

9

6.314

0

0

7

4

5

7

8.593

2

0

14

5

12

13

10.409

0

0

8

6

3

4

12.469

0

0

13

7

8

10

13.512

3

0

10

8

12

14

17.549

5

0

11

9

15

16

18.698

0

0

11

10

8

11

21.704

7

0

13

11

12

15

24.981

8

9

18

12

17

18

27.956

0

0

18

13

3

8

32.350

6

10

14

14

3

5

32.651

13

4

17

15

24

25

33.748

0

0

20

16

21

22

39.765

0

0

21

17

1

3

40.437

1

14

24

18

12

17

47.824

11

12

19

19

12

19

68.645

18

0

22

20

24

26

74.041

15

0

23

21

21

23

74.824

16

0

25

22

12

20

110.184

19

0

24

23

24

27

126.926

20

0

25

24

1

12

134.045

17

22

27

25

21

24

197.455

21

23

27

26

29

30

396.775

0

0

29

27

1

21

453.036

24

25

28

28

1

28

489.847

27

0

29

29

1

29

1591.227

28

26

0

 

群集成员

案例

3群集

1:

山西

1

2:

内蒙古

1

3:

吉林

1

4:

黑龙江

1

5:

河南

1

6:

甘肃

1

7:

青海

1

8:

河北

1

9:

陕西

1

10:

宁夏

1

11:

新疆

1

12:

湖北

1

13:

云南

1

14:

湖南

1

15:

安徽

1

16:

贵州

1

17:

辽宁

1

18:

四川

1

19:

山东

1

20:

江西

1

21:

福建

1

22:

广西

1

23:

海南

1

24:

天津

1

25:

江苏

1

26:

浙江

1

27:

北京

1

28:

西藏

2

29:

上海

3

30:

广东

3

重心距离法

聚类表

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

1

1

2

3.299

0

0

14

2

5

6

4.854

0

0

4

3

8

9

6.314

0

0

6

4

5

7

7.379

2

0

13

5

12

13

10.409

0

0

8

6

8

10

11.933

3

0

9

7

3

4

12.469

0

0

12

8

12

14

14.947

5

0

11

9

8

11

18.000

6

0

12

10

15

16

18.698

0

0

11

11

12

15

15.250

8

10

16

12

3

8

23.080

7

9

13

13

3

5

19.932

12

4

14

14

1

3

27.520

1

13

23

15

17

18

27.956

0

0

16

16

12

17

32.272

11

15

19

17

24

25

33.748

0

0

21

18

21

22

39.765

0

0

20

19

12

19

53.945

16

0

22

20

21

23

64.883

18

0

25

21

24

26

65.605

17

0

24

22

12

20

91.421

19

0

23

23

1

12

94.200

14

22

26

24

24

27

106.723

21

0

25

25

21

24

141.246

20

24

26

26

1

21

346.674

23

25

27

27

1

28

375.156

26

0

29

28

29

30

396.775

0

0

29

29

1

29

1368.518

27

28

0

 

群集成员

案例

3群集

1:

山西

1

2:

内蒙古

1

3:

吉林

1

4:

黑龙江

1

5:

河南

1

6:

甘肃

1

7:

青海

1

8:

河北

1

9:

陕西

1

10:

宁夏

1

11:

新疆

1

12:

湖北

1

13:

云南

1

14:

湖南

1

15:

安徽

1

16:

贵州

1

17:

辽宁

1

18:

四川

1

19:

山东

1

20:

江西

1

21:

福建

1

22:

广西

1

23:

海南

1

24:

天津

1

25:

江苏

1

26:

浙江

1

27:

北京

1

28:

西藏

1

29:

上海

2

30:

广东

3

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > 交规考试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1