111017马坤鹏聚类分析实验报告.docx

上传人:b****8 文档编号:10292314 上传时间:2023-02-09 格式:DOCX 页数:19 大小:235.97KB
下载 相关 举报
111017马坤鹏聚类分析实验报告.docx_第1页
第1页 / 共19页
111017马坤鹏聚类分析实验报告.docx_第2页
第2页 / 共19页
111017马坤鹏聚类分析实验报告.docx_第3页
第3页 / 共19页
111017马坤鹏聚类分析实验报告.docx_第4页
第4页 / 共19页
111017马坤鹏聚类分析实验报告.docx_第5页
第5页 / 共19页
点击查看更多>>
下载资源
资源描述

111017马坤鹏聚类分析实验报告.docx

《111017马坤鹏聚类分析实验报告.docx》由会员分享,可在线阅读,更多相关《111017马坤鹏聚类分析实验报告.docx(19页珍藏版)》请在冰豆网上搜索。

111017马坤鹏聚类分析实验报告.docx

111017马坤鹏聚类分析实验报告

合肥学院数理系

 

实验报告

 

实验名称:

聚类分析

面向专业:

信息与计算科学

实验班级:

12级数理系信息班

课程名称:

数据分析

学生姓名:

马坤鹏

学号:

1207011017

指导教师:

张林松

实验成绩:

 

2014-2015学年第二学期

1、实验内容

为了更深入了解我国人口的文化程度状况,现采集2000年全国人口普查数据对全国30个省、直辖市、自治区的人口文化程度的数据。

观测选用了三个指标:

(1)大学以上文化程度的人口占全部人口的比例(DXBC)

(2)初中文化程度的人口占全部人口的比例(CZBC)(3)文盲、半文盲人口占全部人口的比例(WMBZ),分别用来反映较高、中等、较低文化程度人口的状况。

 

数据列:

地区

编号

DXBL

CZBL

WMBL

北京

1

9.3

30.55

8.7

天津

2

4.67

29.38

8.92

河北

3

0.96

24.69

15.21

山西

4

1.38

29.24

11.3

内蒙

5

1.48

25.47

15.39

辽宁

6

2.6

32.32

8.81

吉林

7

2.15

26.31

10.49

黑龙江

8

2.14

28.46

10.87

上海

9

6.53

31.59

11.04

江苏

10

1.47

26.43

17.23

浙江

11

1.17

23.74

17.46

安徽

12

0.88

19.97

24.43

福建

13

1.23

16.87

15.63

江西

14

0.99

18.84

16.22

山东

15

0.98

25.18

16.87

河南

16

0.85

26.25

16.15

湖北

17

1.57

23.16

15.79

湖南

18

1.14

22.57

12.1

广东

19

1.34

23.04

10.45

广西

20

0.79

19.14

10.61

海南

21

1.24

22.53

13.97

四川

22

0.96

21.65

16.24

贵州

23

0.78

14.65

24.27

云南

24

0.81

13.85

25.44

西藏

25

0.57

3.85

44.43

陕西

26

1.67

24.36

17.62

甘肃

27

1.1

16.85

27.93

青海

28

1.49

17.76

27.7

宁夏

29

1.61

20.27

22.06

新疆

30

1.85

20.66

12.75

2、实验目的

为了科学评价个地区人口文化状况,以便为教育文化投资的流向和政策的制定提供合理的依据,我们需要对各省区进行分类。

 

使用系统聚类方法,距离使用类平均法。

使用系统聚类方法,距离使用可变类平均法

3、实验方案分析

该问题系统聚类分析是聚类分析中应用的最广泛的一种方法。

首先将n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。

分类结果可以画成一张直观的聚类谱系图。

应用系统聚

4/12

类法进行聚类分析的步骤如下:

①确定待分类的样品的指标②收集数据

③对数据进行变换处理

④使各个样品自成一类,即n个样品一共有n类

⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类

⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止

⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。

4、操作过程:

datamkp;

inputgroup$x1-x3;

cards;

地区DXBLCZBLWMBL

北京9.330.558.7

天津4.6729.388.92

河北0.9624.6915.21

山西1.3829.2411.3

内蒙1.4825.4715.39

辽宁2.632.328.81

吉林2.1526.3110.49

黑龙江2.1428.4610.87

上海6.5331.5911.04

江苏1.4726.4317.23

浙江1.1723.7417.46

安徽0.8819.9724.43

福建1.2316.8715.63

江西0.9918.8416.22

山东0.9825.1816.87

河南0.8526.2516.15

湖北1.5723.1615.79

湖南1.1422.5712.1

广东1.3423.0410.45

广西0.7919.1410.61

海南1.2422.5313.97

四川0.9621.6516.24

贵州0.7814.6524.27

云南0.8113.8525.44

西藏0.573.8544.43

陕西1.6724.3617.62

甘肃1.116.8527.93

青海1.4917.7627.7

宁夏1.6120.2722.06

新疆1.8520.6612.75

;

procprintdata=mkp;

run;

procclusterdata=mkpmethod=avestdpseudoccc

outtree=mkp1;

varx1-x3;

idgroup;

proctreedata=mkp1horizontalgraphics;

title'使用类平均法的谱系聚类图';

run;

title;

 

procclusterdata=mkpmethod=flestdpseudocccBETA=-0.25

outtree=mkp1;

varx1-x3;

idgroup;

proctreedata=mkp1horizontalgraphics;

title'使用可变类平均法的谱系聚类图';

run;

title;

 

5、实验结果

SAS系统

Obs

group

x1

x2

x3

1

地区

.

.

.

2

北京

9.30

30.55

8.70

3

天津

4.67

29.38

8.92

4

河北

0.96

24.69

15.21

5

山西

1.38

29.24

11.30

6

内蒙

1.48

25.47

15.39

7

辽宁

2.60

32.32

8.81

8

吉林

2.15

26.31

10.49

9

黑龙江

2.14

28.46

10.87

10

上海

6.53

31.59

11.04

11

江苏

1.47

26.43

17.23

12

浙江

1.17

23.74

17.46

13

安徽

0.88

19.97

24.43

14

福建

1.23

16.87

15.63

15

江西

0.99

18.84

16.22

16

山东

0.98

25.18

16.87

17

河南

0.85

26.25

16.15

18

湖北

1.57

23.16

15.79

19

湖南

1.14

22.57

12.10

20

广东

1.34

23.04

10.45

21

广西

0.79

19.14

10.61

22

海南

1.24

22.53

13.97

23

四川

0.96

21.65

16.24

24

贵州

0.78

14.65

24.27

25

云南

0.81

13.85

25.44

26

西藏

0.57

3.85

44.43

27

陕西

1.67

24.36

17.62

28

甘肃

1.10

16.85

27.93

29

青海

1.49

17.76

27.70

30

宁夏

1.61

20.27

22.06

31

新疆

1.85

20.66

12.75

SAS系统

CLUSTER过程

类平均聚类分析

相关矩阵的特征值

 

特征值

差分

比例

累积

1

2.22095184

1.59056779

0.7403

0.7403

2

0.63038405

0.48171995

0.2101

0.9504

3

0.14866411

 

0.0496

1.0000

已将数据标准化成均值为0且方差为1

根均方总样本标准差

1

观测之间的根均方距离

2.44949

聚类历史

聚类数

连接聚类

频数

半偏

R方

R 方

近似

期望

R方

立方

聚类

条件

伪F

统计量

t方

NormRMS

Distance

结值

29

贵州

云南

2

0.0002

1.00

.

.

150

.

0.0831

 

28

山东

河南

2

0.0003

1.00

.

.

148

.

0.087

 

27

湖南

海南

2

0.0004

.999

.

.

134

.

0.1025

 

26

甘肃

青海

2

0.0004

.999

.

.

128

.

0.1065

 

25

河北

CL28

3

0.0004

.998

.

.

122

1.7

0.108

 

24

内蒙

江苏

2

0.0005

.998

.

.

119

.

0.1181

 

23

浙江

陕西

2

0.0005

.997

.

.

119

.

0.1183

 

22

CL23

湖北

3

0.0006

.997

.

.

116

1.3

0.1304

 

21

福建

江西

2

0.0007

.996

.

.

111

.

0.147

 

20

吉林

黑龙江

2

0.0007

.995

.

.

110

.

0.1471

 

19

CL25

CL24

5

0.0013

.994

.

.

99.4

3.4

0.1518

 

18

CL27

广东

3

0.0010

.993

.

.

98.8

2.7

0.1548

 

17

CL19

CL22

8

0.0029

.990

.

.

80.4

4.8

0.1876

 

16

安徽

宁夏

2

0.0015

.989

.

.

80.4

.

0.2059

 

15

CL18

新疆

4

0.0020

.987

.

.

78.6

3.0

0.2119

 

14

山西

CL20

3

0.0021

.984

.

.

78.0

2.8

0.2253

 

13

CL17

四川

9

0.0033

.981

.

.

73.8

3.5

0.2558

 

12

CL15

广西

5

0.0038

.977

.

.

70.7

3.4

0.2847

 

11

CL29

CL26

4

0.0055

.972

.

.

65.6

17.6

0.291

 

10

CL13

CL12

14

0.0216

.950

.

.

42.4

15.3

0.366

 

9

CL14

辽宁

4

0.0063

.944

.

.

44.2

4.5

0.3689

 

8

CL16

CL11

6

0.0107

.933

.

.

43.9

5.6

0.3858

 

7

CL10

CL21

16

0.0181

.915

.

.

41.3

6.5

0.4421

 

6

天津

上海

2

0.0070

.908

.877

1.86

47.4

.

0.4511

 

5

CL7

CL9

20

0.0611

.847

.847

0.01

34.6

16.5

0.6019

 

4

CL5

CL8

26

0.1846

.662

.802

-3.8

17.0

30.4

0.8467

 

3

北京

CL6

3

0.0308

.632

.728

-2.4

23.1

4.4

0.8491

 

2

CL3

CL4

29

0.3546

.277

.580

-4.0

10.7

26.0

1.5097

 

1

CL2

西藏

30

0.2769

.000

.000

0.00

.

10.7

2.1248

 

TREE过程

类平均聚类分析

SAS系统

CLUSTER过程

可变类平均聚类分析

相关矩阵的特征值

 

特征值

差分

比例

累积

1

2.22095184

1.59056779

0.7403

0.7403

2

0.63038405

0.48171995

0.2101

0.9504

3

0.14866411

 

0.0496

1.0000

Beta

-0.25

已将数据标准化成均值为0且方差为1

根均方总样本标准差

1

观测之间的平均距离

1.972983

聚类历史

聚类数

连接聚类

频数

半偏

R方

R 方

近似

期望

R方

立方

聚类

条件

伪F

统计量

t方

Norm

Flexible

Distance

结值

29

贵州

云南

2

0.0002

1.00

.

.

150

.

0.1032

 

28

山东

河南

2

0.0003

1.00

.

.

148

.

0.108

 

27

湖南

海南

2

0.0004

.999

.

.

134

.

0.1273

 

26

甘肃

青海

2

0.0004

.999

.

.

128

.

0.1322

 

25

河北

CL28

3

0.0004

.998

.

.

122

1.7

0.1395

 

24

内蒙

江苏

2

0.0005

.998

.

.

119

.

0.1466

 

23

浙江

陕西

2

0.0005

.997

.

.

119

.

0.1468

 

22

CL23

湖北

3

0.0006

.997

.

.

116

1.3

0.1656

 

21

福建

江西

2

0.0007

.996

.

.

111

.

0.1825

 

20

吉林

黑龙江

2

0.0007

.995

.

.

110

.

0.1827

 

19

CL27

广东

3

0.0010

.994

.

.

106

2.7

0.1983

 

18

CL25

CL24

5

0.0013

.993

.

.

98.8

3.4

0.2303

 

17

安徽

宁夏

2

0.0015

.991

.

.

94.2

.

0.2557

 

16

CL22

四川

4

0.0018

.990

.

.

89.4

3.2

0.2694

 

15

山西

CL20

3

0.0021

.988

.

.

85.2

2.8

0.2973

 

14

CL19

新疆

4

0.0020

.986

.

.

84.2

3.0

0.3055

 

13

CL14

广西

5

0.0038

.982

.

.

76.4

3.4

0.4099

 

12

CL18

CL16

9

0.0044

.977

.

.

70.7

5.7

0.4237

 

11

CL29

CL26

4

0.0055

.972

.

.

65.6

17.6

0.495

 

10

CL15

辽宁

4

0.0063

.966

.

.

62.2

4.5

0.5349

 

9

天津

上海

2

0.0070

.958

.

.

60.6

.

0.56

 

8

CL21

CL13

7

0.0108

.948

.

.

56.9

6.9

0.5925

 

7

CL17

CL11

6

0.0107

.937

.

.

57.0

5.6

0.6684

 

6

CL12

CL8

16

0.0289

.908

.877

1.86

47.4

14.2

1.0845

 

5

北京

CL9

3

0.0308

.877

.847

1.48

44.7

4.4

1.1413

 

4

CL6

CL10

20

0.0611

.816

.802

0.54

38.5

16.5

1.9244

 

3

CL7

西藏

7

0.1114

.705

.728

-.65

32.2

30.5

2.7804

 

2

CL5

CL4

23

0.3033

.402

.580

-2.6

18.8

38.5

4.0921

 

1

CL2

CL3

30

0.4015

.000

.000

0.00

.

18.8

5.2726

 

TREE过程

可变类平均聚类分析

6、分析

使用系统聚类方法,距离使用类平均法的结果可以看出:

北京、天津和上海为一类,西藏自治区为一类,其他地区为一类;

使用系统聚类方法,距离使用可变类平均法的结果可以看出:

北京、天津和上海为一类,安徽、宁夏、贵州、云南、甘肃、青海、西藏为一类,其他地区为一类。

其他输出结果图依次给出了相关矩阵特征值、根均方样本标准差、观测之间的根均方距离、聚类历史、聚类数准则。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 兵器核科学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1