聚类分析实验.docx

上传人:b****8 文档编号:8767164 上传时间:2023-02-01 格式:DOCX 页数:10 大小:18.80KB
下载 相关 举报
聚类分析实验.docx_第1页
第1页 / 共10页
聚类分析实验.docx_第2页
第2页 / 共10页
聚类分析实验.docx_第3页
第3页 / 共10页
聚类分析实验.docx_第4页
第4页 / 共10页
聚类分析实验.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

聚类分析实验.docx

《聚类分析实验.docx》由会员分享,可在线阅读,更多相关《聚类分析实验.docx(10页珍藏版)》请在冰豆网上搜索。

聚类分析实验.docx

聚类分析实验

ThismodelpaperwasrevisedbytheStandardizationOfficeonDecember10,2020

 

聚类分析实验

聚类分析

用数据文件做实例分析。

例1:

系统聚类法

为了研究亚洲国家或地区的经济发展和文化教育水平,以便对亚洲国家和地区进行分类研究,进行聚类分析。

第一步:

首先要选出亚洲国家或地区,使用数据—>选择个案

—>选择如果条件满足—>输入region=3,之后确定就可以了,这样我们将亚洲国家或区域选择了出来。

接下类就正式进行聚类分析。

第二步:

选择在菜单选项中选择分析—>分类—>选择系统聚类分析

第三步:

在系统聚类法中,我们看到在分群下有两个选项,个案(样品聚类或Q型分类)和变量(变量聚类或R型聚类)这里选择样品聚类(个案)。

在输出下有统计量与图,这里都进行选择。

第四步:

在数据文件中,选择的变量有Urban,Lifeexpf,Lifeexpm,Literacy,Gdp-cap;

在标注个案中选择Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家或地区进行聚类。

第五步:

在系统聚类中有四个按钮。

首先在方法中的聚类方法中选择组内联结法,在度量标准中选择平方欧氏距离,在转换值的标准化中选择Z得分。

点击继续。

接下来选择统计量,选择合并进程表与相似性矩阵,继续。

之后在绘制中选择树状图,继续即可。

最后点击确定。

第六步:

输出分析

表1表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。

本例中由于计算使用的是平方欧氏距离,所以样品间距越大,样品越相异,从矩阵中可以看出,孟加拉国(Bangladesh)与柬埔寨(Cambodia)的距离最小,那么他俩先聚为一类。

表1

近似矩阵

案例

平方Euclidean距离

1:

Afghanistan

2:

Bangladesh

3:

Cambodia

4:

China

5:

HongKong

6:

India

7:

Indonesia

8:

Japan

9:

Malaysia

10:

N.Korea

11:

Pakistan

12:

Philippines

13:

S.Korea

14:

Singapore

15:

Taiwan

16:

Thailand

17:

Vietnam

1:

Afghanistan

.000

.969

2:

Bangladesh

.000

.146

.736

3:

Cambodia

.969

.146

.000

4:

China

.000

.623

.617

.806

.554

.421

5:

HongKong

.000

.299

6:

India

.000

.522

7:

Indonesia

.623

.000

.637

.424

8:

Japan

.000

9:

Malaysia

.617

.000

.595

.945

10:

N.Korea

.000

.904

11:

Pakistan

.736

.522

.000

12:

Philippines

.806

.637

.595

.904

.000

.765

.665

13:

S.Korea

.000

.390

14:

Singapore

.299

.000

15:

Taiwan

.390

.000

16:

Thailand

.554

.945

.765

.000

.294

17:

Vietnam

.421

.424

.665

.294

.000

这是一个不相似矩阵

表2反映每一阶段聚类的结果,比如第一阶段时第二个样品(孟加拉国)与第三个样品(柬埔寨)聚为一类,注意这时有16类,因此某阶段的分类数等于总的样品数减去这个阶段的序号。

接下来的分析可根据表4自行思考。

表2

聚类表

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

1

2

3

.146

0

0

10

2

16

17

.294

0

0

5

3

5

14

.299

0

0

12

4

13

15

.390

0

0

11

5

4

16

.423

0

2

7

6

6

11

.522

0

0

13

7

4

7

.573

5

0

9

8

9

12

.595

0

0

9

9

4

9

.723

7

8

14

10

1

2

.901

0

1

13

11

10

13

0

4

14

12

5

8

3

0

15

13

1

6

10

6

16

14

4

10

9

11

15

15

4

5

14

12

16

16

1

4

13

15

0

表3是聚合系数随分类数变化的曲线,由图可以看出,当分类数为3或4时,曲线变得比较平缓,这个分类也符合我们的目的。

表3

表4是树状聚类图,从图中可以有分类个数得到分类情况,如果我们选择分类数为3,就从距离为10的地方往下切,得到分类如下:

1类{2,3,1,6,11},2类{5,14,8},3类{16,17,4,7,9,12,13,15,10}我们可以从经济发展水平和文化教育水平来理解所做的分类,第2类所代表的国家应该是亚洲经济发达程度最高的国家或地区,第1类的经济水平和文化水平都比较低,第三类国家或地区的经济水平和文化水平居中。

表4

表5也是反映样品聚类情况的图,如果按照设定的分类,在那类的行上从左到右就可以找到各类所包含的样品。

表5

例2:

快速聚类

还是用的数据,从中筛选出亚洲国家或地区试图将亚洲国家或地区按经济和文化水平分为三类,使用快速聚类法。

第一步:

与例1相同。

第二部:

选择在菜单选项中选择分析—>分类—>选择K-均值聚类分析。

第三步:

在数据文件中,选择的变量有Urban,Lifeexpf,Lifeexpm,Literacy,Gdp-cap;

在标注个案中选择Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家或地区进行聚类。

将分类数指定为3,在选项中选择统计量中的:

初始聚类中心,ANOVA表,每个个案的聚类信息。

输出分析:

表6表示最初各类的重心,也就是种子点,

表6

初始聚类中心

聚类

1

2

3

Peoplelivingincities(%)

18

77

71

Averagefemalelifeexpectancy

44

82

78

Averagemalelifeexpectancy

45

76

72

Peoplewhoread(%)

29

99

91

Grossdomesticproduct/capita

205

19860

7055

表7时样品的分类情况,我们看到快速聚类发将亚洲国家或地区分为三类,

1类{1,8,19,24,50,51,66,69,76,80,98,108}2类{47,57,89}3类{86,96},我们可以对分类结果进行分析,第一类国家或地区经济和文教卫生水平较低,第二类国家或地区时亚洲国家或地区的佼佼者,其经济和文教卫生水平都有很高,第三类国家或地区处于两者之间。

我们可以结合表8来分析,可以看到,第二类的人均GDP比另外两组高。

表7

聚类成员

案例号

country

聚类

距离

dimension0

1

Afghanistan

1

8

Bangladesh

1

19

Cambodia

1

24

China

1

47

HongKong

2

50

India

1

51

Indonesia

1

57

Japan

2

66

Malaysia

1

69

N.Korea

1

76

Pakistan

1

80

Philippines

1

86

S.Korea

3

89

Singapore

2

96

Taiwan

3

98

Thailand

1

108

Vietnam

1

表8

最终聚类中心

聚类

1

2

3

Peoplelivingincities(%)

29

90

72

Averagefemalelifeexpectancy

63

80

76

Averagemalelifeexpectancy

60

75

70

Peoplewhoread(%)

66

88

94

Grossdomesticproduct/capita

775

16497

6841

表9是方差分析表,通过方差分析可看出有4个变量对分类贡献显着。

表9

ANOVA

聚类

误差

F

Sig.

均方

df

均方

df

Peoplelivingincities(%)

2

14

.000

Averagefemalelifeexpectancy

2

14

.010

Averagemalelifeexpectancy

2

14

.005

Peoplewhoread(%)

2

14

.189

Grossdomesticproduct/capita

2

14

.000

F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。

观测到的显着性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1