聚类分析步骤.docx

上传人:b****7 文档编号:8955664 上传时间:2023-02-02 格式:DOCX 页数:15 大小:120.06KB
下载 相关 举报
聚类分析步骤.docx_第1页
第1页 / 共15页
聚类分析步骤.docx_第2页
第2页 / 共15页
聚类分析步骤.docx_第3页
第3页 / 共15页
聚类分析步骤.docx_第4页
第4页 / 共15页
聚类分析步骤.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

聚类分析步骤.docx

《聚类分析步骤.docx》由会员分享,可在线阅读,更多相关《聚类分析步骤.docx(15页珍藏版)》请在冰豆网上搜索。

聚类分析步骤.docx

聚类分析步骤

聚类分析步骤

以教材第五章习题8的数据为例,演示并说明聚类分析的详细步骤:

原始数据的输入:

丈件(D霸甸〔口锻国(蜀散惭直I转快(D分折(幻圈解〔⑤密坏賤序〔史Mt加内容(Q)SUM帮肋

S暗事?

*™S?

鮒*fflft韶亟蔚粤箱「专

21;衣甫

地区

食品

农看

燃料

住房

交適和通讯

娱乐朝育文化

1

北京

19033

4377

973

50.54

49,01

9.04

2

13520

35.40

10.47

U.1B

3643

3.94

3

河北

95.21

2283

9.30

22.44

2281

2.60

4

山西

10476

2511

6.40

9.89

16.U

325

5

内蒙占

123.41

27.63

8.94

12.53

23.99

2.27

6

辽宁

145,58

32.B3

1779

27.29

3S.09

3.47

7

吉林

159.37

3338

10.37

11.81

25.29

5.22

8

黒挖江

116.22

23.57

13.24

1376

21.75

上海

221.11

33.54

12.53

115.65

60.82

5.89

W

江苏

114.98

29.12

1167

42.60

27.30

574

11

浙江

)69,92

3275

12.72

47.12

34.35

5.00

2

安渤

135,11

23.09

15.G2

235A

16.20

6.39

13

福建

144.92

21.2B

16.96

19.62

2175

6.37

14

U0.64

21.60

17.6J

19.19

15刃

4.9J

15

山东

115.84

3EJ26

12.20

33.60

3377

3.E5

16

河南

101;:

18

232G

8.46

20.20

20.50

4.30

11

.选项操作:

1.打开SPSS的“分析”-“分类”-“系统聚类”,

打开“系统聚类”对话框。

把“食品”、“衣着”等6变量输入待分析变量框;把“地区”输入“标注个案”;“分群”选中“个案”;“输出”选中“统计量”和“图”。

(如下图)

 

密Ife鸟駝£臭

*I必炮区

H-q

I1

E

曲前

输出

v熨计養y岡

 

 

相关说明:

(1)系统聚类法是最常用的方法,其他的方法较少使用。

(2)“标注个案”里输入“地区”,在输出结果的距离方阵和聚类树状图里会显示出“北京”、“天津”等,否则SPSS自动用“1”、“2”等代替。

(3)“分群”选中“个案”,也就是对北京等16个样本进行分类,而不是对食品等6个变量分类。

(4)必须选中“输出”中的“统计量”和“图”。

在该例中会输出16个地区的欧氏距离方阵和聚类树状图。

2.设置分析的统计量

打开最右上角的“统计量”对话框,选中“合并进程表”和“相似性矩阵”“聚类成员”选中“无”。

然后点击“继续”。

打开第二个“绘制”对话框,必须选中“树状图”,其他的默认即可

打开第三个对话框“方法”:

聚类方法选中“最邻近元素”;“度量标准”

选中“区间”的“欧氏距离”;“转换值”选中“标准化”的“Z得分”,并且

是“按照变量”。

度量祈准

+区町(LD:

Euclidean肚屈

7"T

计徹D;

卡方度豪

二鼻細

^?

TEuclicteeri

转换佰

标醸他①:

e洛、

n按片薇

转换度晁

□国康苻脊on

□亶丽柝.度到0^1金曲日

在〔已|i|祁祎粧也:

|g|

打开第四个对话框“保存”,“聚类成员”选默认的“无”即可三•分析结果的解读:

按照SPSS俞出结果的先后顺序逐个介绍:

1.欧氏距离矩阵:

是16个地区两两之间欧氏距离大小的方阵,该方阵是应用各种聚类方法进行聚类的基础。

ProximityMatrix

Case

EuclideanDistance

1:

北京

2:

天津

3:

河北

4:

山西:

i:

内蒙古

6:

辽宁

7:

吉林

8:

黑龙江

9:

上海

10:

江苏

11:

浙江

12:

安徽

13:

福建

14:

江西

15:

山东

16:

河南

1:

北京

.000

3.839

6.289

6.223

5.831

4.734

4.691

4.793

3.131

4.300

3.404

5.251

5.339

5.981

4.681

5.821

2:

天津

3.839

.000

2.911

3.108

2.390

2.190

2.892

2.581

4.153

1.881

1.473

3.400

3.631

3.701

1.280

2.888

3:

河北

6.289

2.911

.000

1.134

1.324

3.493

3.789

2.515

6.544

2.328

3.420

2.992

3.304

2.979

1.961

.960

4:

山西

6.223

3.108

1.134

.000

1.318

4.051

4.040

2.606

6.803

2.620

3.638

3.276

3.665

3.420

2.482

.989

5:

内蒙古

5.831

2.390

1.324

1.318

.000

3.050

3.326

2.558

6.092

2.513

2.891

3.178

3.432

3.091

1.840

1.652

6:

辽宁

4.734

2.190

3.493

4.051

3.050

.000

1.800

2.764

4.700

2.677

1.984

3.060

2.955

2.902

1.881

3.662

7:

吉林

4.691

2.892

3.789

4.040

3.326

1.800

.000

2.052

5.247

2.619

2.215

2.146

2.088

2.110

2.565

3.606

8:

黑龙江

4.793

2.581

2.515

2.606

2.558

2.764

2.052

.000

5.797

1.290

2.470

1.406

1.843

2.041

1.887

1.972

9:

上海

3.131

4.153

6.544

6.803

6.092

4.700

5.247

5.797

.000

4.936

3.519

5.834

5.826

6.191

4.986

6.402

10:

江苏

4.300

1.881

2.328

2.620

2.513

2.677

2.619

1.290

4.936

.000

1.917

1.922

2.321

2.567

1.330

1.880

11:

浙江

3.404

1.473

3.420

3.638

2.891

1.984

2.215

2.470

3.519

1.917

.000

2.743

2.826

3.071

1.857

3.221

12:

安徽

5.251

3.400

2.992

3.276

3.178

3.060

2.146

1.406

5.834

1.922

2.743

.000

.650

1.086

2.613

2.508

13:

福建

5.339

3.631

3.304

3.665

3.432

2.955

2.088

1.843

5.826

2.321

2.826

.650

.000

1.025

2.824

2.913

14:

江西

5.981

3.701

2.979

3.420

3.091

2.902

2.110

2.041

6.191

2.567

3.071

1.086

1.025

.000

2.805

2.798

15:

山东

4.681

1.280

1.961

2.482

1.840

1.881

2.565

1.887

4.986

1.330

1.857

2.613

2.824

2.805

.000

2.041

16:

河南

5.821

2.888

.960

.989

1.652

3.662

3.606

1.972

6.402

1.880

3.221

2.508

2.913

2.798

2.041

.000

Thisisadissimilaritymatrix

2.合并进程表:

主要看前四列,现在以前三个步骤为例说明合并过程:

第一步,样本12和

样本13合并,此时系数为0.650;第二步,样本3和样本16合并,此时系数为0.960;第三步,样本3(实际上是第二步样本3和16组成的新类)和样本4合并,此时系数为0.989;以此类推。

AgglomerationSchedule

Stage

ClusterCombined

Coefficients

StageClusterFirstAppears

NextStage

Cluster1

Cluster2

Cluster1

Cluster2

1

12

13

.650

0

0

4

2

3

16

.960

0

0

u

3

3

3

4

.989

2

0

7

4

12

14

1.025

1

0

cw

5

2

15

1.280

0

0

8

6

8

10

1.290

0

0

8

7

3

5

1.318

3

0

12

8

2

8

1.330

5

6

cw

9

2

12

1.406

8

4

1C

10

2

11

1.473

9

0

12

11

6

7

1.800

0

0

13

12

2

3

1.840

10

7

13

13

2

6

1.881

12

11

15

14

1

9

3.131

0

0

15

15

1

2

3.404

14

13

0

3.冰柱:

左侧是分组数目,上侧是被分组的样本,样本之间由等距的间隔分开,间隔被填充的,说明相邻两样本合并为一组,没有被填充就不被合并。

按照此规则,首先从下往上看,当分为15类时,只有样本13和12合并了,其余的各自是一类;当分为10类时,从左到右依次是(7),(6),(5),(4,16,3),(11),(14,13,12),(10,8),(15,2),(9),

(1);其他的分组数目时以此类推。

(该冰柱的分组数目有2.5、7.5、12.5等含有半组的情况,不需要掌握。

s」*sn-u苫

4.树状图:

Dendrogram

+;+=^+++:

*=(!

^+^^*+*++p|f+HIERARCHTCALCLUSr

D&tidiogramusingSingleLinkage

RescaledDistanceClusherComtune

LabelHum.4

安徽12+

福律13-+十

江西14+

天津24+|

L1J东15T|-J+

慝龙江6+丨I

江苏to+iI

浙江Li十

河北3亠+I|

河南16+H+|■+-b

山西4+H十II

内蔬古5+II

辽宁614|

吉林7+|

北京1"^+

_g°—■—卜

这是分类结果最后的树状图,把整个分类情况一目了然地呈现出来了。

最上面的是标尺,数字0-25是大致按照距离比例重新标定的数值,不影响对分类结果的观察与结论。

解读此图的方法是:

每个样本的右侧都是虚线,虚线的端点处是“+”,说明该样本在此和另一个样本或者组(它也有上下相对齐的“+”)合

并为一类。

女口:

安徽和福建在对应标尺1附近时合并为一类,之后与江西在标尺数值4附近合并为一类。

天津、山东、黑龙江、江苏四个样本的“+”看起来好

像是统一对齐的,其实不是,实际情况是:

天津和山东在1.280(欧氏距离)处

对齐,黑龙江和江苏在1.290(欧氏距离)处对齐。

总说明:

1.聚类分析从数学上讲不是很严谨,所以采用不同的统计量和采取不同的聚类方法,聚类结果可能有较大的差异。

但是只要整个分析过程没有错误就是完整正确的,聚类结果都是认可的。

(本例中,原始数据首先进行标准差标准化,再求欧氏距离方阵,聚类方法采取的是最短距离法。

2.聚类分析的最终结果自然是分类,除了SPSS输出的树状图,最好自己再做

出Word格式的分类表,具体分为几类,自己看情况而定。

譬如该例子就可以分为4类或5类。

3.聚类分析只是分类,并不能进行评判(如发展水平高低等),如要评判各样本应结合主成分分析、因子分析等方法共同进行。

其分类结果也不一定按照聚类分析的结果为准,可以结合主成分分析、因子分析的结果进行修正。

最短距离法具体计算方法及步骤

在系统聚类法中,最短距离法应用比较广泛。

计算过程一般是首先对原始数据进行标准化处理,再计算初始欧氏距离矩阵,然后应用最短距离法聚类。

假设有6个样本的初始欧氏距离矩阵如下:

G1

G2

G3

G4

G5

G6

0

0.375

0

D(o)=0.483

0.776

0

1.749

1.596

1.926

0

1.516

1.336

1.662

0.501

0

1.972

1.743

2.154

0.693

0.589

0

(系统聚类法在聚类之前把每个样本看成一组,用G1,G2,….代替。

在该矩阵中,第i行和第i列都代表第i组,在左侧括号的外面应该自上到下依次是G1,G2,…,G6,因为word中不好输入,所以省略了。

在初始距离系数矩阵的基础上,用最短距离法分类的具体步骤是:

1.在初始距离系数矩阵D⑼中,选出距离数值最小者,即di2=0.375,把第一类G1和第二类G2合并为一个新类G7,记为G7={G1,G2}。

再利用最短距离法计算新类G7与其他各类G3,G4,G5,G6的距离,得

d73=min{di3,d23}=min{0.483,0.776}=0.483

d74=min{di4,d24}=min{1.749,1.596}=1.596

d75=min{d15,d25}=min{1.516,1.336}=1.336

d76=min{d16,d26}=min{1.972,1.743}=1.743

形成距离系数矩阵D⑴

G7

G3

G4

G5

G6

0

0.483

0

D

(1)

1.596

1.926

0

1.336

1.662

0.501

0

1.743

2.154

0.693

0.589

0

2.在矩阵D

(1)中,选出距离数值最小者,即d73=0.483,这时G7和G3合并为一个新类G8,记为G8={G7,G3}。

再利用最短距离法计算新类G8与其他各类G4,G5,G6的距离,得

D84=min{d34,d74}=min{1.926,1.596}=1.596

D85=min{d35,d75}=min{1.662,1.336}=1.336

D86=min{d36,d76}=min{2.154,1.743}=1.743

形成距离系数矩阵D⑵。

G8

G4

G5

G6

0

⑵1.596

D(2

0

1.336

0.501

0

1.743

0.693

0.589

0

3.在矩阵D⑵中,选出距离数值最小者,即d45=0.501,这时G4和G5合并为一个新类G9,记为G9={G4,G5}。

再利用最短距离法计算新类G9与其他各类G8,G6的距离,得

D98=min{d48,d58}=min{1.596,1.336}=1.336

D96=min{d46,d56}=min{0.693,0.589}=0.589形成距离系数矩阵D(3)。

G8G9G6

0

D⑶1.3360

1.7430.5890

4.在矩阵D⑶中,选出距离数值最小者,即d69=0.589,这时G6和G9合并为一个新类G10,记为G10={G6,G9}。

再利用最短距离法计算新类G10与G8的距离,得

Di0,,8=min{d68,d98}=min{1.743,1.336}=1.336

形成距离系数矩阵D⑷。

G8G10

D⑷

0

1.3360

由矩阵D⑷可以看出,G8和G10在距离系数为1.336时合并成一类G11类。

记为G11={G8,G10},至此聚类完毕。

最后绘出分类谱系图(草图):

(左侧竖线是距离标尺,每格数值0.2,因不好标注,所以未标出。

谱系图中的短横线自下而上依次表示G7,G8,G9,G10,G11聚类时的数值,也应该标出。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 管理学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1