第十章 spss聚类分析Word下载.docx

资源描述

第十章 spss聚类分析Word下载.docx

《第十章 spss聚类分析Word下载.docx》由会员分享，可在线阅读，更多相关《第十章 spss聚类分析Word下载.docx（24页珍藏版）》请在冰豆网上搜索。

第十章 spss聚类分析Word下载.docx

11.03

5.47

3.58

2.01

2.13

2.06

1.63

1.17

1.03

0.69

0.77

0.59

0.65

0.51

0.73

0.53

0.36

0.52

0.34

50.30

19.30

9.85

4.17

5.65

1.74

2.04

1.60

2.34

1.33

1.41

1.25

1.19

0.93

1.13

0.82

0.49

11.81

5.20

3.14

1.47

1.04

0.17

0.89

0.48

0.30

0.16

0.35

0.19

0.18

11.27

7.18

2.11

1.58

1.57

1.46

0.76

0.58

0.42

0.14

0.38

0.25

0.55

0.21

10.1.2.1数据准备

激活数据管理窗口，定义变量名：

虽然月份分组不作分析变量，但为了更直观地了解聚类结果，也将之输入数据库，其变量名为month；

身高、体重、胸围和坐高的变量名分别为x1、x2、x3和x4，输入原始数额。

10.1.2.2统计分析

激活Statistics菜单选Classify中的K-MeansCluster...项，弹出K-MeansClusterAnalysis对话框（如图10.1示）。

从对话框左侧的变量列表中选x1、x2、x3、x4，点击钮使之进入Variables框；

在NumberofClusters（即聚类分析的类别数）处输入需要聚合的组数，本例为4；

在聚类方法上有两种：

Iterateandclassify指先定初始类别中心点，而后按K-means算法作叠代分类，Classifyonly指仅按初始类别中心点分类，本例选用前一方法。

图10.1逐步聚类分析对话框

为在原始数据库中逐一显示分类结果，点击Save...钮弹出K-MeansCluster:

SaveNewVariables对话框，选择Clustermembership项，点击Continue钮返回K-MeansClusterAnalysis对话框。

本例还要求对聚类结果进行方差分析，故点击Options...钮弹出K-MeansCluster:

来Options对话框，在Statistics栏中选择ANOVAtable项，点击Continue钮返回K-MeansClusterAnalysis对话框，再点击OK钮即完成分析。

10.1.2.3结果解释

在结果输出窗口中将看到如下统计数据：

首先系统根据用户的指定，按4类聚合确定初始聚类的各变量中心点，未经K-means算法叠代，其类别间距离并非最优；

经叠代运算后类别间各变量中心值得到修正。

InitialClusterCenters.

ClusterX1X2X3X4

111.030050.300011.810011.2700

25.470019.30005.20007.1800

33.58009.85003.14002.1100

4.3400.4900.1800.1600

Convergenceachievedduetonoorsmalldistancechange.

Themaximumdistancebywhichanycenterhaschangedis.0000

Currentiterationis2

Minimumdistancebetweeninitialcentersis10.5200

IterationChangeinClusterCenters

1234

1.0000.00002.46E+001.27E+00

2.0000.0000.0000.0000

CaselistingofClustermembership.

CaseIDClusterDistance

11.000

22.000

332.457

443.219

532.457

641.530

741.346

84.515

94.915

104.266

114.281

124.668

134.467

144.844

154.415

164.873

1741.215

184.619

1941.269

FinalClusterCenters.

32.85507.75002.09002.1100

4.90601.4660.4820.6560

之后对聚类结果的类别间距离进行方差分析，方差分析表明，类别间距离差异的概率值均<

0.001，即聚类效果好。

这样，原有19类（即原有的19个月份分组）聚合成4类，第一类含原有1类，第二类含原有1类，第三类含原有2类，第四类含原有15类。

具体结果系统以变量名QCL_1存于原始数据库中。

DistancesbetweenFinalClusterCenters.

Cluster1234

1.0000

232.4397.0000

345.340013.2521.0000

452.232520.09246.9273.0000

AnalysisofVariance.

VariableClusterMSDFErrorMSDFFProb

X137.58063.36915.0101.7853.000

X2817.116431.35415.0603.2588.000

X345.40893.28115.0161.1145.000

X446.09943.23515.0195.4933.000

NumberofCasesineachCluster.

Clusterunweightedcasesweightedcases

11.01.0

21.01.0

32.02.0

415.015.0

Missing0

Validcases19.019.0

VariableSavedintoWorkingFile.

QCL_1（ClusterNumber）

在原始数据库（图10.2）中，我们可清楚地看到聚类结果；

参照专业知识，将儿童生长发育分期定为：

第一期，出生后至满月，增长率最高；

第二期，第2个月起至第3个月，增长率次之；

第三期，第3个月起至第8个月，增长率减缓；

第四期，第8个月后，增长率显著减缓。

图10.2逐步聚类分析的分类结果

调用此过程可完成系统聚类分析。

在系统聚类分析中，用户事先无法确定类别数，系统将所有例数均调入内存，且可执行不同的聚类算法。

系统聚类分析有两种形式，一是对研究对象本身进行分类，称为Q型举类；

另一是对研究对象的观察指标进行分类，称为R型聚类。

［例10.2］29名儿童的血红蛋白（g/100ml）与微量元素（μg/100ml）测定结果如下表。

由于微量元素的测定成本高、耗时长，故希望通过聚类分析（即R型指标聚类）筛选代表性指标，以便更经济快捷地评价儿童的营养状态。

编号

N0.

钙

镁

铁

锰

铜

血红蛋白

54.89

72.49

53.81

64.74

58.80

43.67

86.12

60.35

54.04

61.23

60.17

69.69

72.28

55.13

70.08

63.05

48.75

52.28

52.21

49.71

61.02

53.68

50.22

65.34

56.39

66.12

73.89

47.31

30.86

42.61

52.86

39.18

37.67

26.18

43.79

38.20

34.23

37.35

33.67

40.01

40.12

33.02

36.81

35.07

30.53

27.14

36.18

25.43

29.27

28.79

29.17

29.99

29.29

31.93

32.94

28.55

448.70

467.30

425.61

469.80

456.55

395.78

440.13

394.40

405.60

446.00

383.20

416.70

430.80

445.80

409.80

384.10

342.90

326.29

388.54

331.10

258.94

292.80

292.60

312.80

283.00

344.20

312.50

294.70

0.012

0.008

0.004

0.005

0.001

0.017

0.022

0.000

0.018

0.024

0.016

0.048

0.006

0.064

1.010

1.640

1.220

0.594

1.770

1.140

1.300

1.380

0.914

1.350

1.200

0.918

1.190

0.853

0.924

0.817

1.020

0.897

1.320

1.040

1.030

0.689

1.150

0.838

13.50

13.00

13.75

14.00

14.25

12.75

12.50

12.25

12.00

11.75

11.50

11.25

11.00

10.75

10.50

10.25

10.00

9.75

9.50

9.25

9.00

8.75

8.50

8.25

8.00

7.80

7.50

7.25

7.00

10.2.2.1数据准备

钙、镁、铁、锰、铜和血红蛋白的变量名分别为x1、x2、x3、x4、x5、x6，之后输入原始数据。

10.2.2.2统计分析

激活Statistics菜单选Classify中的HierarchicalCluster...项，弹出HierarchicalClusterAnalysis对话框（图10.3）。

从对话框左侧的变量列表中选x1、x2、x3、x4、x5、x6，点击钮使之进入Variable（s）框；

在Cluster处选择聚类类型，其中Cases表示观察对象聚类，Variables表示变量聚类，本例选择Variables。

图10.3系统聚类分析对话框

点击Statistics...钮，弹出HierarchicalClusterAnalysis:

Statistics对话框，选择Distancematrix，要求显示距离矩阵，点击Continue钮返回HierarchicalClusterAnalysis对话框（图10.4）。

图10.4系统聚类方法选择对话框

本例要求系统输出聚类结果的树状关系图，故点击Plots...钮弹出HierarchicalClusterAnalysis:

Plots对话框，选择Dendrogram项，点击Continue钮返回HierarchicalClusterAnalysis对话框。

点击Method...钮弹出HierarchicalClusterAnalysis:

Method对话框，系统提供7种聚类方法供用户选择：

Between-groupslinkage：

类间平均链锁法；

Within-groupslinkage：

类内平均链锁法；

Nearestneighbor：