SPSS190之聚类分析.docx

资源描述

SPSS190之聚类分析.docx

《SPSS190之聚类分析.docx》由会员分享，可在线阅读，更多相关《SPSS190之聚类分析.docx（15页珍藏版）》请在冰豆网上搜索。

SPSS190之聚类分析.docx

SPSS190之聚类分析

1.1系统聚类

本次实验的系统聚类都是凝聚系统聚类，为了控制变量，都采用平方Euclidean距离。

1.1.1最短距离聚类法

最短距离法聚类步骤如下：

1.规定样本间的距离，计算样本两两之间的距离，得到对称矩阵。

开始每个样品自成一类。

2.选择对称矩阵中的最小非零元素。

将两个样品之间最小距离记为D1，将这两个样品归并成为一类，记为G1。

3.计算G1与其他样品距离。

重复以上过程直到所有样品合并为一类。

我们在SPSS中实现最短距离分析非常简单。

单击“

”-->“

”。

将弹出如图1-1所示的对话框，设置相应的参数即可。

图1-1最短距离法

我们的数据已经做过标准化，在“转化值”-->“标准化”选项上选无。

在统计量的聚类成员中选择“无”，因为这是非监督分类，不需要指定最终分出的类个数。

在绘制中选择绘制“树状图”。

单击确定，得到以下结果。

1.表3-1显示了数据的缺失情况：

案例处理汇总a

案例

有效

缺失

总计

百分比

100.0

表1-1数据汇总

我们的数据经过预处理，所以缺失值个数为0.

2.由于相关矩阵过于庞大，无法在文档中贴出，得到的是一个非相似矩阵。

表1-2是样品聚类过程。

样品21和28在第一步合并为一类，它们之间的非相关系数最小，为0.211。

在下一次合并是第十步。

在第五步的时候，样品2、27、14组成一类，出现群集，样品个数为3。

如上类推，可以解释表格。

聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

.211

.465

.491

.585

.645

.678

.702

.773

.916

1.085

1.106

1.115

1.360

1.564

1.627

1.649

1.877

3.027

3.543

4.930

5.024

6.445

8.262

10.093

10.096

10.189

11.387

13.153

32.367

表1-2聚类过程

我们可以通过更加形象直观的树状图来观察整个聚类过程和聚类效果。

如图1-2所示，最短距离法组内距离小，但组间距离也较小。

分类特征不够明显，无法凸显各个省份的能源消耗的特点。

但是我们可以看到广东省能源消耗组成和其他省份特别不同，在其他方法中也显现出来。

图1-2最短距离法聚类图

1.1.2组间联接聚类

组间联接聚类法定义为两类之间的平均平方距离，即

。

类CK和CL 合并为下一步的CM 则CM 与CJ距离的递推公式为：

。

我们依然贴出组间联接法的聚类表和树状图。

1.聚类表如表1-3所示，相关解释类似于表1-1所述。

聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

.211

.465

.491

.585

.840

.937

1.105

1.331

1.360

1.495

1.703

1.877

2.133

2.378

3.715

3.926

5.024

5.526

6.445

8.262

8.744

11.508

14.202

14.288

19.822

23.363

26.516

31.210

69.114

表1-2组间联接聚类法

2.树状图如图1-3所示，可以看到聚类的组间距离较大，组内距离较小。

聚类结果较为理想。

可以看到海南与青海，宁夏自治区，重庆市的能源消耗特点近似，北京、上海两地能源消耗特点也近似。

江浙两地亦然。

最后广东和各地能源消耗特点都不同。

1.1.3Ward法聚类

Ward即离差平方和法。

它的思想是，同类离差平方和较小，类间偏差平方和较大。

Ward方法并类时总是使得并类导致的类内离差平方和增量最小。

公式：

递推公式：

我依然贴出ward法聚类表和树状图。

1.聚类表如表1-4所示，相关解释类似于表1-1所述.

聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

.106

.338

.584

.876

1.359

1.902

2.582

3.351

4.140

5.079

6.290

7.647

9.006

11.211

13.723

16.642

19.865

23.996

30.556

37.154

43.898

52.159

62.103

73.051

86.143

106.442

139.001

177.895

286.000

表1-4Ward法聚类表

2.树状图如图1-4所示，我们可以看到这个结果较以上两种方法都为理想，组内距离都很小，控制在五次迭代之内。

然后组间距离非常大。

各分类的样品也基本符合它们的能源消耗特点。

最后在接近10次迭代，广东被归入山东、山西这两个分别是能源消耗大省和能源产量大省的一类，说明它们之间的相似度也不大。

图1-4Ward法聚类树状图

1.2K-mean聚类

K-mean聚类是用户指定类别数的大样本资料的逐步聚类分析。

所谓逐步聚类分析就是先把被聚对象进行初始分类，然后逐步调整，得到最终K个分类。

K-mean法对离群点敏感容易扭曲数据分布。

单击“

”-->“

”将弹出如图1-5所示的对话框，我们根据系统聚类法的经验将K选择为5。

迭代次数和系统聚类一样选择25次。

图1-5K-mean聚类设置

下面输出和解释K-mean聚类结果。

1.表1-5是K-mean的迭代历史记录，非常明了。

迭代历史记录a

迭代

聚类中心内的更改

2.796

1.414

1.813

.000

2.299

1.014

.000

.990

.000

a.由于聚类中心内没有改动或改动较小而达到收敛。

任何中心的最大绝对坐标更改为.000。

当前迭代为3。

初始中心间的最小距离为5.209。

表1-5 迭代历史记录

2. 表1-6是每个聚类样品数表。

就是该次K-mean聚类所形成的类它们的样品数量。

每个聚类中的案例数

聚类

3.000

19.000

3.000

1.000

4.000

有效

30.000

缺失

.000

表1-6聚类样品数

3. 表1-7是K-mean聚类的各个类的具体成员。

距离代表的是样品自身和种子点的距离。

聚类成员

案例号

地区名称

聚类

距离

北京市

1.489

天津市

.596

河北省

2.575

山西省

1.381

内蒙古自治区

1.951

辽宁省

2.299

吉林省

.646

黑龙江省

1.785

上海市

2.506

江苏省

1.569

浙江省

2.034

安徽省

.850

福建省

1.096

江西省

.960

山东省

2.489

河南省

1.980

湖北省

2.096

湖南省

1.211

广东省

.000

广西壮族自治区

.926

海南省

1.905

重庆市

1.436

四川省

2.954

贵州省

.984

云南省

1.080

陕西省

1.007

甘肃省

.955

青海省

1.744

宁夏回族自治区

1.414

新疆维吾尔自治区

2.503

表1-7聚类成员

最后看到分类结果与ward法有所相似，但是组内距离较大。

实际效果不如Ward法。

而且该方法需要事先设定分类的个数，并不适合没有先验知识的条件下的数据聚类。

2.总结

本次实习主要通过一批国内的能源消耗和产量数据，来实现回归分析和聚类分析。

回归分析得到一个拟合度良好多元线性回归方程：

Y=0.008+1.061x1+0.087x2+0.157x3-0.365x4-0.105x5-0.017x6 。

该方程的残差分析也通过了。

聚类分析通过比较三种不同的系统聚类方法，同时还比较了K-mean方法与系统聚类法的不同。

在处理该批数据的四种聚类方法中，以ward法最为理想。

Ward法所做的聚类得到组间距离最大，组内距离最小。

3.参考文献

[1] Ronald.E etal.著.周勇等.译.理工科概率统计.[Ｍ].北京：

机械工业出版社，2010：

311-326.

[2] 袁志发，周静芋.多元统计分析[Ｍ].北京：

科学出版社，2003：

110-145,241-250.

[3] J.HanandM.Kamber.Datamining:

conceptsandtechniques[Ｍ]. MorganKaufmann,2006:

251-267.

[4] SPSSforWindow:

分类分析[EB/OL].

1999-10/2010-12-25

[5] 聚类分析[EB/OL].

2010-12-26

[6] 张文彤.SPSS10.0高级教程十二：

多元线性回归与曲线拟合[EB/OL].

展开阅读全文