聚类解析总结实验报告总结Word文档格式.docx

资源描述

聚类解析总结实验报告总结Word文档格式.docx

《聚类解析总结实验报告总结Word文档格式.docx》由会员分享，可在线阅读，更多相关《聚类解析总结实验报告总结Word文档格式.docx（37页珍藏版）》请在冰豆网上搜索。

聚类解析总结实验报告总结Word文档格式.docx

子商务方面，聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面，

通过对客

户的浏览行为、浏览网站、客户的年龄等，对客户进行分析，找出不同客户的共同特征，通

过共同特征对客户进行分类，可以帮助电子商户更好的了解他们的客户，

并向客户提供更合

适的服务。

在保险行业上，根据产、寿险进行分类，不同类别的公司进行分类，对保险投资

比例进行分类管理，从而提高保险投资的效率。

3.2实验的方法与原理

聚类分析是研究“物以类聚”的一种科学有效的方法。

做聚类分析时，出于不同的目的

和要求，可以选择不同的统计量和聚类方法。

聚类分析方法中最常用的一种是系统聚类法，其基本思想是：

先将待聚类的n个样品（或

者变量）各自看成一类，共有n类；

然后按照选定的方法计算每两类之间的聚类统计量，即

某种距离（或者相似系数），将关系最为密切的两类合为一类，其余不变，即得到n-1类；

再按照前面的计算方法计算新类与其他类之间的距离（或相似系数），再将关系最为密切的

两并一，其余不，即得到n-2；

如此下去，每次重复都减少一，直到最后所有

的品（或者量）都一止。

系聚分析有两种型：

Q型本聚和R型量聚。

　里我运用的是Q型聚。

Q型聚是本行聚，它使具有相似特征的本聚集在一起，使差异性大的本分离开来。

本中，分采用最距离法和离差平方和法本行分。

方法一：

用最距离本行分

个体与小的最距离是个体与小每个个体距离的最大

在聚分析前，首先把数据行准化

xij

xijxji1,2,,n,j

1,2,

n，

后的数据，每个量本均

0，准差

1，而且准化后的数据

与量

的量无关。

　采用系聚的方法，用最距离法算欧氏距离

dij

xit

xjt

i,j

n，其中xit

表示第i

个品的第t

个指的，xjt

表示第j

个品的第t个指的，

dij第i

个品与第j个品之的欧式距离。

若dij越小，那么第i

与j两个品之的性就越接近。

最距离法求与之的距离，

Gp和Gq合并Gr后，按照最距离算新

Gr与Gk

其他的距离，其推公式

Drk

max

dij

Gp,Gq

=max

Dpk,Dqkk

p,q

iGr,jGk

iGp,jGk

iGq,jGk

方法二：

用离差平方和法（

WARD）品行分

离差平方和法是

Ward（1936）提出的，也称

Ward法。

它基于方差分析思想，如果

分得正确，同品之的离差平方和当小，

不同品之的离差平方和当大。

假定已将n个品分k，G1,G2,?

Gk，nt表示Gt的品个数，

X（t）表

示

（t）

表示

中第i

个品（i=1,

nt），Gt中品的离差平方和

Gt的重心，X（i）

（t）

，

Wt=X（i）

X（i）X

其中

向量，

一数（

t=1,2,

）。

（i）

k个的离差平方和

W=Wt=

X（i）X

X（i）

t=1

当k固定时，要选择使W达到极小的分类。

Ward法的基本思想是，先将n个样品各自成一类，此时W=0；

然后每次将其中某两类

合并为一类，因每缩小一类离差平方和就要增加，每次选择使W增加最小的两类进行合并，

直至所有样品合并为一类为止。

Ward法把某两类合并后增加的离差平方和看成为类间的平方距离，即令

Dpq2=Wr

表示类

Gp和Gq的平方距离，其中

Gp,Gq

，Wr，Wp，Wq分别为

，Gp

，Gq类

中样品的离差平方和。

利用Wr的定义，可得

X（（r）t）

X（r）

Wr=

（p）

（r）

（q）

=Xi

）

（

其中Xr

npXp

nqXq

.经整理可得

Dpq2

npnqXp

当样品间距离采用欧氏距离时，上式可表为

npnqdpq2，

其中dpq2

表示Gp,Gq的重心Xp

与Xq的平方距离：

dpq2

d2Xp,Xq

这表明此时Word法定义的类间距离与重心法只相差一个常数倍。

当Gp和Gq

合并为Gr

后，Gr

与其他类Gk

的距离有如下递推公式

nrnk

上述两种方法都是将性质接近的样品划为一类。

聚类分析依据的基本原则是直接比较样

本中各事物之间的性质，

将性质相近的归为一类，

而将性质相差比较大的分在不同类。

也就

是说，同类事物之间性质差异小，类与类之间的性质相差比较大。

系统聚类分析是聚类分析中应用的最广泛的一种方法。

首先将

n个样品每个自成一类，

然后每次将具有最小距离的两类合并成一类，

合并后重新计算类与类之间的距离，

这个过程

一直持续到所有样品归为一类为止。

分类结果可以画成一张直观的聚类谱系图。

应用系统聚

类法进行聚类分析的步骤如下：

①确定待分类的样品的指标

②收集数据

③对数据进行变换处理

④使各个样品自成一类，即n个样品一共有n类

⑤计算各类之间的距离，得到一个距离对称矩阵，将距离最近的两个类并成一类

⑥并类后，如果类的个数大于1，那么重新计算各类之间的距离，继续并类，直至所有样

品归为一类为止

⑦最后绘制系统聚类谱系图，按不同的分类标准或不同的分类原则，得出不同的分类结果。

四、实验数据与实验结果

我们根据2010年山东统计年鉴的数据，运用SPSS软件进行分析，得到如下实验数据与结果：

1，原始数据

表1-1山东省17城市生产总值原始数据

地区

济南市

214.9

青岛市

274.8

淄博市

105.7

枣庄市

66.0

东营市

67.4

烟台市

175.8

潍坊市

183.2

济宁市

130.3

泰安市

77.3

威海市

81.8

日照市

50.9

莱芜市

363118

725138

451164

21.3

临沂市

161.9

德州市

82.8

聊城市

87.9

滨州市

72.2

菏泽市

108.8

（来源：

2010年山东统计年鉴）

X1-规模以上国有控股工业总产值（单位：

万元）X2-规模以上非公有工业总产值（单位：

万元）X3-规模以上外商和港澳台投资工业总产值（单位：

万元）X4-规模以上高新技

术产业总产值（单位：

万元）X5-农林牧渔业总产值（单位：

万元）X6-建筑业总产值（单

位：

万元）X7-邮电业务总量（单位：

亿元）X8-社会消费品零售总额（单位：

万元）

2，SPSS软件处理结果

我们首先对原始数据进行标准化，距离法）和Ward’sMethod（离差平方和

然后采用系统聚类分析法的FurthestNeighbor（）分别对标准化的数据进行处理，下面对软件输出结

最长

果进行详细介绍。

【1】，用层次聚类分析中最长距离法的

SPSS结果

（1），表1-2山东省17个城市生产总值层次聚类分析中的凝聚状态表

AgglomerationSchedule

ClusterCombined

StageClusterFirstAppears

Stage

Cluster1

Cluster2

Coefficients

NextStage

.318

.521

.814

1.235

2.533

3.222

3.570

4.715

4.977

6.421

8.250

9.948

15.216

21.504

37.386

84.514

（2），表1-3山东省17个城市生产总值层次聚类分析中分为五类的类成员

ClusterMembership

Case

5Clusters

济南市

青岛市

淄博市

枣庄市

东营市

烟台市

潍坊市

济宁市

泰安市

10:

威海市

11:

日照市

12:

莱芜市

13:

临沂市

14:

德州市

15:

聊城市

16:

滨州市

17:

菏泽市

分为五类时，1号样本济南市为一类，2号样本青岛市、6号样本烟台市为一类，3号样本淄博市、5号样本东营市为一类，7号样本潍坊市、8号样本济宁市、13号样本临沂市为一类，其他4号样本枣庄市、9号样本泰安市、10号样本威海市、11号样本日照市、12号样本莱芜市、14号样本德州市、15号样本聊城市、16号样本滨州市、17号样本菏泽市13个城市为一类。

（3），表1-4山东省17个城市生产总值层次聚类分析树形图

RescaledDistanceClusterCombine

CASE0510152025

LabelNum+---------+---------+---------+---------+---------+

德

州

市14

─┐

聊

城

市15

─┤

菏

泽

市17

滨

市16

─┼─┐

泰

安

市

─┘├─┐

威

海

市10

───┘├───────┐

枣

庄

─┐│

│

日

照

市11

─┼───┘

├───────────────────────────────────┐

莱

芜

市12

─┘

淄

博

───┬─────────┘

东

营

───┘

青

岛

─────┬─────────────────┐

烟

台

─────┘

济

宁

─┬─┐

├─────────────────────────┘

临

沂

市13

─┘├─────┐

潍

坊

├─────────────┘

济南市1─────────┘

表1-4：

树形图以躺倒树的形式展示了聚类分析中的每一次合并的情况。

　SPSS自动将各类间的距离映射到0~25之间，并将凝聚过程近似的表示在图上。

　树形图仅是粗劣的展现聚类分析

的过程，鉴于样本量较大且小类间的距离相差较小，在图上较难分辨凝聚的每步过程。

【2】，用层次聚类分析中离差平方和法的SPSS结果

（1），表2-1山东省17个城市生产总值层次聚类分析中的凝聚状态表

.281

.642

1.145

1.697

2.640

3.668

4.752

5.867

6.983

8.224

9.659

11.532

13.827

16.341

20.330

28.232

（2），表2-2山东省17个城市生产总值层次聚类分析中分为五类的类成员

分为五类时，1号样本济南市为一类，2号样本青岛市、6号样本烟台市为一类，3号样本淄博市、5号样本东营市、9号样本泰安市为一类，7号样本潍坊市、8号样本济宁市、13号样本临沂市为一类，其他4号样本枣庄市、10号样本威海市、11号样本日照市、12号样本莱芜市、14号样本德州市、15号样本聊城市、16号样本滨州市、17号样本菏泽市13个城市为一类。

（3），表2-3山东省17个城市生产总值层次聚类分析树形图

─┼───┐

─┘├─────┐

├───┐

─┘├─────┘├─────────────────────────────────┐

─────┬─┐

─────┘├───────┘

───────┘

───────┬─────────────────┐

├───────────────────────┘

─────┘├─────┐

───────┘├───────────┘

南

─────────────┘

表2-3：

注：

在两种分类依据下，结果大部分一致，只是在泰安市的归类上出现了分歧，考虑到Ward方法的普遍应用性，我们采用后者。

3，通过以上的分类表可以清楚的看到,层次聚类分析结果，将17个城市样本分为5类。

1）1号样本济南市，是山东省的省会，是山东政治、文化、经济、金融、教育中心，是“全国城市综合实力50强”。

济南是一个具有悠久历史的城市，所以济南的国有企业林立

众多，像中国石化集团济南炼油厂、

中国石油集团济柴动力总厂、

中国重型汽车集团、中国

轻骑集团、山东鲁能（集团）有限公司

、山水集团（山东水泥厂）、济南钢铁集团总公司、

济南铁路集团，这使得济南的国有企业（大部分是重工企

展开阅读全文