聚类解析总结实验报告总结Word文档格式.docx

上传人:b****5 文档编号:18151539 上传时间:2022-12-13 格式:DOCX 页数:37 大小:28.40KB
下载 相关 举报
聚类解析总结实验报告总结Word文档格式.docx_第1页
第1页 / 共37页
聚类解析总结实验报告总结Word文档格式.docx_第2页
第2页 / 共37页
聚类解析总结实验报告总结Word文档格式.docx_第3页
第3页 / 共37页
聚类解析总结实验报告总结Word文档格式.docx_第4页
第4页 / 共37页
聚类解析总结实验报告总结Word文档格式.docx_第5页
第5页 / 共37页
点击查看更多>>
下载资源
资源描述

聚类解析总结实验报告总结Word文档格式.docx

《聚类解析总结实验报告总结Word文档格式.docx》由会员分享,可在线阅读,更多相关《聚类解析总结实验报告总结Word文档格式.docx(37页珍藏版)》请在冰豆网上搜索。

聚类解析总结实验报告总结Word文档格式.docx

子商务方面,聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,

通过对客

户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通

过共同特征对客户进行分类,可以帮助电子商户更好的了解他们的客户,

并向客户提供更合

适的服务。

在保险行业上,根据产、寿险进行分类,不同类别的公司进行分类,对保险投资

比例进行分类管理,从而提高保险投资的效率。

3.2实验的方法与原理

聚类分析是研究“物以类聚”的一种科学有效的方法。

做聚类分析时,出于不同的目的

和要求,可以选择不同的统计量和聚类方法。

聚类分析方法中最常用的一种是系统聚类法,其基本思想是:

先将待聚类的n个样品(或

者变量)各自看成一类,共有n类;

然后按照选定的方法计算每两类之间的聚类统计量,即

某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到n-1类;

再按照前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最为密切的

两并一,其余不,即得到n-2;

如此下去,每次重复都减少一,直到最后所有

的品(或者量)都一止。

系聚分析有两种型:

Q型本聚和R型量聚。

 里我运用的是Q型聚。

Q型聚是本行聚,它使具有相似特征的本聚集在一起,使差异性大的本分离开来。

本中,分采用最距离法和离差平方和法本行分。

方法一:

用最距离本行分

个体与小的最距离是个体与小每个个体距离的最大

在聚分析前,首先把数据行准化

xij

xijxji1,2,,n,j

1,2,

n,

Rj

后的数据,每个量本均

0,准差

1,而且准化后的数据

与量

的量无关。

 采用系聚的方法,用最距离法算欧氏距离

m

2

dij

xit

xjt

i,j

n,其中xit

表示第i

个品的第t

个指的,xjt

i

1

表示第j

个品的第t个指的,

dij第i

个品与第j个品之的欧式距离。

若dij越小,那么第i

与j两个品之的性就越接近。

最距离法求与之的距离,

Gp和Gq合并Gr后,按照最距离算新

Gr与Gk

其他的距离,其推公式

Drk

max

dij

Gr

Gp,Gq

=max

Dpk,Dqkk

p,q

iGr,jGk

iGp,jGk

iGq,jGk

方法二:

用离差平方和法(

WARD)品行分

离差平方和法是

Ward(1936)提出的,也称

Ward法。

它基于方差分析思想,如果

分得正确,同品之的离差平方和当小,

不同品之的离差平方和当大。

假定已将n个品分k,G1,G2,?

Gk,nt表示Gt的品个数,

X(t)表

(t)

表示

Gt

中第i

个品(i=1,

?

nt),Gt中品的离差平方和

Gt的重心,X(i)

nt

(t)

X

Wt=X(i)

X(i)X

i1

其中

向量,

Wt

一数(

t=1,2,

k

)。

(i)

k个的离差平方和

k

nt

W=Wt=

.

X(i)X

X(i)

t=1

当k固定时,要选择使W达到极小的分类。

Ward法的基本思想是,先将n个样品各自成一类,此时W=0;

然后每次将其中某两类

合并为一类,因每缩小一类离差平方和就要增加,每次选择使W增加最小的两类进行合并,

直至所有样品合并为一类为止。

Ward法把某两类合并后增加的离差平方和看成为类间的平方距离,即令

Dpq2=Wr

Wp

Wq

表示类

Gp和Gq的平方距离,其中

Gp,Gq

,Wr,Wp,Wq分别为

,Gp

,Gq类

中样品的离差平方和。

利用Wr的定义,可得

nr

X((r)t)

X(r)

Wr=

t1

np

nq

(p)

(r)

(q)

=Xi

Xi

其中Xr

npXp

nqXq

.经整理可得

Dpq2

npnqXp

Xq

Xp

当样品间距离采用欧氏距离时,上式可表为

npnqdpq2,

其中dpq2

表示Gp,Gq的重心Xp

与Xq的平方距离:

dpq2

d2Xp,Xq

这表明此时Word法定义的类间距离与重心法只相差一个常数倍。

当Gp和Gq

合并为Gr

后,Gr

与其他类Gk

的距离有如下递推公式

D

nk

np

rk

pk

pq

qk

nrnk

上述两种方法都是将性质接近的样品划为一类。

聚类分析依据的基本原则是直接比较样

本中各事物之间的性质,

将性质相近的归为一类,

而将性质相差比较大的分在不同类。

也就

是说,同类事物之间性质差异小,类与类之间的性质相差比较大。

系统聚类分析是聚类分析中应用的最广泛的一种方法。

首先将

n个样品每个自成一类,

然后每次将具有最小距离的两类合并成一类,

合并后重新计算类与类之间的距离,

这个过程

一直持续到所有样品归为一类为止。

分类结果可以画成一张直观的聚类谱系图。

应用系统聚

类法进行聚类分析的步骤如下:

①确定待分类的样品的指标

②收集数据

③对数据进行变换处理

④使各个样品自成一类,即n个样品一共有n类

⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类

⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样

品归为一类为止

⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。

四、实验数据与实验结果

我们根据2010年山东统计年鉴的数据,运用SPSS软件进行分析,得到如下实验数据与结果:

1,原始数据

表1-1山东省17城市生产总值原始数据

地区

X1

X2

X3

X4

X5

X6

X7

X8

济南市

214.9

青岛市

274.8

淄博市

105.7

枣庄市

66.0

东营市

5

67.4

烟台市

175.8

潍坊市

183.2

济宁市

130.3

泰安市

77.3

威海市

81.8

日照市

50.9

莱芜市

363118

725138

451164

21.3

临沂市

161.9

德州市

82.8

聊城市

87.9

滨州市

72.2

菏泽市

108.8

(来源:

2010年山东统计年鉴)

X1-规模以上国有控股工业总产值(单位:

万元)X2-规模以上非公有工业总产值(单位:

万元)X3-规模以上外商和港澳台投资工业总产值(单位:

万元)X4-规模以上高新技

术产业总产值(单位:

万元)X5-农林牧渔业总产值(单位:

万元)X6-建筑业总产值(单

位:

万元)X7-邮电业务总量(单位:

亿元)X8-社会消费品零售总额(单位:

万元)

2,SPSS软件处理结果

我们首先对原始数据进行标准化,距离法)和Ward’sMethod(离差平方和

然后采用系统聚类分析法的FurthestNeighbor()分别对标准化的数据进行处理,下面对软件输出结

最长

果进行详细介绍。

【1】,用层次聚类分析中最长距离法的

SPSS结果

(1),表1-2山东省17个城市生产总值层次聚类分析中的凝聚状态表

AgglomerationSchedule

ClusterCombined

StageClusterFirstAppears

Stage

Cluster1

Cluster2

Coefficients

NextStage

14

15

.318

0

3

4

11

.521

17

.814

16

1.235

6

12

2.533

9

3.222

8

7

13

3.570

10

4.715

4.977

6.421

8.250

9.948

15.216

21.504

37.386

84.514

(2),表1-3山东省17个城市生产总值层次聚类分析中分为五类的类成员

ClusterMembership

Case

5Clusters

1:

济南市

2:

青岛市

3:

淄博市

4:

枣庄市

5:

东营市

6:

烟台市

7:

潍坊市

8:

济宁市

9:

泰安市

10:

威海市

11:

日照市

12:

莱芜市

13:

临沂市

14:

德州市

15:

聊城市

16:

滨州市

17:

菏泽市

分为五类时,1号样本济南市为一类,2号样本青岛市、6号样本烟台市为一类,3号样本淄博市、5号样本东营市为一类,7号样本潍坊市、8号样本济宁市、13号样本临沂市为一类,其他4号样本枣庄市、9号样本泰安市、10号样本威海市、11号样本日照市、12号样本莱芜市、14号样本德州市、15号样本聊城市、16号样本滨州市、17号样本菏泽市13个城市为一类。

(3),表1-4山东省17个城市生产总值层次聚类分析树形图

RescaledDistanceClusterCombine

CASE0510152025

LabelNum+---------+---------+---------+---------+---------+

市14

─┐

市15

─┤

市17

市16

─┼─┐

─┘├─┐

市10

───┘├───────┐

─┐│

市11

─┼───┘

├───────────────────────────────────┐

市12

─┘

───┬─────────┘

───┘

─────┬─────────────────┐

─────┘

─┬─┐

├─────────────────────────┘

市13

─┘├─────┐

├─────────────┘

济南市1─────────┘

表1-4:

树形图以躺倒树的形式展示了聚类分析中的每一次合并的情况。

 SPSS自动将各类间的距离映射到0~25之间,并将凝聚过程近似的表示在图上。

 树形图仅是粗劣的展现聚类分析

的过程,鉴于样本量较大且小类间的距离相差较小,在图上较难分辨凝聚的每步过程。

【2】,用层次聚类分析中离差平方和法的SPSS结果

(1),表2-1山东省17个城市生产总值层次聚类分析中的凝聚状态表

.281

.642

1.145

1.697

2.640

3.668

4.752

5.867

6.983

8.224

9.659

11.532

13.827

16.341

20.330

28.232

(2),表2-2山东省17个城市生产总值层次聚类分析中分为五类的类成员

分为五类时,1号样本济南市为一类,2号样本青岛市、6号样本烟台市为一类,3号样本淄博市、5号样本东营市、9号样本泰安市为一类,7号样本潍坊市、8号样本济宁市、13号样本临沂市为一类,其他4号样本枣庄市、10号样本威海市、11号样本日照市、12号样本莱芜市、14号样本德州市、15号样本聊城市、16号样本滨州市、17号样本菏泽市13个城市为一类。

(3),表2-3山东省17个城市生产总值层次聚类分析树形图

─┼───┐

─┘├─────┐

├───┐

─┘├─────┘├─────────────────────────────────┐

─────┬─┐

─────┘├───────┘

───────┘

───────┬─────────────────┐

├───────────────────────┘

─────┘├─────┐

───────┘├───────────┘

─────────────┘

表2-3:

注:

在两种分类依据下,结果大部分一致,只是在泰安市的归类上出现了分歧,考虑到Ward方法的普遍应用性,我们采用后者。

3,通过以上的分类表可以清楚的看到,层次聚类分析结果,将17个城市样本分为5类。

1)1号样本济南市,是山东省的省会,是山东政治、文化、经济、金融、教育中心,是“全国城市综合实力50强”。

济南是一个具有悠久历史的城市,所以济南的国有企业林立

众多,像中国石化集团济南炼油厂、

中国石油集团济柴动力总厂、

中国重型汽车集团、中国

轻骑集团、山东鲁能(集团)有限公司

、山水集团(山东水泥厂)、济南钢铁集团总公司、

济南铁路集团,这使得济南的国有企业(大部分是重工企

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 人文社科 > 广告传媒

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1