第十二章聚类分析Word文件下载.docx

上传人:b****6 文档编号:17439358 上传时间:2022-12-01 格式:DOCX 页数:14 大小:77.71KB
下载 相关 举报
第十二章聚类分析Word文件下载.docx_第1页
第1页 / 共14页
第十二章聚类分析Word文件下载.docx_第2页
第2页 / 共14页
第十二章聚类分析Word文件下载.docx_第3页
第3页 / 共14页
第十二章聚类分析Word文件下载.docx_第4页
第4页 / 共14页
第十二章聚类分析Word文件下载.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

第十二章聚类分析Word文件下载.docx

《第十二章聚类分析Word文件下载.docx》由会员分享,可在线阅读,更多相关《第十二章聚类分析Word文件下载.docx(14页珍藏版)》请在冰豆网上搜索。

第十二章聚类分析Word文件下载.docx

3

42

12

90

600

34

14

150

=41,S1=20

=12,S2=5

=90,S3=40

上述测量的距离存在问题:

(1)同一个变量单位不同会导致不同的距离;

(2)不同变量的度量不一致,无法判断变量值大小和变量的重要程度,从而无法判断距离的意义。

因而需要对原始数据进行标准化。

表2:

标准化数据

=0,S1=1

=0,S2=1

=0,S3=1

2、SPSS聚类分析中提供的距离

(1)欧式距离(EUCLID),等于

(2)欧式距离的平方(SEUCLID),等于变量差2+变量差2+……

(3)曼哈顿距离(BLOCK),等于变量差的绝对值之和

(4)切比雪夫距离(CHEBYCHEV),等于变量差中绝对值最大者

(5)幂距离POWER(p,r),等于变量差的绝对值的p次方之和,再求r方根。

2、相似系数

(1)变量间的相关系数即皮尔逊相关系数;

(2)变量间的夹角余弦,即将两变量分别看成n维空间的向量时的夹角余弦值。

相关系数一般针对定距变量,对于定类变量特别是二项变量也可引入虚拟变量后计算相关系数。

例1:

假定5个样本(人)具有如下指标:

(1)请对个体进行分类;

(2)对变量进行分类。

表3:

五个人的六种身体特征指标

身高(cm)

体重(公斤)

眼睛形状

鼻子形状

习惯用手

性别

个体1

166

个体2

175

145

个体3

168

135

个体4

167

100

个体5

174

解:

变量中包含定距和定类变量,可以全部变成虚拟变量(也可将后四个虚拟),令X1=;

X2=;

X3=;

X4=;

X5=;

X6=,表3可转化为表4:

X2

X4

X5

X6

(1)根据两个个体共同特征的多少来对个体分类,以欧式距离的平方来进行聚类,个体之间的距离越小越相似,可求得:

d2(1,2)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-0)2+(1-0)2=5;

d2(1,3)=(0-0)2+(0-1)2+(0-0)2+(1-1)2+(0-0)2+(1-0)2=2;

d2(1,4)=(0-0)2+(0-0)2+(0-1)2+(1-0)2+(0-0)2+(1-1)2=2;

d2(1,5)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-1)2+(1-0)2=6;

同理计算其他距离,得到下表:

表5:

5个体间距离

4

5

根据距离大小,判断相似程度。

个体2和5距离最小,最相似。

1和3,1和4距离较小,较相似。

如果分两类,则可分为{1,5}和{1,3,4}。

(2)对特征变量进行分类,先计算两个变量间的相似系数:

r12=

=

=

同理计算其它相关系数:

表6:

六个变量间的相关系数

表6中出现负相关系数,不予考虑符号,仅以绝对值来表示相关程度。

X2与X6,X3与X4两对变量最相似,同时X2和X3、X4,X6和X3、X4之间相关系数很小,所以{X2,X6}和{X3,X4}是几乎不相交的两类。

X1、X5和其它5个变量的相关关系都适中,所以二者都不宜于其它变量合并,将X1和X5单独归为一类。

几个注意问题:

(1)对个体进行聚类时,1-1匹配和0-0匹配是完全同等看待,实际上不太合理。

如两个左撇子比两个同用右手的人更相似一些。

因此有时对1-1匹配和0-0匹配区别处理,或给予不同权数。

(2)此法聚类较为主观,对X1和X2处理较粗糙。

第二节谱系聚类法

谱系聚类法中常用的聚集法是先将所有研究对象都各自视为一类,将最靠近的首先聚类,再将这个类和其它类中最靠近的对象结合,一直合并到所有对象都综合成一类。

谱系聚类法的聚集或分割过程可以用“谱系图”直观表示出来。

一、最短距离法

两个类之间的距离定义为:

两类中两两元素之间距离最小者,并依此逐次选择最靠近的类聚集的方法。

例如

d{1,2,3,4}{5,6,7}=min{d15,d16,d17,d25,d26,d27,d35,d36,d37,d45,d46,d47}=d37

例2:

假定5个对象间的距离如表9所示,用最短距离法聚类,并画出谱系图。

表7:

5个对象间距离

7

将5个对象分别视为1类,最靠近的两类是2和5,因为它们间具有最小类间距离d25=min{6,2,3,7,4,1,5}=1,将2和5合并为一个新类{2,5}。

其次再求出{2,5}和1,3,4的距离:

d{2,5}1=min{d21,d51}=min{6,7}=6

d{2,5}3=min{d23,d53}=min{4,5}=4

d{2,5}4=min{d24,d54}=min{4,5}=4

于是可以将{2,5},1,3,4这四类的距离重新做出表10

(1):

表8

(1):

4个类间的距离

{2,5}

在这4类中,1和3最靠近,它们具有最小类间距离d13=min{6,4,2,3,5}=2。

将1和3合并成新类{1,3},再求出{1,3}和{2,5},4的距离:

d{1,3}{2,5}=min{d1{2,5},d3{2,5}}=min{6,4}=4

d{1,3}4=min{d14,d34}=min{3,5}=3

将{1,3},{2,5},4这三类的距离作出表10

(2):

表8

(2):

3个类间的距离

{1,3}

在这三类中,最靠近的类是{1,3}和4,d{1,3}4=min{4,3}=3。

因此可将{1,3}和4合并成为一个新类{1,3,4},这时只有两个不同的类{2,5}和{1,3,4},它们的距离为d{2,5}{1,3,4}=min{d{2,5}{1,3},d{2,5}4}=min{4,4}=4。

最后再将{2,5}和{1,3,4}合并为一类,由此完成整个聚类过程。

相应谱系图如图1:

图1:

最短距离法谱系图

1234距离

2

5

1

3

4

对象

2、最长距离法

与最短距离法聚类方式相同,不同的是类与类之间的距离定义为两类中元素之间距离最大者。

d{1,2,3,4}{5,6,7}=max{d15,d16,d17,d25,d26,d27,d35,d36,d37,d45,d46,d47}=d16

例3:

对例3中的相同数据用最长距离法聚类并画处谱系图:

首先将最靠近的2和5合并为一类,并计算{2,5}和1,3,4的距离:

d{2,5}1=max{d21,d51}=max{6,7}=7

d{2,5}3=max{d23,d53}=max{4,5}=5

d{2,5}4=max{d24,d54}=max{4,5}=5

由此可以写出新的四个类间的距离如表9

(1)所示。

其中最靠近的是1和3,将其合并为新类{1,3},并计算{1,3}和{2,5},4的距离:

d{1,3}{2,5}=max{d1{2,5},d3{2,5}}=max{7,5}=7

d{1,3}4=max{d14,d34}=max{3,5}=5

新的三类间的距离如表9

(2)所示,由于两个距离都是5,因此可以合并{1,3}和4为一个新类,也可以合并{2,5}和4为一个新类。

不管何种合并,最后新的两类间的距离都是7,如表9(3)和表9(4)。

表9

(1):

表9

(2):

表9(3):

两个类间的距离

{1,3,4}

表9(4):

{2,5,4}

两种聚类过程的谱系图如图3,第一种聚类结果和图1的结果一致。

图3:

最长距离法谱系图(两种可能聚类结果)

1234567距离1234567距离

22

55

14

31

43

3、中间距离法

类与类之间的距离即不取最短距离也不取最长距离,而是取某个中间的距离,即中间距离法。

G3dGN

 

例如由G1和G2组成的新类GN,其与G3的距离为三角形的中线d的平方:

采用中间距离法进行聚类时一般使用欧式距离的平方。

最短距离法和最长距离法的优点:

聚类过程是单调的,即每一步聚类时的距离都大于前一步,所以谱系图一目了然。

中间距离法的优点:

空间守恒,即两个类之间的距离基本上都取中间的,即不取最短(空间收缩),也不取最长(空间扩张)。

最短距离法和最长距离法的缺点:

空间不守恒。

中间距离法的缺点:

非单调,有时聚类的距离小于前一步聚类时的距离,所以谱系图有时不易理解。

共同的缺点:

没有考虑各类中研究对象的数量以及各样本的信息。

4、重心法——两个类之间的距离定义为两类的重心间的距离,聚类过程同前。

5、类平均法——两个类之间的距离(平方)定义为两类中的元素两两之间的平均(平方)距离。

6、变差平方和法——分类思想类似方差分析,使类内元素间的变差平方和尽可能小,类与类之间的变差平方和尽可能大。

表10:

六种谱系聚类法的比较

方法

SPSS命令

空间性质

单调性

对距离的要求

适用形

结果的唯一性

备注

最短距离法

SINGLE

压缩

单调

条形,S形

唯一

太压缩,不够灵敏

最长距离法

COMPLETE

扩张

适用于椭球形

距离表中有相同元素时,可能不唯一结果

太扩张,样本大时失真

中间距离法

MEDIAN

守恒

非单调

欧式距离平方

重心法

CENTROID

同上

类平均法

WAVERAGE

不太压缩也不太扩张,效果较好,较常用

变差平方和法

WARD

效果较好,较常用

谱系聚类法在距离的选择以及各种聚类法的选择仍带有一定主观性,因而在聚类时,可多用几种距离和方法,最后根据实际问题性质确定合适的聚类结果。

除谱系聚类法外,还有非谱系聚类法和模糊聚类法等。

如果对变量进行聚类,一般先求出变量间的相似系数,按照相似系数越大变量越相似的原则,聚类过程类似样本聚类。

也可将相似系数转化为距离,然后再聚类,d=

2,c表示两个变量间的某种相似系数,d为某种距离。

例5:

24名优秀运动员的七项全能项目得分间的相关系数如表14,对这七项指标进行聚类分析。

表11:

七个体育项目的相关系数

变量

100米栏X1

跳高X2

铅球X3

200米X4

跳远X5

标枪X6

800米X7

变量X1和X4(简称1和4)的相关系数最大,先将1和4聚成一个新类{1,4},然后计算{1,4}和变量2、3、5、6、7的相关系数:

r2{1,4}=max{r21,r24}=max{,}=

r3{1,4}=max{r31,r34}=max{,}=……

这些相关系数绘成新表12

(1),其中最大的相关系数是,所以将变量5归入{1,4}中形成{1,4,5},然后求出{1,4,5}与变量2、3、6、7的相关系数。

继续下去直到全部变量都并为一类为止(见表14

(1)至14(5))。

最后的谱系图(图5)说明,7个变量可分为四类:

{1,4,5},{3,6},{7}和{2},即速度型项目{100米栏,200米,跳远},投掷型项目{铅球,标枪},耐力型项目{800米}和弹跳型项目{跳高}。

表12

(1)

{1,4}

表12

(2)

{1,4,5}

表12(3)

{3,6}

表12(4)

{1,4,5,3,6}

表12(5)

{1,4,5,3,6,7}

相关系数

100米栏1

200米4

跳远5

铅球3

标枪6

800米7

跳高2

对象图5:

7个变量的谱系图

用谱系聚类法对变量的聚类也叫做R型聚类,对样本的聚类也叫Q型聚类。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 英语

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1