第七讲数据聚类.docx

上传人:b****3 文档编号:1483658 上传时间:2022-10-22 格式:DOCX 页数:13 大小:208.69KB
下载 相关 举报
第七讲数据聚类.docx_第1页
第1页 / 共13页
第七讲数据聚类.docx_第2页
第2页 / 共13页
第七讲数据聚类.docx_第3页
第3页 / 共13页
第七讲数据聚类.docx_第4页
第4页 / 共13页
第七讲数据聚类.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

第七讲数据聚类.docx

《第七讲数据聚类.docx》由会员分享,可在线阅读,更多相关《第七讲数据聚类.docx(13页珍藏版)》请在冰豆网上搜索。

第七讲数据聚类.docx

第七讲数据聚类

第七讲数据聚类

一、数据聚类的基本概念

1、数据聚类的定义:

聚类是指在模式空间S中,给定N个样本,按照样本间的相似程度,将S划分为k个决策区域Si(i=1,2,…..,k)的过程,该过程使得各样本均能归入其中一个类,且不会同时属于两个类。

即S1∪S2∪S3∪……∪Sk=S,Si∩Sj=0,i≠j

聚类Clustering;

聚类分析:

ClusteringAnalysis

讨论:

聚类是对整个样本集的划分,而不是对单个样本的识别;

聚类的依据是“样本间的相似程度”;

聚类结果是“无遗漏”、“无重复”的。

2、数据聚类的特点:

特点一:

聚类是典型的无监督学习

没有预先分好类的样本集

没有已知的分类决策规则

由待分类样本特征的内在规律来驱动分类过程

特点二:

聚类结果多样化

受特征选取和聚类准则的影响

受相似度度量标准的影响

受各特征量纲标尺的影响

3、数据聚类的应用:

(1)数据聚类的应用目标

获得初始的训练样本集,启动分类器的设计

揭示样本间的内在联系,获得数据中隐藏的知识和规律

对样本集中的大量样本进行合并和删减,以降低问题的复杂度

(2)数据聚类的具体应用领域

思考题:

你能找到数据聚类在社会生活中的更多应用实例吗?

4、数据聚类的完整过程

(1)选取特征

聚类任务的需求

特征对聚类的有效性

维度和算法效率

(2)确定相似性度量标准

样本间的相似度

绝对值距离:

欧几里德距离:

明考夫斯基距离

切比雪夫距离

非距离相似度

绝对值距离:

Dab=1.5,Dac=2,Dbc=3.5;

欧几里德距离:

Dab=1.5,Dac=1.414,Dbc=2.693;

切比雪夫距离:

Dab=1.5,Dac=1,Dbc=2.5;

类间的相似度

最短距离:

两类中相距最近的两样本间的距离。

最长距离:

两类中相距最远的两样本间的距离。

重心距离:

两类的均值点(重心)间的距离。

类平均距离:

两类中各个元素两两之间的距离相加后取平均值

(3)设定聚类准则

紧致性准则:

概念性的基本准则

误差平方和准则:

几何准则,可计算简单,但与紧致性要求不完全一致

散布准则:

类内散布矩阵和类间散布矩阵,能更好地表示样本分布

分布形式准则:

不仅考虑紧致性,而且考虑各类别应具有相同的分布形式

(4)选择聚类算法

试探法:

直接算法,对每个样本至少处理一次;

层次法:

按照层次完成聚类树;

迭代法:

根据准则函数动态调整聚类结果,直至达到最优;

密度法:

以样本分布密度的变化来完成聚类,使得围绕一个密度中心的样本聚到一个类中。

(5)对聚类结果进行评价

聚类得到的各个类别分布是否合理

聚类结果是否能发现和适应样本集的样本分布特点;

是否存在大量的孤立样本或边界样本

聚类过程是否需要大量的人工干预

聚类后是否是否可以发现样本集中的分类规则,建立决策边界

二、基于试探的聚类算法

1、基本算法思路:

(1)设定初始的聚类中心;

(2)依次处理各样本;

(3)按照某种聚类准则,将样本归入已有类别,或者建立新的类别;

(4)完成全部数据聚类

优点:

简单快速

缺点:

对初始条件敏感,聚类顺序影响聚类结果,需要分类的先验知识,聚类结果需进行评估

2、基于最近邻规则的聚类算法

(1)选取阀值T,并任取一个样本作为初始聚类中心,如Z1=X1;

(2)取下一个样本X2,计算X2到Z1的距离D21;

若D21<=T,则将X2归入以Z1为中心的类,

若D21>T,则将X2作为新的类的聚类中心Z2;

(3)继续取样本Xi,分别计算Xi到Zj(j=1,…,k)的距离Dij,

如Dij>T,(j=1,…,k),则将Xi作为第k+1个聚类中心Zk+1;

否则,将Xi归入距离最近的聚类中心所属的类中。

(4)以此类推,直至全部样本分到正确的模式类中。

分类结果受下列因素的影响:

第一个聚类中心的选择

待分类模式样本的排列顺序

阈值T的大小

样本分布的几何性质

3、最大最小距离聚类算法:

(1)任取一个样本作为第一个聚类中心,如Z1=X1;

(2)计算其余样本到Z1的距离Di1,取Di1最大的样本为第二个聚类中心Z2;

(3)计算其余样本到Z1,Z2的距离Di1,Di2,即Di1=||Xi–Z1||,Di2=||Xi–Z2||,取其最小值Min(Di1,Di2);

(4)若剩余各样本到已有聚类中心的最小距离中的最大值满足:

(0<θ<1,通常取1/2)

Max{Min(Di1,Di2),i=1,2,…N-2}>θ||Z1-Z2||;

则取对应样本为第三个聚类中心Z3

(5)若有Z3存在,则进一步计算余下各模式与三个中心的最小距离,并求

Max{Min(Di1,Di2,Di3),i=1,2,…N-3}>θ||Z1-Z2||

若有某一模式满足上述条件,则存在Z4,否则寻找聚类中心的计算结束;

(6)将所有样本按最小距离准则分配到最近的聚类中心。

算法讨论:

该算法的聚类结果与参数θ以及第一个聚类中心的选取有关

如果没有先验指示指导θ和Z1选取,可适当调整θ和Z1,比较多次试探分类结果,选取最合理的一种聚类。

三、层次聚类算法

1、基本算法思路:

(1)将所有样本在不同的聚类级别上,按照类间的相似性,形成二叉树的分类结构;

(2)其顶端是所有样本属于同一个类,其底端是每个样本都属于一个独立的类;

(3)按层次聚类算法的完成顺序可分为:

融合算法,分解算法

2、融合算法:

(1)对于含n个样本的样本集,先令每个样本自成一类,总分类数k=n;

(2)计算类间距离,将距离最小(最相似)的两个类合并,总分类数减少为k=n-1;

(3)继续合并类,直至总分类数k或类间距离Dij满足要求;

例:

注:

使用重心距离来计算类间距离

算法步骤:

(1)令分类数k=6,每个样本自成一类;

(2)计算类间距离:

ω1

ω2

ω3

ω4

ω5

ω2

3

ω3

1

4

ω4

7

4

8

ω5

5

2

6

2

ω6

8

5

9

1

3

(3)将类间距离最小的类ω1和ω3合并为ω7,分类数k=5;

包含样本

重心

ω2

G2

5

ω4

G4

9

ω5

G5

7

ω6

G6

10

ω7

G1,G3

1.5

 

(4)计算类间距离:

ω2

ω4

ω5

ω6

ω4

4

ω5

2

2

ω6

5

1

3

ω7

3.5

2.5

5.5

8.5

(5)将类间距离最小的类ω4和ω6合并为ω8,分类数k=4;

包含样本

重心

ω2

G2

5

ω5

G5

7

ω7

G1,G3

1.5

ω8

G4,G6

9.5

(6)计算类间距离:

ω2

ω5

ω7

ω5

2

ω7

3.5

5.5

ω8

4.5

2.5

8

(7)将类间距离最小的类ω2和ω5合并为ω9,分类数k=3;

包含样本

重心

ω7

G1,G3

1.5

ω8

G4,G6

9.5

ω9

G2,G5

6

(8)计算类间距离:

ω7

ω8

ω8

8

ω9

4.5

3.5

(9)将类间距离最小的类ω8和ω9合并为ω10,分类数k=2;

包含样本

重心

ω7

G1,G3

1.5

ω10

G4,G6,G2,G5

7.75

(10)计算类间距离:

ω7

ω10

6.25

(11)将类ω7和ω10合并为ω11,分类数k=1;

(12)完整的层次聚类过程结束。

如进行某次类合并后,计算得到的类间距离大幅上升,则意味着已经得到了较好的聚类结果

3、分解算法:

(1)对于含n个样本的样本集,先将所有样本作为一类,总分类数k=1;

(2)将已得到的类分成两类,计算类间距离,将类间距离最大(最不相似)的分类方法作为本级分类结果,,总分类数增加为k=2;

(3)对每一个得到的类再进行分类,直至总分类数k或类间距离Dij满足要求;

例:

注:

使用重心距离来计算类间距离

算法步骤:

(1)令分类数k=1,所有样本作为一类;

(2)按不同方法将样本分为两类,计算类间距离;

(x1)(x2,x3,x4)

2.33

(x2)(x1,x3,x4)

1.33

(x3)(x1,x2,x4)

3.67

(x4)(x1,x2,x3)

4.33

(x1,x2)(x3,x4)

0.5

(x1,x3)(x2,x4)

4.5

(x1,x4)(x2,x3)

1.5

(3)按照类间距离最大的原则,将x1,x3分为一类,x2,x4分为一类,分类数k=2;

(4)将各类各自再分为两类,计算类间距离;

(x1)(x3)

1

(x2)(x4)

2

(5)按照类间距离最大的原则,将x2分为一类,x4分为一类,分类数k=3;

(6)将各类各自再分为两类,计算类间距离;

(x1)(x3)

1

(7)按照类间距离最大的原则,将x1分为一类,x3一类,分类数k=4;

如进行某次类分解后,计算得到的类间距离上升幅度减少很多,则意味着已经得到了较好的聚类结果

课堂作业:

使用融合算法对以下样本集进行层次聚类

注:

使用重心距离来计算类间距离

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1