数字图像聚类技术研究Word文档下载推荐.docx
《数字图像聚类技术研究Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数字图像聚类技术研究Word文档下载推荐.docx(16页珍藏版)》请在冰豆网上搜索。
通过确定数据之间在预
法可以改进层次聚类的结果:
(a)在每层划分中,仔细分析对象间的“联接”,例如CURE中的做法。
(b)综合层次凝聚和迭代的重定位方法。
首先用自底向上的层次算法,然后用迭代的重定位来改进结果。
分裂的层次聚类是将像这样的自顶向下的策略与凝聚的层次聚类有些不一样,它首先将所有对象放在一个簇中,然后慢慢地细分为越来越小的簇,直到每个对象自行形成一簇,或者直达满足其他的一个终结条件,例如满足了某个期望的簇数目,又或者两个最近的簇之间的距离达到了某一个阈值。
3.1.2基于距离度量的方法
在凝聚和分裂的层次聚类之间,我们又依据计算簇间的距离的不同,分为下面的几类方法:
单连锁(singlelinkage),又称最近邻(nearestneighbor)方法。
指两个不一样的簇之间任意两点之间的最近距离。
这里的距离是表示两点之间的相异度,所以距离越近,两个簇相似度越大。
这种方法最善于处理非椭圆结构。
却对于噪声和孤立点特别的敏感,取出距离很远的两个类之中出现一个孤立点时,这个点就很有可能把两类合并在一起。
距离公式如公式1所示。
(1)
(1)全连锁(comlpetelinkage),又称最远邻(furthestneighbor)方法。
指两个不一样的簇中任意的两点之间的最远的距离。
它面对噪声和孤立点很不敏感,趋向于寻求某一些紧凑的分类,但是,有可能使比较大的簇破裂。
距离公式如公式2所示。
(2)
(2)组平均方法(grouPaveragelinkage),定义距离为数据两两距离的平均值。
这个方法倾向于合并差异小的两个类,产生的聚类具有相对的鲁棒性。
距离公式如公式3所示。
(3)(3)平均值方法(centroidlinkage),现计算各个类的平均值,然后定义平均值之差为两类的距离。
距离公式如公式3.4所示。
(4)(4)其中,是两个类,|为对象p和之间的距离,,分别为,的对象个数,,分别为类,的平均值。
3.2基于划分的聚类方法
给定一个数据库包含个数据对象以及数目K的即将生成的簇,一个划分类的算法将对象分为K个划分,其中,这里的每个划分分别代表一个簇,并且K<
=。
其中的K需要人为指定。
它一般从一个初始划分开始,然后通过重复的控制策略,使某个准则函数最优化。
因此,它可以被看作是一个优化问题,而优化问题往往是NP-难问题。
基于划分的聚类方法的优缺点跟层次的聚类方法的优缺点刚刚好反,层次聚类算法的优点恰恰是划分聚类方法的缺点,反之亦然。
根据它们之间的优缺点,人们往往会更趋向于使用划分的聚类方法,所以,本文着重于讲解基于划分的聚类方法。
基于划分的聚类算法有许多,下面介绍几中常见的基于划分的聚类算法。
3.2.1K-means
k-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。
k-means算法的基本思想是:
以空间中k个点为中心进行聚类,对最靠近他们的对象归类。
通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
该算法的迭代的终止条件是直至中心点收敛。
因此,K-means算法需要优化的目标函数是:
(5)
其中E为数据库中所有对象的均方差之和,p为代表对象的空间中的一个点,mi为聚类Ci的均值(p和mi均是多维的)。
公式
(1)所示的聚类标准,旨在使所获得的k个聚类具有以下特点:
各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
而K-medoids算法跟k-means算法的不同之处在于K-medoids用接近聚类中心的一个对象来表示每个簇而K-means用簇中对象的平均值来表示每个簇。
输入:
簇的数目k和包含n个对象的数据集。
输出:
k个簇。
方法:
(1)对于数据对象集,任意选取k个对象作为初始的簇中心;
(2)根据簇中对象的平均值,将每个对象重新赋给最相似的簇;
(3)更新簇的平均值,即计算每个簇中对象的平均值;
(4)重复
(2)(3);
(5)直到不再发生变化。
(a)
(b)
(c)
3.2.2模糊C均值算法
C-均值聚类算法:
1.条件及约定
设待分类的模式特征矢量集为,类的数目是事先确定的。
2.基本思路
设方法取定类和选取个初始聚类中心,按最小距离原则将各模式分配到类中的某一类,之后不断地计算类心和调整个模式的类别,最终使各模式到其判属类别中心的距离平方之和最小。
3.算法步骤
(1)任选个模式特征矢量作为初始聚类中心:
,令。
(2)将待分类的模式特征矢量集中的模式逐个按最小距离原则分划给类中的某一类,即
如果,,存在一个。
则判定。
式中表示和的中心的距离,上角标表示迭代次数。
于是产生新的聚类。
(3)计算重新分类后的各类中心
式中为类中所含模式的个数。
因为这一步采取平均的方法计算调整后各类的中心,且定为类,故称为-均值法。
(4)如果,则结束;
否则,,转至
(2)。
应用C-均值聚类算法实现图像聚类:
这里假设图像分割成个区域,其图像大小为的灰度图像,任意位置处的灰度值为。
因此,灰度图像可采用集合方式描述为。
假设灰度图像中最小灰度值为,最大灰度值为,其中任意灰度级出现的总个数记为且满足,这里表示给定灰度图像中所有灰度总个数。
采用C-均值聚类图像的算法过程如下:
步骤1:
从0至255中任意选取个不同大小的值作为图像聚成类的中心值,即采用0至255的整数初始化的值,令。
步骤2:
将图像中所有不同位置像素的灰度值逐个按最小距离原则分划给类中的某一类,即
如果,,存在一个,则判定。
步骤3:
计算重新分类后的各类中心
否则,,转至步骤2.
3.2.3KHM算法
谱聚类算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并且计算矩阵的特征值和特征向量
,然后选择合适的特征向量聚类不同的数据点。
谱聚类算法最初用于计算机视觉
、VLSI设计等领域,最近才开始用于机器学习中,并迅速成为国际上机器学习领域的研究热点。
谱聚类算法建立在谱图理论基础上,其本质是将聚类问题转化为图的最优划分问题,是一种点对聚类算法,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。
KHM算法的权重是个变量,它把距离中心点远的数据点赋以高的权重,这样可以让质心能够很好的覆盖整个数据集。
KHM算法对初始值不敏感,适合处理大数据集,然而KHM算法容易陷入局部最优及簇个数需要预先指定的问题。
综合上来说它胜过K-means、FCM和EM算法。
3.3基于密度的算法
绝大多数划分方法基于对象之间的距离进行聚类,这样的方法只能发现球状的类。
因此,出现了基于密度的聚类方法,其主要思想是:
只要邻近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类,这样的方法可以过滤“噪声”数据,发现任意形状的类。
从而克服基于距离的方法只能发现类圆形聚类的缺点。
代表性算法有:
DBSCAN算法、OPTICS算法、DENCLUE算法等。
DBSCAN(densitybasedspatialclusteringofapplicationswithnoise)算法可以有效地发现具有任意形状的类,并正确地处理噪声数据。
除此之外,该算法还具有实现简单、聚类效果较好等优点。
该算法对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目,即DBSCAN算法将聚类定义为基于密度可达性最大的密度相连对象的集合。
另外不进行任何的预处理而直接对整个数据集进行聚类操作。
DBSCAN对用户定义的参数很敏感,细微的不同都可能导致差别很大的结果,而参数的选择无规律可循,只能靠经验确定。
OPTICS算法是一种基于类排序方法。
该算法并不明确产生一个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。
这个顺序代表了数据的基于密度的聚类结构。
核心距离:
对象p的核心距离是指是p成为核心对象的最小E’。
如果p不是核心对象,那么p的核心距离没有任何意义。
可达距离:
对象q到对象p的可达距离是指p的核心距离和p与q之间欧几里得距离之间的较大值。
如果p不是核心对象,p和q之间的可达距离没有意义。
例如:
假设邻域半径E=2,minPts=3,存在点:
A(2,3),B(2,4),C(1,4),D(1,3),E(2,2),F(3,2)
点A为核心对象,在A的E领域中有点{A,B,C,D,E,F},其中A的核心距离为E’=1,因为在点A的E’邻域中有点{A,B,D,E}>
3;
DENCLUE算法是一个基于一组密度分布函数的聚类算法。
该算法主要基于下面的想法:
(1)每个数据点的影响可以用一个数学函数来形式化地模拟,它描述了一个数据点在领域内的影响,被称为影响函数;
(2)数据空间的整体密度可以被模型化为所有数据点的影响函数的总和;
(3)聚类可以通过确定密度吸引点来得到,这里的密度吸引点是全局密度函数的局部最大。
3.4基于网格法
主要思想是将空间区域划分若干个具有层次结构的矩形单元,不同层次的单元对应于不同的分辨率网格,把数据集中的所有数据都映射到不同的单元网格中,算法所有的处理都是以单个单元网格为对象,其处理速度要远比以元组为处理对象的效率要高的多。
STING算法、CLIQUE算法、WAVE-CLUSTER算法等。
STING(statisticalinformationgrid)算法首先将空间区域划分为若干矩形单元,这些单元形成一个层次结构,每个高层单元被划分为多个低一层的单元。
单元中预先计算并存储属性的统计信息,高层单元的统计信息可以通过底层单元计算获得。
这种算法的优点是效率很高,而且层次结构有利于并行处理和增量更新;
其缺点是聚类的边界全部是垂直或是水平的,与实际情况可能有比较大的差别,影响聚类的质量。
CLIQUE(clusteringinquest)算法综合了基于密度和基于