聚类分析及其在图像处理上的应用.docx

资源描述

聚类分析及其在图像处理上的应用.docx

《聚类分析及其在图像处理上的应用.docx》由会员分享，可在线阅读，更多相关《聚类分析及其在图像处理上的应用.docx（10页珍藏版）》请在冰豆网上搜索。

聚类分析及其在图像处理上的应用.docx

聚类分析及其在图像处理上的应用

1绪论

1.1基于聚类的图像处理的研究现状

聚类分析在图像处理中应用广泛，其中一项重要的应用就是图像分割。

图像分割多年来一直受到人们的高度重视，各种类型的分割算法相继被提出。

虽然人们在图像分割方面做了许多工作，但是至今仍没有通用的分割算法，也不存在一个客观的评价准则。

大多数分割算法都是针对一种具体类型的图像提出的很难适用于所有图像。

实际上由于各个领域的图像千差万别，也很难提出万能的分割算法。

基于聚类的图像分割方法是图像分割领域中一类非常重要且应用广泛的算法。

2聚类分析概述

2.1聚类的定义

聚类的目的是将有限个无标注数据划分到有限个离散的组或类中,发现数据

隐藏的部结构。

Backer和Jain[1]指出数据的划分是依赖于所选择的相似性度量的,通过主观地选择相似性度量来达到有的的划分。

至今,人们并没有对聚类给出一个统一的定义。

多数研究者都是从部同质性和外部可分性对聚类簇进行描述,即同类数据对象间应该彼此相似,不同类间的数据对象应该不相似[3。

在给出聚类的数学描述之前,首先介绍与聚类有关的一辟术语和数学表达方法。

样本:

指要进行聚类的数据集中的单个数据。

样本一般是一个多维向量,向量的每个分量可以是数值型或者名词型的数据,一般称为特征或者属性。

样本集:

或称数据集,是由单个样本所组成的集合,即是需要聚类操作的数据整体,通常表示为一个矩阵。

相异度矩阵:

该矩阵中的每个元素表$样本集中的每对样本之间的相异程度,一般是非负值。

相似度矩阵:

该矩阵中的每个元素表小?

样本集中的每对样本之间的相似程度,一般是非负值。

类:

或称簇,指通过聚类而形成的一组,同一类中的样本具有相似的特征。

通常用C或K表示类的个数。

类原型:

能够代表某个类性质的数据兀,可以是某类样本中的一个样本,或者是某类样本的一个加权值,也可以是能描述一个类特征的向量。

划分矩阵[U]n*K:

矩阵中的每个元素表示每个样本属于各个类的模糊隶属度

且

在此〖表?

样本标号,k表类标标号。

1.2聚类的数据类型

通常获得的数据类型有两种:

一是数据矩阵,二是相异度矩阵（相似度矩阵）。

假定数据集中有n个样本:

i=1,2,....,n,每个样本有p个变量（特征属性）,则这n个样本可表示成n*p（n个样本xp个变量）的数据矩阵。

（2-1）

其中每个对象对应为一个p维向量:

（2-2）

相异度矩阵存储的是n个样本两两之问的相界度,表现形式足一个n*n维的矩阵。

（2-3）

在这里d（i,j）是样本i和样本j之间相异性的量化表示,通常是一个非负的数值,当样本i和样本j越相似，d（i,j）的值就越接近0；反之,两个样本越不相似,的

值就越大。

d（i,j）=d（j,i）,且d（i,j）=0,因此得到形如（2-3）的矩阵。

图像数据的表示

日常应用中得到的图像一般分为两类：

灰度图像和彩色图像。

灰度图像的数值表示为一个二维矩阵[I]m*n图像一共包含m*n个像素。

在此，m和n分别代表图像的高和宽，（ij）表示位于第i行和第j列的像素，Iij表示其灰度值。

彩色图像的数值表示为一个三维矩阵[I]m*n*3，像素的个数仍为m×n，3表示三个颜色通道，每一层的二维矩阵表示该图像在某一个颜色通道的数值。

位于位置（i,j）的像素对应的颜色特征向量表示为[I（i,j,1）,I（i,j,2）,I（i,j,3）]。

在许多情况下,色彩是描述一幅图像最简单有效的特征,而且人眼对色彩的分辨率大大高于对灰度图像的分辨率,因此彩色图像所携带的信息远远大于灰度图像。

一般的图像处理技术最先应用于灰度图像,然后发展到彩色图像,图像分割也不列外。

颜色特征可以来自于不同的颜色空间,不同的颜色空间以不同的方式对图像颜色进行描述。

一共有四种不同的颜色空间：

RGB颜色空间、XYZ颜色空间、HIS颜色空间、Lab颜色空间。

RGB颜色空间是基本的颜色空间,RGB对应于红（R）、绿（G）、蓝（B）三种基色,其余所有颜色空间都可由RGB颜色空间经过线性或非线性变换得出的。

给定一幅待分割的图像,我们可以直接获得像素的位置信息,灰度值（灰度图像）或者RGB颜色特征值（彩色图像）,这些特征也是图像分割中最常用的特征属性。

但是对于一些复杂图像,单纯依赖这些底层特征不能得到满意的分割结果。

基于这些底层特征,人们提取了更多有效的特征,其中常用的有描述物体表面灰度变化的纹理特征和根据特定对象的先验信息加入的形状特征。

最近,人们开始借助一辟先进的电子产品提取深度信息,通过加入这辟高层特征来改善对特定类图像的分割结果。

在提取特征之后,就可以得到每个像素点的一个向量表小,也就可以看成是高维空间中的一个数据点。

但是,像素点又和传统的数据不同,每个像素点在阁像中的位置是固定的,每个像素点的邻域像素点都可以直接通过位置信息获得,这一特性也在图像数据的相似度计算上得以体现。

2.3聚类算法

近些年来,聚类分析一直是研究热点问题。

基于相似度矩阵的聚类算法指的足给定相似度矩阵的情况下即可进行聚类处理的算法。

只要给定相似度计算模型,则基于相似度矩阵的聚类算法也可以处理数据矩阵,即首先根据数据矩阵计算出相似度矩阵,然后利用基于相似度矩阵的聚类算法进行聚类。

2.3.1基于数据矩阵的聚类算法

基于数据矩阵的聚类算法只能处理数据矩阵对象,其中很多经典的类原型聚类算法都可以划分到这一类聚类算法中,如K均值型聚类算法,模糊C均值型聚类算法（FCM）,EM型聚类算法等。

这辟算法之所以称为类原型聚类算法,是因为每个类可以由类原型来代表,在对数据进行划分的同时也给每个类找到具有代表作用的类原型。

一个簇可以由类原型表示,达到对原有的数据集的压缩编码,这也可以说是聚类的另外一个功能。

给定一数据矩阵[X]n*p表示n个p维样本。

K均值算法

K均值算法将n个样本划分到K个簇C={C1,C2,…,Ck},使得簇样本具有较高相似度,簇间样本具有较低相似度。

设V={VI,V2,…,Vk}为K个类对应的类中心（类原型）,其中Vk是第Ck个簇中样本的平均值,每个族可以由对应的类原型来表示。

K均值算法通过最小化类误差平方和准则函数来对数据进行划分,其目标函数定义如下:

（2-4）

在此Ck包含所有到第k个类中心Vk距离最小的样本点，可描述如下。

（2-5）

（2-6）

K均值算法是一个贪心算法,通过迭代地更新类中心和各个簇成员来得到公式（2-4）的局部最优解。

K均值聚类算法主要包括以下几个步骤:

1.初始化:

随机选取个样本作为初始的类中心;

2.样本指派:

计算样本到各个类中心的欧氏距离,将样本划分到距离其最近的类;

3.更新:

重新计算每个新簇的类中心;

4.重复步骤2和3直到簇样本不再发生变化后停止。

K均值算法的主要优点有收敛速度快,储存空间小,时间复杂度低等。

一般的K均值型聚类算法的时间复杂度为O（nKt），其中n是数据集中样本的个数，K是期望聚类的个数，t是迭代次数。

模糊C均值算法

Dunn在1973年提出模糊C均值聚类思想，之后Bezdek把这一工作进一步推广到一个模糊目标函数聚类的优化算法，并证明了该算法的收敛性。

模糊C均值聚类算法给出每个样本属于各个类的程度,即隶属度（menibershipvalue）。

相比K均值聚类的硬化分,模糊划分更丰富地反映了样本与各个类原型的相关度,

从而可以更好的推测数据集的部结构。

2.3.2基于相似度矩阵的聚类算法

基于相似度矩阵的聚类算法是以相似度（相异度）矩阵为基础。

如果数据是用数据矩阵的形式表现的,在使用基于相似度矩阵的聚类算法之前要根据相似度模型计算出相似度矩阵。

与基于数据矩阵的聚类算法相比,这类算法使用起来更灵活,无论输入是数据矩阵还是相似度矩阵都能够进行聚类操作,相反基于数据的聚类算法则不能处理只给出相似度矩阵的聚类问题。

然而,一些应用领域往往无法给出明确的数据矩阵,而是给出一辟数据点的关系（如相似度）,社团分析中常碰到这类情况。

直接使用相似度矩阵进行聚类的典型聚类算法有基于图的聚类算法、基于类原型的K中心算法（K-medoids）和AP聚类算法、层次聚类算法以及基于密度的聚类算法等。

基于图的聚类算法

基于图的聚类算法是一类基于无向图的聚类算法。

假定将侮个样本看作图中的顶点V,根据样本间的相似度为顶点间的边E赋于权重W,这样得到一个基于样本相似度的无向加权图G=（V,E）。

将样本映射到图之后,可以使用图论中很多成熟的理论来进行聚类,一类非常流行的基于图的聚类算法是谱聚类算法,这类算法也是本文的基础算法,很多相关实验也是基于这类算法完成的。

因此,下面会比较详细的介绍几种常用的谱聚类算法。

谱聚类算法的思想源于谱图划分理

论，其本质是将聚类问题转化为图的最优化分问题。

与传统聚类算法假设一样，基于图论的最优划分准则也是使划分的子图部相似度最大，子图之间的相似度最小。

不同的划分准则会得到不同的聚类结架。

表2.1给出了一辟常见的划分准则。

由于图划分问题的本质,求图划分准则的最优解是一个NP难问题。

求解图划分问题一个主要的工具是图的拉普拉斯矩阵法（Laplacianmatrices）。

这类矩阵的学习已经形成了一个完整的体系,称为谱图论早在1973年,Donath和Hoffmanf^l就提出利用图的邻接矩阵的特征向量来求解图划分问题。

同

年,Fiedlerl发现了图的2-way划分与该图的拉普拉斯矩阵对应的第二小特征值对应的特征向量有密切关系,并提出使用这一向量对图进行划分。

这一特征向量代表了最佳图划分的一个解（即势函数）,后来将这一特征向量命名为Fiedlerl向量。

基于谱图理论,原来的图划分问题就可以转换成求解相似度矩阵或Laplacian矩阵的谱分解问题,因此将这类方法统称为谱聚类,可以认为谱聚类是对图划分准则的逼近。

谱聚类中常用的相似性度量为空间相似性计算模型中的高斯型相似性计算方法。

相似度矩阵通常用W或A表示，有时也称为亲和矩阵（AffinityMatrix）,Wij=Wji=Sij。

在得到相似度矩阵后即可求解拉普拉斯矩阵,不同的文献可能使用不同类型的拉普拉斯矩阵,不同的拉普拉斯矩阵即得到不同的谱映射方法。

在给出不同类型的拉普拉斯矩阵之前,先引入矩阵D。

D为对角矩阵,

即可以看作是每个顶点的度,所以也称为度矩阵。

图的拉普拉斯矩

阵分为两类:

非规拉普拉斯矩阵和规拉普拉斯矩阵。

非规拉普拉斯矩阵定义为:

（2-7）

规的拉普拉斯矩阵有两种形式,分别为:

（2-8）

（2-9）

在此将第一个矩阵标记为Lsym，因为该矩阵为对称矩阵;第二个矩阵标记为Lrw，因为该矩阵与随机游走有密切关系。

根据不同的准则函数及谱映射方法,文献中已提出很多种不同的谱聚类算法。

众多的谱聚类算法中应用最广的要数Shi和Malik提出的Ncut谱聚类算法_,Ng等。

人提出的NJW算法。

Ncut算法最初是用于求解两类问题,可以迭代地对之前步骤得到的子图进行划分来得到期望的聚类个数,所以也属于迭代谱聚类算法中的一种。

NJW算法是针对多类问题提出,使用更多的特征向量并且直接计算k路分割对数据进行聚类。

谱聚类算法的主要优势在于该类算法对簇的形状没有很强的假设,可以处理更一般化的聚类问题。

K均值聚类算法建立在球形的样本空间上,适合发现球状簇,对于含有任意形状簇的数据集往往得不到期望的聚类结果。

处理更多类型的数据集是近几年谱聚类流行起来的主要原因。

但是也正是由于谱聚类是直接基于相似度矩阵的聚类算法,不同的相似度矩阵得到的聚类结果可能会有很大差界。

K中心点方法

K中心点方法也可以看作是K均值算法的一个变形算法,之所以将其归类为基于相似度（相异度）矩阵的聚类算法是因为K中心点算法选用族中位置最中心的对象作为类代表点（类中心）,而不是簇中对象的平均值（质心）。

K中心点方法仍是基于最小化所有对象到类中心之间的相异度之和的原则来执行,在已知对象与对象间的相异度时,该方法就能对对象进行聚类。

K中心点方法采用中心点来代替质心,减少了对噪声和孤立点数据的敏感程度。

K中心点聚类算法的基本策略是:

首先为每个族随机选择一个代表点;剩余的数据点根据其与代表点的距离分配给最近的一个簇。

然后反复用非代表点来替换代表点,以改进聚类的质量,降低聚类质量的代价函数,即数据点到其类代表点的平方误差和。

每次代表点替换发生时,检查代价函数是否降低,如果降低则保留替换,否则放弃该替换,重复上述过程直到代价函数不再发生变化为止。

给定聚类数K,典型的K中心点聚类算法的主要步骤概括如下:

1.初始化:

随机选取足个样本作为初始的中心点;

2.样本指派:

计算样本到各个类中心的距离,将样本划分到距离其最近的中心点所代表的簇;

3.类中心替换:

随机地选择一个非类中心点,计算用选中的样本代替原来的类中心的代价函数,如果代价函数降低,则替换原有的中心点形成新的K个中心点集合;

4.重复步骤2和3直到类中心点不评发生变化后停止。

PAM（PartitioningAroundMedoids）是最早提出的K中心点算法之一。

虽然K中心算法比K均值算法在处理噪声点时表现的要健壮,但是K中心点算法的执行代价比K均值方法高,其时间复杂度为如果数据集规模和类的个数较大,PAM算法的效率会很低为了用K中心点方法处理大规模数据集,Kaufman和Rousseeuw将抽样方法和PAM算法结合提出了一个新的尺中心点方

法,称为CLARA（ClusteringLARgeApplications）算法CLARA算法+再考虑整个数据集,而是从整个数据集中进行抽样,选取数据中的一小部分作为数据的样本,然后用PAM算法从这些选中的样本中选择中心点。

为了减少抽样样本对最终聚类的影响,CLARA算法采取多次抽样,对每次抽样样本应用PAM算法,返回

这几次抽样最好的聚类结果作为最终结果。

通过抽样处理,CLARA算法一次抽样的时间复杂度为

其中s是抽样样本的大小。

CLARA算法的一大缺点是不能保证最佳的个类中心点被选中为最终的类中心点,如果在抽样的时候这辟数据点没有被抽中,那么CLARA算法将永远找不到最佳聚类。

为了改进CLARA算法的聚类质量,Ng和Han提出了CLARANS算法（ClusteringLargeApplicationsbaseduponRANdomizedSearch）,该算法也采用了抽样技术,但是在

搜索的每个阶段不诉使用一个固定的抽样集合,而在搜索的每一步都会随机的抽取样本,其时间复杂度为

。

CLARANS算法的聚类质量也依赖于所用的抽样方法。

3实验与分析

针对相似度计算模型和数据特征两方面的工作,实验分为两部分:

基于不同高斯型相似度的实验结果和基于不同特征的实验结果。

每部分都使用模拟数据及实际数据对相应方法进行测试,聚类算法选用NJW谱聚类算法。

3.21基于不同高斯型相似度的聚类结果

下面给山基于六种高斯型相似性度量的聚类结果。

六种相似性度量分别为:

标准高斯核相似度（SC）自适应高斯核相似度I（STI）、自适应高斯核相似度n（STH）局部密度的自适应相似度（CNN）加权自适应相似度I（WSTI）以及加权自适应相似度n（wsTn）。

3.3模拟数据

首先对模拟数据进行实验,部分数据集来自文献。

对于各种相似性度量中涉及到的参数,包括尺度参数、近邻数K和K`以及邻域半径Ɛ,通过实验选择最佳参数得到图3.1给出的聚类结果。

（a）（b）

（c）（d）

图3.1模拟数据的聚类结果。

从上到下依次表示为:

SC、STI、STn、CNN、WSTI、WSTII

从图3.1第一列可以看出,对于简单的数据集,六种相似性度量都得到了满意的聚类结果。

但是对于含冇多密度类的数据集,标准高斯核相似度以及局部密度的相似度得不到理想的聚类结果,如图3.1第二:

列和第三列所图3.1的最后一列表明对于含有离群点的数据集（类结构不明显）,两种自适应高斯核相似度都得不到满意的结果,通过加权对自适应相似度进行修正可以改进聚类结果。

从第二列的结果可以看出自适应相似度n也没有得到满意的聚类结果,虽然它降低了离群点对尺度参数的影响,但是同时也缩小了不同密度类间的相似度与类的相似度的差异,往往不能处理含有多个不同类型类的数据集。

4总结

随着各种数字化设施的普及,当前社会已经进入了数字化时代。

每天都有大量的信息涌现出来,如何从海量数据中得到有用的知识吸引了众多研究者的注意。

聚类分析作为一种有效的数据分析工具得到了广泛的应用。

聚类是一种无监督学习方法,在没有数据先验信息情况下,能够区分数据间的在关系,发现数据集蕴结构信息。

作为数据挖掘和机器学习研究领域中一个非常活跃的研究课题,聚类分析已经被广泛地研究了许多年。

在Google学术搜索中使用关键词搜索“clustering”,得到大约2110000条结果,仅2010至今的条目就达到了6万多条,容横跨多个研究领域,这也充分体现了聚类分析的重要性。

本文系统地介绍了主要的聚类算法,以及聚类分析中的关键问题,重点讨论了聚类中相似性度量和基于相似度矩阵的聚类算法。

展开阅读全文