大学毕业设计基于聚类分析的图像分割研究Word文件下载.docx

资源描述

大学毕业设计基于聚类分析的图像分割研究Word文件下载.docx

《大学毕业设计基于聚类分析的图像分割研究Word文件下载.docx》由会员分享，可在线阅读，更多相关《大学毕业设计基于聚类分析的图像分割研究Word文件下载.docx（57页珍藏版）》请在冰豆网上搜索。

大学毕业设计基于聚类分析的图像分割研究Word文件下载.docx

２０１４年6月2日

摘要

在飞速发展的信息时代，图像是人类获取信息的重要手段之一，因而图像的处理就变得极其重要。

而图像分割通常是为了进一步对图像进行分析、识别、跟踪、理解、压缩编码等，分割的好坏直接影响后期的图像识别和理解。

图像分割是指将一幅图像分解成若干互不相交区域的集合，其实质是一个像素的聚类过程。

本文以图像分割的聚类实质为线索，对近几年国内外最新的图像分割算法进行了分析比较，指出了聚类在这个领域的重要性。

本论文针对聚类算法在图像分割中的应用，主要涉及了以下几个内容：

（1）详细介绍当前图像分割以及聚类分析的研究背景，现状。

（2）对基于模糊K均值的图像分割算法进行探讨，并对K均值算法进行改进，通过粗糙集理论提供K-均值聚类所需要的初始类的个数和均值，提高了聚类的效率和分类的精度。

（3）对基于标准模糊C均值聚类的图像分割算法进行了探讨，研究了基于模糊聚类的图像分割方法中初始类别数的选取、初始类中心和初始隶属度矩阵的确定等问题。

（4）将基于模糊K均值的图像分割算法与基于标准模糊C均值聚类的图像分割算法进行对比分析。

关键词：

聚类分析，模糊聚类，图像分割，K均值算法，C均值算法

ABSTRACT

Therapiddevelopmentintheinformationage,theimageisanimportantmeansofhumanaccesstoinformation,andthustheimageprocessingbecomesextremelyimportant.Andtheimagesegmentationoftheimageisusuallyperformedtofurtheranalysis,identification,tracking,understanding,compression,etc.,directlyaffectsthepost-splitimagerecognitionandunderstanding.Imagesegmentationreferstothecollectionofanimageisdecomposedintoseveraldisjointregions,anditsessenceisapixelclusteringprocess.Inthispaper,imagesegmentationclusteringsubstantiveclue,athomeandabroadinrecentyears,imagesegmentationalgorithmsareanalyzedandcompared,pointedouttheimportanceofclusteringinthisfield.Thisthesisclusteringalgorithmforimagesegmentation,mainlyrelatedtothefollowingelements:

（1）adetaileddescriptionofcurrentresearchbackgroundimagesegmentationandclusteringanalysisofthestatus.

（2）imagesegmentationalgorithmbasedonfuzzyK-meanswerediscussed,andtheK-meansalgorithmisimproved,providingtheinitialclassandthemeannumberofK-meansclusteringrequiredbyroughsettheory,improvetheefficiencyofclusteringandclassificationaccuracy.

（3）thestandardimagesegmentationalgorithmbasedonfuzzyC-meansclusteringwerediscussed,studiedtoselecttheinitialnumberofcategoriesbasedonfuzzyclusteringmethodofimagesegmentation,determiningtheinitialclustercentersandtheinitialmembershipmatrixofotherissues.

（4）thesegmentationalgorithmforimagesegmentationalgorithmbasedonfuzzyC-meansclusteringstandardcomparativeanalysisbasedonK-meansfuzzyimage.

Keywords:

clusteranalysis,fuzzyclustering,imagesegmentation,K-meansalgorithm,C-meansalgorithm

第一章绪论

在当前快速发展信息化时代，通过图像来获取信息是人类认识世界改造世界的重要方式之一，由此看来图像的处理就变得十分重要1。

图像处理（imageprocessing），用计算机对图像进行分析，以达到所需结果的技术。

又称影像处理。

基本内容图像处理一般指数字图像处理。

数字图像是指用数字摄像机、扫描仪等设备经过采样和数字化得到的一个大的二维数组，该数组的元素称为像素，其值为一整数，称为灰度值。

图像处理技术的主要内容包括图像压缩，增强和复原，匹配、描述和识别3个部分2。

常见的处理有图像数字化、图像编码、图像增强、图像复原、图像分割和图像分析等。

其中图像分割的目的是为了后续对图像进行分析、识别、跟踪、理解、压缩编码等，分割的准确性直接影响后续任务的效果，具有极其重要的意义。

所以本课题将研究方向确定在利用图像分割技术来进行图像的识别3。

1.1图像分割的背景及意义

聚类分析研究有很长的历史，几十年来，其重要性及其研究方向的交叉特性得到人们的肯定。

聚类分析是数据挖掘研究方向的重要研究内容之一，在识别数据的内在结构方面有极其重要的作用。

数据挖掘技术是从上世纪80年代开始发展起来的一门交叉学科，涉及到数据库、统计学、人工智能和机器学习多个领域。

计算机的应用普及产生了大量数据，数据挖掘就是利用上述学科的技术进行大量的数据处理。

数据挖掘的应用范围非常的广泛，从农业生产的预测到基因分类，从信用卡欺诈到税务稽查，数据挖掘技术对未来社会的各个领域将起到越来越大的作用4。

在一副图像中，我们在通常情况下只是对其中的某些目标感兴趣，它们通常在要分割的图像中占据一定的区域，而且在某些特性上与周围的图像存在一定的差别。

这些差别有时候可能是特别明显的，也有可能是非常微小的，以至于人的肉眼无法察觉的到的。

图像分割是按照一定的制约规则把图像划分为若干个互不相交，具有特定性质的区域,是把我们关注的区域从需要分割的图像中提取出来，从此进行进一步研究和处理的技术。

它使得其中的图像分析和识别等处理过程中所要处理的数据量大大减少了，同时有保留了有关图像结构特征的信息。

图像分割的结果是图像特征提取和识别等图像理解的基础，对图像分割的研究一直是数字图像处理技术的焦点和热点。

关于图像分割的概念有很多，但最终都归于一个基本思想，即图像分割时根据实际需求与应用，按照指定特征信息，对图像中有意义的边界、兴趣区域或者对相一致的区域（灰度、颜色、纹理等）进行分解和提取的技术和过程5。

图像分割的数学解释：

假定一幅图像中所有像素的集合为

，有关均匀性的假设为

。

分割定义把

划分为若干子集

，其中每个子集都构成一个空间连通区域。

用四个条件进行数学描述，即6：

；

式中，

为空集。

图像分割的重要性，可以从图像工程的三个层次来理解，如图1.1所示。

图像工程是指对图像进行采样、量化、编码、传输、增强、边缘检测、分割、形态分析、目标识别、目标表达等一系列的加工处理、分析和理解的综合工程技术。

图像工程根据抽象程度和研究方法的不同分为三个层次：

图像处理、图像分析和图像理解。

而图像分割是图像识别和图像理解的基础，分割的好坏结果直接影响到后期的识别和理解7。

图1.1图像分割在图像工程中的位置

图像分割在实际中也已得到广泛的应用，例如在工业自动化，在线产品检验，以及军事、体育、农业工程等方面8。

概括来说，在各种图像应用中，只要需对图像目标进行提取，测量等都离不开图像分割。

图像分割技术的发展与许多其它学科和领域，例如数学、物理、心理学、电子学、计算机科学等学科密切相关。

近年来，随着各学科许多新理论和方法的提出，人们也提出了许多结合一些特定理论、方法和工具的分割技术9。

每当有新的数学工具或方法提出来，人们就试着将其用于图像分割，因而提出了不少特殊的算法。

例如利用马尔可夫随机场、数学形态学、模拟退火、遗传算法、聚类分析。

新的分割算法还在不断涌现。

其中，基于聚类分析的图像分割方法是图像分割领域中一类极其重要和应用相当广泛的算法，其在应用领域取得的巨大成功引起了广大关注10。

1.2图像分割的研究现状

基于聚类分析的图像分割方法是图像领域中一类极其重要和应用相当广泛的算法，无论是灰度图像分割、彩色图像分割还是纹理图像或者其他类型的图像分割，都可运用聚类分析方法11。

聚类是把具有相似性质的事物区分开并加以分类，它是运用数学方法对处理给定对象的进行分类。

聚类问题是一个古老的问题，是伴随人类的产生和发展而不断深化的一个问题，有关聚类分析的理论和应用的研究己有大量的文献。

经典分类学是从单个因素或有限几个因素出发，凭经验和专业知识对事物分类，这种分类具有非此即彼的特性，分出的类别界限很清晰。

随着认识的深入，发现这种分类不适用于具有模糊性的分类问题，如图像中的区域之间的边界就往往是模糊不清的。

模糊数学的产生为上述软分类提供了数学基础，由此产生了模糊聚类分析12。

用普通数学方法进行分类的聚类法称为普通聚类分析，而把应用模糊数学方法进行分析的聚类分析称为模糊聚类分析。

由于图像技术本身的复杂性和相关性，在图像处理过程中出现了不确定性和不精确性。

这种不确定性和不精确性主要体现在图像灰度的不确定性、几何形状的不确定性和不确定性知识等。

这种不确定性是经典的数学理论无法解决的，并且这种不确定性不是随机的，因而不适于用概率论来解决13。

因为模糊理论对于图像的这种不确定性有很好的描述能力，所以可以引入模糊理论作为有效描述图像特点和人的视觉特性的模型和方法。

近年来一些学者致力于将模糊理论引入到图像处理中，取得很好的效果，经过专家学者几十年的研究，图像的模糊处理技术获得极大的发展。

基于模糊理论的图像分割方法主要可分为模糊阈值分割和模糊聚类分割。

图像分割的实质简单地说是一个按照像素属性（灰度，纹理，颜色等）聚类的过程14。

因此，聚类分析就广泛应用于图像分割之中。

其中模糊聚类分割方法是最先提出、也是最经典的一种图像模糊分割方法。

本文中基于聚类分析的图像分割算法主要是针对模糊聚类算法应用于图像分割中的介绍和研究。

实际中应用最为广泛的模糊聚类方法是模糊C-均值算法（FuzzyC-Means），简称FCM，本文中的模糊聚类算法也特指模糊C均值算法15。

FCM算法首先是由Ruspini提出的，但真正有效的方法是由Dunn给出的。

1974年Dunn将硬C-均值聚类算法推广到模糊情形，同年，Bezdek将Dunn的方法一般化，建立了模糊C-均值聚类理论。

1980年Bezdek又证明了模糊C-均值聚类算法的收敛性，并讨论了模糊C-均值聚类算法与硬C-均值聚类算法的关系16。

从此，基于目标函数的模糊聚类方法蓬勃发展起来，目前从不同的角度对基于目标函数的模糊聚类方法进行研究，归纳起来主要集中在以下四个方面：

模糊聚类新方法的研究、实现途径的研究、聚类有效性的研究和模糊聚类的应用研究。

FCM算法采用迭代法优化目标函数来获得对数据集的模糊分类，算法具有很好的收敛性。

采用模糊C-均值聚类的方法进行图像分割的优点是避免了设定阈值的问题，并且能解决阈值化分割难以解决的多个分支的分割问题。

FCM适合于图像中存在不确定性和模糊性的特点，同时FCM算法是属于无监督的分类方法，聚类过程中不需要任何人工的干预，很适合于自动分割的应用领域17。

利用FCM算法进行图像分割主要有以下难点和问题：

聚类类别数C的确定

在聚类进行之前必需给定类的数目，否则聚类无法进行。

在实际应用中，尤其是自动化的系统中这是不太现实的。

均值聚类方法中最困难的是图像分割的类别数的确定。

初始类中心初始隶属度矩阵的确定

模糊聚类分割方法必须给出初始聚类中心和确定初始隶属度矩阵。

根据数学分析理论任何一个迭代并且最后收敛的序列，如果迭代的初始值比较接近于最后的收敛结果的话，收敛的速度会明显提高，迭代次数也会较大幅度地减小。

同时，也因为接近最后结果陷入其它局部最优的可能性减小。

另外，如果聚类迭代的初始值接近于某个局部极值的话，就很有可能最终陷入局部极值，从而得不到全局最优值，所以FCM算法对初始值相当敏感。

在没有任何先验知识也没有任何辅助手段的情况下，系统可以采用随机选取类中心的办法。

但那样就过于盲目，而且很容易陷入局部最优迭代，收敛速度可能很低，迭代的次数也可能会增加很多，这样也就会增加计算时间。

所以初始参数的确定，对于计算量的降低显得尤其重要。

然而目前尚无有效的理论指导，如何选择合适的聚类初始值仍然是一个难题。

迭代过程中的大计算量问题

由于聚类是一个非线性优化过程，聚类迭代算法在一般情况下收敛速度较慢。

图像分割是一个样本量很大的分类问题，尤其当特征空间是多维空间时（如彩色图像分割时的三维颜色空间聚类时）迭代算法中计算量过大而且只能串行，耗时很多，基于模糊聚类的计算量就更大了，使得FCM算法的实际应用具有一定的局限性，更不用说实时应用了。

为了解决模糊聚类中大计算量的问题，降低计算时间，人们一般从三个方面来考虑：

选择接近最后结果的初始值，尽可能地减少迭代的次数；

改进算法，减少每一轮迭代的计算量；

设计快速的实现算法。

丁震等人提出了一种针对模糊聚类的快速二值化方法，该方法将图像映射到灰度特征空间，然后在特征空间中进行聚类，显然特征空间中灰度级是很少的，而图像的像素则是大样本集，这样一来计算量大幅度降低，分割质量也还可以。

但是该算法只适用于将图像分割成目标和背景两类的灰度图像应用。

空间信息的使用

模糊均值聚类方法分割的另一个问题是它只考虑到了灰度特征或彩色图像

的色特征，忽略了图像中固有的丰富的空间信息，从而导致它对噪声比较敏感，而且使得分割出的区域往往不连续，导致本属于同类的像素没有连在一起，不能

形成有意义的子图。

如何有效地利用空间信息，提高分割质量，同时又不至于大

幅增加计算量是一个很有意义的研究课题。

聚类的后处理的问题

由于模糊聚类法分割是一般都没有有效地利用图像像素之间的空间关系信息，容易导致分割出来的区域可能不连续；

另一个分割时类别数未必是正确的，往往有过分割的可能。

于是一般在聚类完成后对分割出的结果需要进行一些合并类的后处理，使得最后分割出的区域都是有意义的。

针对模糊聚类FCM存在的这个问题，Ray等人提出了一种基于解微分方程的曲线进化的方法，该方法利用截集理论来演变分割图中的几何曲线，进而描述图像的区域。

该方法不失为一种较好的后处理方法，它排除了分割图中的不连续性，使得各区域之间的边界是封闭和连续的。

但该方法的边界曲线演变过程的计算复杂度很高，非常耗时；

它存在的另一个问题是后处理过程可能会产生新的分割错误。

然而，好的后处理方法应该分析聚类后存在的各种不同的问题，然后采用不同的方法进行处理，既要降低计算复杂度，又要避免引入新的噪声。

二十几年来，研究工作者们对传统FCM算法进行不断的研究，提出许多不同的改进，但上述问题仍然没有完全解决。

1.3本文的主要工作

本文在介绍图像分割的定义、方法、应用及研究意义和研究现状以及支持向量机的基础理论之后做了如下任务：

（2）介绍了基于聚类算法的图像分割的算法步骤，以及本文所使用MATLAB软件工具；

（3）对基于模糊K均值的图像分割算法进行探讨，并对K均值算法进行改进，通过粗糙集理论提供K-均值聚类所需要的初始类的个数和均值，提高了聚类的效率和分类的精度。

（4）对基于标准模糊C均值聚类的图像分割算法进行了探讨，研究了基于模糊聚类的图像分割方法中初始类别数的选取、初始类中心和初始隶属度矩阵的确定等问题

（5）总结了本文的主要研究内容，并就本文尚存在的不足进行了展望。

第二章聚类分析理论

聚类分析是一种新兴的多元统计方法，是当代分类学与多元分析的结合。

聚

类分析是将分类对象置于一个多维空间中，依据样本间关联的度量标准将其自动分成几个群组，且使同一群组内的样本相似，而属于不同群组的样本相异的一组

方法。

聚类的样本是用度量指针的一个向量表示，即用多维空间的一个点来表示。

同类中的样本比属于不同类的样本彼此具有更高的相似性。

聚类分析通常是基于

距离的，通过构造一个m维空间的距离函数，利用这个距离函数来进行聚类。

2.1聚类分析概述

迄今为止，聚类还没有一个学术界公认的定义，这里给出EverittIs在1974年关于聚类所下的定义：

一个类簇内的实体是相似的，不同类簇的实体是不相似的；

一个类簇是测试空间中点的会聚，同一类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离；

类簇可以描述为一个包含密度相对较高的点集的多维空间中的连通区域，它们借助包含密度相对较低的点集的区域与其他区域（类簇）相分离。

定义2.1簇（Cluster）：

一个数据对象的集合。

在同一簇中，对象具有相似性，不同簇中，对象之间是相异的。

定义2.2聚类分析（Clusteringanalysis）：

把一个给定的数据对象集合分成不同的簇,即在空间X中给定一个有限的取样点集或从数据库中取得有限个例子的集合，{xi}ni=1。

聚类的目标是将数据聚集成类，使得类间的相似性最小，而类内的相似性尽可能得大。

没有任何一种聚类技术（聚类算法）可以普遍适用于揭示各种多维数据集中所呈现出来的多种多样的结构，根据数据在聚类中积聚规则以及应用这些规则的方法，有多种聚类算法。

聚类算法有多种分类方法：

1．划分方法

给定一个包含n个对象的数据集，划分方法将数据集划分为k个子集。

其中每个子集均代表一个聚类（K<

=n）。

给定需要划分的个数k，一个划分方法

创建一个初始划分，然后利用循环再定位技术，即通过移动不同划分中的对象来

改变划分内容。

一个好的划分衡量标准通常就是同一个组中的对象彼此相近或相

关，而不同组中的对象较远或差距较大。

主要的划分方法有：

K-means聚类法和

K-medoid聚类法。

K-means聚类法在处理海量数据库方面较有效，特别是对数

值属性处理，它对异常数据很敏感。

PAM（围绕中心对象进行划分）方法是最初

提出的K-medoid聚类算法之一。

K-medoid聚类算法比K-means聚类算法在

处理异常数据和噪声数据方面更为鲁棒，但是前者的处理时间要比后者更大。

2．层次方法

层次方法就是通过分解所给定的数据对象集来创建一个层次。

根据层次分解

形成的方式，可以将层次方法分为自下而上（也称凝聚方式）和自上而下（也称

分割方式）两种类型。

自下而上的层次方法从每个对象均为一个单独的组开始,

逐步将这些组进行合并，直到组合并到了层次顶端或满足终止条件为止。

自上而

下层次方法从所有对象均属于一个组开始，每一次循环将其分解为更小的组，直

到每个对象构成一组或满足终止条件为止。

BIRCH和CURE算法就是层次方法的实例。

3．基于密度方法

基于密度的聚类方法就是不断增长所获得的聚类直到邻近密度小于一定阈

值为止。

这种方法可以用于消除数据中的噪声（异常数据）。

DBSCAN就是一个

典型的基于密度的方法，该方法根据密度阈值不断增长聚类。

4．基于网格方法

基于网格方法将对象空间划分为有限数目的单元以形成网格结构。

所有聚

类操作均是在这一网格结构上进行的。

这种方法主要优点就是处理事件由于与数

据对象个数无关而仅与划分对象空间的网格数相关，从而显得相对较快。

STING

就是一个典型的基于网格的方法。

5．基于模型方法

基于模型的方法就是为每个聚类假设一个模型，再去发现符合相应模型的

数据对象。

一个基于模型的算法可以通过构造一个描述数据点空间分布的密度函

数来确定具体聚类。

它根据标准统计方法并考虑到“噪声”或异常数据，可以自

动确定聚类个数，因此它可以产生很鲁棒的聚类方法。

如神经网络方法。

2.1.1聚类分析中的数据类型

数据挖掘的一个重要步骤是数据准备，这包括对选定的数据进行规范化、

整合和预处理等等，这是进行数据挖掘的前提，也同样是聚类算法能正常实施的

必要前提。

要对数据对象进行聚类，基于统计方法，其最重要的前提是要计算各

个数据对象之间的距离—即相异度，针对不同的数据类型有不同的相异度计算方

法。

许多基于内存的聚类算法常使用以下两种有代表性的数据结构：

数据矩阵和

相异度矩阵。

数据矩阵与相异度矩阵

设聚类问题中有n个对象:

（i=1,2,...,n），对每个对象选择了P个变量，

用间隔尺度测定后，第i个对象的第j个变量的观测值用

表示，则这n个对象所有P个变量的观测值可以看成是如下的n×

p矩阵:

（2.1）

矩阵（2.1）常被称为数据矩阵，它是对象－变量结构的数据表达方式，其中第i个对象的P个变量的观测值可以记为向量:

T（2.2）

聚类中常用的另外一种数据结构是相异度矩阵，它存储的是n个对象两两之间的

近似性，表现形式为一个n×

n矩阵:

（2.3）

其中d（i,j）,是对象i与对象1之间相异性的量化表示，通常它是一个非负的数值，当对象i和对象j越相似和越“接近”，d（i,j）,的值就越接近。

反之，如果两个对象越不同或相距“越远”，d（i,j）,的值就越大。

显然d（i,j）,＝d

展开阅读全文