模式识别及其在图像处理中的应用.docx

资源描述

模式识别及其在图像处理中的应用.docx

《模式识别及其在图像处理中的应用.docx》由会员分享，可在线阅读，更多相关《模式识别及其在图像处理中的应用.docx（10页珍藏版）》请在冰豆网上搜索。

模式识别及其在图像处理中的应用.docx

模式识别及其在图像处理中的应用

学号:

武汉理工大学

模式识别及其在图像处理中的应用

学院（系）:

自动化学院

课程名称:

模式识别原理

专业班级:

控制科学与工程1603班

任课教师:

张素文

学生姓名:

王红刚

2017年1月3日

模式识别及其在图像处理中的应用

摘要:

随着计算机与人工智能技术的发展,模式识别在图像处理中的应用日益广泛。

综述了模式识别在图像处理中特征提取、主要的识别方法（统计决策法、句法识别、模糊识别、神经网络）及其存在的问题,并且对近年来模式识别的新进展———支持向量机与仿生模式识别做了分析与总结,最后讨论了模式识别亟待解决的问题并对其发展进行了展望。

关键词:

模式识别;图像处理;特征提取;识别方法

PatternRecognitionandItsApplicationinImageProcessing

Abstract:

Withthedevelopmentofcomputerandartificialintelli-gence,patternrecognitioniswidelyusedintheimageprocessingin-creasingly、Thefeatureextractionandthemainmethodsofpatternrecognitionintheimageprocessing,whichincludestatisticaldeci-sion,structuralmethod,fuzzymethod,artificialneuralnetworkaresummarized、Thesupportvectorandbionicpatternrecognitionwhicharethenewdevelopmentsofthepatternrecognitionarealsoanalyzed、Atlast,theproblemstobesolvedanddevelopmenttrendsarediscussed、

Keywords:

patternrecognition;imageprocessing;featureextrac-tion;recognitionmethods

模式识别诞生于20世纪20年代,随着计算机的出现与人工智能的发展,模式识别在60年代初迅速发展成一门学科。

它所研究的理论与方法在很多学科与领域中得到广泛的重视,推动了人工智能系统的发展,扩大了计算机应用的可能性。

图像处理就就是模式识别方法的一个重要领域,目前广泛应用的文字识别（OCR）就就是模式识别在图像处理中的一个典型应用。

1模式识别的基本框架

模式识别在不同的文献中给出的定义不同。

一般认为,模式就是通过对具体的事物进行观测所得到的具有时间与空间分布的信息,模式所属的类别或同一类中模式的总体称为模式类,其中个别具体的模式往往称为样本。

模式识别就就是研究通过计算机自动地（或者人为进行少量干预）将待识别的模式分配到各个模式类中的技术。

模式识别的基本框架如图1所示。

分类器设计

特征选择与提取

预处理

样本

分类结果

（识别结果）（））

图1模式识别的基本框架

根据有无标准样本,模式识别可分为监督识别方法与非监督识别方法。

监督识别方法就是在已知训练样本所属类别的条件下设计分类器,通过该分类器对待识样本进行识别的方法。

如图1,标准样本集中的样本经过预处理、选择与提取特征后设计分类器,分类器的性能与样本集的大小、分布等有关。

待检样本经过预处理、选择与提取特征后进入分类器,得到分类结果或识别结果。

非监督模式识别方法就是在没有样本所属类别信息的情况下直接根据某种规则进行分类决策。

应用于图像处理中的模式识别方法大多为有监督模式识别法,例如人脸检测、车牌识别等。

无监督的模式识别方法主要用于图像分割、图像压缩、遥感图像的识别等。

模式识别过程可以瞧作从样本空间到类别空间的一个映射过程。

如果把一个具有n个特征作为参量的n维特征空间划分为不同的区域,那么每个区域与一类模式类相对应。

其中,特征选择与提取就是模式识别的一个重要环节,如果所选取的特征能够比较全面反映类的本质特征,那么分类器就比较容易设计;否则,分类器设计的难度就增加。

因此特征选择与提取就是模式识别研究的一项重要内容。

2特征提取与特征选择

原始样本往往处于一个高维空间,特征提取指的就是通过映射的方法用低维空间来表示样本的过程。

特征提取后样本的可分性应该更好,分类器更易设计。

常用的方法有主元分析法（PCA）、线性判别分析、核函数主元分析（KernelPCA）、独立主元分析法（ICA）、自组织映射（SOM）方法等。

文献[2]对上述方法的性质进行了详细的比较,并指出各种方法适合解决的问题。

特征提取在图像处理（例如图像分割、图像识别、图像检索等）中得到了广泛的应用,文献[7]采用KernelPCA方法进行人脸识别,结果表明比直接的特征脸方法获得更小的错识率。

在人脸识别或人脸认证中,

文献[8]采用了DCT变化降低原始特征的维数后进一步利用DCT变换的一些系数作为特征向量进行识别。

另外在图像压缩中也广泛应用到DCT变换以去除图像的空间冗余。

文献[9]采用基于分型的特征提取方法对手写签名进行识别。

以上文献均说明,不同的模式识别问题特征差别可能很大,因而特征提取方法也不尽相同。

每一种特征提取方法只适合解决某些特定范围的问题,例如对于服从高斯型分布的线性相关特征,采用PCA方法比较好,用其她方法提取特征结果可能不就是“最优”。

特征提取的优劣要根据一定的判据来衡量,由于模式识别中没有一个统一的衡量特征优劣的判据,所谓的最优就是在特定准则下取得的,就是相对的最优。

特征提取后的各个特征的物理意义有时不就是很直观,往往很难瞧出各个特征对分类的影响,有的特征可能无助于分类器的设计,甚至会降低分类器的性能。

因此要在这些特征中选出最适合分类器设计的特征。

换句话说,特征选择就就是从一组特征D中挑选出一些对分类最有效特征d（D>d）的过程。

实际中特征选择与提取往往结合使用。

为了判断提取与选择的特征对分类的有效性,人们提出各种衡量特征分类性能的判据。

最直接最有效的判据就是计算分类器错误概率,但一般情况下,错误概率的计算很复杂,有时甚至无法计算。

因此人们提出一些其她的判据。

最简单的判据就是用于可分性判据的类内类间距离判据,其基本原则就是类内距离最小、类间距离最大的特征为最优特征。

一方面,这一判据物理意义明显,计算方便,但就是距离的定义不同,得到的特征不同;另一方面,它与概率分布没有直接关系。

为此人们提出基于概率分布的可分性判据（例如Bhattacharyya距离、Chernoff界限、散度）,这类判据计算比较复杂,也很难得到与错误概率的直接解析关系式。

另外还有基于熵函数的可分性判据等,这些判据在特征提取中都得到了广泛的应用。

选定可分性判据后,通过穷举法可以得到特征选择的最优解,但就是当特征个数比较多时,这种方法由于计算量太大而难以实现。

常用的方法有分支与定界（branchandbound）算法、顺序前进法（SFS,sequentialforwardselection）、顺序后退法（SBS,se-quentialbackwardselection）等,相对于穷举法,这些方法都不同程度地减小了计算量,但就是都不能保证得到最优解,往往得到的就是次优解。

由于特征选择就是在进行相应的特征组合后判断其分类能力的,因此可以采用解决优化问题的方法来解决。

常用的算法如遗传算法、模拟退火算法,但它们计算都比较复杂。

以上提到的判据在大多情况下与错误概率没有直接关系,用以这些度量为基础的某个判据的最优化对特征进行变换后所设计的分类器的错误概率未必最小;同一个问题特征采用的判据不同得到最优解也不完全相同;此外,特征选择结果的可靠性与训练样本个数有关。

如果样本个数太少,根据某种判据得出的最优解与实际的最优特征有时差别很大,这就是因为训练样本集中包含的分类信息不足。

由此可见,选择最优特征需要具备3个条件:

样本个数足够能够覆盖样本集的分类信息;有一种比较好的分类判据;一个切实可行的选择算法。

实际中,这3个条件很难完全满足。

因此,针对具体的模式识别问题选择最优特征仍就是一件比较困难的事,这些问题仍需要进一步的研究。

提取与选择特征之后,分类与识别效果的优劣取决于所设计的分类器的性质。

设计分类器的主要方法也就就是模式识别的主要方法。

3模式识别的主要方法及其在图像处理中的应用

模式识别方法大致可以分为4类:

统计决策法、结构模式识别方法、模糊模式识别方法与基于人工智能方法。

其中基于人工智能的方法本文主要介绍人工神经网络模式识别方法。

前两种方法发展得比较早,理论相对也比较成熟,在早期的模式识别中应用较多。

后两种方法目前的应用较多,由于模糊方法更合乎逻辑、神经网络方法具有较强的解决复杂模式识别的能力,因此日益得到人们的重视。

3、1统计决策法

统计决策法以概率论与数理统计为基础,它包括参数方法与非参数方法。

p（x|ωi）P（ωi）

参数方法主要以Bayes决策准则为指导。

其中最小错误率与最小风险贝叶斯决策就是最常用的两种决策方法。

假定特征对于给定类的影响独立于其她特征,在决策分类的类别N已知与各类别的先验概率P（ωi）及类条件概率密度p（x|ωi）已知的情况下,对于一特征矢量x根据式

（1）计算待检模式在各类中发生的后验概率P（ωi|x）,后验概率最大的类别即为该模式所属类别。

在这样的条件下,模式识别问题转化为一个后验概率的计算问题。

∑p（x|ωi）P（ωi）

i=1

P（ωi|x）=

（1）

在贝叶斯决策的基础上,根据各种错误决策造成损失的不同,人们提出基于贝叶斯风险的决策,即计算给定特征矢量x在各种决策中的条件风险大小,找出其中风险最小的决策。

实际上对于具体的模式识别问题,先验概率与类条件概率密度很难精确知道。

先验概率根据样本总数可大致估计,类条件概率密度可采用统计学中的最大似然估计法、Bayes估计法等进行估计。

这类方法应用于图像分割、图像复原以及图像识别等方面。

在图像分割中,假定图中的数据就是服从K个概率密度混合分布的样本,然后估计概率密度函数的参数,最后计算后验概率或风险,对像素进行归类,从而达到分割图像的目的。

一般情况下,往往假定概率密度函数就是高斯型的,这一方面很多情况下样本的分布接近高斯分布,另一方面就是数学上处理相对比较简单。

与图像分割的原理类似,图像识别也就是对图像的某些特征采用贝叶斯决策的方法设计分类器,根据分类器对未知图像的特征进行识别。

参数估计方法的理论基础就是样本数目趋近于无穷大时的渐进理论。

在样本数目很大时,参数估计的结果才趋近于真实的模型。

然而实际样本数目总就是有限的,很难满足这一要求。

另外参数估计的另一个前提条件就是特征独立性,这一点有时与实际差别较大。

实际上在样本数量不就是很大的情况下,往往根据样本直接设计分类器,这就就是非参数方法。

这类方法物理意义直观,但所得的结果与错误率往往没有直接联系,所设计的分类器不能保证最优。

比较典型的方法如线性分类器、最近邻方法、K均值聚类法等。

在图像压缩领域的矢量量化编码算法中,码书的训练就就是一个典型的聚类过程,压缩的效果与聚类的结果关系很大。

在图像分割中,采用对像素或图像的其她特征进行聚类,达到图像分割的目的。

然而,统计决策理论主要集中在数量的统计关系上而忽略了刻画模式的结构特征。

图像处理往往与图像的结构信息有关,对于很复杂的图像,要求的特征量非常巨大,要把某一模式准确分类很困难,这时采用统计分类方法很难实现,因此设法分割出图像的基元子模式,将基元按照一定句法关系组合来代替原图像进行分类,这就涉及到结构模式识别的问题。

3、2结构模式识别

结构模式识别就是利用模式的结构描述与句法描述之间的相似性对模式进行分类。

每个模式由它的各个子部分（称为子模式或模式基元）的组合来表示。

对模式的识别常以句法分析的方式进行,即依据给定的一组句法规则来剖析模式的结构。

当模式中每一个基元被辨认后,识别过程就可通过执行语法分析来实现。

选择合适的基元就是结构模式识别的关键。

基元应具有“结构简单、含义明确、能方便地描述数据、易于抽取、结构信息少”等特点。

由于基元选择的不确定性以及基元特征的多样性,实际应用中有时很难同时满足以上特点,所以有必要在基元的复杂性与易识别性之间取一个恰当的折衷。

结构模式识别主要用于文字识别、遥感图形的识别与分析、纹理图像的分析中。

该方法的特点就是识别方便,能够反映模式的结构特征,能描述模式的性质,对图像畸变的抗干扰能力较强。

如何选择基元就是本方法的一个关键问题,尤其就是当存在干扰及噪声时,抽取基元更困难,且易失误。

基于统计决策与结构模式识别在早期的模式识别中应用比较多,随着人们对模式识别要求的提高,在解决一些复杂的模式识别问题时,上述方法的局限性越来越明显。

模糊逻辑思想与神经网络的提出,为人们解决模式识别问题提供了新的思路。

3、3模糊模式识别

1965年Zadeh提出了她著名的模糊集理论,使人们认识事物的传统二值0,1逻辑转化为[0,1]区间上的逻辑,这种刻画事物的方法改变了人们以往单纯地通过事物内涵来描述其特征的片面方式,并提供了能综合事物内涵与外延性态的合理数学模型———隶属度函数。

对于A、B两类问题,传统二值逻辑认为样本C要么属于A,要么属于B,但就是模糊逻辑认为C既属于A,又属于B,二者的区别在于C在这两类中的隶属度不同。

所谓模糊模式识别就就是解决模式识别问题时引入模糊逻辑的方法或思想。

同一般的模式识别方法相比较,模糊模式识别具有客体信息表达更加合理,信息利用充分,各种算法简单灵巧,识别稳定性好,推理能力强的特点。

模糊模式识别在图像处理中也被广泛应用,文献[15]还将模糊K近邻（FKNN）方法用于盲图像的反卷积,实验结果证明了这种方法的有效性;文献[16]将模糊技术同K均值聚类结合用于矢量量化编码中,这种方法消除了聚类初始化对结果码书的依赖性,提高了聚类结果的鲁棒性,文献[17]将模糊方法同K近邻（K-NN）结合,对图像进行分类,取得比传统K-NN方法更好的效果。

文献[18]将模糊逻辑同BP神经网络相结合对手写字符识别,取得接近100%的效果。

文献以上方法在获得比较好的效果的同时,往往增加一定的计算量,但就是有些算法本身比较简单,在同其她算法的结合中,模糊思想运用引入的计算开销有时同整个算法的计算量相比并不大,计算速度通常就是可以接受的。

模糊模式识别的关键在隶属度函数的建立,目前主要的方法有模糊统计法、模糊分布法、二元对比排序法、相对比较法与专家评分法等。

虽然这些方法具有一定的客观规律性与科学性,但同时也包含一定的主观因素,准确合理的隶属度函数很难得到,如何在模糊模式识别方法中建立比较合理的隶属度函数就是需要进一步解决的问题。

3、4人工神经网络模式识别

早在20世纪50年代,研究人员就开始模拟动物神经系统的某些功能,她们采用软件或硬件的办法,建立了许多以大量处理单元为结点,处理单元间实现（加权值的）互联的拓扑网络,进行模拟。

称之为人工神经网络。

这种方法可以瞧作就是对原始特征空间进行非线性变换,产生一个新的样本空间,使得变换后的特征线性可分。

同传统统计方法相比,其分类器就是与概率分布无关的。

人工神经网络的主要特点在于其具有信息处理的并行性、自组织与自适应性、具有很强的学习能力与联想功能以及容错性能等,在解决一些复杂的模式识别问题中显示出其独特的优势。

近年来,在图像处理中应用也很多。

有的采用自组织网络对医学图像进行分割,并能够将CT图像中的病灶分割出来。

有的利用各种神经网络方法识别图像的情况,取得一些令人满意的结果。

人工神经网络就是一种复杂的非线性映射方法,其物理意义比较难解释,在理论上还存在一系列亟待解决的问题。

例如在设计上,网络层数的确定与节点个数的选取带有很大的经验性与盲目性,缺乏理论指导,网络结构的设计仍就是一个尚未解决的问题。

在算法复杂度方面,神经网络计算复杂度大,在特征维数比较高时,样本训练时间比较长;在算法稳定性方面,学习过程中容易陷入局部极小,并且存在欠学习与过学习的现象,范化能力不容易控制。

这些也就是制约人工神经网络进一步发展的关键问题。

近些年来基于统计学习理论的支撑向量机在模式识别方法表现出出色的学习性能与范化能力,同神经网络相比,其可有效地克服局部极小、维数灾难等问题,因而成为目前模式识别领域中又一个研究热点。

4模式识别的新进展及其在图像处理中的应用

4、1支撑向量机

前面提到,在有限样本尤其就是小样本的情况下,采用统计决策法中的很多方法都难以取得理想的效果。

Vapnik早在20世纪60年代开始研究有限样本情况下的机器学习问题,直至90年代才形成一个较完善的理论体系——统计学习理论。

该理论定义了衡量函数集性能的指标——VC维,VC维越大,函数的推广能力越差,VC维越小,函数的推广能力越强。

在该理论的框架下,经验风险最小化原则下学习机器的实际风险由两部分组成

R（w）≤Remp（w）+Ø（）

式中第一项为训练样本的经验风险;第二项为置信范围,在训练样本数目n一定的情况下,函数集的VC维越大,其置信范围越大。

因此,在设计分类器时,不但要使经验风险最小,同时也要使VC维尽量小,缩小置信范围,从而提高分类器的预测能力。

统计学习理论提出了结构风险最小化的原则:

即把函数集分解为一个函数集序列,使各个子集能够根据VC维的大小排列,在每个子集中寻找最小经验风险。

选择最小经验风险与置信范围之与最小的子集,即达到期望风险最小,这个子集中使期望风险最小的函数也即所求的最优函数。

这种思想称为结构风险最小化SRM（structuralriskminimization）,如图2所示。

图2结构风险最小化示意图

实现结构风险最小化有两种方法:

一就是在函数集的每一子集中求最小经验风险,然后选择最小经验风险与置信范围最小的子集。

这种方法类似穷举法,计算量比较大,当子集数目很大时几乎无法实现。

另一种方法就是设计函数集的某种结构,使每个子集中都能取得最小的经验风险,然后选择适当的子集使置信范围最小,这个子集中使经验风险最小的函数就就是最优函数。

支撑向量机SVM（supportvectormachine）就是结构风险最小化的第二种实现方法的体现。

其基本思想就是:

首先通过非线性变换将输入空间变换到一个高维空间,甚至就是一个无限维空间,然后在这个高维空间求取最优分类面,其中非线性变换就是通过核函数的方法来实现的。

SVM方法通过内积计算比较有效地解决了维数灾难问题,通过在高维空间设计最优分类面,比较好地实现了VC维最小的问题;在数学上支撑向量机的训练问题可转化为一个求解受约束的二次型规划（QP）问题,这个问题存在惟一解,避免了神经网络训练结果不稳定、容易陷入局部极小的问题,因而SVM方法就是一种比较好的模式识别方法。

SVM最初用来解决两类问题,表现出优越的性能,一个很自然的想法就就是将其推广到多类识别问题。

多类SVM的分类与识别主要有两种方法,一就是根据多类样本集直接设计分类器,此时分类器的设计问题可转化为一个考虑所有样本的优化问题。

在样本比较多时,这种方法求解比较复杂;另一种就是分解法,将多类样本分类器的设计转化为多个两类问题的分类器设计问题,由于这类方法比直接法求解简单,在实际中应用很广。

比较有代表性的训练与预测多类SVM的方法有一对一OAO（oneagainstone）、一对多OAA（oneagainstall）与有向无回路图DAG（directedacyclicgraph）方法与决策树（decisivetree）方法等。

SVM的优越性能引起人们极大的研究兴趣,它被越来越多的图像处理研究者与工作者所应用。

由于SVM的范化能力比较好,因而常常获得比其她方法更好的识别效果。

4、2仿生模式识别

前面介绍的各种模式识别方法都就是假定分类信息就是完全包含在训练样本内,以两类或多类样本的最优划分为基础,分类器的训练过程实际上可以瞧作对样本的划分过程。

文献[21]提出把模式识别问题瞧成就是模式的“认识”,而不就是分类划分,不就是模式分类;就是一类一类样本的“认识”,而不就是多类样本的划分。

为了强调与传统模式识别在概念上的不同,文献[20]中采用“仿生模式识别”这一概念,“仿生”的含义只就是在模式识别的功能与数学模型上强调了“认识”的概念,更接近于人类的认识。

传统模式识别从特征空间中不同类样本的划分出发设计分类器。

而仿生模式识别就在引入特征空间同类样本的连续性规律,对一类事物的“认识”,实际上就是对这类事物的全体在特征空间中形成的无穷点集合的“形状”的分析与认识,文中根据这种规律性建立起“多维空间中非超球复杂几何形体覆盖”的识别原理。

文献[21]根据这一思想,采用神经网络覆盖的方法训练样本,对8种实物模型进行训练与识别,取得了比较好的识别效果,全部识别样本没有一次误识。

文献[23]基于仿生模式识别的多镜头人脸身份确认系统研究中,采用多权值神经网络算法,同样得到比较好的识别率。

这种高的识别率显示了这一思想在模式识别方面的潜力。

仿生模式识别提出了一种新的模式识别思想,为模式识别的研究开辟了一个崭新的研究方向。

文献[21～23]采用神经网络覆盖来实现该思想,不可避免地遇到训练速度慢、网络结构参数、节点个数选择等选择问题,因此这种思想的实现模型有待于进一步的研究。

以上的各种模式识别方法都有其特点与适用范围。

研究表明,不同的分类器错误率所覆盖的范围不同,多个分类器之间既存在一定的冗余性,同时也存在一定的信息互补性。

多个分类器联合应用,可以提高正确识别率。

文献[24]对多种分类器联合的最终决策的多种方法进行了分析与比较,并且给出了各种决策方法的适用条件。

文献[25]采用了7个分类器,用模式识别中常用的不同数据集对每一个分类器单独做实验,然后根据各自的结果对分类器进行组合决策,从中选出效果最优的组合作为最终分类器的组合,结果表明这种识别效果比较理想。

当然,这种方法提高识别率的同时,牺牲了一部分计算代价。

模式识别发展到今天,已经提出了200多种分类与识别方法,如何进行已有分类器的组合,解决具体的模式识别问题也就是一个值得注意的问题。

5展望

随着计算机与人工智能技术的发展,人们对计算机图像处理中自动图像处理的要求越来越高,因此对模式识别技术提出更高的要求。

到目前为止,虽然模式识别在图像处理中的应用取得了一些可喜的成

展开阅读全文