几种统计模式识别方案的比较.docx
《几种统计模式识别方案的比较.docx》由会员分享,可在线阅读,更多相关《几种统计模式识别方案的比较.docx(10页珍藏版)》请在冰豆网上搜索。
![几种统计模式识别方案的比较.docx](https://file1.bdocx.com/fileroot1/2022-10/13/36eb6ac0-e76a-4715-8174-2d7c3082dcb8/36eb6ac0-e76a-4715-8174-2d7c3082dcb81.gif)
几种统计模式识别方案的比较
摘要:
模式识别是对表征事物或现象的各种形式的(数值的,文字的和逻辑关系的)信息进行处理和分析,以达到对事物或现象进行描述、辨认、分类和解释的目的,是信息科学和人工智能的重要组成部分。
而统计决策理论是处理模式分类问题的基本理论之一,它对模式分析和分类器的设计有着实际的指导意义。
本文归纳总结了统计模式识别的不同方案的详细性能,比较了它们的原理、算法、属性、应用场合、错误率等。
关键词:
统计模式识别贝叶斯决策方法几何分类法监督参数统计法非监督参数统计法聚类分析法
ComparisonofSeveralKindsofStatisticalPatternRecognitionSchemes
Abstract:
Patternrecognitiondealswithandanalysestheinformationwhichsignifyallkindsofthingsandphenomena(numbervalues,Charactersandlogicrelation),inordertodescribe,recognize,classifyandinterpretthem.Itisoneoftheimportantpartsofinformationscienceandartificialintelligence.Whilestatisticalpatternrecognitionisoneofthebasicstheoryofclassifyingandisrealdirectivesignificanceinanalyzingandclassifyingofpattern.We
sumupthedetailedperformanceofsummarizingdifferentschemeswhichcountsthepatternrecognitioninthistext,Comparetheirprinciple,algorithm,attribute,usingoccasion,etc.
1引言
模式识别诞生于20世纪20年代,随着40年代计算机的出现,50年代人工智能的兴起,模式识别在60年代初迅速发展成为一门学科。
它所研究的理论和方法在很多科学和技术领域中得到了广泛的重视,推动了人工智能系统的发展,扩大了计算机应用的可能性。
模式识别方法大致可以分为四类,即统计决策法、句法结构法、模糊判决法和人工智能法。
其中,统计决策论发展较早,理论也较成熟。
其要点是提取待识别模式的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。
统计模式识别方法是建立在概率论与数理统计的基础上,它用特征向量来描述模式。
不同的模式用不同条件概率分布表示,然后判别未知模式属于哪一种分布。
分类方法主要有贝叶斯决策方法、线性可分的几何分类法、非线性可分的几何分类法、监督参数统计法、非监督参数统计法及聚类分析法。
下文将对它们的性能进行详细地介绍。
2几点统计识别方法介绍及比较
2.1贝叶斯决策方法运用统计决策理论设计的分类系统又称为分类器。
贝叶斯决策是一种统计模式识别决策法,它有如下基本假定:
1.各类别总体的概率分布是已知的
2.被决策的分类数是一定的
3.被识别的事物或对象有多个特征观测值
当被识对象用n随机向量X表示,二我们已知分类的先验概率的条件
概率密度函数,便可根据贝叶斯公式,求解后验概率,并按后验概率的大小来判别分类,这就是贝叶斯决策方法。
下面介绍三种判别准则。
(1)最小错误概率贝叶斯判别准则
设有R类样本,分别为w1,w2,,wR,已知每类的先验概率为P(wi),其中i=1,2,,,R。
对于待识别的随机向量X,已知每类的条件概率密
度为P(X|wi),则根据贝叶斯公式有后验概率:
P(wi|X)=(P(X|wi)*P(wi))/(刀P(XIwi)*P(wi))
(1)根据计算得出得后验概率,取最大得后验概率P(wi|X)所属的wi类,判决X属于wi类。
表示为:
P(wi|X)>P(wj|X)则X属于wi
其中i,j=1,2,,,R,且存在j工i,这就是贝叶斯判别准则。
若按统计理论定义“似然比”为:
l(X)=P(X|wi)/P(x|wi)
取判别阀值:
0ji=P(wj)/P(wi)
则有贝叶斯判别准则的似然比表示形式:
l(X)>P(wj)/P(wi)贝SX属于wi
对于两类模式集(w1,w2)的分类,贝叶斯判别准则简单表示为:
若P(w1|X)>P(w2|X)贝卩X属于w1
若P(w2|X)>P(w1|X)贝卩X属于w2
贝叶斯判别准则实质上是最小错误概率的贝叶斯判别准则。
(2)最小风险贝叶斯判别准贝
在决策理论中,称所采取的决定为决策或行动。
每个决策或行动都会带来一定的损失。
该损失用入表示,它是与本该属于wi但采取的决策为aj所造成的损失有关。
由此定义损失函数为入(aj|wi)=入
ij(i,j=1,2,,,R)。
对样本X属于wi,有贝叶斯公式已知后验概率
为P(wi|X),而采取决策aj时,它的条件损失为:
(2)
i=1,2,,,R
在决策论中,把采取决策aj的条件损失称为条件风险。
对随机向量X取不同观察值时,同样采取aj时,其条件风险是不同的。
因此a又是X的函数,写成a(X)。
由此,总的风险为:
(3)
总的风险反应对整个特征空间上所有X采取决策a(X)所带来的平均风险,而条件风险只反映对某一一X值米取决策aj所带来的风险。
若每个条件风险都是最小,则总风险也最小。
由此得到最小风险贝叶斯决策准则为:
(4)
于是,ak就是最小风险贝叶斯决策。
对于两类模式集()来说,由判别区域R1和R2则总风险为
其中:
为X,且被分为R1的“损失”;
为X,且被分为R1的“损失”;
为X,且被分为R2的“损失”;
为X,且被分为R2的“损失”。
有全概率等于1可推出:
代入上式,经整理,得
若要总风险R最小,必须是积分号内有
<
满足此式,便可判别X或X
反之,>
便可判别X或X
若用似然比表示
则有准则
(3)聂曼-皮尔逊判别准则
由最小风险贝叶斯准则可见,设计该分类器时,必须预知先验概率P(3i),并预先给定入j,特别是要有足够的经验,以给定入j,因为该准则和损失函数入ij有很大关系,需要足够的先验知识。
聂曼-皮尔逊(Neyman-Pearson)准则提供另一种方案,即设法限制某一错误概率,而同时使另一错误概率为最小。
取式1中
得到
当先验概率P(31)和P(32)已知时,£1和£2分别表示两类的错误率。
在£1,£2两个错误率中取定一个(例如取定£2)并使
£1为最小,这就使聂曼-皮尔孙判别准则,也称为在限定一类错误率条件下是另一类错误率为最小的两类决策准则。
在某些场合下,有它的实际意义。
2.2几何分类法(判别函数法)一个模式经某种数学变换后,映射为一特征向量,并表示为特征空间的一个点。
同一类的点构成点集,表示一类3i。
不同类的点集(3i
i=1,2,,,n)总是互相有不同程度的分离。
若能几何的方法,找
出一种不依赖于条件概率密度的分离函数,把特征空间划分为对应于不同类别的子空间,便可实现模式分类。
因此,把这种分类方法称为几何分类法,把这种分离函数成为判别函数。
从而,几何分类法也通常称为判别函数法。
判别函数可以是线性的或非线性的。
利用已知类别的训练集,通过统计方法,可以求的判别函数的具体形式和参数,然后用来判别未知样本属何类别。
这种方法虽属统计分类方法,但无需依赖于条件分布密
度的知识,因此在一些场合下,比基于贝叶斯公式的概率分类法简单
2.2.1线性可分的几何分类法
对特征向量X在二维平面上,存在一直线方程形式的线性判别函数:
式中x1、x2分别为二维平面坐标变量,31、32、33为方程函
数。
则在二维坐标中构成两个模式集(31,32)。
将某一未知类别的样本X代入g(X),如为正值,则它属于31类;如为负值,则属于32类。
即
当X是三维的,判别函数为一平面方程。
当n维(n>3)时判别函数为一超平面,要进行模式分类,就要确定判别函数的形式及其参数。
基于线性判别函数的模式分类器称为线性分类器。
设计线性分类器的主要步骤是:
首先已知一组有类别的样本训练集。
第二,选择一个准则函数,该函数既与样本集X与W有函数关系,又能反映分类器性能。
第三,用最优化技术求出准则函数的极值解WA,从而得到线性判别函数优化解。
线性分类器的准则函数及其最优化解有多种成熟的技术。
这里只介绍一种具有代表性的方法—感知器方法。
模式识别是对人的思维的一种模拟。
由苏联学者罗森布拉特提出的感知器的概念。
感知器主要是一种人脑的模型,而不仅仅是模式识别装置。
它实现了人工神经网络的工程模型。
它用权函数连接网络的各个元素,构成一种非线性网络,对输入信号作出某种响应,并通过一定方式传达到其它元素,并能产生输出信号,这就使感知器的简单物理概念。
若把感知器的R个输出元素,看作是R类模式,当某个被识样本由输入元素输入网络,使输出元素中第i个元素输出最大,则可判定被识样本属第i个模式。
这样就把感知器构造成一个线性分类器。
利用感知器原则,构造一个准则函数J:
式中A为常数,常取A=0.5。
当g(X)二WTX>O,J(W,X)=O。
当g(X)二WT
X<0,J(W,X)>0。
因此,这个准则函数的极小值为0,即卩
minJ(W,X)=0
这时,准则函数J的最优化解为:
求最优解的常用算法是梯度下降法,即一出初值W
(1)=常数,通过
下式迭代:
(5)
式中,k—迭代次数;
—有助于收敛的校正系数。
把其中符号函数:
代入式(5),得这就使感知器准则的梯度下降算法。
当,表示分类正确,则W(k+1)=W(k),对此给与“赏”或“不罚”,权向量不变。
当,表示分类错误,对此给与“罚”,使W(k)加一个正比于X(k)的分量。
常称此为“赏—罚”概念。
用全部模式训练一轮后,只要有一个样本判错,则需进行下一轮迭代,求出新的。
反复迭代,直到全部训练及获得正确分类,迭代才结束。
这时的就是所求的,从而求得线性判别函数。
2.2.2非线性可分的几何分类法非线性分类理论为划分样本空间提供了最通用的方法,由于样本空间往往是非常复扎杂的,此非线性鉴别器函数,可以写成如下的通用形式:
1.分段线性判别函数
把每一类分为若干个子类,即令;我们不是选择各个子类的均值为代表点设
计最小距离分类器,而是对于每个子类定义一个线性判别函数
式中和分别为对子类的权向量和阀值权。
如果我们定义类的线性判别函数为
对于c类问题,可以定义c个判别函数并得到决策规则:
若则决策
从直观上看,对于任意样本向量x,必有某个子类的判别函数值较其他各子类的判别函数值为最大。
假如具有最大值的判别函数是,则把归到子类所属的类,即类。
这样得到的决策面也是分段线性的,其