基于贝叶斯决策理论的分类器_精品文档.ppt

上传人:b****2 文档编号:2563621 上传时间:2022-11-01 格式:PPT 页数:59 大小:10.16MB
下载 相关 举报
基于贝叶斯决策理论的分类器_精品文档.ppt_第1页
第1页 / 共59页
基于贝叶斯决策理论的分类器_精品文档.ppt_第2页
第2页 / 共59页
基于贝叶斯决策理论的分类器_精品文档.ppt_第3页
第3页 / 共59页
基于贝叶斯决策理论的分类器_精品文档.ppt_第4页
第4页 / 共59页
基于贝叶斯决策理论的分类器_精品文档.ppt_第5页
第5页 / 共59页
点击查看更多>>
下载资源
资源描述

基于贝叶斯决策理论的分类器_精品文档.ppt

《基于贝叶斯决策理论的分类器_精品文档.ppt》由会员分享,可在线阅读,更多相关《基于贝叶斯决策理论的分类器_精品文档.ppt(59页珍藏版)》请在冰豆网上搜索。

基于贝叶斯决策理论的分类器_精品文档.ppt

第二章基于贝叶斯决策理论的分类器ClassifiersBasedonBayesDecisionTheory1引言2Bayes决策理论最小错误率的贝叶斯决策最小风险的贝叶斯决策3Bayes分类器和判别函数4正态分布的Bayes决策1引言模式识别是根据对象特征值将其分类。

d个特征组成特征向量x=x1,xdT,生成d维特征空间,在特征空间一个x称为一个模式样本。

Bayes决策理论是用概率统计方法研究决策问题。

为什么可用Bayes决策理论分类?

样本的不确定性:

样本从总体中抽取,特征值都是随机变量,在相同条件下重复观测取值不同,故x为随机向量。

特征选择的不完善引起的不确定性;测量中有随机噪声存在。

另一方面从样本的可分性来看:

当各类模式特征之间有明显的可分性时,可用直线或曲线(面)设计分类器,有较好的效果。

当各类别之间出现混淆现象时,则分类困难。

这时需要采用统计方法,对模式样本的统计特性进行观测,分析属于哪一类的概率最大。

此时要按照某种判据分类,如,分类错误发生的概率最小,或在最小风险下进行分类决策等。

三个重要的概率和概率密度先验概率、类条件概率密度函数、后验概率。

先验概率P(wi)由样本的先验知识得到先验概率,可从训练集样本中估算出来。

例如,两类10个训练样本,属于w1为2个,属于w2为8个,则先验概率P(w1)=0.2,P(w2)=0.8。

类条件概率密度函数p(x|wi)模式样本x在wi类条件下,出现的概率密度分布函数。

也称p(x|wi)为wi关于x的似然函数。

在本章中均假设已知上述概率和概率密度函数。

后验概率P(wi|x)定义为某个样本x,属于wi类的概率,i=1,c。

如果用先验概率P(wi)来确定待分样本x的类别,依据显然是非常不充分的,须用类条件概率密度p(x|wi)来修正。

根据样本x的先验概率和类条件概率密度函数p(x|wi)用Bayes公式重新修正模式样本所属类的概率,称后验概率P(wi|x)。

3.用Bayes决策理论分类时要求:

各类总体的概率分布是已知的。

要决策的类别数c是一定的。

2Bayes决策理论1.Bayes公式,也称Bayes法则2.Bayes分类规则:

用后验概率分类类条件概率密度后验概率上图上图3.最小错误率的Bayes决策为什么这样分类的结果平均错误率最小?

在一维特征空间中,t为两类的分界面分成两个区域R1和R2,R1为(,t);R2为(t,)。

R1区域所有x值:

分类器判定属于w1类;R2区域所有x值:

分类器判定属于w2类。

判断错误的区域为阴影包围的面积。

x0判定错误区域及错误率真实状态w2,而把模式x判定属于w1类真实状态w1,而把模式x判定属于w2类平均错误率P(e)决策规则实际上对每个x都使p(e|x)取小者,移动决策面t都会使错误区域增大,因此平均错误率最小。

错误率计算:

多类时,特征空间分割成R1,Rc,P(e)由c(c-1)项组成,计算量大。

用平均正确分类率P(c)计算只有c项:

例1:

细胞识别已知:

正常类P(w1)0.9;异常类P(w2)0.1待识别细胞x,从类条件概率密度曲线上查得p(x|w1)0.2;p(x|w2)0.4这种规则先验概率起决定作用。

这里没有考虑错误分类带来的损失。

4.最小风险的Bayes决策把分类错误引起的“损失”加入到决策中去。

决策论中:

采取的决策称为动作,用ai表示;每个动作带来的损失,用l表示。

归纳数学符号:

一般用决策表或损失矩阵表示上述三者关系。

决策表表示各种状态下的决策损失,如下表:

由于引入了“损失”的概念(即在错判时造成的损失),不能只根据后验概率来决策,必须考虑所采取的决策是否使损失最小。

对于给定的x,决策ai,l可在c个l(ai,wj)中选一个,其相应的后验概率为P(wj|x)。

此时的条件期望损失,即后验概率加权和在决策论中条件期望损失称为条件风险,即x被判为i类时损失的均值。

由于x是随机向量的观察值,不同的x采取不同决策ai,其条件风险的大小是不同的。

决策a可看成随机向量x的函数,记为a(x),它本身也是一个随机变量。

定义期望风险Rdx是d维特征空间的体积元,积分在整个特征空间。

期望风险R反映对整个特征空间上所有x的取值都采取相应的决策a(x)所带来的平均风险;而条件风险R(ai|x)只反映观察到某一x的条件下采取决策ai所带来的风险。

如果采取每个决策行动ai使条件风险R(ai|x)最小,则对所有的x作出决策时,其期望风险R也必然最小。

这就是最小风险Bayes决策。

最小风险的Bayes决策规则:

如果只有两类的情况下这时最小风险的Bayes决策法则为:

如果R(a1|x)R(a2|x),则x的真实状态w1,否则w2。

两类时最小风险Bayes决策规则的另两种形式:

例2:

条件同例1,利用决策表,按最小风险Bayes决策分类。

这里决策与例1结论相反为异常细胞。

因损失起了主导作用。

l不易确定,要与有关专家商定。

例3:

现有两类问题,比较两种Bayes决策。

已知:

单个特征变量x为正态分布两类方差都为s2=1/2,均值分别为m=0,1即求:

若先验概率P(w1)=P(w2)=1/2,计算最小错误率情况下的阈值x0。

如果损失矩阵为计算最小风险情况下的阈值x0。

最小错误概率情况下阈值x0(取对数运算)最小风险情况下阈值x0如果这两类不是等概率,P(w1)P(w2),阈值左移也就是说扩大最大可能类的区域。

可能性大的类可产生更小的误差。

阈值左移拒绝决策在某些情况下拒绝决策比错误判别风险要小。

样本x在各种判别条件下的平均风险当i=c+1时,如果R(ac+1|x)R(ai|x),i=1,2,c则对x作出拒绝判别。

若此时各类拒绝判别风险相同,即都为lz,则则拒绝判别的条件为lzgj(x)所有ij则xwi两类情况下,设最小错误率的Bayes决策规则的四种等价形式后验概率类条件概率密度函数与先验概率似然比似然比取对数多类情况下,设最小错误率的Bayes决策规则的四种等价形式2.决策面方程各决策域R被决策面所分割,这些决策面是特征空间中的点、直线、超曲面,相邻的两个决策域在决策面上其判别函数相等。

决策面方程应满足gi(x)=gj(x)gij(x)=gi(x)gj(x)=0ij且i与j为相邻的两类。

一维、三类二维、二类只有两类的分界面:

x为一维,决策面为一分界点;如图(a)x为二维,决策面为一曲线;如图(b)x为三维,决策面为一曲面;x为d维,决策面为一超曲面(b)3.分类器设计在d维特征空间内,划分为c个决策区域。

多类:

根据各类训练集样本x计算得到c个判别函数gi,将待分样本计算gi,从中选择最大值作为类决策。

分类器可看成由硬件或软件组成的一个“机器”。

两类:

两类分类器可看作只是对x计算判别函数的一个“机器”,根据计算结果的符号将x分类。

例4对例1和例2分别列出判别函数和决策面方程例1.判别函数决策面方程例2.判别函数决策面方程:

4正态分布的Bayes决策大量随机变量服从正态分布,而且数学上容易处理,因此以正态分布为例来说明。

1.正态分布函数和性质单变量的正态分布概率密度函数性质:

p(x)由m,s2确定。

随机变量x集中在均值m附近,其分散度正比于标准差s,95%样本落入|x-m|2s范围内。

多元(维)正态分布的概率密度函数多元正态分布的性质:

参数mm和S决定分布形状概率密度函数由d+d(d+1)/2个数目的参数唯一确定,其中d为均值数,d(d+1)/2为协方差数。

通常记为。

等概率密度点的轨迹为一超椭球面x大部分落在以均值向量mm为中心,大小由协方差矩阵S确定的区域。

指数项为常数的x点即为等概率密度。

因此超椭球的方程应是超椭球主轴方向由S的本征向量确定,其长度与协方差矩阵的本征值l平方根成正比。

证明:

中心移到坐标原点m=0,可用这约束条件构造Lagrange函数,求极值得到。

在数理统计中,定义称x到m的Mahalanobis(马氏)距离平方。

所以等概率密度点的轨迹是x到的马氏距离为常数的超椭球面。

在正态分布中不相关性等价于独立性。

若两个随机变量xi和xj间对多元正态的任意两个分量xi和xj来说两者等价。

如果xi和xj是统计独立,中xi的方差sii2,xi和xj的协方差sij2,则sij20,为对角矩阵。

则x=(x1,xd)T各分量是相互独立的正态分布随机变量。

多元正态分布的边缘分布和条件分布具有正态性线性变换的正态性:

x为多元正态分布的随机向量,其均值向量为mm,协方差矩阵为S。

对x作线性变换,即y=AxA为线性变换矩阵,且非奇异,变换后服从均值向量为Am,协方差矩阵为AAT的多元正态分布。

p(y)N(Am,AAT)线性组合的正态性x为多元分布的正态随机向量,则线性组合y=aTx是一维的正态随机变量,a是与x同维向量p(y)N(aTm,aTA)2.正态分布的最小错误率的Bayes分类条件概密函数判别函数决策面方程根据相邻的决策域在决策面上的判别函数相等,下面讨论几种不同的情况:

Si=s2I,i=1,2,cSiSSiSj,i,j=1,2,cSi=s2I各类模式分布的协方差矩阵相等,各xi统计独立且方差相同,协方差均为0。

几何上相当于各类样本落在以mi为中心同样大小的一些超球体中。

判别函数中第二和第三项与类别i无关若c类先验概率相等,则gi(x)可忽略最后一项。

欧氏距离平方:

Bayes决策:

P(wi)=P(wj)先验概率相等测量从待分类向量x到每一类均值向量的欧氏距离,把x分到距离最近的类,mi是从训练样本集中得到的。

也称最小距离分类器。

若把每个均值向量mmi看作一个典型的样本(模板),则这种分类方法也称为模板匹配技术。

P(wi)P(wj)欧氏距离的平方必须用方差s2规范化后减去lnP(wi)再用于分类。

因此,如果待分类的向量x同两类均值向量的欧氏距离相等,则最小错误概率Bayes决策把这模式归入先验概率大的那类。

实际使用中不必计算欧氏距离,把gi(x)展开可得这是x的二次函数,其中xTx与分类无关这是与均值有关的线性判别函数,组成线性分类器。

对待分类的样本x,分别计算gi(x),i=1,2,cgk(x)maxgi(x)则决策xwki决策面方程相邻决策面方程是由上述线性方程所确定的一个超平面,且讨论的是方差相等,协方差为0这样一种特殊情况,即。

这个方程确定了决策面是通过x0并正交于向量W的一个超平面。

由于W=mmimmj所以超平面正交于均值向量mmi与mmj之间的联线。

若先验概率相等超平面通过mi与mj联线的中点,且与联线正交。

若先验概率不相等,则x0不在中点,超平面向先验概率小的方向移动。

若s2|mi-mj|2,则先验概率对决策面的影响就比较小。

d维特征空间,交界面呈球状分布,其判别边界为d-1维的平面,垂直于中心线。

一维二维三维SiSS与i无关。

各类的协方差矩阵相等S1S2Sc=S。

几何上相当于各类样本集中于以该类均值mi点为中心的同样大小和形状的超椭球体中。

判别函数:

若c类先验概率相等,则Bayes决策:

计算x到每类均值点mmi的马氏距离平方r2,将x分到距离最近的类中去,或归于r2最小的类。

展开后,忽略与i无关项xTS-1x,则判别函数线性判别函数,因此决策面仍是一个超平面。

相邻决策面方程W不在(mi-mj)方向上,超平面通过x0点但不与均值向量连线正交。

若先验概率相等,则交点在均值向量联线的中点;若先验概率不相等则向小先验概率方向移动(左图)。

若先验概率相差较大,判别边界不会落入球状高斯分布的中心点之间(右图)。

P

(1)0.7P

(2)0.3P

(1)0.9P

(2)0.1例5两类二维正态分布的分类问题已知:

协方差相同,均值向量不同。

要求:

根据Bayes决策,对样本x=1.0,2.2T分类。

分别计算对两个均值向量的马氏距离,得应属于距离近的类,x1.0,2.2T属于第一类。

SiSj这是多维

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > 其它考试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1