哈工大模式识别课件.pptx.pptx

资源描述

哈工大模式识别课件.pptx.pptx

《哈工大模式识别课件.pptx.pptx》由会员分享，可在线阅读，更多相关《哈工大模式识别课件.pptx.pptx（320页珍藏版）》请在冰豆网上搜索。

哈工大模式识别课件.pptx.pptx

模式识别,授课教师：

第一章绪论,一、模式识别的概念,什么是模式识别？

模式识别研究的内容？

二、模式识别的应用,工业用途：

产品质量检验，设备故障检测，智能机器人的感知系统；商业用途：

钱币的自动识伪，信函的自动分拣，电话信息查询，声控拨号；医学用途：

对心电、脑电、CT等信号进行处理和识别，自动进行疾病的诊断；安全领域：

生理特征鉴别（Biometrics），网上电子商务的身份确认，对公安对象的刑侦和鉴别；,二、模式识别的应用,军事领域：

巡航导弹的景物识别，战斗单元的敌我识别；办公自动化：

文字识别技术和声音识别技术；数据挖掘：

数据分析；网络应用：

文本分类。

三、相关领域,人工智能：

ArtificialIntelligence（AI）模式识别：

PatternRecognition（PR）机器学习：

MachineLearning人工神经网络：

NeuralNetwork（NN）计算机视觉：

ComputerVision（CV）,四、模式识别的过程,什么是特征？

什么是特征？

特征抽取,特征抽取,特征的分布,特征的分布,五、模式识别系统,分类,训练,六、模式识别问题的描述,给定一个训练样本的特征矢量集合：

分别属于c个类别：

设计出一个分类器，能够对未知类别样本x进行分类,分类方法,模式识别方法的分类,有监督学习（有教师学习）：

预先已知训练样本集中每个样本的类别标号；无监督学习（无教师学习）：

预先不知道训练样本集中每个样本的类别标号；,七、参考书目,RichardDuda,PeterHart,DavidStork,PatternClassification,2ndedition,JohnWiley,2001模式分类，机械工业出版社，RichardO.Duda模式识别（第二版），清华大学出版社，边肇祺，张学工；,期刊,IEEETransactiononPatternAnalysisandMachineIntelligence，PAMI；PatternRecognition；PatternRecognitionLetter；模式识别与人工智能；讲义下载:

ftp:

/202.118.251.122用户名:

prai密码:

prai,第二章贝叶斯决策理论,2.1最小错误率准则,各种概率及其关系,先验概率：

后验概率：

类条件概率：

贝叶斯公式：

两个类别，一维特征,两类问题的错误率,观察到特征x时作出判别的错误率：

两类问题最小错误率判别准则：

多类问题最小错误率,判别x属于i的错误率：

判别准则为：

则：

贝叶斯最小错误率准则,Bayes判别准则：

，则,贝叶斯分类器的错误率估计,例2.1,对一大批人进行癌症普查，设1类代表患癌症，2类代表正常人。

已知先验概率：

以一个化验结果作为特征x:

阳性，阴性，患癌症的人和正常人化验结果为阳性的概率分别为：

现有一人化验结果为阳性，问此人是否患癌症？

2.2最小平均风险准则贝叶斯分类器,问题的提出有c个类别1,2,.,c,将i类的样本判别为j类的代价为ij。

将未知模式x判别为j类的平均风险为：

最小平均风险判别准则,利用Bayes公式，构造判别函数：

贝叶斯分类器,例2.2,对一大批人进行癌症普查，设1类代表患癌症，2类代表正常人。

已知先验概率：

以一个化验结果作为特征x:

阳性，阴性，患癌症的人和正常人化验结果为阳性的概率分别为：

判别代价：

11=0,22=0,12=100,21=25现有一人化验结果为阳性，问此人是否患癌症？

2.3贝叶斯分类器的其它版本,先验概率P（i）未知：

极小化极大准则；约束一定错误率（风险）：

Neyman-Pearson准则；某些特征缺失的决策：

连续出现的模式之间统计相关的决策：

2.4正态分布的贝叶斯分类器,单变量正态分布密度函数（高斯分布）：

多元正态分布函数,正态分布的判别函数,贝叶斯判别函数可以写成对数形式：

类条件概率密度函数为正态分布时：

情况一：

判别函数可以写成：

此分类器称为距离分类器，判别函数可以用待识模式x与类别均值i之间的距离表示：

情况二：

判别函数可以写成：

可以简化为：

称为线性分类器,线性分类器,两类问题，1维特征，先验概率相同时：

线性分类器,两类问题，高维特征，先验概率相同时：

线性分类器,两类问题，1维特征，先验概率不同时：

线性分类器,两类问题，高维特征，先验概率不同时：

情况三：

任意,判别函数可以写成：

分类界面为2次曲线（面）,二次分类曲线,二次分类曲面,第三章概率密度函数的参数估计,3.0引言,贝叶斯分类器中最主要的问题是类条件概率密度函数的估计。

问题可以表示为：

已有c个类别的训练样本集合D1，D2，Dc，求取每个类别的类条件概率密度。

概率密度函数的估计方法,参数估计方法：

预先假设每一个类别的概率密度函数的形式已知，而具体的参数未知；最大似然估计（MLE,MaximumLikelihoodEstimation）；贝叶斯估计（BayesianEstimation）。

非参数估计方法。

3.1最大似然估计,样本集D中包含n个样本：

x1，x2，,xn，样本都是独立同分布的随机变量（i.i.d，independentidenticallydistributed）。

对类条件概率密度函数的函数形式作出假设，参数可以表示为参数矢量：

似然函数,由独立同分布假设，样本集D出现的概率为：

定义对数似然函数：

最大似然估计,最大似然估计就是要寻找到一个最优矢量，使得似然函数最大。

正态分布的似然估计,Gauss分布的参数由均值矢量和协方差矩阵构成，最大似然估计结果为：

3.2贝叶斯估计,已有独立同分布训练样本集D；已知类条件概率密度函数p（x|）的形式，但参数未知；已知参数的先验概率密度函数p（）；求在已有训练样本集D的条件下，类条件概率密度函数p（x|D）。

贝叶斯估计与最大似然估计的差别,最大似然估计认为是一个确定的未知矢量；贝叶斯估计认为是一个随机变量，以一定的概率分布取所有可能的值。

贝叶斯估计的一般理论,由于参数矢量是一个随机变量，所以类条件概率可以用下式计算：

根据贝叶斯公式，有：

单变量正态分布的贝叶斯估计,已知概率密度函数满足正态分布，其中方差2已知，均值未知，假设的先验概率满足正态分布，即：

均值的后验概率,经推导可得，在已知训练样本集合D的条件下，参数的分布：

均值的后验概率,均值的后验概率仍满足正态分布，其中：

均值分布的变化,类条件概率密度的计算,3.3期望最大化算法（EM算法）,EM算法的应用可以分为两个方面：

训练样本中某些特征丢失情况下，分布参数的最大似然估计；对某些复杂分布模型假设，最大似然估计很难得到解析解时的迭代算法。

基本EM算法,令X是观察到的样本数据集合，Y为丢失的数据集合，完整的样本集合D=XY。

由于Y未知，在给定参数时，似然函数可以看作Y的函数：

基本EM算法,由于Y未知，因此我们需要寻找到一个在Y的所有可能情况下，平均意义下的似然函数最大值，即似然函数对Y的期望的最大值：

基本EM算法,begininitialize，T，i0；doii+1E步：

计算;M步：

untilreturn,混合密度模型,一个复杂的概率密度分布函数可以由多个简单的密度函数混合构成：

最常用的是高斯混合模型（GMM，GaussMixtureModel）：

GMM模型产生的2维样本数据,两个高斯函数的混合,混合密度模型的参数估计,混合密度模型的参数可以表示为：

参数的估计方法：

利用最优化方法直接对似然函数进行优化，如梯度下降法；引入未知隐变量Y对问题进行简化，将Y看作丢失的数据，使用EM算法进行优化。

GMM模型的参数估计,首先引入隐含数据集合:

其中：

代表第i个训练样本是由第个高斯函数产生的，将Y作为丢失数据集合，采用EM算法进行迭代估计。

GMM参数的EM估计算法,设定混合模型数M，初始化模型参数，阈值T，i0；用下列公式迭代计算模型参数，直到似然函数变化小于T为止：

EM算法的性质,EM算法具有收敛性；EM算法只能保证收敛于似然函数的局部最大值点（极值点），而不能保证收敛于全局最优点。

隐含Markov模型（HiddenMarkovModel,HMM）,有一些模式识别系统处理的是与时间相关的问题，如语音识别，手势识别，唇读系统等；对这类问题采用一个特征矢量序列描述比较方便，这类问题的识别HMM取得了很好的效果。

输入语音波形,观察序列,信号的特征需要用一个特征矢量的序列来表示：

其中的vi为一个特征矢量，称为一个观察值。

一阶Markov模型,一阶Markov模型由M个状态构成，在每个时刻t，模型处于某个状态w（t），经过T个时刻，产生出一个长度为T的状态序列WT=w

（1）,w（T）。

一阶Markov模型的状态转移,模型在时刻t处于状态wj的概率完全由t-1时刻的状态wi决定，而且与时刻t无关，即：

Markov模型的初始状态概率,模型初始于状态wi的概率用表示。

完整的一阶Markov模型可以用参数表示，其中：

一阶Markov模型输出状态序列的概率,模型输出状态序列的概率可以由初始状态概率与各次状态转移概率相乘得到。

例如：

W5=w1,w1,w3,w1,w2，则模型输出该序列的概率为：

一阶隐含Markov模型,隐含Markov模型中，状态是不可见的，在每一个时刻t，模型当前的隐状态可以输出一个观察值。

隐状态输出的观察值可以是离散值，连续值，也可以是一个矢量。

HMM的工作原理,HMM的内部状态转移过程同Markov模型相同，在每次状态转移之后，由该状态输出一个观察值，只是状态转移过程无法观察到，只能观察到输出的观察值序列。

以离散的HMM为例，隐状态可能输出的观察值集合为v1,v2,vK，第i个隐状态输出第k个观察值的概率为bik。

例如：

T=5时，可能的观察序列V5=v3v2v3v4v1,HMM的工作过程,HMM的参数表示,状态转移矩阵：

A，M*M的方阵；状态输出概率：

B，M*K的矩阵；初始概率：

，包括M个元素。

M个状态，K个可能的输出值。

HMM的三个核心问题,估值问题：

已有一个HMM模型，其参数已知，计算这个模型输出特定的观察序列VT的概率；解码问题：

已有一个HMM模型，其参数已知，计算最有可能输出特定的观察序列VT的隐状态转移序列WT；学习问题：

已知一个HMM模型的结构，其参数未知，根据一组训练序列对参数进行训练；,估值问题,一个HMM模型产生观察序列VT可以由下式计算：

rmax=MT为HMM所有可能的状态转移序列数；为状态转移序列输出观察序列的概率；为状态转移序列发生的概率。

估值问题的计算,计算复杂度：

HMM估值算法的简化,HMM的前向算法,初始化：

迭代计算：

结束输出：

计算复杂度：

解码问题,解码问题的计算同估值问题的计算类似，最直观的思路是遍历所有的可能状态转移序列，取出最大值，计算复杂度为：

O（MTT）。

同样存在着优化算法：

Viterbi算法。

Viterbi算法,因为需要回朔最优路径，所以建立一个矩阵，其元素保存第t步，第i个状态在第t-1步的最优状态。

初始化：

迭代计算：

结束：

路径回朔：

Viterbi算法图示,学习问题,HMM的学习问题：

已知一组观察序列（训练样本集合）：

如何确定最优的模型参数，使得模型产生训练集合V的联合概率最大,这同样是一个最大似然估计问题，需要采用EM算法。

图示,变量说明,：

表示在t-1时刻HMM处于状态i，并且从1t-1时刻之间产生观察序列V1t-1的概率；：

表示在t时刻HMM处于状态j，并且从t+1T时刻之间产生观察序列Vt+1T的概率；,变量说明,输出观察序列VT时，在t-1时刻HMM处于i状态，在时刻t处于j状态的概率：

前向-后向算法（Baum-Welch算法）,迭代公式：

初始概率：

状态转移概率：

输出概率：

HMM的其它问题,连续HMM模型：

在观察序列中每个观察值是一个特征矢量，相应的模型中输出概率b就需要用一个概率密度函数描述，其函数形式需要假

展开阅读全文