模式识别复习要点和参考习题.doc

资源描述

模式识别复习要点和参考习题.doc

《模式识别复习要点和参考习题.doc》由会员分享，可在线阅读，更多相关《模式识别复习要点和参考习题.doc（14页珍藏版）》请在冰豆网上搜索。

模式识别复习要点和参考习题.doc

复习要点

绪论

1、举出日常生活或技术、学术领域中应用模式识别理论解决问题的实例。

答：

我的本科毕设内容和以后的研究方向为重症监护病人的状态监测与预诊断，其中的第一步就是进行ICU病人的死亡率预测，与模式识别理论密切相关。

主要的任务是分析数据库的8000名ICU病人，统计分析死亡与非死亡的生理特征，用于分析预测新进ICU病人的病情状态。

按照模式识别的方法步骤，首先从数据库中采集数据，包括病人的固有信息，生理信息，事件信息等并分为死亡组和非死亡组，然后分别进行数据的预处理，剔除不正常数据，对数据进行插值并取中值进行第一次特征提取，然后利用非监督学习的方法即聚类分析进行第二次特征提取，得到训练样本集和测试样本集。

分别利用判别分析，人工神经网络，支持向量机的方法进行训练，测试，得到分类器，实验效果比传统ICU中采用的评价预测系统好一些。

由于两组数据具有较大重叠，特征提取，即提取模式特征就变得尤为重要。

语音识别，图像识别，车牌识别，文字识别，人脸识别，通信中的信号识别；

①文字识别

汉字已有数千年的历史，也是世界上使用人数最多的文字，对于中华民族灿烂文化的形成和发展有着不可磨灭的功勋。

所以在信息技术及计算机技术日益普及的今天，如何将文字方便、快速地输入到计算机中已成为影响人机接口效率的一个重要瓶颈，也关系到计算机能否真正在我过得到普及的应用。

目前，汉字输入主要分为人工键盘输入和机器自动识别输入两种。

其中人工键入速度慢而且劳动强度大；自动输入又分为汉字识别输入及语音识别输入。

从识别技术的难度来说，手写体识别的难度高于印刷体识别，而在手写体识别中，脱机手写体的难度又远远超过了联机手写体识别。

到目前为止，除了脱机手写体数字的识别已有实际应用外，汉字等文字的脱机手写体识别还处在实验室阶段。

②　语音识别

语音识别技术技术所涉及的领域包括：

信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

近年来，在生物识别技术领域中，声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目，并日益成为人们日常生活和工作中重要且普及的安验证方式。

而且利用基因算法训练连续隐马尔柯夫模型的语音识别方法现已成为语音识别的主流技术，该方法在语音识别时识别速度较快，也有较高的识别率。

③指纹识别

我们手掌及其手指、脚、脚趾内侧表面的皮肤凹凸不平产生的纹路会形成各种各样的图案。

而这些皮肤的纹路在图案、断点和交叉点上各不相同，是唯一的。

依靠这种唯一性，就可以将一个人同他的指纹对应起来，通过比较他的指纹和预先保存的指纹进行比较，便可以验证他的真实身份。

一般的指纹分成有以下几个大的类别:

环型（loop）,螺旋型（whorl）,弓型（arch）,这样就可以将每个人的指纹分别归类，进行检索。

指纹识别基本上可分成：

预处理、特征选择和模式分类几个大的步骤。

③遥感

遥感图像识别已广泛用于农作物估产、资源勘察、气象预报和军事侦察等。

④　医学诊断

在癌细胞检测、X射线照片分析、血液化验、染色体分析、心电图诊断和脑电图诊断等方面，模式识别已取得了成效。

2、若要实现汽车车牌自动识别，你认为应该有哪些处理步骤？

分别需要哪些模式识别方法？

试用流程图予以说明。

答：

汽车车牌自动识别需要有以下三大步骤：

（1）获取包含车牌的彩色图像

（2）实现车牌定位和获取（3）进行字符分割和识别，详细操作如流程图所示。

第一步需要建立字符库，即根据已知字符的二值图像进行处理生成特征字符库；

第二步通过摄像头获取包含车牌的彩色图像，输入图像；

第三步利用主成分分析法、K-L变换，MDS和KPCＡ等方法对车牌进行特征识别；

第四步对车牌进行粗略定位和精细定位，如VMLA定位，基于边缘检测的方法，基于水平灰度变化特征的方法，基于车牌颜色特征的方法等。

第五步利用分类器确定车牌类型之后对字符进行分割，对图像进行预处理，去除铆钉，谷值分析，模板匹配，二值化投影法等

第六步分割成得单个字符进行模式识别，得到每个字符，然后组合输出结果，具体的方法为统计学习或人工神经网络等。

输入图像

特征提取

粗略定位

精细定位

确定类型

分割字符

识别，输出

统计决策

3、最小错误率贝叶斯决策方法与最小风险贝叶斯决策方法

4、正态分布下最小错误率决策与Neyman-Pearson决策方法

（1）假设在某个地区的细胞识别中正常和异常两类的先验概率分别为

正常状态：

异常状态：

现有一待识的细胞，其观测值为，从类条件概率密度分布曲线上查得

并且已知损失系数为l11=0，l12=1，l21=6，l22=0。

试对该细胞以以下两种方法进行分类：

①基于最小错误概率准则的贝叶斯判决；②基于最小风险的贝叶斯判决。

解：

①基于最小错误概率准则的贝叶斯判决

②基于最小风险的贝叶斯判决

（2）已知两个一维模式类别的类概率密度函数为

先验概率P（w1）=P（w2），损失函数，l11=l22=0，l12=0.6，l21=0.4。

（1）求最小平均损失Bayes判决函数；

（2）求总的误判概率P（e）；

解：

先求先验概率：

、

求条件风险：

期望风险要求最小，当时满足要求，即

（3）对于这个两类一维问题，若这两类的类概率密度分别服从正态分布N（0,s2）和N（1,s2），证明使平均决策风险最小的决策阈值为

这里，假设风险函数l11=l22=0。

一维正态分布：

解：

先求先验概率：

、

求条件风险：

期望风险要求最小，当时满足要求，即

概率密度函数估计

5、最大似然估计方法与贝叶斯估计方法

答：

最大似然估计是把待估的参数看作固定的未知量，而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量，通过对第i类学习样本Xi的观察，使概率密度分布P（Xi/θ）转化为后验概率P（θ/Xi），再求贝叶斯估计。

（4）设以下两类模式均为正态分布

1：

{（0,0）T，（2,0）T，（2,2）T，（0,2）T}

2：

{（4,4）T，（6,4）T，（6,6）T，（4,6）T}

设P（1）=P（2）=1/2，求该两类模式之间的Bayes判别界面的方程，并绘出判别界面。

解：

①假定二类协方差矩阵不等

②假定二类协方差矩阵相等

（5）假设在一维两类分类当中样本点符合Rayleigh概率密度函数分布：

试求判决边界。

解：

6、Parzen窗法

（3）试用最大似然估计的方法估计单变量正态分布的均值和方差。

解：

线性分类器与非线性分类器

7、线性判别函数及线性分类器

8、Fisher线性判别方法

9、最小平方差误差判别

10、分段线性距离分类器与二次判别函数

11、支持向量机

12、近邻法

（6）指出在Fisher线性判别中，的比例因子对Fisher判别结果无影响的原因。

解：

Fisher准则函数为：

，式中用来表示

求导

解之得：

可得Fisher最佳鉴别矢量：

上式右边后两项因子的乘积为一标量，令其为，于是可得

，的比例因子是一标量因子，不改变判别轴的方向，故对Fisher判别结果无影响。

（7）考虑一种情况，在类中包含两个特征向量，。

类中包含和两个向量。

根据感知器算法，其中，，设计一个线性分离器来区分这两类。

通过对W的调整，可实现判别函数

解：

初始权向量，

当分类发生错误时就有

迭代结束，

判别函数为

特征选择与提取

13、基于类内类间距离的可分性判据

14、主成分分析方法与K-L变换基本原理

（8）三类，其中，，，求及。

解：

（9）两个一维正态分布，其期望与方差如下：

第一组；第二组。

求Bhattacharyya距离及散度。

解：

特殊情况：

Bhattacharyya距离即为

散度为

（10）已知以下两类模式

w1：

{（0,0,0）T，（1,0,0）T，（1,0,1）T，（1,1,0）T}

w2：

{（0,0,1）T，（0,1,0）T，（0,1,1）T，（1,1,1）T}

试用K-L变换分别把特征空间维数降到d=2和d=1，并作图画出样本在该特征空间中的位置。

使用Fisher线性判别方法给出这两类样本的分类面。

解：

求R的特征值和特征向量

另一种神奇的答案：

求R的特征值和特征向量

聚类

15、动态聚类法

（11）设有二维样本：

x1=（-1,0）T，x2=（0,-1）T，x3=（0,0）T，x4=（2,0）T和x5=（0,2）T。

试选用一种合适的方法进行一维特征特征提取yi=WTxi。

要求求出变换矩阵W，并求出变换结果yi，（i=1,2,3,4,5）。

解：

（12）根据（11）特征提取后的一维特征，选用一种合适的聚类算法将这些样本分为两类，要求每类样本个数不少于两个，并写出聚类过程。

采用的聚类算法为做小距离法。

1、设全部样本分为5类，

2、作距离矩阵D（0）

3、求最小元素：

4、4、把ω1,ω2合并ω6=（-1,-1），把ω4,ω5合并ω7=（2,2），

5、作距离矩阵D

（1），将ω3，ω6合并为ω8=（-1,-1,0）

6、聚类满足题目中要求，分为两类ω7=（2,2），ω8=（-1,-1,0）

（13）试给出c-均值算法的算法流程图;并证明c-均值算法可使误差平方和准则

最小。

其中，k是迭代次数；是的样本均值。

C均值利用迭代的方法，通过不断调整样本的类别归属来求解最优的，以下为调整的步骤：

如果把从类移动到类中，类变成了，类变成了那么两类各自的误差平方和一减一增，变为：

如果减少量大于增加量，即

那么说明这一步移动有利于总体误差平方和的减少，就执行这一步移动，否则不执行，经过数次迭代之后，可以得到一个局部的最优解。

展开阅读全文