模式识别试题及总结.doc

资源描述

模式识别试题及总结.doc

《模式识别试题及总结.doc》由会员分享，可在线阅读，更多相关《模式识别试题及总结.doc（22页珍藏版）》请在冰豆网上搜索。

模式识别试题及总结.doc

一、填空与选择填空（本题答案写在此试卷上，30分）

1、模式识别系统的基本构成单元包括：

模式采集、特征提取与选择

和模式分类。

2、统计模式识别中描述模式的方法一般使用特真矢量；句法模式识别中模式描述方法一般有串、树、网。

3、聚类分析算法属于

（1）；判别域代数界面方程法属于（3）。

（1）无监督分类

（2）有监督分类（3）统计模式识别方法（4）句法模式识别方法

4、若描述模式的特征量为0-1二值特征量，则一般采用（4）进行相似性度量。

（1）距离测度

（2）模糊测度（3）相似测度（4）匹配测度

5、下列函数可以作为聚类分析中的准则函数的有

（1）（3）（4）。

（1）

（2）（3）

（4）

6、Fisher线性判别函数的求解过程是将N维特征矢量投影在

（2）中进行。

（1）二维空间

（2）一维空间（3）N-1维空间

7、下列判别域界面方程法中只适用于线性可分情况的算法有

（1）；线性可分、不可分都适用的有（3）。

（1）感知器算法

（2）H-K算法（3）积累位势函数法

8、下列四元组中满足文法定义的有

（1）

（2）（4）。

（1）（{A,B},{0,1},{A®01,A®0A1,A®1A0,B®BA,B®0},A）

（2）（{A},{0,1},{A®0,A®0A},A）

（3）（{S},{a,b},{S®00S,S®11S,S®00,S®11},S）

（4）（{A},{0,1},{A®01,A®0A1,A®1A0},A）

9、影响层次聚类算法结果的主要因素有（计算模式距离的测度、（聚类准则、类间距离门限、预定的类别数目））。

10、欧式距离具有（1、2）；马式距离具有（1、2、3、4）。

（1）平移不变性

（2）旋转不变性（3）尺度缩放不变性（4）不受量纲影响的特性

11、线性判别函数的正负和数值大小的几何意义是（正（负）表示样本点位于判别界面法向量指向的正（负）半空间中；绝对值正比于样本点到判别界面的距离。

）。

12、感知器算法1。

（1）只适用于线性可分的情况；

（2）线性可分、不可分都适用。

13、积累势函数法较之于H-K算法的优点是（该方法可用于非线性可分情况（也可用于线性可分情况））；位势函数K（x,xk）与积累位势函数K（x）的关系为（）。

14、在统计模式分类问题中，聂曼-皮尔逊判决准则主要用于（某一种判决错误较另一种判决错误更为重要）情况；最小最大判决准则主要用于（先验概率未知的）情况。

15、“特征个数越多越有利于分类”这种说法正确吗？

（错误）。

特征选择的主要目的是（从n个特征中选出最有利于分类的的m个特征（m

一般在（可分性判据对特征个数具有单调性）和（Cnm>>n）的条件下，可以使用分支定界法以减少计算量。

16、散度Jij越大，说明wi类模式与wj类模式的分布（差别越大）；当wi类模式与wj类模式的分布相同时，Jij=（0）。

17、已知有限状态自动机Af=（å，Q，d，q0，F），å={0，1}；Q={q0，q1}；d：

d（q0，0）=q1，d（q0，1）=q1，d（q1，0）=q0，d（q1，1）=q0；q0=q0；F={q0}。

现有输入字符串：

（a）00011101011，（b）1100110011，（c）101100111000，（d）0010011，试问，用Af对上述字符串进行分类的结果为（ω1:

{a,d};ω2:

{b,c}）。

18、影响聚类算法结果的主要因素有（②③④）。

①已知类别的样本质量；②分类准则；③特征选取；④模式相似性测度。

19、模式识别中，马式距离较之于欧式距离的优点是（③④）。

①平移不变性；②旋转不变性；③尺度不变性；④考虑了模式的分布。

20、基于二次准则函数的H-K算法较之于感知器算法的优点是（①③）。

①可以判别问题是否线性可分；②其解完全适用于非线性可分的情况；

③其解的适应性更好；④计算量小。

21、影响基本C均值算法的主要因素有（④①②）。

①样本输入顺序；②模式相似性测度；③聚类准则；④初始类心的选取。

22、位势函数法的积累势函数K（x）的作用相当于Bayes判决中的（②④）。

①先验概率；②后验概率；③类概率密度；④类概率密度与先验概率的乘积。

23、在统计模式分类问题中，当先验概率未知时，可以使用（②④）。

①最小损失准则；②最小最大损失准则；③最小误判概率准则；④N-P判决。

24、在（①③）情况下，用分支定界法做特征选择计算量相对较少。

①Cnd>>n,（n为原特征个数，d为要选出的特征个数）；②样本较多；③选用的可分性判据J对特征数目单调不减；④选用的可分性判据J具有可加性。

25、散度JD是根据（③）构造的可分性判据。

①先验概率；②后验概率；③类概率密度；④信息熵；⑤几何距离。

26、似然函数的概型已知且为单峰，则可用（①②③④⑤）估计该似然函数。

①矩估计；②最大似然估计；③Bayes估计；④Bayes学习；⑤Parzen窗法。

27、Kn近邻元法较之Parzen窗法的优点是（②）。

①所需样本数较少；②稳定性较好；③分辨率较高；④连续性较好。

28、从分类的角度讲，用DKLT做特征提取主要利用了DKLT的性质：

（①③）。

①变换产生的新分量正交或不相关；②以部分新的分量表示原矢量均方误差最小；③使变换后的矢量能量更趋集中；

29、一般，剪辑k-NN最近邻方法在（①）的情况下效果较好。

①样本数较大；②样本数较小；③样本呈团状分布；④样本呈链状分布。

30、如果以特征向量的相关系数作为模式相似性测度，则影响聚类算法结果的主要因素有（②③）。

①已知类别样本质量；②分类准则；③特征选取；④量纲。

二、（15分）简答及证明题

（1）影响聚类结果的主要因素有那些？

（2）证明马氏距离是平移不变的、非奇异线性变换不变的。

答：

（1）分类准则，模式相似性测度，特征量的选择，量纲。

（2）证明：

（2分）

（1分）

设，有非奇异线性变换：

（1分）

（4分）

三、（8分）说明线性判别函数的正负和数值大小在分类中的意义并证明之。

答：

（1）（4分）的绝对值正比于到超平面的距离

平面的方程可以写成

式中。

于是是平面的单位法矢量，上式可写成

设是平面中的任一点，是特征空间中任一点，点到平面的距离为差矢量在上的投影的绝对值，即

（1-1）

上式中利用了在平面中，故满足方程

式（1-1）的分子为判别函数绝对值，上式表明，的值正比于到超平面的距离，一个特征矢量代入判别函数后所得值的绝对值越大表明该特征点距判别界面越远。

（2）（4分）的正（负）反映在超平面的正（负）侧

两矢量和的数积为

（2分）

显然，当和夹角小于时，即在指向的那个半空间中，>0；反之，当和夹角大于时，即在背向的那个半空间中，<0。

由于，故和同号。

所以，当在指向的半空间中时，；当在背向的半空间中，。

判别函数值的正负表示出特征点位于哪个半空间中，或者换句话说，表示特征点位于界面的哪一侧。

五、（12分，每问4分）在目标识别中，假定有农田和装甲车两种类型，类型w1和类型w2分别代表农田和装甲车，它们的先验概率分别为0.8和0.2，损失函数如表1所示。

现在做了三次试验，获得三个样本的类概率密度如下：

：

0.3，0.1，0.6

：

0.7，0.8，0.3

（1）试用贝叶斯最小误判概率准则判决三个样本各属于哪一个类型；

（2）假定只考虑前两种判决，试用贝叶斯最小风险准则判决三个样本各属于哪一类；

（3）把拒绝判决考虑在内，重新考核三次试验的结果。

表1

类型

损失

判决

解：

由题可知：

，，，

，

（1）（4分）根据贝叶斯最小误判概率准则知：

，则可以任判；，则判为；，则判为；

（2）（4分）由题可知：

则，判为；

，判为；

（3）（4分）对于两类问题，对于样本，假设已知，有

则对于第一个样本，

，则拒判；

，拒判。

1.监督学习与非监督学习的区别：

监督学习方法用来对数据实现分类，分类规则通过训练获得。

该训练集由带分类号的数据集组成，因此监督学习方法的训练过程是离线的。

　　非监督学习方法不需要单独的离线训练过程，也没有带分类号（标号）的训练数据集，一般用来对数据集进行分析，如聚类，确定其分布的主分量等。

　　（实例：

道路图）就道路图像的分割而言，监督学习方法则先在训练用图像中获取道路象素与非道路象素集，进行分类器设计，然后用所设计的分类器对道路图像进行分割。

　使用非监督学习方法，则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算，以实现道路图像的分割。

2.动态聚类是指对当前聚类通过迭代运算改善聚类；

　　分级聚类则是将样本个体，按相似度标准合并，随着相似度要求的降低实现合并。

3.线性分类器三种最优准则：

　　Fisher准则：

根据两类样本一般类内密集,类间分离的特点，寻找线性分类器最佳的法线向量方向，使两类样本在该方向上的投影满足类内尽可能密集，类间尽可能分开。

　　该种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。

　　感知准则函数：

准则函数以使错分类样本到分界面距离之和最小为原则。

　　其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。

　　支持向量机：

基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大,它的基本出发点是使期望泛化风险尽可能小。

一、试问“模式”与“模式类”的含义。

如果一位姓王的先生是位老年人，试问“王先生”和“老头”谁是模式，谁是模式类？

答：

在模式识别学科中，就“模式”与“模式类”而言，模式类是一类事物的代表，概念或典型，而“模式”则是某一事物的具体体现，如“老头”是模式类，而王先生则是“模式”，是“老头”的具体化。

二、试说明Mahalanobis距离平方的定义，到某点的Mahalanobis距离平方为常数的轨迹的几何意义，它与欧氏距离的区别与联系。

答：

Mahalanobis距离的平方定义为：

　　其中x，u为两个数据，是一个正定对称矩阵（一般为协方差矩阵）。

根据定义，距某一点的Mahalanobis距离相等点的轨迹是超椭球，如果是单位矩阵Σ，则Mahalanobis距离就是通常的欧氏距离。

三、试说明用监督学习与非监督学习两种方法对道路图像中道路区域的划分的基本做法，以说明这两种学习方法的定义与它们间的区别。

答：

监督学习方法用来对数据实现分类，分类规则通过训练获得。

该

展开阅读全文