模式识别期末试题Word格式文档下载.docx-资源下载

模式识别期末试题Word格式文档下载.docx

1、10、欧式距离具有（ 1、2 ）；马式距离具有（1、2、3、4 ）。（1）平移不变性（2）旋转不变性（3）尺度缩放不变性（4）不受量纲影响的特性11、线性判别函数的正负和数值大小的几何意义是（正（负）表示样本点位于判别界面法向量指向的正（负）半空间中；绝对值正比于样本点到判别界面的距离。）。12、感知器算法丄。（1）只适用于线性可分的情况；（2）线性可分、不可分都适用。13、积累势函数法较之于 H-K算法的优点是（该方法可用于非线性可分情况（也可用于线性可分情况））; （X） = （K（X,Xk）位势函数K（x,x k）与积累位势函数 K（X）的关系为（ Xk X ）。14、

2、在统计模式分类问题中，聂曼 -皮尔逊判决准则主要用于（某一种判决错误较另一种判决错误更为重要）情况；最小最大判决准则主要用于（先验概率未知的）情况。15、 “特征个数越多越有利于分类”这种说法正确吗？（错误）特征选择的主要目的是（从n个特征中选出最有利于分类的的 m个特征（mn ）的条件下，可以使用分支定界法以减少计算量。16、散度Jij越大，说明Ccli类模式与CCj类模式的分布（差别越大）；当CCi类模式与Oj类模式的分布相同时，Jij= （ 0 ）。17、已知有限状态自动机 Af=（，Q,、，q, F），V =0，1 ； Q=qO, q1 ;、.：、.（qO , Q）= q1

3、,、.（qO , 1）= q1，（q1 , Q）=qQ，（q1，1）=qQ ; qQ=qQ; F=qQ。现有输入字符串：（a） 00011101011, （b） 1100110011，（C） 1Q11QQ111QQQ ，（d）QQ1QQ11 ,试问，用 Af对上述字符串进行分类的结果为（ 1:a,d; 2：b,c ）。18、影响聚类算法结果的主要因素有（ _）。已知类别的样本质量；分类准则；特征选取；模式相似性测度。19、模式识别中，马式距离较之于欧式距离的优点是（ _）。平移不变性；旋转不变性；尺度不变性；考虑了模式的分布。20、基于二次准则函数的 H-K算法较之于感知器算法的优点是

4、（ _）。可以判别问题是否线性可分；其解完全适用于非线性可分的情况；其解的适应性更好；计算量小。21、影响基本C均值算法的主要因素有（）。样本输入顺序；模式相似性测度；聚类准则；初始类心的选取。22、位势函数法的积累势函数 K（X）的作用相当于BayeS判决中的（_）。先验概率；后验概率；类概率密度；类概率密度与先验概率的乘积。23、在统计模式分类问题中，当先验概率未知时，可以使用（ _）。最小损失准则；最小最大损失准则；最小误判概率准则； N-P判决。24、在（_）情况下，用分支定界法做特征选择计算量相对较少。C1dn, （n为原特征个数，d为要选出的特征个数）；样本较多；选用的可

5、分性判据 J对特征数目单调不减；选用的可分性判据 J具有可加性。25、散度JD是根据（）构造的可分性判据。26、27、28、29、30、信息熵；几何距离。似然函数的概型已知且为单峰，则可用（ _）估计该似然函数。矩估计；最大似然估计； BayeS估计；BayeS学习；ParZen窗法。Kn近邻元法较之ParZen窗法的优点是（一_）。所需样本数较少；稳定性较好；分辨率较高；连续性较好。从分类的角度讲，用 DKLT做特征提取主要利用了 DKLT的性质：（_）。变换产生的新分量正交或不相关；以部分新的分量表示原矢量均方误差最小；使变换后的矢量能量更趋集中；一般，剪辑k-NN最近邻方法在（_

6、）的情况下效果较好。样本数较大；样本数较小；样本呈团状分布；样本呈链状分布。如果以特征向量的相关系数作为模式相似性测度，则影响聚类算法结果的主要因素有（_）。已知类别样本质量；量纲。（15分）简答及证明题（1）影响聚类结果的主要因素有那些？（2）证明马氏距离是平移不变的、非奇异线性变换不变的。答：（1）分类准则，模式相似性测度，特征量的选择，量纲。（2）证明：d2 （X3 3Xj ） = （Xi - XJ ） VA（ - Xy）（2分）（1分）（8分）说明线性判别函数的正负和数值大小在分类中的意义并证明之。（1）（4分）d（R的绝对值卩闪I正比于亍到超平面d（刃=0的距离心式（1-1）

7、的分子为判别函（寸值，上式表明，国的值丿正比于亍到超平面d（R = 0的距离，一个特征矢量代入判别舌所得值的绝对值越大表明该特征点距判别界面越远。（4分）判别函数值的正负表示出特征点位于哪个半空间中，或者换句话说，表示特征点位于界面的哪一侧。四、（12分，每问4分）在目标识别中，假定有农田和装甲车两种类型，类型 *和类型，2分别代表农田和装甲车，它们的先验概率分别为 0.8和0.2 ,损失函数如表1所示。现在做了三次试验，获得三个样本的类概率密度如下：0.3 ， 0.1 ， 0.6P（刃a）： 0.7 ， 0.8 ， 0.3（1）试用贝叶斯最小误判概率准则判决三个样本各属于哪一个类型；

8、（2）假定只考虑前两种判决，试用贝叶斯最小风险准则判决三个样本各属于哪一类；（3）把拒绝判决考虑在内，重新考核三次试验的结果。表1判决x损失s类型X13O（I145cP（） . 3 l）. 3解：由题可知： P）=0ZPG） = 03,丽T亍，P（别玛）方，P（X2 丨码）_ 1 l） _2l） 8，日l%）（1）（ 4分）根据贝叶斯最小误判概率准则知：P（Xll ） _ Pd） l 码）丿 PW Pg I 笑）J P）二 -1 -，则可以任判；二，则判为 7 ,则判为；1；戸（他）（血不）_0.3（51）.4（2）（4分）由题可知： M（Aa-Ai） 0 7（4-1） 7P（XIg）

9、 /则 “二，判为匚；P（jl 码）吒 4,判为L ； 1 - ,判为 T；（3）（4分）对于两类问题，对于样本：.，假设:已知，有（ Q = （ I 码）P（码 I x）+（） I =_ 乂（丐 I 吋Pa!码）0） + I ）F（ I 码）尸（角） = Pw5x021P（T盘喝x）二4x0.21P（Q用隔IX） =27.21,则拒判;则对于第一个样本，（x） = -1 ，则拒判;2 190.51，拒判。五、1.监督学习与非监督学习的区别：监督学习方法用来对数据实现分类，分类规则通过训练获得。该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。非监督学习方法不需要

10、单独的离线训练过程，也没有带分类号（标号）的训练数据集，一般用来对数据集进行分析，如聚类，确定其分布的主分量等。（实例：道路图）就道路图像的分割而言，监督学习方法则先在训练用图像中获取道路象素与非道路象素集，进行分类器设计，然后用所设计的分类器对道路图像进行分割。使用非监督学习方法，则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算，以实现道路图像的分割。2.线性分类器三种最优准则：FiSher准则：根据两类样本一般类内密集，类间分离的特点，寻找线性分类器最佳的法线向量方向，使两类样本在该方向上的投影满足类内尽可能密集，类间尽可能分开。该种度量通过类内离散矩阵 SW和类间离散

11、矩阵 Sb实现。感知准则函数：准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。支持向量机：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大，它的基本出发点是使期望泛化风险尽可能小。一、试说明MahaIanobis距离平方的定义，到某点的 MahaIanobis距离平方为常数的轨迹的几何意义，它与欧氏距离的区别与联系。MahaIanobis 距离的平方定义为：r3（x,u） CX-U）T1 （X-U）其中X, U为两个数据，匚是一个正定对称矩阵（一般为协方差矩阵）。根据

12、定义，距某一点的MahaIanobis距离相等点的轨迹是超椭球，如果是单位矩阵 ,则MahaIanobis距离就是通常的欧氏距离。二、试说明用监督学习与非监督学习两种方法对道路图像中道路区域的划分的基本做法，以说明这两种学习方法的定义与它们间的区别。该训练集由带分类号的数据集组成，因此监督学习方法的训练过程是离线的。非监督学习方法不需要单独的离线训练过程，也没有带分类号（标号）的训练数据集，一般用来对数据集进行分析，如聚类，确定其分布的主分量等。就道路图像的分割而言，监督学习方法则先在训练用图像中获取道路象素与非道路象素集，进行分类器设计，然后用所设计的分类器对道路图像进行

13、分割。使用非监督学习方法，则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算，以实现道路图像的分割。三、试述动态聚类与分级聚类这两种方法的原理与不同。动态聚类是指对当前聚类通过迭代运算改善聚类；分级聚类则是将样本个体，按相似度标准合并，随着相似度要求的降低实现合并。四、试说明以下问题求解是基于监督学习或是非监督学习：1.求数据集的主分量2.汉字识别3.自组织特征映射4. CT图像的分割1、求数据集的主分量是非监督学习方法；2、汉字识别对待识别字符加上相应类别号一一有监督学习方法；3、自组织特征映射一一将高维数组按保留近似度向低维映射一一非监督学习；4、 CT图像分割一一按数

14、据自然分布聚类一一非监督学习方法；五、试列举线性分类器中最著名的三种最佳准则以及它们各自的原理。线性分类器三种最优准则：根据两类样本一般类内密集，类间分离的特点，寻找线性分类器最佳的法线向量方向，使两类样本在该方向上的投影满足类内尽可能密集，类间尽可能分开。该种度量通过类内离散矩阵SW和类间离散矩阵Sb实现。其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。十、对一副道路图像，希望把道路部分划分出来，可以采用以下两种方法：1.在该图像中分别在道路部分与非道路部分画出一个窗口，把在这两个窗口中的象素数据作为训练集，用FiSher准则方法求得分

15、类器参数，再用该分类器对整幅图进行分类。2 将整幅图的每个象素的属性记录在一张数据表中，然后用某种方法将这些数据按它们的自然分第6页共9页布状况划分成两类。因此每个象素就分别得到相应的类别号，从而实现了道路图像的分割。试问以上两种方法哪一种是监督学习，哪个是非监督学习？第一种方法中标记了两类样本的标号，需要人手工干预训练过程，属于监督学习方法；第二种方法只是依照数据的自然分布，把它们划分成两类，属于非监督学习方法。十三、试分析五种常用决策规则思想方法的异同。答、五种常用决策是：1.基于最小错误率的贝叶斯决策，利用概率论中的贝叶斯公式，得出使得错误率最小的分类规则。2.基于最小风险的贝叶斯

16、决策，引入了损失函数，得出使决策风险最小的分类。当在O 1损失函数条件下，基于最小风险的贝叶斯决策变成基于最小错误率的贝叶斯决策。3.在限定一类错误率条件下使另一类错误率最小的两类别决策。4.最大最小决策：类先验概率未知，考察先验概率变化对错误率的影响，找出使最小贝叶斯奉献最大的先验概率，以这种最坏情况设计分类器。5.序贯分类方法，除了考虑分类造成的损失外，还考虑特征获取造成的代价，先用一部分特征分类，然后逐步加入性特征以减少分类损失，同时平衡总的损失，以求得最有效益。十四、假设在某个地区细胞识别中正常（ W）和异常（W2）两类先验概率分别为 P（W 1）=0.9 , P（W2）=0.1

17、,现有一待识别的细胞，其观察值为 X ,从类条件概率密度分布曲线上查得 P（X w1） = 0.2 ,P（X W2） = 0.4，并且已知，11 = O, , 1 - 6, , 21 = 1, ，22 = O试对该细胞X用一下两种方法进行分类：1.基于最小错误率的贝叶斯决策； 2.基于最小风险的贝叶斯决策；请分析两种结果的异同及原因。利用贝叶斯公式分别计算出3及5的后验槪率*6 81 K0 p（xi）P（1） 0.2X0. 9尸CIVI x）- j）F（j）P（j3ir） = l-（WI tr）=ig2 根据贝叶斯决策规则式有p（ Jt） = t. 818P（Jjf）=0,182 所以合理的决

18、聂是把X归类于正塔状态。fg 9*（XlWI）=O- S,尸伽=0” 1P（X u）=O. 4人 IJ-G兀=DF（D=th 162牌:已知条件为31= 11根携1M果可知后脸概率为叫 = bJ再计算出無件风险tA（r x） = JlljP（. jt） = iP（cx） L 032-R（a1 x = 尸（個1 ） = h 81R由于 RRU-x即决策为砂的条种凤险小于抉策为卿的条件凤险,因此我们釆取决策行动歐,即判断待识别的细胞工为气类一异常细胞，将1与2柑对比,其分类ie好相反,这是因为这里影响决策结果的因索又多了一 Zr 即-损失蔦而且繭类错像决策所造成的损失相差SH此“损失就起了主导

19、作用十五、有线性判别函数，为什么还要引进非线性判别函数？分析由“线性判别函数”向“非线性判别函数”推广的思想和方法。实际中有很多模式识别问题并不是线性可分的，这时就需要采用非线性分类器，比如当两类样本分不具有多峰性质并互相交错时，简单的线性判别函数往往会带来较大的分类错误。这时，树分类器作为一种分段线性分类器，常常能有效地应用于这种情况。十六、1.什么是特征选择？ 2.什么是FiSher线性判别？1.特征选择就是从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的。2.FiSher线性判别：可以考虑把 d维空间的样本投影到一条直线上，形成一维空间，即把维数压缩到一维，这在数学

20、上容易办到，然而，即使样本在d维空间里形成若干紧凑的互相分得开的集群，如果把它们投影到一条任意的直线上，也可能使得几类样本混在一起而变得无法识别。但是在一般情况下，总可以找到某个方向，使得在这个方向的直线上，样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、最易于分类的投影线，这就是 FiSher算法所要解决的基本问题。十七、写出两类和多类情况下最小风险贝叶斯决策判别函数和决策面方程。两类别问题：判别函数g1（x） = 11p（1x） 12p（2x） gzW = 21P（1lx） + 22p（2 x）决策面方程：g1（x） = g2（x）匸类别问题：Cgi（x） =

21、p（jx）, i = 1* ,Ci=决策面方程* gi（x） = g,（x）, i j i = lf , C j =IjsC二十、定性说明基于参数方法和非参数方法的概率密度估计有什么区别？基于参数方法：是由已知类别的样本集对总体分布的某些参数进行统计推断非参数方法：已知样本所属类别，但未知总体概率密度函数形式二十二、简述支持向量机的基本思想。SVM从线性可分情况下的最优分类面发展而来。最优分类面就是要求分类线不但能将两类正确分开（训练错误率为0）,且使分类间隔最大。SVM考虑寻找一个满足分类要求的超平面，并且使训练集中的点距离分类面尽可能的远，也就是寻找一个分类面使它两侧的空白区域（ma

22、rgin）最大。过两类样本中离分类面最近的点，且平行于最优分类面的超平面上H，H的训练样本就叫支持向量。3对两类问题，若损失函数；知=?22=0，加2丸，花1工0 ,试求基于最小风险贝叶斯决策分界面处的两类错误率 p（e）x： h_p（ 1 X）、P（e） -PC 2 x）与12、21 的关系由于在基于最小风险贝叶斯决策分界面处有R（：1 X） = 11 PC 1 X） 12 PC -2 X ）2P（ 2 X） R（：2 X）2lP（ 1 X Y 22 PC 2 X）“21卩（，1 X）而在两类1 X）=R（： 2 X）= 12 PC 2 x） h21P（r X）问题中，P（e） X 朋 -PC 1 XPC 2 x）, P（e） x* -PC 2 X）=P（ I x）故PCe） X _，21P（e）x.2=

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？