模式识别期末试题2012.pdf
《模式识别期末试题2012.pdf》由会员分享,可在线阅读,更多相关《模式识别期末试题2012.pdf(17页珍藏版)》请在冰豆网上搜索。
1模式识别练习题模式识别练习题填空题1、模式识别系统的基本构成单元包括:
模式采集、特征选择与提取和模式分类。
2、统计模式识别中描述模式的方法一般使用特征矢量;句法模式识别中模式描述方法一般有串、树、网。
3、影响层次聚类算法结果的主要因素有计算模式距离的测度计算模式距离的测度、聚类准则聚类准则、类间距离门限类间距离门限、预定的类别预定的类别数目数目。
4、线性判别函数的正负和数值大小的几何意义是正正(负负)表示样本点位于判别界面法向量指向的正表示样本点位于判别界面法向量指向的正(负负)半空间中;绝对值正比于样本点到判别界面的距离。
半空间中;绝对值正比于样本点到判别界面的距离。
5、感知器算法11。
(1)只适用于线性可分的情况;
(2)线性可分、不可分都适用。
6、在统计模式分类问题中,聂曼-皮尔逊判决准则主要用于某一种判决错误较另一种判决错误更为重某一种判决错误较另一种判决错误更为重要要情况;最小最大判别准则主要用于先验概率未知的先验概率未知的情况。
7、“特征个数越多越有利于分类”这种说法正确吗?
错误错误。
特征选择的主要目的是从从nn个特征中选出最有利于分类的的个特征中选出最有利于分类的的mm个特征(个特征(mnmn)的条件下,可以使用分支定界法以减少计算量。
8、散度Jij越大,说明i类模式与j类模式的分布差别越大差别越大;当i类模式与j类模式的分布相同时,Jij=00。
选择题1、影响聚类算法结果的主要因素有(BBCCDD)。
A.已知类别的样本质量;B.分类准则;C.特征选取;D.模式相似性测度2、模式识别中,马式距离较之于欧式距离的优点是(CCDD)。
A.平移不变性;B.旋转不变性;C尺度不变性;D.考虑了模式的分布3、影响基本K-均值算法的主要因素有(DDAABB)。
A.样本输入顺序;B.模式相似性测度;C.聚类准则;D.初始类中心的选取24、位势函数法的积累势函数K(x)的作用相当于Bayes判决中的(BBDD)。
A.先验概率;B.后验概率;C.类概率密度;D.类概率密度与先验概率的乘积5、在统计模式分类问题中,当先验概率未知时,可以使用(BBDD)。
A.最小损失准则;B.最小最大损失准则;C.最小误判概率准则;D.N-P判决6、散度JD是根据(CC)构造的可分性判据。
A.先验概率;B.后验概率;C.类概率密度;D.信息熵;E.几何距离7、似然函数的概型已知且为单峰,则可用(AABBCCDDEE)估计该似然函数。
A.矩估计;B.最大似然估计;C.Bayes估计;D.Bayes学习;E.Parzen窗法8、KN近邻元法较之Parzen窗法的优点是(BB)。
A.所需样本数较少;B.稳定性较好;C.分辨率较高;D.连续性较好9、从分类的角度讲,用DKLT做特征提取主要利用了DKLT的性质:
(AACC)。
A.变换产生的新分量正交或不相关;B.以部分新的分量表示原矢量均方误差最小;C.使变换后的矢量能量更集中10、如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有(BBCC)。
A.已知类别样本质量;B.分类准则;C.特征选取;D.量纲11、欧式距离具有(AABB);马式距离具有(AABBCCDD)。
A.平移不变性;B.旋转不变性;C.尺度缩放不变性;D.不受量纲影响的特性12、聚类分析算法属于(AA);判别域代数界面方程法属于(CC)。
A.无监督分类;B.有监督分类;C.统计模式识别方法;D.句法模式识别方法13、若描述模式的特征量为0-1二值特征量,则一般采用(DD)进行相似性度量。
A.距离测度;B.模糊测度;C.相似测度;D.匹配测度14、下列函数可以作为聚类分析中的准则函数的有(AACCDD)。
A.1BWSSTrJ;B.1BWSSJ;C.cjnijjijmxJ112)(;D.)()(1mmmmJjcjj15、Fisher线性判别函数的求解过程是将N维特征矢量投影在(BB)中进行。
A.二维空间;B.一维空间;C.N-1维空间简单题一、试问“模式”与“模式类”的含义。
如果一位姓王的先生是位老年人,试问“王先生”和“老头”谁是模式,谁是模式类?
3答:
在模式识别学科中,就“模式”与“模式类”而言,模式类是一类事物的代表,概念或典型,而“模式”则是某一事物的具体体现,如“老头”是模式类,而王先生则是“模式”是“老头”的具体化。
二、试说明Mahalanobis距离平方的定义,到某点的Mahalanobis距离平方为常数的轨迹的几何意义,它与欧氏距离的区别与联系。
答:
Mahalanobis距离的平方定义为:
12)()(),(uxuxuxrT其中x,u为两个数据,是一个正定对称矩阵(一般为协方差矩阵)。
根据定义,距某一点的Mahalanobis距离相等点的轨迹是超椭球,如果是单位矩阵,则Mahalanobis距离就是通常的欧氏距离。
三、试说明用监督学习与非监督学习两种方法对道路图像中道路区域的划分的基本做法,以说明这两种学习方法的定义与它们间的区别。
答:
监督学习方法用来对数据实现分类,分类规则通过训练获得。
该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。
非监督学习方法不需要单独的离线训练过程,也没有带分类号(标号)的训练数据集,一般用来对数据集进行分析,如聚类,确定其分布的主分量等。
就道路图像的分割而言,监督学习方法则先在训练用图像中获取道路象素与非道路象素集,进行分类器设计,然后用所设计的分类器对道路图像进行分割。
使用非监督学习方法,则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算,以实现道路图像的分割。
四、试述动态聚类与分级聚类这两种方法的原理与不同。
答:
动态聚类是指对当前聚类通过迭代运算改善聚类;分级聚类则是将样本个体,按相似度标准合并,随着相似度要求的降低实现合并。
五、如果观察一个时序信号时在离散时刻序列得到的观察量序列表示为,而该时序信号的内在状态序列表示成。
如果计算在给定O条件下出现S的概率,试问此概率是何种概率。
如果从观察序列来估计状态序列的最大似然估计,这与Bayes决策中基于最小错误率的决策有什么关系。
答:
在给定观察序列条件下分析它由某个状态序列S产生的概率是后验概4率,写成P(S|O),而通过O求对状态序列的最大似然估计,与贝叶斯决策的最小错误率决策相当。
六、已知一组数据的协方差矩阵为12/12/11,试问1协方差矩阵中各元素的含义。
2求该数组的两个主分量。
3主分量分析或称K-L变换,它的最佳准则是什么?
4为什么说经主分量分析后,消除了各分量之间的相关性。
答:
协方差矩阵为12/12/11,则1.对角元素是各分量的方差,非对角元素是各分量之间的协方差。
2.主分量,通过求协方差矩阵的特征值,用1212110得4/1)1(2,则2/32/1,相应的:
2/3,对应特征向量为11,21,对应11。
这两个特征向量,即为主分量。
3.K-L变换的最佳准则为:
对一组数据进行按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小。
4.在经主分量分解后,协方差矩阵成为对角矩阵,因而各主分量间相关性消除。
七、试说明以下问题求解是基于监督学习或是非监督学习:
1.求数据集的主分量2.汉字识别3.自组织特征映射4.CT图像的分割答:
1、求数据集的主分量是非监督学习方法;2、汉字识别:
对待识别字符加上相应类别号有监督学习方法;53、自组织特征映射将高维数组按保留近似度向低维映射非监督学习;4、CT图像分割按数据自然分布聚类非监督学习方法;八八、试列举线性分类器中最著名的三种最佳准则以及它们各自的原理。
答:
线性分类器三种最优准则:
Fisher准则准则:
根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。
这种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。
感知准则函数感知准则函数:
准则函数以使错分类样本到分界面距离之和最小为原则。
其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。
支持向量机支持向量机:
基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本出发点是使期望泛化风险尽可能小。
九、证明在正定或半正定时,Mahalanobis距离r符合距离定义的三个条件,即
(1)r(a,b)=r(b,a)
(2)当且仅当a=b时,有r(a,b)=0(3)r(a,c)r(a,b)+r(b,c)证明:
(1)根据定义:
11)()()()(),(ababbababarTT
(2)由于为对称阵,故可以分解为DPDPTT,其中nD0000001,且所有特征值大于等于零。
可以认为)()()()()()(),(1baDPbaDPbaDPDPbabababarTTTTT这就变为了传统意义上的欧氏距离,可以由欧氏距离满足的性质直接证明本命题。
6十、对一副道路图像,希望把道路部分划分出来,可以采用以下两种方法:
1在该图像中分别在道路部分与非道路部分画出一个窗口,把在这两个窗口中的象素数据作为训练集,用Fisher准则方法求得分类器参数,再用该分类器对整幅图进行分类。
2将整幅图的每个象素的属性记录在一张数据表中,然后用某种方法将这些数据按它们的自然分布状况划分成两类。
因此每个象素就分别得到相应的类别号,从而实现了道路图像的分割。
试问以上两种方法哪一种是监督学习,哪个是非监督学习?
答:
第一种方法中标记了两类样本的标号,需要人手工干预训练过程,属于监督学习方法;第二种方法只是依照数据的自然分布,把它们划分成两类,属于非监督学习方法。
十一、已知有两类数据,分别为110201:
1w111001:
2w试求:
该组数据的类内及类间离散矩阵ws及bs。
P88答:
第一类的均值向量为633691)(31111Tiiimxmxs,211231)(31222Tiiimxmxs600691)(2121sssw166361813136313621bs见见88页公式页公式十二、设一个二维空间中的两类样本服从正态分布,其参数分别为:
71001,)0,1(11T,2002,)0,1(12T,先验概率)()(21wPwP,试证明:
其基于最小错误率的贝叶斯决策分界面方程为一圆,并求其方程。
证明:
先验概率相等条件下,基于最小错误率贝叶斯决策的分界面上两类条件概率密度函数相等。
因此有:
2122211111ln21)()(21ln21)()(21uXuXuXuXTT4ln21)1(21)1(22212221xxxx化简为4ln28)3(2221xx,是一个圆的方程。
十三、试分析五种常用决策规则思想方法的异同。
答、五种常用决策是:
1.基于最小错误率的贝叶斯决策,利用概率论中的贝叶斯公式,得出使得错误率最小的分类规则。
2.基于最小风险的贝叶斯决策,引入了损失函数,得出使决策风险最小的分类。
当在01损失函数条件下,基于最小风险的贝叶斯决策变成基于最小错误率的贝叶斯决策。
3.在限定一类错误率条件下使另一类错误率最小的两类别决策。
4.最大最小决策:
类先验概率未知,考察先验概率变化对错误率的影响,找出使最小贝叶斯奉献最大的先验概率,以这种最坏情况设计分类器。
5.序贯分类方法,除了考虑分类造成的损失外,还考虑特征获取造成的代价,先用一部分特征分类,然后逐步加入性特征以减少分类损失,同时平衡总的损失,以求得最有效益。
十四、假设在某个地区细胞识别中正常(w1)和异常(w2)两类先验概率分别为9.0)(1wP,81.0)(2wP,现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得2.0)(1wxP,4.0)(2wxP,并且已知011,612,121,022试对该细胞x用一下两种方法进行分类:
1.基于最小错误率的贝叶