特征提取(特征压缩、变换)将m个特征变为m2个新特征。
4.推广能力:
在有限的样本上建立的学习机器对未来样本的表现。
5.随机森林是指通过bootstrapping样本来生成许多决策树,对于决策树上的每一个节点,选择m个变量来进行决策。
计算训练集基于这m个变量的最佳分划。
(Wiki:
在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
LeoBreiman和AdeleCutler发展出推论出随机森林的算法。
而"RandomForests"是他们的商标。
这个术语是1995年由贝尔实验室的TinKamHo所提出的随机决策森林(randomdecisionforests)而来的。
这个方法则是结合Breimans的"Bootstrapaggregating"想法和Ho的"randomsubspacemethod""以建造决策树的集合。
)
2.(30’)简述Fisher线性判别方法的基本原理并讨论如何在Fisher线性判别中实现最小风险的分类决策。
答:
1.Fisher线性判别法是指:
将多维判别决策问题通过线性组合降低为1维的时候,选择一个最优的一维线性判别函数的方法。
该方法考虑了不同类别样本的协方差和均值之差。
决策面法向量为
。
2.考虑最小风险分类决策的时候,需要甄选分界阈值点。
从而可以根据贝叶斯决策规获得一种一维内的最小风险分类器。
例如,经过投影后的
分别服从
的分布规律…P14页下方
3.(20’)简述C-均值方法的基本原理,并讨论在什么情况下此方法比较适用。
答:
C均值法是一种动态聚类法,通过多次迭代,逐步调整类别划分,最终使某准则达到最优。
C均值法的目标是最小化
——最小方差划分。
用另一个角度来看,就是用C个码本来代表整个样本集,使这种表示带来的总体误差最小——向量量化。
误差平方和聚类准则:
见课件(p14)
适用条件:
课件(p22)
4.(20’)SVM与多层感知器都可以实现非线性分类,试讨论它们在原理上的联系与区别。
答:
1.支持向量机(SVM:
SupportingVectorMechine)原理:
课件P6(特点是:
P13),课本P301。
支持向量机的基本思想可以概括为:
首先通过非线性变化将输入空间变换到一个高维空间,然后在这个新空间中求取最优先行分类面,而这种非线性变换是通过定义适当的内积函数K(X,Y)实现的。
2.多层感知器(MLP:
Multi-LayerPerception)原理:
课件P10。
是一种前馈人工神经网络。
它利用三层或者三层以上多个感知器来讲输入数据映射为复杂输出数据,使得分类器可以产生非线性的或者超平面的决策面,从而成为分线性分类器。
(Wiki:
Amultilayerperceptronisafeedforwardartificialneuralnetworkmodelthatmapssetsofinputdataontoasetofappropriateoutput.Itisamodificationofthestandardlinearperceptroninthatitusesthreeormorelayersofneurons(nodes)withnonlinearactivationfunctions,andismorepowerfulthantheperceptroninthatitcandistinguishdatathatisnotlinearlyseparable,orseparablebyahyperplane.[1])
3.联系与差异:
都属于非线性分类器,但是其中一种是通过特征空间的非线性变换来实现最优决策面的,而多层感知器则是通过多层感知器(逻辑单元)的逻辑组合(输入-中间-输出)以及每层之间各数据的线性组合来实现非线性决策面的
5.(没有分)给课程提建设性建议。
1.通过《模式识别基础》课程的学习。
。
。
卷三、2007~2008秋_模式识别_张学工_期末B
1 .写出英文全称,中文,100字简述 5*6=30
a)Hierachical Clustering; b)MLP;c)Nonparametric Estimation; d)SVM
e)Fisher's Linear Discriminant Analysis;f)PCA;g)Random Forest
1.HierachicalClustering,分级聚类(课件):
从各类只有一个样本点开始,逐级合并,每级只合并两类,直到最后所有样本都归到一类。
聚类过程中考察类间相似度,依次决定类别数。
2.MLP,Multi-LayerPerception,多层感知器原理:
课件P10。
是一种前馈人工神经网络。
它利用三层或者三层以上多个感知器来讲输入数据映射为复杂输出数据,使得分类器可以产生非线性的或者超平面的决策面,从而成为分线性分类器。
(Wiki:
Amultilayerperceptronisafeedforwardartificialneuralnetworkmodelthatmapssetsofinputdataontoasetofappropriateoutput.Itisamodificationofthestandardlinearperceptroninthatitusesthreeormorelayersofneurons(nodes)withnonlinearactivationfunctions,andismorepowerfulthantheperceptroninthatitcandistinguishdatathatisnotlinearlyseparable,orseparablebyahyperplane.[1])
3.Nonparametric Estimation:
非参数估计(课件,P36)
不假设概率模型,通过样本落在区域的概率来估计出一个概率密度函数。
常用的有窗函数法(如近邻估计、Parzen窗估计)。
4.SVM,SupportingVectorMechine,支持向量机:
课件P6(特点是:
P13),课本P301。
支持向量机的基本思想可以概括为:
首先通过非线性变化将输入空间变换到一个高维空间,然后在这个新空间中求取最优先行分类面,而这种非线性变换是通过定义适当的内积函数K(X,Y)实现的。
5.Fisher's Linear Discriminant Analysis,Fisher线性判别分析:
Fisher线性判别法是指:
将多维判别决策问题通过线性组合降低为1维的时候,选择一个最优的一维线性判别函数的方法。
该方法考虑了不同类别样本的协方差和均值之差。
决策面法向量为
。
6.PCA,PrincipalComponentAnalysis,主成分分析:
课件,目的:
在统计学中,主成分分析(principalcomponentsanalysis(PCA))是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
6.RandomForest,随机森林:
随机森林是指通过bootstrapping样本来生成许多决策树,对于决策树上的每一个节点,选择m个变量来进行决策。
计算训练集基于这m个变量的最佳分划。
(Wiki:
在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
LeoBreiman和AdeleCutler发展出推论出随机森林的算法。
而"RandomForests"是他们的商标。
这个术语是1995年由贝尔实验室的TinKamHo所提出的随机决策森林(randomdecisionforests)而来的。
这个方法则是结合Breimans的"Bootstrapaggregating"想法和Ho的"randomsubspacemethod""以建造决策树的集合。
)
2. 200字简述 4*5=20
a)最小距离分类器何时是最优分类器?
b)写出最小距离分类器,分段线性判别,最近邻法的关系
c)写出决策树和随机森林的关系,以及为什么要有随机森林
记不太清了,貌似有个SVM的原理?
d)写出K-L变换和PCA的关系
写出特征提取和fisher线性判别的关系
答:
1.最小距离分类器:
(课本P120页)最小距离分类器是指在贝叶斯决策规则当类条件概率密度为正态分布且各特征统计独立同方差时,利用贝叶斯决策规则在可以得到线性距离判别函数,特别是当
时,决策规则式可以写成
这时的最小距离分类器是满足贝叶斯决策规则的最优分类器。
2.最小距离分类器是一种分段线性的判别方法。
每个样本点的类别由最近的代表点的类别决定。
最近邻法是这种分类器的一种应用,特殊之处在于(课本P120页)最近邻法是将每一个样本都当做类别的代表点
3.随机森林由多个决策树组成。
随机森林的优缺点:
Wiki:
Theadvantagesofrandomforestare:
Formanydatasets,itproducesahighlyaccurateclassifier
Ithandlesaverylargenumberofinputvariables
Itestimatestheimportanceofvariablesindeterminingclassification
Itgeneratesaninternalunbiasedestimateofthegeneralizationerrorastheforestbuildingprogresses
Itincludesagoodmethodforestimatingmissingdataandmaintainsaccuracywhenalargeproportionofthedataaremissing
Itprovidesanexperimentalwaytodetectvariableinteractions
Itcanbalanceerrorinclasspopulationunbalanceddatasets
Itcomputesproximitiesbetweencases,usefulforclustering,detectingoutliers,and(byscaling)visualizingthedata
Usingtheabove,itcanbeextendedtounlabeleddata,leadingtounsupervisedclustering,outlierdetectionanddataviews
Learningisfast
Thedisadvantagesofrandomforestare:
Randomforestarepronetooverfittingforsomedatasets.Thisisevenmorepronouncedinnoisyclassification/regressiontasks.[6]
RandomForestdoesnothandlelargenumbersofirrelevantfeaturesaswellasensemblesofentropy-reducingdecisiontrees.[7]
Itismoreefficienttoselectarandomdecisionboundarythananentropy-reducingdecisionboundary,thusmakinglargerensemblesmorefeasible.Althoughthismayseemtobeanadvantageatfirst,ithastheeffectofshiftingthecomputationfromtrainingtimetoevaluationtime,whichisactuallyadisadvantageformostapplications.
3.写出K-L变换和PCA的关系:
PCA和K-L变换目的都是从高维的原始数据中提取低维度相关性低的特征数据。
(白云飞:
PCA针对样本协方差矩阵,找出特征值较大的,K-L变换针对产生矩阵,可以根据不同准则挑选特征值和特征向量,二者本质相同)
3.构造两类分类器,100个训练数据,使用K近邻法,如何选择K,给出一个合适的K,说明理由(1*5=5)
答:
K值不宜太大,太大则太多干扰样本点被纳入,太小则无法适应小规模错误情况,对于100个训练数据,一般来说选择5、7、9比较合适。
去奇数是为了避免出现两种类别数相同无法判决的情况。
4.SOM若没有邻域作用,则变成什么算法写出该算法的目标函数,算法基本步骤(1*15=15)
答:
SOM思路类似先作向量量化(聚类),用较少的点(子类)代表原样本空间,把这些代表点进行分类。
(Wiki:
Aself-organizingmap(SOM)orself-organizingfeaturemap(SOFM)isatypeofartificialneuralnetworkthatistrainedusingunsupervisedlearningtoproducealow-dimensional(typicallytwo-dimensional),discretizedrepresentationoftheinputspaceofthetrainingsamples,calledamap.Self-organizingmapsaredifferentfromotherartificialneuralnetworksinthesensethattheyuseaneighborhoodfunctiontopreservethetopologicalpropertiesoftheinputspace.)
如果没有邻域作用,就退化一个典型的C均值法。
该算法计算步骤(课件,P17)
5.综合题。
文本自动分类的原理性设计,按内容分类为军事,体育,娱乐等。
例举本科所学内容和概念能在这个设计上怎么体现。
1*30=30
答:
因为是按已知内容分类,是一个监督学习的模式识别问题。
考虑如下监督学习模式
1.随机获取已经定义好类别的样本
1.特征提取:
每个样本进行词频统计,词汇来自《辞海》。
假设辞海有80000个词,则对每一个样本,得到一个80000维的特征数据。
显然,这是一个高维数据。
2.特征处理:
(1)首先去所有样本出现频度都小于一定阈值的词汇,比方说出现5次。
剩下10000维。
(2)对这10000维进行主成分分析,得到一个低维度的特征数据,比如4维。
(3)对于这三维,可以进行一下分类:
k近邻法、支撑向量机法(广义支撑向量机)、Fisher判别法等。
其中Fisher判别再次降维后还可以运用基于最小错误率的贝叶斯决策
3.对于以上监督学习模式的样本可以进行同一个方法的交叉验证,去除一定的干扰。
附加题.说明两类错误率。
在SVM线性不可分的情况下,如何把最小风险的概念引入SVM,对目标函数应该怎样修正。
(最多10分,全卷不会超过100分)
答:
(1)两类错误率为“拒真纳伪”。
(2)(课本P298)如果线性不可分,就是某些样本不能满足条件时
,引入松弛因子
,使得条件变成
,对于足够小的
,只要使
最小就能使错分样本数最小。
对应线性可分情况下的使分类间隔最大,在线性不可分的时候引入约束
,最终得到目标函数
,C为某个指定常数,起着控制对错分样本惩罚的程度(风险)的作用。
关于风险的讨论在课本P299页
卷四、2007~2008秋_模式识别_张学工_期末A(略)
卷五、2006~2007秋_模式识别_张学工_期末B
1. 写出英文全称并解释相应的概念或者方法的原理30%
a)非参数估计 b)非监督模式识别 c)最大似然估计
d)MDS e)推广能力 f)kNN
答:
其他见前文卷子。
1.MDS:
Multi-DimensionalScaling,
Multidimensionalscaling(MDS)isasetofrelatedstatisticaltechniquesoftenusedininformationvisualizationforexploringsimilaritiesordissimilaritiesindata.MDSisaspecialcaseofordination.AnMDSalgorithmstartswithamatrixofitem–itemsimilarities,thenassignsalocationtoeachiteminN-dimensionalspace,whereNisspecifiedapriori.ForsufficientlysmallN,theresultinglocationsmaybedisplayedinagraphor3Dvisua