“decide1”istaken
R(1|x)=11P(1|x)+12P(2|x)
R(2|x)=21P(1|x)+22P(2|x)
3.Apersontakesalabtestofnuclearradiationandtheresultispositive.Thetestreturnsacorrectpositiveresultin99%ofthecasesinwhichthenuclearradiationisactuallypresent,andacorrectnegativeresultin95%ofthecasesinwhichthenuclearradiationisnotpresent.Furthermore,3%oftheentirepopulationareradioaetivelyeontaminated.Isthispersoneontaminated?
一人在某实验室做了一次核辐射检测,结果是阳性的。
当核辐射真正存在时,检测结果返回正确的阳性概率是99%;当核辐射不存在时,结果返回正确的阴性的概率是95%。
而且,所有被测人群中有3%的人确实被辐射污染了。
那么这个人被辐射污染了吗?
答:
被辐射污染概率
未被辐射污染概率
X表示阳性,
表示阴性,则有如下结论:
,
。
则
根据贝叶斯决策规则有:
所以这个人未被辐射污染。
4.PleasepresentthebasicideasofthemaximumlikehoodestimationmethodandBayesianestimationmethod.Whendothesetwomethodshavesimilarresults?
请描述最大似然估计方法和贝叶斯估计方法的基本概念。
什么情况下两个方法有类似的结果?
答:
I.设有一个样本集
,要求我们找出估计量
,用来估计
所属总体分布的某个真实参数
使得带来的贝叶斯风险最小,这就是贝叶斯估计的概念。
(另一种说法:
把待估计的参数看成是符合某种先验概率分布的随机变量;对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值)
II.最大似然估计法的思想很简单:
在已经得到试验结果的情况下,我们应该寻找使这个结果出现的可能性最大的那个
作为真
的估计。
III.在训练样本数目接近无穷时,使用贝叶斯估计方法获得的平均值估计几乎和使用最大似然估计的方法获得的平均值一样
题外话:
Prior+samples
I.Maximum-likelihoodviewtheparametersasquantitieswhosevalesarefixedbutunknown.Thebestestimateoftheirvalueisdefinedtobetheonethatmaximizestheprobabilityofobtainingthesamplesactuallyobserved.
II.Bayesianmethodsviewtheparametersasrandomvariableshavingsomeknownpriordistribution.Observationofthesamplesconvertsthistoaposteriordensity,therebyrevisingouropinionaboutthetruevaluesoftheparameters.
III.Undertheconditionthatthenumberofthetrainingsamplesapproachestotheinfinity,theestimationofthemeanobtainedusingBayesianestimationmethodisalmostidenticaltothatobtainedusingthemaximumlikehoodestimationmethod.
5.Pleasepresentthenatureofprincipalcomponentanalysis.
请描述主成分分析法的本质
答:
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
⏹Capturethecomponentthatvariesthemost.(变化最大)
⏹Thecomponentthatvariesthemostcontainsmaininformationofthesamples(信息量最大)
⏹WealsosaythatPCAistheoptimalrepresentationmethod,whichallowsustoobtaintheminimumreconstructionerror.(最小重构误差)
⏹AsthetransformaxesofPCAareorthogonal,itisalsoreferredtoasanorthogonaltransformmethod.(正交变换)
⏹PCAisalsoade-correlationmethod.(不相关法)
⏹PCAcanbealsousedasacompressionmethodandisabletoobtainahighcompressionratio.(高压缩比)
6.DescribethebasicideaandpossibleadvantageofFisherdiscriminantanalysis.
描述Fisher判别分析的基本概念和可能的优势
答:
Fisher准则是典型的模式识别方法,它强调将线性方法中的法向量与样本的乘积看做样本向量在单位法向量上的投影。
所获得的结果与正态分布协方差矩阵等的贝叶斯决策结果类似,这说明如果两类分布围绕各自均值的确相近,Fisher准则可使错误率较小。
Supervised
Maximizethebetween-classdistanceandminimizethewithin-classdistance
Exploitthetrainingsampletoproducetransformaxes.
……(numberofeffectiveFishertransformaxes,c-1;howtoavoidsingularwithin-class
scattermatrix---PCA+FDA)
7.WhatistheKnearestneighborclassifier?
Isitreasonable?
什么是K近邻分类器,它合理吗?
答:
近邻法的基本思想是在测试样本x的k个近邻中,按出现最多的样本类别来作为x的类别,即先对x的k个近邻一一找出它们的类别,然后最x类进行判别。
在k近邻算法中,若样本相对较稀疏,只按照前k个近邻样本的顺序而不考虑其距离差别以决策测试样本x的类别是不适当的,尤其是当k取值较大时。
Knearestneighborclassifierviewsatisfytheknearestneighborrule,theruleclassifiesxbyassigningitthelabelmostfequentlyrepresentedamongtheknearestsamples;inotherwords,adecisionismadebexaminingthelabelsontheknearestneighborsandtakingavote.
8.Isitpossiblethataclassifiercanobtainahigheraccuracyforanydatasetthananyotherclassifier?
一个分类器比其他分类器在任何数据集上都能获得更高的精度,可能吗?
答:
显然不可能的。
这个理由很多。
NO,
9.Pleasedescribetheover-fittingproblem.
请描述过度拟合的问题
答:
过拟合:
为了得到一致假设而使假设变得过度复杂称为过拟合。
想像某种学习算法产生了一个过拟合的分类器,这个分类器能够百分之百的正确分类样本数据(即再拿样本中的文档来给它,它绝对不会分错),但也就为了能够对样本完全正确的分类,使得它的构造如此精细复杂,规则如此严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别!
过拟合问题就是分类器分的太细了,太具体,
Over-fittinggenerallyoccurswhenamodelisexcessivelycomplex,suchashavingtoomanyparametersrelativetothenumberofobservations.Amodelwhichhasbeenover-fitwillgenerallyhavepoorpredictiveperformance,asitcanexaggerateminorfluctuationsinthedata.
10.Usuallyamorecomplexlearningalgorithmcanobtainahigheraccuracyinthetrainingstage.So,shouldamorecomplexlearningalgorithmbefavored?
通常一个更复杂的学习算法在训练阶段能获得更高的精度。
那么我就该选择更复杂的学习算法吗?
答:
不
Nocontext-independentorusage-independentreasonstofavoronelearningorclassificationmethodoveranothertoobtaingoodgeneralizationperformance.
Whenconfrontinganewpatternrecognitionproblem,weneedfocusontheaspects—priorinformation,datadistribution,amountoftrainingdataandcostorrewardfunctions.
UglyDucklingTheorem:
ananalogoustheorem,addressesfeaturesandpatterns.showsthatintheabsenceofassumptionsweshouldnotpreferanylearningorclassificationalgorithmoveranother.
11.Undertheconditionthatthenumberofthetrainingsamplesapproachestotheinfinity,theestimationofthemeanobtainedusingBayesianestimationmethodisalmostidenticaltothatobtainedusingthemaximumlikehoodestimationmethod.Isthisstatementcorrect?
在训练样本数目接近无穷时,使用贝叶斯估计方法获得的平均值估计几乎和使用最大似然估计的方法获得的平均值一样。
这种情况正确吗?
答:
理由同第4题,没找到。
YES
12.Cantheminimumsquarederrorprocedurebeusedforbinaryclassification?
最小平方误差方法能用于2维数据的分类吗
答:
略
Yes,theminimumsquarederrorprocedurecanbeusedforbinaryclassification.
.
Asimplewaytoset
:
if
isfromthefirstclass,then
issetto1;if
isfromthesecondclass,then
issetto-1.
Anothersimplewaytoset
:
if
isfromthefirstclass,then
issetto
;if
isfromthesecondclass,then
issetto-
.
13.Canyoudeviseaminimumsquarederrorproceduretoperformmulticlassclassification?
你能设计出一个能多级别识别的最小平方误差方法吗?
14.WhichkindofapplicationsistheMarkovmodelsuitablefor?
Markov模型适合哪类应用?
答:
Markovmodelhasfoundgreatestuseinsuchproblems,forinstancespeechrecognitionorgesturerecognition.(语音、手势识别)
⏹Theevaluationproblem
⏹Thedecodingproblem
⏹Thelearningproblem
15.ForminimumsquarederrorprocedurebasedonYa=b(Yisthematrixconsistingofallthetrainingsamples),ifwehaveproperbandcriterionfunction,thenthisminimumsquarederrorproceduremightbeequivalenttoFisherdiscriminantanalysis.Isthispresentationcorrect?
对于基于Ya=b的最小平方误差方法,如果我们有合适的b和判别函数,那么最小平方误差方法就会和Fisher判别方法等价。
这么说对吗?
答:
中文书198页,英文书pdf的289页,章节5.8.2。
豆丁上的课件
16.Supposethatthenumberofthetrainingsamplesapproachestotheinfinity,thentheminimumerrorBayesiandecisionwillperformbetterthananyotherclassifierachievingalowerclassificationerrorrate.Doyouagreeonthis?
假设训练样本的数目接近无穷,那么最小误差贝叶斯决策会比其他分类器的分类误差率更小。
你同意这种观点吗?
答:
待定
17.WhataretheupperandlowerboundoftheclassificationerrorrateoftheKnearestneighborclassifier?
K近邻方法的分类误差上界与下界是什么?
答:
不同k值的k近邻法错误率不同,k=1时为最近邻法的情况(上、下界分别为贝叶斯错误率P*和
)。
当k增加时,上限逐渐靠近下限---贝叶斯错误率P*。
当k趋于无