数据挖掘复习题和答案Word下载.docx
《数据挖掘复习题和答案Word下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘复习题和答案Word下载.docx(18页珍藏版)》请在冰豆网上搜索。
gini指标,a1,a26.根据
答
9
/P(?
)=5/P(+)=49and
.
99119)=0(59log5?
/(4/?
49log9)//.22
精品文档.
答2:
(估计不考)
答3:
答4:
aproducesthebestsplit.
Accordingtoinformationgain,1
答5:
/a9.Forattribute:
errorrate=21/a9.
:
errorrate=4Forattribute2aproducesthebestsplit.Therefore,accordingtoerrorrate,1
:
答6精品文档.
二、考虑如下二元分类问题的数据集精品文档.
a.b1.计算信息增益,决策树归纳算法会选用哪个属性精品文档.
计算a.bgini指标,决策树归纳会用哪个属性?
2.
这个答案没问题
3.从图4-13可以看出熵和gini指标在[0,0.5]都是单调递增,而[0.5,1]之间单调递减。
有没有可能信息增益和gini指标增益支持不同的属性?
解释你的理由
Yes,eventhoughthesemeasureshavesimilarrangeandmonotonous
behavior,theirrespectivegains,Δ,whicharescaleddifferencesofthe
measures,donotnecessarilybehaveinthesameway,asillustratedby
theresultsinparts(a)and(b).
贝叶斯分类
4,5=0.=1|?
)=2/B=1|?
)=2/5=0.4,P(1.P(A
6,
5=0.|?
)=3/AC=1|?
)=1,P(=0P(6,.+)=3/5=0)=0;
P(A=1|.(B=0|?
)=3/5=06,P(C=0|?
P4,5=0.|C=1+)=2//(B=1|+)=15=0.2,P(P8,
.+)=4/5=0P.4,(B=0|/AP(=0|+)=25=06.
5=0./(C=0|+)=3P
2.9,/|(A=0+)=(2+2)/(5+4)=4P3.
9,
/|?
AP(=0)=(3+2)(5+4)=5/精品文档.
P(B=1|+)=(1+2)/(5+4)=3/9,
P(B=1|?
)=(2+2)/(5+4)=4/9,
P(C=0|+)=(3+2)/(5+4)=5/9,
P(C=0|?
)=(0+2)/(5+4)=2/9.
4.LetP(A=0,B=1,C=0)=K
5.估计概率的方法的条件概率是更好的,因为我们不希望整个表达m-当的条件概率之一是零,则估计为使用式变为零。
=AP(=1|+)=0.8,(B=1|+)=0.4,P(C1.P(A=1|+)=0.6,P2
.|?
)=0P(C=14,P(B=1|?
)=0.4,and1|?
)=0.2.
=1)bethetestrecord.Todetermineits
C,B=1R:
(A=1Let
)=?
|RR)andP(P(R|+)P(+)/P(class,weneedtocomputeP(+|R)andP(?
|R).UsingBayestheorem,P(+|R)=
).
(R?
)/P|?
P(R)P(canbeclassifiedby)isconstant,RP(R(+)=P(?
)=0.5andSinceP).|R?
)andP(comparingP(+|RForthisquestion,
192.=1|+)=0|+)×
P(CB(R|+)=P(A=1|+)×
P(=1P032.|?
)=0)×
P(C=1(A=1|?
)×
P(B=1|?
)=P(R|?
P+)islarger,therecordisassignedto(+)class.R|P(Since
3.
×
A),B=1)=P(B=1)=0.4andP(A=15,P(A=1)=0.P(areindependent.andB.2.Therefore,AP(B)=04.
arestillindependent.
BAand(B=0)=0.3.(6,and.P(A=1,B=0)=PA=1)×
P(=1)=0P(A.5,PB=0)=05.
6and+)=0.A=1|2against=1,B=1|+)=0.P((ComparePA
+)|A=14.Sincetheproductbetween|Class=+)=0.P(=1P(B
are
BAand|A)arenotthesameasP(=1,B=1+),|?
APand(=1notconditionallyindependentgiventheclass.
用下表中的相似度矩阵进行单链和全链层次聚类。
绘制树状况显示结果,树状图应该清楚地显示合并的次序。
使三、
.c,and,s,Therearenoapparentrelationshipsbetweensc2121精品文档.
0%(includingthenull.32=50A2:
Percentageoffrequentitemsets=16/set).
tothetotalnumberofitemsets.SinceFalsealarmrateistheratioofIA4:
6%..32=15=5,thereforethefalsealarmrateis5thecountofI/