数据挖掘复习试题和答案Word下载.docx

上传人:b****6 文档编号:21293797 上传时间:2023-01-29 格式:DOCX 页数:17 大小:1.14MB
下载 相关 举报
数据挖掘复习试题和答案Word下载.docx_第1页
第1页 / 共17页
数据挖掘复习试题和答案Word下载.docx_第2页
第2页 / 共17页
数据挖掘复习试题和答案Word下载.docx_第3页
第3页 / 共17页
数据挖掘复习试题和答案Word下载.docx_第4页
第4页 / 共17页
数据挖掘复习试题和答案Word下载.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

数据挖掘复习试题和答案Word下载.docx

《数据挖掘复习试题和答案Word下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘复习试题和答案Word下载.docx(17页珍藏版)》请在冰豆网上搜索。

数据挖掘复习试题和答案Word下载.docx

6.根据gini指标,a1,a2哪个最佳?

答1.

P(+)=4/9andP(−)=5/9

−4/9log2(4/9)−5/9log2(5/9)=0.9911.

答2:

(估计不考)

答3:

答4:

Accordingtoinformationgain,a1producesthebestsplit.

答5:

Forattributea1:

errorrate=2/9.

Forattributea2:

errorrate=4/9.

Therefore,accordingtoerrorrate,a1producesthebestsplit.

答6:

二、考虑如下二元分类问题的数据集

1.计算a.b信息增益,决策树归纳算法会选用哪个属性

2.计算a.bgini指标,决策树归纳会用哪个属性?

这个答案没问题

3.从图4-13可以看出熵和gini指标在[0,0.5]都是单调递增,而[0.5,1]之间单调递减。

有没有可能信息增益和gini指标增益支持不同的属性?

解释你的理由

Yes,eventhoughthesemeasureshavesimilarrangeandmonotonous

behavior,theirrespectivegains,Δ,whicharescaleddifferencesofthe

measures,donotnecessarilybehaveinthesameway,asillustratedby

theresultsinparts(a)and(b).

贝叶斯分类

1.P(A=1|−)=2/5=0.4,P(B=1|−)=2/5=0.4,

P(C=1|−)=1,P(A=0|−)=3/5=0.6,

P(B=0|−)=3/5=0.6,P(C=0|−)=0;

P(A=1|+)=3/5=0.6,

P(B=1|+)=1/5=0.2,P(C=1|+)=2/5=0.4,

P(A=0|+)=2/5=0.4,P(B=0|+)=4/5=0.8,

P(C=0|+)=3/5=0.6.

2.

3.P(A=0|+)=(2+2)/(5+4)=4/9,

P(A=0|−)=(3+2)/(5+4)=5/9,

P(B=1|+)=(1+2)/(5+4)=3/9,

P(B=1|−)=(2+2)/(5+4)=4/9,

P(C=0|+)=(3+2)/(5+4)=5/9,

P(C=0|−)=(0+2)/(5+4)=2/9.

4.LetP(A=0,B=1,C=0)=K

5.当的条件概率之一是零,则估计为使用m-估计概率的方法的条件概率是更好的,因为我们不希望整个表达式变为零。

1.P(A=1|+)=0.6,P(B=1|+)=0.4,P(C=1|+)=0.8,P(A=

1|−)=0.4,P(B=1|−)=0.4,andP(C=1|−)=0.2

2.

LetR:

(A=1,B=1,C=1)bethetestrecord.Todetermineits

class,weneedtocomputeP(+|R)andP(−|R).UsingBayestheorem,P(+|R)=P(R|+)P(+)/P(R)andP(−|R)=P(R|−)P(−)/P(R).

SinceP(+)=P(−)=0.5andP(R)isconstant,Rcanbeclassifiedby

comparingP(+|R)andP(−|R).

Forthisquestion,

P(R|+)=P(A=1|+)×

P(B=1|+)×

P(C=1|+)=0.192

P(R|−)=P(A=1|−)×

P(B=1|−)×

P(C=1|−)=0.032

SinceP(R|+)islarger,therecordisassignedto(+)class.

3.

P(A=1)=0.5,P(B=1)=0.4andP(A=1,B=1)=P(A)×

P(B)=0.2.Therefore,AandBareindependent.

4.

P(A=1)=0.5,P(B=0)=0.6,andP(A=1,B=0)=P(A=1)×

P(B=0)=0.3.AandBarestillindependent.

5.

CompareP(A=1,B=1|+)=0.2againstP(A=1|+)=0.6and

P(B=1|Class=+)=0.4.SincetheproductbetweenP(A=1|+)

andP(A=1|−)arenotthesameasP(A=1,B=1|+),AandBare

notconditionallyindependentgiventheclass.

三、使用下表中的相似度矩阵进行单链和全链层次聚类。

绘制树状况显示结果,树状图应该清楚地显示合并的次序。

Therearenoapparentrelationshipsbetweens1,s2,c1,andc2.

A2:

Percentageoffrequentitemsets=16/32=50.0%(includingthenull

set).

A4:

FalsealarmrateistheratioofItothetotalnumberofitemsets.Since

thecountofI=5,thereforethefalsealarmrateis5/32=15.6%.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 工学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1