数据挖掘复习题和答案.docx

上传人:b****5 文档编号:28235994 上传时间:2023-07-09 格式:DOCX 页数:18 大小:1.12MB
下载 相关 举报
数据挖掘复习题和答案.docx_第1页
第1页 / 共18页
数据挖掘复习题和答案.docx_第2页
第2页 / 共18页
数据挖掘复习题和答案.docx_第3页
第3页 / 共18页
数据挖掘复习题和答案.docx_第4页
第4页 / 共18页
数据挖掘复习题和答案.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

数据挖掘复习题和答案.docx

《数据挖掘复习题和答案.docx》由会员分享,可在线阅读,更多相关《数据挖掘复习题和答案.docx(18页珍藏版)》请在冰豆网上搜索。

数据挖掘复习题和答案.docx

数据挖掘复习题和答案

一、考虑表中二元分类问题得训练样本集

1.整个训练样本集关于类属性得熵就是多少?

2.关于这些训练集中a1,a2得信息增益就是多少?

3.对于连续属性a3,计算所有可能得划分得信息增益.

4.根据信息增益,a1,a2,a3哪个就是最佳划分?

5.根据分类错误率,a1,a2哪具最佳?

6.根据gini指标,a1,a2哪个最佳?

答1、

P(+)=4/9andP(−) =5/9

−4/9 log2(4/9)− 5/9log2(5/9)=0、9911、

答2:

(估计不考)

答3:

答4:

According toinformationgain,a1producesthebest split、

答5:

Forattributea1:

errorrate =2/9、

Forattributea2:

 error rate =4/9、

Therefore,according toerror rate,a1producesthebestsplit、

答6:

二、考虑如下二元分类问题得数据集

 

1.计算a、b信息增益,决策树归纳算法会选用哪个属性

2.计算a、bgini指标,决策树归纳会用哪个属性?

这个答案没问题

3.从图4-13可以瞧出熵与gini指标在[0,0、5]都就是单调递增,而[0、5,1]之间单调递减。

有没有可能信息增益与gini指标增益支持不同得属性?

解释您得理由

Yes,even thoughthese measureshavesimilarrangeandmonotonous

behavior,theirrespective gains,Δ,whicharescaled differences ofthe

measures,donotnecessarilybehaveinthesame way, as illustratedby

theresultsin parts(a) and(b)、

贝叶斯分类

1.P(A=1|−)=2/5= 0、4,P(B=1|−) =2/5=0、4,

P(C=1|−)=1,P(A =0|−) =3/5= 0、6,

P(B= 0|−)=3/5=0、6,P(C= 0|−)= 0;P(A=1|+)=3/5=0、6,

P(B=1|+)= 1/5 =0、2,P(C=1|+) =2/5 = 0、4,

P(A= 0|+)=2/5=0、4,P(B =0|+)= 4/5=0、8,

P(C=0|+) =3/5=0、6、

2.

3.P(A=0|+)=(2+ 2)/(5+4)=4/9,

P(A=0|−)=(3+2)/(5+ 4) = 5/9,

P(B =1|+)=(1+2)/(5+4)=3/9,

P(B =1|−)=(2+2)/(5 +4)=4/9,

P(C =0|+)=(3+ 2)/(5 +4)= 5/9,

P(C=0|−)=(0+2)/(5+4)=2/9、

4.Let P(A=0,B=1, C= 0)=K

5.当得条件概率之一就是零,则估计为使用m-估计概率得方法得条件概率就是更好得,因为我们不希望整个表达式变为零。

1.P(A=1|+) =0、6,P(B=1|+)=0、4,P(C= 1|+) =0、8,P(A =

1|−)= 0、4,P(B=1|−)=0、4, and P(C=1|−)=0、2

2、

LetR:

(A=1,B=1,C = 1)be the testrecord、 Todetermineits

class, weneedtoputeP(+|R)andP(−|R)、Using Bayes theorem,P(+|R)= P(R|+)P(+)/P(R)andP(−|R)=P(R|−)P(−)/P(R)、

SinceP(+)= P(−) =0、5andP(R)isconstant,Rcanbeclassifiedby

paringP(+|R)andP(−|R)、

Forthis question,

P(R|+) =P(A = 1|+)×P(B=1|+) ×P(C=1|+)=0、192

P(R|−)= P(A= 1|−)×P(B=1|−)× P(C= 1|−)=0、032

SinceP(R|+)islarger,therecordisassignedto(+) class、

3、

P(A = 1)=0、5,P(B= 1) =0、4andP(A=1,B=1)= P(A)×

P(B)=0、2、Therefore,AandBare independent、

4、

P(A =1) =0、5,P(B=0)=0、6,andP(A=1,B=0)=P(A=1)×P(B= 0)= 0、3、Aand Barestillindependent、

5、

pareP(A = 1,B= 1|+)=0、2againstP(A=1|+)=0、6and

P(B = 1|Class=+)=0、4、Sincethe productbetweenP(A=1|+)

and P(A =1|−)arenot thesameasP(A = 1,B = 1|+), AandBare

notconditionally independentgiventheclass、

三、使用下表中得相似度矩阵进行单链与全链层次聚类。

绘制树状况显示结果,树状图应该清楚地显示合并得次序。

Thereareno apparentrelationships betweens1, s2,c1,andc2、

A2:

Percentage offrequent itemsets=16/32=50、0%(includingthenull

set)、

A4:

ﻩFalse alarmrate istheratioofI tothe total numberofitemsets、Since

the countofI=5,therefore thefalsealarm rateis5/32 =15、6%、

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1