原《数据挖掘》习题doc.docx

上传人:b****6 文档编号:7361134 上传时间:2023-01-23 格式:DOCX 页数:17 大小:26.04KB
下载 相关 举报
原《数据挖掘》习题doc.docx_第1页
第1页 / 共17页
原《数据挖掘》习题doc.docx_第2页
第2页 / 共17页
原《数据挖掘》习题doc.docx_第3页
第3页 / 共17页
原《数据挖掘》习题doc.docx_第4页
第4页 / 共17页
原《数据挖掘》习题doc.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

原《数据挖掘》习题doc.docx

《原《数据挖掘》习题doc.docx》由会员分享,可在线阅读,更多相关《原《数据挖掘》习题doc.docx(17页珍藏版)》请在冰豆网上搜索。

原《数据挖掘》习题doc.docx

原《数据挖掘》习题doc

chi

1.讨论下列每项活动是否是数据挖掘任务:

(fgh是)

(a)根据性别划分公司的顾客。

(b)根据可赢利性划分公司的顾客。

(c)计算公司的总销售额。

(d)按学生的标识号对学生数据库排序。

(e)预测掷一对骰子的结果。

(f)使用历史记录预测某公司未来的股票价格。

(g)监视病人心率的异常变化。

(h)监视地震活动的地震波。

⑴提取声波的频率。

2.(chi)数据挖掘可以在很多数据源上进行,如关系数据库,空间数据库,多媒体数据库,文本数据库等。

3.(chi)数据挖掘一定可以得到有趣的强关联规则。

4.(chi)为了提高挖掘质量,通常要进行数据预处理,包括数据清理、集成、选择、变换等。

5.(ch5){发烧,上呼吸道感染}是

(2)项集

6.企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是(B)o

A数据越多越好

B尽可能多的适合的数据

C数据越少越好

D以上三条都正确

7.数据挖掘算法以(D)形式来组织数据。

A行B列C记录D表格

Ch2

8.(ch2)

假定用于分析的数据包含属性age。

数据元组中age的值如

下(按递增序):

13,15,16,16,19,20,20,21,22,

22,25,25,25,25,30,33,33,35,35,35,35,36,

40,45,46,52,70,求:

1)使用按箱平均值平滑对以上数据进行平滑,箱的深

度是3。

解释你的步骤。

2)使用按箱边界值平滑对以上数据进行平滑,箱的深

度是3。

解释你的步骤。

7、P983.4(ch3)

假定大学的数据仓库包含4个维{student学生、course课程、semester学期、instructor教师},2个度量count和avg_grade0在最低的概念层(例如对于给定的学生、课程、学期和教师组合),度量avg_grade存放学生的实际成绩。

为数据仓库画出雪花模式图

8、P983.5(ch3)

假定数据仓库包含4个维date,spectator,location和game,2个度量count和chargeo其中,change是观众在给定的日期观看节目的付费。

观众可以是学生、成年人或老人,每类观众有不同的收费标准。

画出该数据仓库的星形模式图

10、(ch5)

数据库有4个事物。

设min_s叩=60%,min_conf=80%

TID

日期

购买的物品

T100

99/10/15

{K,A,D,B}

T200

99/10/15

{D,A,C,E,B}

T300

99/10/19

{C,A,B,E}

T400

99/10/22

{B,A,D}

a)使用Apriori算法找出最大得频繁项集

b)列出所有强关联规则(带支持度s和置信度c)

11.(参P229)

假定希望分析爱喝咖啡和爱喝茶得人之间得关系。

收集一组

人关于饮料偏爱的信息,汇总如下:

咖啡

不喝咖

汇总

150

50

200

不喝茶

650

150

800

汇总

800

200

1000

若支持度和置信度阈值分别为10%,50%,评估关联规则

{茶}——>{咖啡}。

(负相关)

12.(ch5,参P224)

有如下事务数据集。

试挖掘频繁项集。

(最小支持度为2)

TID

1

(a,b}

2

(bed}

3

{acde}

4

(ade}

5

(abc}

6

(abed}

7

{a}

8

(abc}

9

(abd}

10

(bee}

结果:

后缀

频繁项集

e

{e},(de},(ade},(ce},(ae}

d

{d},(cd},(bed},(acd},(bd},(abd},(ad}

c

{c},(be},{abc}(ac}

b

(b}(ab}

a

{a}

13.(ch5,参P256,17)

假定有一个购物篮数据集,包含100个事务和20个项。

如果项a的支持度为25%,项b得支持度为90%,且项集{ab}得支持度为20%o令最小支持度阈值和最小置信度阈值分别为10%和60%。

1)计算关联{a}——>{b}的置信度。

根据置信度度量,这条规则是有趣的么?

(这条规则是否是强关联规则?

)(80%,是)

2){a}——>{b}是否有趣?

(负相关,无趣)

11.求出下表的强关联规则(ch5)

ID

Pl

P2

P3

P4

1

bread

cheese

butter

water

2

water

milk

bread

noodle

3

orange

noodle

meat

beer

4

fish

softdrink

frozenmeal

bread

12、(ch6)

下表给出某门课程若干学生期中和期末考试成绩

期中725081749486598365338881

期末846377789075497977527490

绘数据图。

X和Y看上去具有线性联系吗?

13.(ch6)

下表是对是否购买计算机的调查表,请根据ID3算法画出

是否购买计算机的决策树。

年龄

学生

/\.、、人

信誉

归类:

计算

机?

64

不买

64

不买

128

60

64

64

不买

64

128

不买

64

132

64

32

32

63

不买

1

14.预测拖欠银行贷款的贷款者(参P94)

 

TID

有房

婚姻状

年收入

拖欠贷

1

单身

125K

2

已婚

100K

3

单身

70K

4

已婚

120K

5

离异

95K

6

已婚

60K

7

离异

220K

8

单身

85K

9

已婚

75K

10

单身

90K

一客户信息如下:

X=(有房二否,婚姻状况二已婚,年收入

=120K)

用贝叶斯分类法,预测记录的拖欠贷款类别。

(否)

可能的分裂

年收入

60

65

0.82647

70

72.5

0.76355

75

80

0.68966

85

87.5

0.87549

90

92.5

0.84644

95

97.5

0.5

100

110

0.68966

120

122.5

0.76355

125

172.5

0.82647

220

原数据集合修正为:

TID

有房

婚姻

状况

年收入

拖欠

贷款

1

单身

125K(>97.5)

2

已婚

100K(>97.5)

3

单身

70K(<=97.5)

4

已婚

120K(>97.5)

5

离异

95K(v=97.5)

6

已婚

60K(<=97.5)

7

离异

220K(>97.5)

8

单身

85K(<=97.5)

9

已婚

75K(<=97.5)

10

单身

90K(<=97.5)

P(是)=0.3p(否)=0.7

M是ix)=〃(xi是),(是)〃(否ix)顼xi否),(否)

P(x)P(X)

p(XI是)=p(有房=否|是)p(婚姻状况=已婚I是)p(年收入=1201是)=100%*0*0=0

〃01是)=〃(有房=否1否)〃(婚姻状况=已婚I否)p(年收入=1201否)=4/7*4/7*4/7=18.66%

所以,他可能不拖欠贷款

最佳分裂点:

97.5

15.(CH6,参P122)

考虑如下二元分类问题的训练样本:

顾客ID

性别

车型

衬衣尺

1

家用

C0

2

运动

CO

3

运动

C0

4

运动

CO

5

运动

加大

co

6

运动

加大

co

7

运动

co

8

运动

co

9

运动

co

10

豪华

co

11

家用

Cl

12

家用

加大

Cl

13

家用

Cl

14

豪华

加大

Cl

15

豪华

Cl

16

豪华

Cl

17

豪华

Cl

18

豪华

Cl

19

豪华

Cl

20

豪华

Cl

1)计算整个训练样本集得GINI指标(0.5)

2)计算属性顾客ID的GINI指标(0)

3)计算属性性别的GINI指标(0.5)

4)那个属性更好?

性别、车型还是衬衣尺码?

(车型,因

为其GINI指标最低)

16.(CH6,参P122)

考虑如下二元分类问题的训练样本:

实例

标号

al

a2

a3

目标

1

T

T

1

+

2

T

T

6

+

3

T

F

5

4

F

F

4

+

5

F

T

7

-

6

F

T

3

-

7

F

F

8

-

8

T

F

7

+

9

F

T

5

-

1)整个训练样本集关于类属性得炳是多少?

(0.9911)

2)关于这些训练样本,al和a2的信息增益是多少?

(0.2294,

0.0072)

3)对于连续属性a3,计算所有可能的划分的信息增益

Q9

Classlabel

Splitpoint

Entropy

InfoGain

1.0

+

2.0

0.8484

0.1427

3.0

-

3.5

0.9885

0.0026

4.0

+

4.5

0.9183

0.0728

5.0

5.0

-

5.5

0.9839

0.0072

6.0

+

6.5

0.9728

0.0183

7.0

7.0

+

7.5

0.8889

0.1022

2.0是最佳分裂点。

4)根据信息增益,那个是最佳划分?

(在al,a2,a3中)(al)

5)WGINI指标,那个是最佳划分?

(在al,a2,a3中)(al)

17.考虑如下二元分类问题得数据集(CH6,参P123)

A

B

类标号

T

F

+

T

T

+

T

T

+

T

F

-

T

T

+

F

F

+

F

F

+

F

F

+

T

T

+

T

F

+

1)计算按照属性A、B划分时得信息增益。

决策树归纳算法

将会选择那个属性?

(GA=0.2813.GB=0.2565A)

2)计算按照属性A、B划分时的GINI指标。

决策树归纳算

法将会选择那个属性?

(不纯度降低:

0.1371,0.1633,(B)

18.已知下表:

(CH6,参P124)

A

B

C

实例数

+

T

T

T

5

0

F

T

T

0

20

T

F

T

20

0

F

F

T

0

5

T

T

F

0

0

F

T

F

25

0

T

F

F

0

0

F

F

F

0

25

试建立一颗两层的决策树

19.(CH6,参,P139)贝叶斯分类

考虑两队之间的足球比赛:

对0和1.假设65%的比赛队0胜出,剩余得比赛队1获胜。

队0获胜得比赛中只有30%是在队1的主场,而对1取胜的比赛中75%是主场获胜。

如果下一场比赛在队1的主场进行,哪一支球队最有可能胜出呢?

(队1)

x:

东道主(0,1)y:

胜利者(0,1)

队0取胜得概率:

p(y=0)=0.65

队1取胜得概率:

p(y=l)=0.35

对1取胜的比赛中75%是主场获胜:

队1获胜时作为东道

主的概率:

p(x=lly=l)=0.75

队0获胜得比赛中只有30%是在队1的主场:

即队0取胜

时队1作为东道主得概率:

P(x=lly=0)=0.3

比较P(y=l|x=l)和P(y=Olx=l)

p(x=l|y=l)p(y=l)0.75x0.350.2625

p(y=11x=1)===

p(x=1)P(X=1)P(X=1)

/nIP(x=11J7=0)p(y=0)0.3x0.650.195

p(y=U11=1)===

p(x=1)p(x=1)p(x=1)

P(y=llx=l)>P(y=0lx=l)所以,队1可能取胜。

20.(ch6,参P195,8)

考虑下列数据集:

实例

A

B

C

1

0

0

1

-

2

1

0

1

+

3

0

1

0

-

4

1

0

0

-

5

1

0

1

+

6

0

0

1

+

7

1

1

0

-

8

0

0

0

-

9

0

1

0

+

10

1

1

1

+

1)估计条件概率P(A=1I+),P(B=1I+),P(C=1I+),P(A=1I-),

P(B=1I-),P(C=1I-)

(0.6,0.4,0.8,0.4,0.4,0.2)

2)根据1)中的条件概率,使用朴素贝叶斯分类方法预测测

试样本(A=1,B=1,C=1)得类标号。

(+)

3)比较P(A=1),P(B=1)和P(A=1,B=1),陈述AB之间的关系。

(独立)

14、(ch7)

假设数据集D含有9个数据对象(用2维空间的点表示):

Al(3,2),A2(3,9),A3(8,6),Bl(9,5),B2(2,4),B3(3,10),Cl(2,6),

C2(9,6),C3(2,2)

采用k-均值方法进行聚类,距离函数采用欧几里德距离,取

k=3,假设初始的三个簇质心为A1,B1,和Cl,求:

(1)第一次循环结束时的三个簇的质心。

(2)最后求得的三个簇。

A2A3

B2

B3

C2

C3

A1

V49

V41

V5

V64V52VI

ClV10V36V4V17V49V16

第一次循环结束时:

(A1,C3)质心为(2.5,2)或(3,2)(B1,A3,C2),质心为:

(8.7,5.7)或(9,6)

(C1,A2,B2,B3),质心为:

(2.7,8.3)或

(3,8)

平方误差E=28

第二次循环

A1

A2

A3

B1

B2

B3

C1

C2

C3

3,2

0

V49

V41

V45

V

5

V64

V17

V52

1

9,6

V

52

V45

1

1

V

53

"65

"49

0

V65

3,7

V

V25

V26

V40

V

V9

V2

V37

V26

2510

第二次循环结束时:

(A1,B2,C3)质心为(2.3,2.7)或(2,3)

(A3,B1,C2),质心为:

(8.7,5.7)或(9,6)

(A2,B3,C1),质心为:

(2.5,7.25)或

(3,7)

平方误差E=21

第三次循环

AlA2A3BlB2B3ClC2C3

2,3

V2

V37

V45

V53

V

1

V50

V9

V58

1

9,6

V

52

V45

1

1

V

53

V65

V49

0

V65

3,7

V

25

V4

V26

V40

V

10

V9

V2

"37

V37

第三次循环结束时:

(A1,B2,C3)质心为(2.3,2.7)或(2,3)不变

(A3,B1,C2),质心为:

(8.7,5.7)或(9,6)不变

(A2,B3,C1),质心为:

(2.5,7.25)或

(3,7)不变

平方误差E=21不变

15.(ch7)

已知四个点的坐标如下:

占八、、

X坐标

Y坐标

P1

0

2

P2

2

0

P3

3

1

P4

5

1

 

其欧几里德距离矩阵:

P1

P2

P3

P4

P1

0

P2

2.8

0

P3

3.2

1.4

0

P4

5.1

3.2

2

0

试进行单链、全链聚类,并画出树形图。

答案:

单链:

Pl

P2,p3

P4

P1

0

P2,p3

2.8

0

P4

5.1

2

0

 

Pl

P2,p3,p4

Pl

0

P2,p3,p4

2.8

0

P2,p3P2,P3,P4p2,p2,p4,pl

全链:

第一步同单链

Pl

P2,p3

P4

Pl

0

P2,p3

3.2

0

P45.13.20

P2,p3P2,P3,P4p2,p2,p4,pl

或:

P2,p3P2,P3,P1p2,p2,pl,p4

16.请将下列属性分类:

(ch7)

1)用AM和PM表示的时间(序数变量)

2)按度测出得。

和360之间的角度(区间标度变量)

3)奥运会上授予得铜牌、银牌和金牌(序数)

4)学生的性别(二元)

5)用如下值表示得透光能力:

不透明、半透明、透明(序数)

6)外套寄存号码(当你出席一个活动时,你常常可以将你的外套交给某个人,然后他给你一个号码,你可以在离开时来取)(名义)

17.计算下表表示的混淆矩阵得隔和纯度

娱乐

财经

国外

都市

国内

体育

合计

#1

1

1

0

11

4

676

693

#2

27

89

333

827

253

33

1562

#3

326

465

8

105

16

29

949

合计

354

555

341

943

273

738

3204

iwmvVIBIVVIIIVVIVIIIIIWIIIHIVIbHVIVIVVb11

 

Cluster

Entertainment

Financial

Foreign

Metro

National

Sports

Total

Entropy

Purity

#1

1

1

0

11

4

676

693

0.20

0.98

#2

27

89

333

82?

253

33

1562

1.M

0.53

#3

326

465

8

105

16

29

W

1.70

0.49

Total

555

341

W

273

738

144

0.61

 

18.已知四个点的相异度矩阵:

占八、、

Pl

P2

P3

P4

Pl

0

P2

0.2

0

P3

0.35

0.3

0

P4

0.45

0.4

0.1

0

试进行单链、全链聚类,并画出树形图。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1