原数据挖掘习题Word文档格式.docx

上传人:b****6 文档编号:21123978 上传时间:2023-01-27 格式:DOCX 页数:17 大小:32.27KB
下载 相关 举报
原数据挖掘习题Word文档格式.docx_第1页
第1页 / 共17页
原数据挖掘习题Word文档格式.docx_第2页
第2页 / 共17页
原数据挖掘习题Word文档格式.docx_第3页
第3页 / 共17页
原数据挖掘习题Word文档格式.docx_第4页
第4页 / 共17页
原数据挖掘习题Word文档格式.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

原数据挖掘习题Word文档格式.docx

《原数据挖掘习题Word文档格式.docx》由会员分享,可在线阅读,更多相关《原数据挖掘习题Word文档格式.docx(17页珍藏版)》请在冰豆网上搜索。

原数据挖掘习题Word文档格式.docx

{D,A,C,E,B}

T300

99/10/19

{C,A,B,E}

T400

99/10/22

{B,A,D}

a)利用Apriori算法我由最大得频繁项集

b)列由所有强关联规那么(带支持度s和置信度c)

11.(参P229)

假定希望分析爱喝咖啡和爱喝茶得人之间得关系。

搜集一组

人关于饮料偏爱的信息,汇总如下:

咖用

不喝咖

汇总

150

50

200

不喝茶

650

800

1000

50%,评估关联规

(最小支持度为2)

假设支持度和置信度阈值别离为10%

那么{茶}——>

{咖啡}。

(负相关)

12.(ch5,参P224)

有如下事务数据集。

试挖掘频繁项集。

1

{a,b}

2

{bcd}

3

{acde}

4

{ade}

5

{abc}

6

{abcd}

7

{a}

8

9

{abd}

10

{bce}

结果:

后缀

频繁项集

e

{e},{de},{ade},{ce},{ae}

d

{d},{cd},{bcd},{acd},{bd},{abd},{ad}

c

{c},{bc},{abc}{ac}

b

{b}{ab}

a

13.(ch5,参P256,17)

假定有一个购物篮数据集,包括100个事务和20个项。

是项a的支持度为25%,项b得支持度为90%,且项集{ab}得支持度为20%o令最小支持度阈值和最小置信度阈值别离为10%和60%。

1)计算关联{a}——>

{b}的置信度。

依照置信度气宇,这条规那么是有趣的么?

(这条规那么是不是是强关联规那么?

)(80%,是)

2){a}——>

{b}是不是有趣?

(负相关,无趣)

11.求生下表的强关联规那么(ch5)

ID

P1

P2

P3

P4

bread

cheese

butter

water

milk

noodle

orange

meat

beer

fish

softdrink

frozenmeal

12、(ch6)

下表给由某门课程假设干学生期中和期末考试成绩

期中725081749486598365338881

期末846377789075497977527490

绘数据图。

X和Y看上去具有线性联系吗?

13、(ch6)

下表是对是不是购买运算机的调查表,请依照ID3算法画由是不是购买运算机的决策树。

年龄

学生

信誉

归类:

计算

机?

64

不买

128

60

买1

132

32

买J

63

(参P94)

 

有房

婚姻状

年收入

拖欠贷

单身

125K

已婚

100K

70K

120K

离异

95K

60K

220K

85K

75K

90K

一客户信息如下:

X=(有房=否,婚姻状况=已婚,年收入

=120K)

用贝叶斯分类法,预测记录的拖欠贷款类别。

(否)

可能的分裂

年收入嫡

6065

70

7580

85

90

95

100110

120

125

220

原数据集合修正为:

125K(>

100K(>

70K(<

=

120K(>

95K(<

60K(<

220K(>

85K(<

75K(<

90K(<

P(是尸p(否尸

p(是|X)p(X1是)p(是)p(否|X)p(X|否)p(否)

p(X)p(X)

120|是)

120|否)

p(X|是)p(有房否|是)p(婚姻状况已婚|是)p(年收入

100%*0*00

p(X|是)p(有房否|否)p(婚姻状况已婚|否)p(年收入

4/7*4/7*4/718.66%

因此,他可能不拖欠贷款

最正确割裂点:

15.(CH6,参P122)

考虑如下二元分类问题的训练样本:

顾客ID

性别

车型

衬衣尺

家用

C0

男1

运动

加大

豪华

11

C1

12

13

14

15

16

17

18

19

20

1)计算整个训练样本集得GINI指标()

2)计算属性顾客ID的GINI指标(0)

3)计算属性性别的GINI指标()

4)那个属性更好?

性别、车型仍是衬衣尺码?

(车型,因

为其GINI指标最低)

16.(CH6,参P122)

实例

a1

a2

a3

目标

T

+

F

1)整个训练样本集关于类属性得嫡是多少?

()

2)关于这些训练样本,al和a2的信息增益是多少?

(,)

3)关于持续属性a3,计算所有可能的划分的信息增益

03

Clasalabel

Splitpoint

Ent-ropy

infoGain

L0

2.0

0.8484

0.1437

-

25

0.9^85

O.Oi^26

4.01

0.0183

0.0728

风。

5.0

帛石

0,9839

0.0072

,:

氏5

0.9728

©

83

7.0

7.5

aS889

0.1022

是最正确割裂点。

4)依照信息增益,那个是最正确划分?

(在a1,a2,a3中)(al)

5)依照GINI指标,那个是最正确划分?

(在a1,a2,a3中)

(al)

17.考虑如下二元分类问题得数据集(CH6,参P123)

A

B

1)计算依照属性A、B划分时得信息增益。

决策树归纳算法将会选择那个属性?

(GA=)

2)计算依照属性A、B划分时的GINI指标。

(不纯度降低:

,(B)

18.已知下表:

(CH6,参P124)

C

实例数

试成立一颗两层的决策树

19.(CH6,参,P139)贝叶斯分类

考虑两队之间的足球竞赛:

对。

和1.假设65%的竞赛队0

胜由,剩余得竞赛队1获胜。

队。

获胜得竞赛中只有30%

是在队1的主场,而对1取胜的竞赛中75%是主场获胜。

若是下一场竞赛在队1的主场进行,哪一支球队最有可能胜

由呢?

(队1)

x:

东道主(0,1)y:

成功者(0,1)

队0取胜得概率:

p(y=0)=

队1取胜得概率:

p(y=1)=

对1取胜的竞赛中75%是主场获胜:

队1获胜时作为东道

主的概率:

p(x=1|y=1)=

时队1作为东道主得概率:

P(x=1|y=0)=

比较P(y=1|x=1)和P(y=0|x=1)

「p(x1|y1)p(y1)0.750.350.2625

p(y1|x1)-

P(x1)p(x1)p(x1)

,、,0|、,1、p(x1|y0)p(y0)0.30.650.195

p(y01xI)

p(x1)p(x1)p(x1)

P(y=1|x=1)>

P(y=0|x=1)因止匕,队1可能取胜。

20.(ch6,参P195,8)

考虑以下数据集:

1)估量条件概率P(A=1|+),P(B=1|+),P(C=1|+),P(A=1|-),

P(B=1|-),P(C=1|-)

,,,,,

2)依照1)中的条件概率,利用朴素贝叶斯分类方式预测测

试样本(A=1,B=1,C=1)得类标号。

(+)

3)比较P(A=1),P(B=1)和P(A=1,B=1),陈述AB之间的关系。

(独立)

14、(ch7)

假设数据集D含有9个数据对象(用2维空间的点表示):

A1(3,2),A2(3,9),A3(8,6),B1(9,5),B2(2,4),B3(3,10),C1(2,6),

C2(9,6),C3(2,2)

采纳k-均值方式进行聚类,距离函数采纳欧几里德距离,取

k=3,假设初始的三个簇质心为A1,B1,和C1,求:

(1)第一次循环终止时的三个簇的质心。

(2)最后求得的三个簇。

A2

A3

B2

B3

C2

C3

A1

V49

V41

V5

52

B1

V52

V2

74

58

V10

V36

V17

49

V16

第一次循环终止时:

(A1,C3)质心为(,2)或(3,2)

(B1,A3,C2),质心为:

,或(9,6)

第二次循环

A1A2

3,20,49

V

9,6,45

3,7,25

第二次循环终止时:

(C1,A2,B2,B3),质心为:

平方误差E=28

A3B1B2B3

V41V45V64

V1165

V26V40V9

(A1,B2,C3)质心为(,)

(,)或(3,8)

C1C2C3

V17V521

49065

23726

或(2,3)

(A3,B1,C2),质心为:

或(9,6)

(A2,B3,C1),质心为:

(,)或(3,7)

平方误差E=21

第三次循环

A1A2A3

2,3V2V37V45

9,6451

3,7426

9581

23737

第三次循环终止时:

(A1,B2,C3)质心为(,)或(2,3)不变

(A3,B1,C2),质心为:

,或(9,6)不变

(,)或(3,7)不变

平方误差E=21不变

15.(ch7)

已知四个点的坐标如下:

X坐标

Y坐标

其欧几里德距离矩阵:

试进行单链、全链聚类,并画由树形图

答案:

单链:

P2,p3

P2,p3,p4

P2,p3——P2,P3,P4——p2,p2,p4,p1

全链:

第一步同单链

或:

P2,p3——P2,P3,P1——p2,p2,p1,p4

16.请将以下属性分类:

(ch7)

1)用AM和PM表示的时刻(序数变量)2)按度测由得0和360之间的角度(区间标度变量)

3)奥运会上授予得铜牌、银牌和金牌(序数)

4)学生的性别(二元)

5)用如下值表示得透光能力:

不透明、半透明、透明(序数)

6)外衣寄放号码(当你由席一个活动时,你常常能够将你的外衣交给某个人,然后他给你一个号码,你能够在离开时来取)(名义)

17.计算下表表示的混淆矩阵得嫡和纯度

娱乐

财经

国外

都市

国内

体育

合计

#1

676

693

#2

27

89

333

827

253

33

1562

#3

326

465

105

29

949

354

555

341

943

273

738

3204

EnkrtanW

Financial

际庵口

Mi/tro

Natiood

Sports

Total

Entrap:

Purity

--

n

J

0.3

04

55

MJ

32M

18.已知四个点的相异度矩阵:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 成人教育 > 远程网络教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1