数据挖掘期末考试计算题及答案.docx

资源描述

数据挖掘期末考试计算题及答案.docx

《数据挖掘期末考试计算题及答案.docx》由会员分享，可在线阅读，更多相关《数据挖掘期末考试计算题及答案.docx（9页珍藏版）》请在冰豆网上搜索。

数据挖掘期末考试计算题及答案.docx

数据挖掘期末考试计算题及答案

数据挖掘期末考试计算题及答

-CAL-FENGHAL-（YICAI）-CompanyOne1

■CAL-

题一:

TID

工程集

a,b,dQg

a,d,f,g

b,d,f

e,f,g

a，b,cdg

a,b,e,g

1.给定上表所示的一个事物数据库，写出Apriori算法生成频繁工程集的过程〔假定最小支持度二0.5〕。

—阶工程集

支持度

—阶频繁集

支持度

二阶候选集

支持度

二阶频繁集

支持度

三阶候选集

支持度

adg

三阶频繁集

支持度

adg

题二

样本

Ca卜浓度

Mg卜浓度

Na卜浓度

ci-W

类型

冰川水

湖泊水

冰川水

湖泊水

■

2.使用K-邻近法对两个未知类型的样本进行分类〔冰川水或者湖泊水〕，本例我们使用K=3,即选择最近的3个邻居。

Distance（G,A）2=0.1;Distance（G,B）2=0.03;Distance（G,C）2=O.11

Distance（G,D）2=0.12;Distance（G,E）2=O.16;Distance（G,F）2

G的三个最近的邻居为B.F,A,因此G的分类为湖泊水

Distance（H,A）2=0.03;Distance（H,B）2=O.18;Distance（H,C）2

Distance（H.D）2=0.03;Distance（H,E）2=0.21;Distance（H,F）2=O.16

H的三个最近的邻居为A,D,F,因此H的分类为冰川水

题三

Ca十浓度

HP浓度

曲浓度

C匸浓度

类型

低

高

冰川水

爲

低

高

冰川水

低

冰川水

低

冰川水

低

港泊水

高

低

湖泊水

低

高

低

湖泊水

高

低

高

低

湖泊水

低

高

低

斋

低

3.使用ID3决策树算法对两个未知类型的样本进行分类。

首先计算各属性的信息增益

Gain〔Ca+浓度〕=0

Gain〔Mg+浓度〕=0.185

Gain〔Na+浓度〕=0

Gain〔Cl-浓度

计算各属性的信息増益

Gain〔Ca+浓度〕=0

Gain〔Mg+浓度

题四

4.使用朴素贝叶斯算法两个未知类型的样本进行分类。

P〔Ca+浓度二低，Mg+浓度二高，Na+浓度二高，C1-浓度二低I类型二冰川水〕*P〔冰川水〕

=P〔Ca+浓度二低I类型二冰川水尸P〔Mg+浓度二高I类型二冰川水尸P〔Na+浓度二高I

类型二冰川水〕*P〔C1-浓度二低I类型二冰川水〕*P〔冰川水〕

P〔Ca+浓度二低，Mg+浓度二高.Na+浓度二高，C1-浓度二低I类型二湖泊水〕*P〔湖泊水〕

=P〔Ca+浓度二低I类型二湖泊水严P〔Mg+浓度二高I类型二湖泊水严P〔Na+浓度二高I

类型二湖泊水〕*P〔C1-浓度二低I类型二湖泊水〕*P〔湖泊水〕

=0.5*0.25*0.5*1

第一个样本为冰川水

P〔Ca+浓度二高，Mg+浓度二高，Na+浓度二低，C1-浓度二高I类型二冰川水〕*P〔冰川水〕

=P〔Ca+浓度二高I类型二冰川水〕*P〔Mg+浓度二高I类型二冰川水〕*P〔Na+浓度二低I

类型二冰川水〕*P〔C1-浓度二高I类型二冰川水〕*P〔冰川水〕

P〔Ca+浓度二高，Mg+浓度二高，Na+浓度二低，C1-浓度二高I类型二湖泊水〕*P〔湖泊水〕

=P〔Ca+浓度二高I类型二湖泊水尸P〔Mg+浓度二高I类型二湖泊水尸P〔Na+浓度二低I

类型二湖泊水〕*P〔C1-浓度二高I类型二湖泊水〕*P〔湖泊水〕

=0.5*0.25*0.5*0*0.5=0

第二个样本为冰川水

题五

样本ID

属性值1

属性值2

0,5

0・5

5•使用凝聚法对上表中的样本进行聚类，建立相应的层次树。

A.B,C,D,EFG之间的距离矩阵如下表

血

筋

y/50

膚

V5O5

J而

価

>.^2825

v*M25

V3L25

VL25

V68

a/65

阿

^^4625

根据距离矩阵建立的树如下

题六

样本ID

属性值1

属性值2

9,5

5.使用凝聚法对上表中的样本进行聚类，建立相应的层次树。

第一次迭代以A,B作为平均点，对剩余的点根据到A、B的距离进行分配

{A,C.D,E,F,G,H},{B}

计算两个簇的平均点

（6.5,1.7）,（4,5）

第二次迭代，对剩余的点根据到平均点的距离进行分配，得到两个簇

{D,E,F,H}和{A,B,C,G}

计算两个簇的平均点

（9.1,0.5）,（3.25,3.75）

第三次迭代，对剩余的点根据到平均点的距离进行分配，得到两个簇

{D,E,F,H}和{A,B,C,G}

由于所分配的簇没有发生变化，算法终止。

展开阅读全文