数据挖掘期末考试计算题及答案.docx
《数据挖掘期末考试计算题及答案.docx》由会员分享,可在线阅读,更多相关《数据挖掘期末考试计算题及答案.docx(9页珍藏版)》请在冰豆网上搜索。
数据挖掘期末考试计算题及答案
数据挖掘期末考试计算题及答
-CAL-FENGHAL-(YICAI)-CompanyOne1
■CAL-
题一:
TID
工程集
1
2
a,b,dQg
3
a,d,f,g
4
b,d,f
5
e,f,g
6
a,b,cdg
7
a,b,e,g
1.给定上表所示的一个事物数据库,写出Apriori算法生成频繁工程集的过程〔假定最小支持度二0.5〕。
—阶工程集
支持度
a
5
b
4
c
2
d
5
e
3
f
4
g
6
—阶频繁集
支持度
a
5
b
4
d
5
f
4
g
6
二阶候选集
支持度
ab
3
ad
4
af
2
ag
5
bd
3
bf
1
bg
3
df
3
dg
4
fg
3
二阶频繁集
支持度
ad
4
ag
5
dg
4
三阶候选集
支持度
adg
4
三阶频繁集
支持度
adg
4
题二
样本
Ca卜浓度
Mg卜浓度
Na卜浓度
ci-W
类型
A
冰川水
B
03
湖泊水
C
03
03
冰川水
D
冰川水
E
0
湖泊水
F
03
湖泊水
G
03
7
■
H
?
2.使用K-邻近法对两个未知类型的样本进行分类〔冰川水或者湖泊水〕,本例我们使用K=3,即选择最近的3个邻居。
Distance(G,A)2=0.1;Distance(G,B)2=0.03;Distance(G,C)2=O.11
Distance(G,D)2=0.12;Distance(G,E)2=O.16;Distance(G,F)2
G的三个最近的邻居为B.F,A,因此G的分类为湖泊水
Distance(H,A)2=0.03;Distance(H,B)2=O.18;Distance(H,C)2
Distance(H.D)2=0.03;Distance(H,E)2=0.21;Distance(H,F)2=O.16
H的三个最近的邻居为A,D,F,因此H的分类为冰川水
题三
Ca十浓度
HP浓度
曲浓度
C匸浓度
类型
低
高
高
冰川水
爲
低
高
高
冰川水
低
低
低
冰川水
A
低
低
冰川水
低
低
低
低
港泊水
高
低
低
低
湖泊水
低
高
高
低
湖泊水
高
低
高
低
湖泊水
低
高
高
低
?
斋
低
?
3.使用ID3决策树算法对两个未知类型的样本进行分类。
首先计算各属性的信息增益
Gain〔Ca+浓度〕=0
Gain〔Mg+浓度〕=0.185
Gain〔Na+浓度〕=0
Gain〔Cl-浓度
计算各属性的信息増益
Gain〔Ca+浓度〕=0
Gain〔Mg+浓度
题四
4.使用朴素贝叶斯算法两个未知类型的样本进行分类。
P〔Ca+浓度二低,Mg+浓度二高,Na+浓度二高,C1-浓度二低I类型二冰川水〕*P〔冰川水〕
=P〔Ca+浓度二低I类型二冰川水尸P〔Mg+浓度二高I类型二冰川水尸P〔Na+浓度二高I
类型二冰川水〕*P〔C1-浓度二低I类型二冰川水〕*P〔冰川水〕
P〔Ca+浓度二低,Mg+浓度二高.Na+浓度二高,C1-浓度二低I类型二湖泊水〕*P〔湖泊水〕
=P〔Ca+浓度二低I类型二湖泊水严P〔Mg+浓度二高I类型二湖泊水严P〔Na+浓度二高I
类型二湖泊水〕*P〔C1-浓度二低I类型二湖泊水〕*P〔湖泊水〕
=0.5*0.25*0.5*1
第一个样本为冰川水
P〔Ca+浓度二高,Mg+浓度二高,Na+浓度二低,C1-浓度二高I类型二冰川水〕*P〔冰川水〕
=P〔Ca+浓度二高I类型二冰川水〕*P〔Mg+浓度二高I类型二冰川水〕*P〔Na+浓度二低I
类型二冰川水〕*P〔C1-浓度二高I类型二冰川水〕*P〔冰川水〕
P〔Ca+浓度二高,Mg+浓度二高,Na+浓度二低,C1-浓度二高I类型二湖泊水〕*P〔湖泊水〕
=P〔Ca+浓度二高I类型二湖泊水尸P〔Mg+浓度二高I类型二湖泊水尸P〔Na+浓度二低I
类型二湖泊水〕*P〔C1-浓度二高I类型二湖泊水〕*P〔湖泊水〕
=0.5*0.25*0.5*0*0.5=0
第二个样本为冰川水
题五
样本ID
属性值1
属性值2
A
4
4
B
4
5
C
3
3
D
9
0
E
0,5
F
8
0・5
G
12
6
5•使用凝聚法对上表中的样本进行聚类,建立相应的层次树。
A.B,C,D,EFG之间的距离矩阵如下表
A
B
C
D
E
F
G
A
B
1
C
血
筋
D
y/50
膚
E
V5O5
J而
価
F
>.^2825
v*M25
V3L25
VL25
G
V68
a/65
阿
^^4625
根据距离矩阵建立的树如下
题六
样本ID
属性值1
属性值2
A
4
4
B
4
5
C
3
3
D
9
0
E
9,5
F
8
G
12
6
5.使用凝聚法对上表中的样本进行聚类,建立相应的层次树。
第一次迭代以A,B作为平均点,对剩余的点根据到A、B的距离进行分配
{A,C.D,E,F,G,H},{B}
计算两个簇的平均点
(6.5,1.7),(4,5)
第二次迭代,对剩余的点根据到平均点的距离进行分配,得到两个簇
{D,E,F,H}和{A,B,C,G}
计算两个簇的平均点
(9.1,0.5),(3.25,3.75)
第三次迭代,对剩余的点根据到平均点的距离进行分配,得到两个簇
{D,E,F,H}和{A,B,C,G}
由于所分配的簇没有发生变化,算法终止。