数据挖掘考试题Word下载.docx
《数据挖掘考试题Word下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘考试题Word下载.docx(9页珍藏版)》请在冰豆网上搜索。
6•下列关于层次聚类存在的问题说法正确的是:
()
A.具有全局优化目标函数
B.GroupAverage擅长处理球状的簇
C.可以处理不同大小簇的能力
D.Max对噪声点和离群点很敏感
7•下列关于凝聚层次聚类的说法中,说法错误的事:
A.—旦两个簇合并,该操作就不能撤销
B.算法的终止条件是仅剩下一个簇
C.空间复杂度为Om2
D.具有全局优化目标函数
8•规则{牛奶,尿布尸{啤酒}的支持度和置信度分别为:
()
TID
项
页
集
1
{面包,
牛奶}
2
尿布,
啤酒,
鸡蛋
}
3
{牛奶,
可乐
4
牛奶,
尿布,
啤酒
5
9•下列()是属于分裂层次聚类的方法。
Average
10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两
个簇合并:
A.在{3}和{1,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并
D.{2,3}和{4,5}形成簇和{3}合并
二•填空题:
1.属性包括的四种类型:
、、、。
2.是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。
3.基本凝聚层次聚类算法空间复杂度,时间复杂度,如果某个
簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为。
4.聚类中,定义簇间的相似度的方法有(写出四
个):
、、、0
5.层次聚类技术是第二类重要的聚类方法。
两种层次聚类的基本方
法:
、0
6.组平均是一种界于和之间的折中方法。
7.相似度矩阵可以用相识度表示还可以用表示。
8.全链在处理大小不同的簇时,可能使破裂,并且偏好o
9.单链技术擅长于处理,但对和很敏感'
10.聚类分析可以看做是一种的分类。
(有监督、无监督)
三.判断题
1.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚
类方法。
2.数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。
3.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差<
4.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常
相似。
5.DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。
()
6.属性的性质不必与用来度量他的值的性质相同。
7.全链对噪声点和离群点很敏感。
8.对于非对称的属性,只有非零值才是重要的。
9.K均值可以很好的处理不同密度的数据。
10.单链技术擅长处理椭圆形状的簇。
四.综合题
1.何为层次聚类它用哪两种图表示
2.两种层次聚类的基本方法两种方法的定义
3.分别写出Min、Max和组平均的优缺点
4.写出基本凝聚层次聚类的算法
5.由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树状图
P1
P2
P3
P4
P5
P6
考试题+答案
一.选择题
1.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离(B)
2.(C)将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种
凝聚层次聚类技术。
3•数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了(C)数据挖掘方法。
A分类B预测C关联规则分析D聚类
4.关于K均值和DBSCAN的比较,以下说法不正确的是(A)
均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。
均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同
形状的簇
均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会
合并有重叠的簇
sMethod说法错误的是:
(C)
7•下列关于层次聚类存在的问题说法正确的是:
(B)
A具有全局优化目标函数
Average擅长处理球状的簇
对噪声点和离群点很敏感
(D)
C.空间复杂度为Om2
8•规则{牛奶,尿布}-{啤酒}的支持度和置信度分别为:
9•下列(D)是属于分裂层次聚类的方法。
1.属性包括的四种类型:
标称、序数、区间、比率。
2.组平均是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。
3.基本凝聚层次聚类算法空间复杂度Om2,时间复杂度Om3,如果某个簇到
其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为
Om2logm。
4.聚类中,定义簇间的相似度的方法有(写出四个):
MIN(单链)、MAX(全链)、组平均、Ward方法。
两种层次聚类的基本方法:
凝聚层
次聚类、分裂层次聚类。
6.组平均是一种界于—单链—和—全链—之间的折中方法。
。
7.相似度矩阵可以用相识度表示还可以用—距离表示。
8.全链在处理大小不同的簇时,可能使—大的簇破裂,并且偏好球形。
9.单链技术擅长于处理_非椭圆形状的簇—,但对噪声点_和_离群点
很敏感。
10.聚类分析可以看做是一种无监督的分类。
•判断题:
1.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。
(X)
(⑴
3.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
(X)
(V)
(V)
层次聚类为嵌套簇的聚集,组成一棵层次数。
两种主要图的表示:
树状图和嵌套簇图。
凝聚层次聚类和分裂层次聚类凝聚的:
从点作为个体簇开始,每一步合并两个最接近的簇
分裂的:
从包含所有点的某个簇开始,每一步分裂一个簇,直到仅剩下单点簇
定义方
式
优点
缺点
Min
能处理非椭圆形状
对噪声和离群点很敏感
Max
对噪声点和离群点敏感度较
小
1.当处理簇大小不同时,较大的簇容易
破裂
2.偏好处理球状的簇
组平均
偏好处理球状的簇
算法步骤:
(1)计算邻近度矩阵
(2)Repeat
(3)合并最邻近的两个簇
(4)更新邻近度矩阵,以反映新的簇与原来的簇之间的邻近度
(5)Until仅剩下一个簇
5.由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的
树状图
这是告诉你的计算过程,现在不要写了。
P3和P6最近所以36结合,P2和P5较近,所以25结合,现在是{3,6}、{2,5}、
{1}和⑷,
Dist({3,6},{4})=max(dist(3,4),dist(6,4))=max,=
Dist({3,6},{2,5})=max(dist(3,2),dist(6,2),dist(3,5),dist(6,5))
=max,,,=
Dist({3,6},{1})=max(dist(3,1),dist(6,1))=max,=
所以{3,6}和{4}结合。
现在还剩{3,6,4}、{2,5}和{1}
Dist({3,6,4},{2,5})=max(dist(3,2),dist{3,5},dist(6,2),dist(6,5),dist(4,2),dist(4,
5))
=max,,,,,=
Dist({3,6,4},{1})=max(dist(3,1),dist(6,1),dist(4,1))=max,,=
Dist({2,5},{1})=max(dist(2,1),dist(5,1))=max,=
所以{2,5}和{1}结合
Dist({3,6,4},{2,5,1})=