1、6下列关于层次聚类存在的问题说法正确的是: ()A.具有全局优化目标函数B.Group Average 擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7下列关于凝聚层次聚类的说法中,说法错误的事:A.旦两个簇合并,该操作就不能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度为Om2D.具有全局优化目标函数8规则牛奶,尿布 尸啤酒的支持度和置信度分别为:()TID项页集1面包,牛奶2尿布,啤酒,鸡蛋3牛奶,可乐4牛奶,尿布,啤酒59下列()是属于分裂层次聚类的方法。Average10.对下图数据进行凝聚聚类操作,簇间相似度使用 MAX计算,第二步是哪两个簇合并:A
2、.在3和1,2合并 B.3和4,5合并 C.2,3和4,5合并D. 2,3和4,5形成簇和3合并二填空题:1.属性包括的四种类型: 、 、 、 。2. 是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3.基本凝聚层次聚类算法空间复杂度 ,时间复杂度 ,如果某个簇到其他所有簇的距离存放在一个有序表或堆中, 层次聚类所需要的时间复杂度 将为 。4.聚类中,定义簇间的相似度的方法有(写出四个): 、 、 、 05.层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法: 、 06.组平均是一种界于 和 之间的折中方法。7.相似度矩阵可以用相识度表示还可以用 表示。8.全链在处理大小不同的簇
3、时,可能使 破裂,并且偏好 o9.单链技术擅长于处理 ,但对 和 很敏感10.聚类分析可以看做是一种 的分类。(有监督、无监督)三.判断题1.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。2.数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的 发掘。3.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差4.当两个点之间的邻近度取它们之间距离的平方时, Ward方法与组平均非常相似。5.DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。( )6.属性的性质不必与用来度量他的值的性质相同。7.全链对噪声点和离群点很敏感。8.对于
4、非对称的属性,只有非零值才是重要的。9.K均值可以很好的处理不同密度的数据。10.单链技术擅长处理椭圆形状的簇。四.综合题1.何为层次聚类它用哪两种图表示2.两种层次聚类的基本方法两种方法的定义3.分别写出Min、Max和组平均的优缺点4.写出基本凝聚层次聚类的算法5.由下图已给出的距离矩阵,将 Max用于6个点样本数据集,画出层次聚类的 树状图P1P2P3P4P5P6考试题+答案一.选择题1.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其 他标签的数据相分离(B)2.( C)将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值, 它是一种凝聚层次聚类技术。3数据挖掘的经典
5、案例“啤酒与尿布试验”最主要是应用了(C )数据挖掘方法。A分类 B预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较,以下说法不正确的是(A)均值丢弃被它识别为噪声的对象,而 DBSCAN 一般聚类所有对象。均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。均值很难处理非球形的簇和不同大小的簇, DBSCAN可以处理不同大小和不同形状的簇均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是 DBSCAN会合并有重叠的簇 s Method 说法错误的是:(C)7下列关于层次聚类存在的问题说法正确的是:(B)A具有全局优化目标函数Average擅长处理球状的簇对噪声点
6、和离群点很敏感(D)C.空间复杂度为O m28规则牛奶,尿布-啤酒的支持度和置信度分别为:9下列(D)是属于分裂层次聚类的方法。1. 属性包括的四种类型:标称、序数、区间、比率。2.组平均是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3.基本凝聚层次聚类算法空间复杂度 O m2,时间复杂度O m3,如果某个簇到其他所有簇的距离存放在一个有序表或堆中, 层次聚类所需要的时间复杂度将为O m2 log m。4.聚类中,定义簇间的相似度的方法有(写出四个):MIN (单链)、MAX (全 链)、组平均、Ward方法。两种层次聚类的基本方法: 凝聚层次聚类、分裂层次聚类。6.组平均是一种界于单
7、链和全链之间的折中方法。7.相似度矩阵可以用相识度表示还可以用距离 表示。8.全链在处理大小不同的簇时,可能使 大的簇 破裂,并且偏好 球形。9.单链技术擅长于处理 _非椭圆形状的簇,但对 噪声点 _和_离群点 很敏感。10.聚类分析可以看做是一种无监督的分类。判断题:1.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚 类方法。(X)(3.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(X )(V)( V)层次聚类为嵌套簇的聚集,组成一棵层次数。两种主要图的表示:树状图和嵌套 簇图。凝聚层次聚类和分裂层次聚类 凝聚的:从点作为个体簇开始,每一步合并两个
8、最接近的簇分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直到仅剩下单点簇定义方式优 点缺 点Min能处理非椭圆形状对噪声和离群点很敏感Max对噪声点和离群点敏感度较小1.当处理簇大小不同时,较大的簇容易破裂2.偏好处理球状的簇组平均偏好处理球状的簇算法步骤:(1)计算邻近度矩阵(2)Repeat(3)合并最邻近的两个簇(4)更新邻近度矩阵,以反映新的簇与原来的簇之间的邻近度(5)U ntil 仅剩下一个簇5. 由下图已给出的距离矩阵,将 Max用于6个点样本数据集,画出层次聚类的树状图这是告诉你的计算过程,现在不要写了。P3和P6最近所以36结合,P2和P5较近,所以25结合,现在是3,
9、6、2,5、1和,Dist(3,6,4) = max(dist(3,4),dist(6,4)= max,=Dist(3,6,2,5) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5)=max,=Dist(3,6,1)=max(dist(3,1),dist(6,1)=max,=所以3,6和4结合。现在还剩3,6,4、2,5和1Dist(3,6,4,2,5)=max(dist(3,2),dist3,5,dist(6,2),dist(6,5),dist(4,2),dist(4,5)=max,=Dist(3,6,4,1)=max(dist(3,1),dist(6,1),dist(4,1)=max,=Dist(2,5,1)=max(dist(2,1),dist(5,1)=max,=所以2,5和1结合Dist(3,6,4,2,5,1)=
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1