1、 A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链6) 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务? A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则7) 下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化 C.聚集 D.估计遗漏值 8) 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A.第一个 B.第二个 C.第三个 D.第四个
2、 9) 下面哪个不属于数据的属性类型:(D) A.标称 B.序数 C.区间 D.相异 10) 只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11) 以下哪种方法不属于特征选择的标准方法: A.嵌入 B.过滤 C.包装 D.抽样 12) 下面不属于创建新属性的相关方法的是: A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13) 下面哪个属于映射数据到新的空间的方法? A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14) 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化
3、的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为: A.0.821 B.1.224 C.1.458 D.0.716 15) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是: A.一年级 B.二年级 C.三年级 D.四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术: A.等高线图 B.饼图 C.曲面图 D.矢量场图 17) 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: A.有放回的简单随机抽样 B.无放回的简单随机抽样 C.分层抽样 D 渐进抽样18) 数据仓库是随着
4、时间变化的,下面的描述不正确的是 (C)A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合19) 下面关于数据粒度的描述不正确的是: (C)A.粒度是指数据仓库小数据单元的详细程度和级别B.数据越详细,粒度就越小,级别也就越高C.数据综合度越高,粒度也就越大,级别也就越高D.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量20) 有关数据仓库的开发特点,不正确的描述是:A.数据仓库开发要从数据出发B.数据仓库使用的需求在开发出去就要明确C.
5、数据仓库的开发是一个不断循环的过程,是启发式的开发D.在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式21) 关于OLAP的特性,下面正确的是:(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性A.(1) (2) (3)B.(2) (3) (4)C.(1) (2) (3) (4)D.(1) (2) (3) (4) (5)22) 关于OLAP和OLTP的区别描述,不正确的是:A.OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同B.与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事
6、务C.OLAP的特点在于事务量大,但事务内容比较简单且重复率高D.OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的23) 关于OLAP和OLTP的说法,下列不正确的是:A.OLAP事务量大,但事务内容比较简单且重复率高B.OLAP的最终数据来源与OLTP不一样C.OLTP面对的是决策人员和高层管理人员D.OLTP以应用为核心,是应用驱动的24) 设X=1,2,3是频繁项集,则可由X产生( C )个关联规则。A.4 B.5 C.6 D.7 25) 考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2
7、,3,4,2,3,5,3,4,5假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含( C )A.1,2,3,4 B.1,2,3,5 C.1,2,4,5 D.1,3,4,526) 下面选项中t不是s的子序列的是 ( C )A.s= t=B.s=C.s=1,2D.s=2,427) 在图集合中发现一组公共子结构,这样的任务称为 ( B )A.频繁子集挖掘 B.频繁子图挖掘 C.频繁数据项挖掘 D.频繁模式挖掘28) 下列度量不具有反演性的是 (D)A.系数 B.几率 C.Cohen度量 D.兴趣因子29) 下列 ( A )不是将主观信息加入到模式发现任务中的方法。A.与同一时期
8、其他数据对比B.可视化C.基于模板的方法D.主观兴趣度量30) 下面购物蓝能够提取的3-项集的最大数量是多少(C)TID项集1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布910啤酒,饼干A.1 B.2 C.3 D.431) 以下哪些算法是分类算法 (B)A.DBSCAN B.C4.5 C.K-Mean D.EM32) 以下哪些分类方法可以较好地避免样本的不平衡问题(A)A.KNN B.SVM C.Bayes D.神经网络 33) 决策树中不包含一下哪种结点 ( C )A. 根结点(root nod
9、e)B. 内部结点(internal node) C. 外部结点(external node) D. 叶结点(leaf node)34) 以下哪项关于决策树的说法是错误的 (C)A. 冗余属性不会对决策树的准确率造成不利的影响 B. 子树可能在决策树中重复多次 C. 决策树算法对于噪声的干扰非常敏感 D. 寻找最佳决策树是NP完全问题35) 在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为 (B)A. 基于类的排序方案 B. 基于规则的排序方案 C. 基于度量的排序方案 D. 基于规格的排序方案。 36) 以下哪些算法是
10、基于规则的分类器 (A) A. C4.5 B. KNN C. Naive Bayes D. ANN37) 可用作数据挖掘分析中的关联规则算法有(C)。A. 决策树、对数回归、关联模式 B. K均值法、SOM神经网络 C. Apriori算法、FP-Tree算法 D. RBF神经网络、K均值法、决策树38) 如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为( B )A.无序规则 B.穷举规则 C.互斥规则 D.有序规则39) 用于分类与回归应用的主要算法有: ( D )A.Apriori算法、HotSpot算法 B.RBF神经网络、K均值法、决策树 C.K均值法、SOM
11、神经网络 D.决策树、BP神经网络、贝叶斯40)如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(A) A.无序规则 B.穷举规则 C.互斥规则 D.有序规则41)考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为 (C) A.0.75 B.0.35 C.0.4678 D.0.573842)以下关于人工神经网络(ANN)的描述错误的有 (A)A.神经网络对训练数据中的噪声非
12、常鲁棒 B.可以处理冗余特征 C.训练ANN是一个很耗时的过程 D.至少含有一个隐藏层的多层神经网络43)通过聚集多个分类器的预测来提高分类准确率的技术称为 (A) A.组合(ensemble) B.聚集(aggregate) C.合并(combination) D.投票(voting)44)简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B ) A.层次聚类 B.划分聚类 C.非互斥聚类 D.模糊聚类45)在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。 A.曼哈顿距离 B.平方欧几里德距离 C.余弦距离 D.Br
13、egman散度 46)( C )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。 A.边界点 B.质心 C.离群点 D.核心点47)BIRCH是一种( B )。 A.分类器 B.聚类算法 C.关联分析算法 D.特征选择算法48)检测一元正态分布中的离群点,属于异常检测中的基于( A )的离群点检测。 A.统计方法 B.邻近度 C.密度 D.聚类技术49)( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。 A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法50)( D )将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1