1、C. 特征挖掘D. 预测10. 对于以下项集:A,B;A,C,D,E;B,C,D,F;A,B,C,D,A,B,C,F。其中,A,CA,B,C的置信度为( )。A. 2/5B. 3/5C. 3/2D. 2/311. 设X=1,2,3是频繁项集,则可由X产生( )个关联规则。A. 4B. 5C. 6D. 7C 12. KDD是指( )。A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现13. 霍普金斯统计量的值接近0.5,表明数据分布为( )。A. 均匀分布B. 高度左倾斜C. 高度右倾斜D. 不确定14. 因变量总的波动中不能通过回归模型解释的部分是( )。A. 离差
2、平方和B. 回归平方和C. 残差平方和D. R215. ( )属于一种数据仓库技术,具有汇总、合并和聚集以及从不同的角度观察信息的能力。A. 数据清理B. 数据集成C. 联机事务处理D. 联机分析处理16. ( )属性的值用固定、相等的单位测量。A. 标称B. 二元C. 区间标度D. 比率标度17. 敏感度的公式为( )。A. (TP+TN)/(P+N)B. (FP+FN)/(P+N)C. TP/PD. TN/N18. 以下聚类算法不属于基于原型聚类方法的是( )。A. 模糊c均值B. EM算法C. SOMD. CLIQUE19. 以下选项中,不能作为判断数据挖掘模式有趣的依据是( )。A.
3、在某种确信度上,对于新的或检验数据是有效的B. 新颖C. 潜在有用D. 不易被人理解20. 数据对象(1,2)和(3,5)之间的曼哈顿距离是( )。A. 5B. 3.16C. 3D. 221. 现实生活中,顾客倾向于先购买相机,再购买内存卡,再购买其他配件,这样的模式就是一个( )模式。A. 频繁子序列B. 频繁项集C. 频繁子结构D. 频繁规则22. 假设属性income的最大最小值分别是12000元和98000元,利用最大最小规范化的方法将属性的值映射到0至1的范围内,对属性income的73600元将转化为( )。A. 0.821B. 1.224C. 1.458D. 0.71623. 同
4、时满足最小支持度阈值和最小置信度阈值的规则称为( )。A. 强规则B. 弱规则C. 关联规则D. 频繁项集24. q-分位数共有数据点( )个。A. q+1B. qC. q-1D. 325. ( )是找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知对象的类标号的过程。A. 回归B. 聚类C. 数据分类D. 关联规则26. DBSCAN在最坏情况下的时间复杂度是( )。A. O(m)B. O(m2)C. O(logm)D. O(m*logm)27. ( )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。A. MIN(单链)B. MAX(
5、全链)C. 组平均D. Ward方法28. 假设12个销售价格记录组已排序如下:5,10,11,13,15,35,50,55,72,92,204,215,这组数据的中列数是( )。A. 42.5B. 105C. 210D. 8129. ( )可以用来把数据压缩到较小的区间,例如0.0到1.0。A. 数据集成B. 数据归约C. 数据变换D. 数据清理30. ( )是为布尔关联规则挖掘频繁项集的原创性算法。它逐层进行挖掘,利用先验性质:频繁项集的所有非空子集也都是频繁的。A. Apriori算法B. 频繁模式增长算法C. 使用垂直数据格式的算法D. knn算法31. C1:2;C2:4,该分类的信
6、息熵为( )。A. 1B. 0C. 0.65D. 0.92二、多项选择题(下列每小题的备选答案中,有两个或两个以上符合题意的正确答案)1. 属于分裂的层次聚类算法有( )。A. 二分K均值B. MSTC. ChameleonD. 组平均A、B 2. 对于频繁项集挖掘,已经开发了许多有效的、可伸缩的算法,由它们可以导出关联和相关规则。这些算法可以分成( )。A. 类Apriori算法B. 基于频繁模式增长的算法D. 使用水平数据格式的算法A、B、C 3. 联机分析处理的操作包括( )。A. 钻取B. 上卷C. 切块D. 旋转A、B、C、D 4. 电影推荐系统是包含( )的应用实例。A. 分类C.
7、 回归D. 判别5. 数据分类是一个两阶段过程,包括( )。A. 学习阶段B. 分类阶段C. 抽样阶段D. 聚合阶段6. 对于数据挖掘中的原始数据,存在的问题有( )。A. 不一致B. 重复C. 完整性D. 维度高A、B、D 7. 多重共线性的解决方法有( )。A. 岭回归B. LassoC. 主成分回归D. 偏最小二乘法8. 可以应用( )来检测数值属性的冗余数据。A. 卡方检验B. 相关系数C. 协方差D. 非参数检验B、C 9. 在挖掘过程中,一旦识别闭项集就尽快对搜索空间进行剪枝。其中,剪枝包括( )策略。A. 项合并B. 抽样C. 子项集剪枝D. 项跳过A、C、D 10. K近邻分类
8、的距离计算方法有( )。A. 欧式距离B. 曼哈顿距离C. 马氏距离D. 海明距离11. 以下方法采用的是贪心方法的有( )。A. ID3B. C4.5C. CARTD. DBSCAN12. 支持向量机使用( )发现超平面。A. 支持向量B. 边缘C. 距离D. 检验元祖13. 关于DBSCAN聚类算法的描述不正确的有( )。A. 集群中的数据点必须处于到核心点的距离阈限内B. 它对数据空间中数据点的分布有很强的假设C. 它具有相当高的时间复杂度O(n3)D. 它不需要预先知道期望出现的簇的数量14. 下列属于时间相关或序列数据的有( )。A. 历史记录B. 股票交易数据C. 时间序列D. 生
9、物学序列15. 决策树中包括( )结点。B. 内部结点C. 外部结点16. 单模矩阵有( )。A. 词向量矩阵B. 数据矩阵C. 相异性矩阵D. 相关系数矩阵C、D 17. 盒图中可以观察到的指标有( )。A. 方差B. 四分位数C. 最小值D. 众数18. 数值属性相异性的测度指标有( )。A. 闵可夫斯基距离C. 欧几里得距离D. 上确界距离19. 可靠的分类器准确率估计方法有( )。A. 保持方法B. 随机二次抽样D. 自助法20. 聚类评估的外部指标包括( )。A. DBI指数B. Jaccard系数C. rand指数D. 轮廓系数21. 以下属于分类属性选择度量的有( )。A. 信息
10、增益B. 增益率C. 基尼指数D. k-means22. 数据变换的方法包括( )。A. 平滑B. 属性构造C. 聚集D. 规范化23. 组合方法可以通过学习和组合一系列个体(基)分类器模型提高总体准确率。以下属于组合方法的有( )。A. 装袋B. 提升C. 随机森林D. 支持向量机24. Apriori算法的计算复杂度受( )影响。A. 支持度阀值B. 项数(维度)C. 事务数D. 事务平均宽度25. 朴素贝叶斯分类方法可以用于( )。A. 新闻分类B. 情感分类C. 疾病分类D. 垃圾邮件分类26. 抽样可以作为一种数据归约技术使用,因为它允许用数据的小得多的随机样本(子集)表示大型数据集
11、。假定大型数据集D包含N个元组。那么下述可以用于数据归约的、最常用的对D的抽样方法有( )。A. 无放回简单随机抽样B. 有放回简单随机抽样C. 簇抽样D. 分层抽样27. 数据平滑的方法主要有( )。A. 平均值法B. 边界值法C. 最小熵法D. 中值法28. 利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的有( )。ID项集1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐。A. 啤酒、尿布B. 啤酒、面包C. 面包、尿布D. 啤酒、牛
12、奶B、D 29. 度量数据散布的度量有( )。A. 极差B. 中列数C. 方差D. 标准差30. K近邻分类的核心问题包括( )。A. K值的确定B. 距离的计算C. 快速预测D. 最大边缘31. 欧几里得距离具备的数学性质有( )。A. 同一性B. 非负性C. 连续性D. 满足三角不等式32. 数据归约中,参数方法包括( )。C. 对数-线性模型D. 抽样A、C 33. 数据集成可能产生的问题有( )。A. 属性冗余B. 元组冲突C. 数据值冲突D. 属性值缺失三、判断题1. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。( )正确 2. 对于二维数据,SVM需要
13、找到一条最好的分离直线,使分类误差最小。3. 数据挖掘把大型的数据集转换成知识。4. ROC曲线下方的面积是模型准确率的度量,面积越接近于0.5,模型准确率越高。错误 5. 回归是一种常见的处理噪声数据的方法。6. 提升度的值等于零表明两个项不相关。7. 具有较高的支持度的项集具有较高的置信度。8. 中位数是数据中心趋势的度量。9. k-均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。10. 最佳分离超平面上的点称为支持向量。11. 余弦度量是两个与A和B相关的关联规则“AeB”和“BeA”的几何平均置信度。12. 闵可夫斯基距离是欧几里得距离和曼哈顿距离的推广。13.
14、在决策树中,顶层节点是树叶节点。14. 负倾斜的数据中,众数 均值。( )/中位数15. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。16. 相关分析可以用来检测属性冗余问题。17. 定量属性可以是整数数值或者连续值。18. 聚类形成簇的主题一定是互斥的。19. 一个数据序列只能一个众数。20. 数据库的行对应于数据属性,列对应于数据对象。21. 强规则一定是有趣的。四、简答题1. 简述三种描述数据散布的统计量及其计算方法。极差:观测值最大值与最小值之间的差; 方差:观测值与平均数差的平方的平均值; 标准差:方差的算术平方根; 中列数:观测值最大值与最小值的平均值; 四分位数极
15、差:第三个四分位数与第一个四分位数之间的差。2. 决策树算法的属性选择度量方法有哪些?(1)信息增益; (2)信息增益率; (3)GINI指数。3. 简述数据变换采用的几种策略。(1) 光滑; (2) 属性构造; (3) 聚集; (4) 规范化; (5) 离散化; (6) 由标称数据产生概念分层。4. 简述凝聚的层次方法的聚类质量改进方法,并对每种方法举出一个实例。分析每个层次划分中的对象连接,例如Chameleon; 在微簇聚类的基础上结合其他聚类技术,例如BIRCH。5. 常见的数量归约方法有哪些?(1)参数方法:回归和对数-线性模型; (2)非参数方法:直方图、聚类、抽样、数据立方体聚集
16、。6. 简述如何计算非对称二元属性对象的相异性。(r+s)/(q+r+s) q:对象i和j都取1的属性数; r:对象i取1,对象j取0的属性数; s:对象i取0,对象j取1的属性数。7. 简述支持向量机的基本思想。SVM 算法即寻找一个分类器使得超平面和最近的数 据点之间的分类边缘(超平面和最近的数据点之间的 间隔被称为分类边缘)最大,对于 SVM 算法通常认 为分类边缘越大,平面越优,通常定义具有“最大间 隔”的决策面就是 SVM 要寻找的最优解。并且最优 解对应两侧虚线要穿过的样本点,称为“支持向量”。 其处理的基本思路为:把问题转化为一个凸二次规划 问题,可以用运筹学有关思想进行求解:1
17、目标函数 在线性 SVM 算法中,目标函数显然就是那个分类间 隔,使分类间隔最大 2约束条件 即决策面,通常需 要满足三个条件: (1)确定决策面使其正确分类 ;(2)决策面在间隔区域的中轴线 ;(3)如何确定支持向量 因此求解 SVM 问题即转化为求解凸二次规划的最优化问题。8. 数据质量可以从哪几个方面进行评估?(1) 准确性; (2) 完整性; (3) 一致性; (4) 时效性; (5) 可信性; (6) 可解释性。9. 简述基于密度聚类方法的一般特点。(1)可以发现任意形状的簇; (2)簇的对象空间中被低密度区域分隔的稠密区域; (3)簇密度:每个点的“领域”内必须具有最少个数的点;
18、(4)可能过滤离群点。10. 多重共线性的解决办法有哪些?(1)岭回归; (2)Lasso; (3)主成分回归; (4)偏最小二乘回归。11. 分类器的评估指标有哪些?(1)准确率; (2)错误率; (3)灵敏性; (4)特效性; (5)精度; (6)召回率; (7)F(1)度量; (8)F度量。12. 简述由频繁项集产生关联规则的步骤。(1)对于每个频繁项集L,产生L的所有非空子集; (2)对于L的每个非空子集S,如果满足置信度要求,则输出规则SeL-S 。13. 简述三条数据挖掘对聚类的典型要求。(1)可伸缩性; (2)可处理不同属性类型数据; (3)可发现任意形状的簇; (4)具备对确定
19、输入参数相关领域的知识; (5)具有处理噪声数据的能力; (6)增加聚类和输入次序不敏感; (7)具有处理高维数据的能力; (8)具有较好的可解释性和可用性; (9)聚类适应于不同的约束前提。14. 简述数据仓库的特点。(1) 主题与面向主题; (2) 数据的集成性; (3) 数据的不可更新性; (4) 数据的时态性。15. 数据挖掘的相关技术有哪些?(1)统计学; (2)机器学习; (3)数据库; (4)可视化技术; (5)算法。16. 简述分类与回归的区别。分类是找出描述和区分数据类或概念的模型,以便能够使用模型对未知类标号的样例进行预测; 回归主要是建立连续值的函数模型,回归主要用来预测
20、缺失的或难以获得的数值数据值,而不是离散的类标号,同时回归也包含基于可用数据的分布趋势识别。17. 简述描述型的机器学习算法类型。(1)聚类; (2)关联规则; (3)序列分析; (4)离群点检测。18. 简述k-均值聚类方法的缺点。(1)必须实现诶出要生成的簇数; (2)不适于发现非凸形状的簇,或大小差别很大的簇; (3)对噪声和离群点敏感。五、计算题1. 假设所分析的数据中数据元组的值为 26, 14, 20, 59, 66, 69, 72, 23, 32, 24, 34, 37, 53, 17, 19, 38, 43, 48, 49, 56。 (1)该数据的均值是多少?中位数是多少?众数是多少? (2)该数据的中列
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1