1、数据挖掘练习题一、 填空题1、 数据预处理对于数据挖掘是一个重要问题,主要包括 、数据集成、 和数据归约。2、 多维数据模型的星形模式中,主要依靠事实表中 的与维表联系在一起。3、 允许从多个维对数据建模和观察,它由维和事实定义。4、 数据集5,10,11,13,15,15,35,50,55,72,92,204,215 的中位数为 ,众数为 o5、 在多个抽象层上挖掘数据产生的关联规那么称为 。6、 将物理或抽象对象的集合分成相似的对象类(或簇)的过程称为 o7、 分类和预测是两种数据分析形式,可以用來建立模型,预测数据未來的趋势,其中 用来预测类别标号, 用来建立连续函数模型。8、 给定两个
2、对象,分别表示为(22, 1, 42, 10) , (20, 0, 36,8),两个对象之间的曼哈顿距离为 o9、 通常数据仓库与OLAP工具是基于 模型进行设计的。10、 涉及两个或多个维的关联规那么称为 o二、 单项选择题1、 SPSS乍为通用的统计软件包不仅被广泛地用于经济、管理、工业等领域的数 据统计处理,而且在( )中得到了应用。A、数据挖掘领域 B、数据仓库领域 C、信息管理领域 D、系统管理领域2、 以下度量中,哪一个度量不属于集中趋势度量:( )oA、中位数 B、中列数 C、众数D、极差3、 OLAP技术的核心是:( )oA、在线性 B、对用户的快速响应 C、互操作性 D、多维
3、分析4、 关于OLAP和OLTP的说法,以下不正确的选项是:( )A、OLTP事务量大,但事务内容比拟简单且重复率高B、 OLAP的数据来源与OLTP不完全一样C、 OLTP面对的是决策人员和高层管理人员D、 OLTP以应用为核心,是应用驱动的5、 以下哪种操作对以使用户更加直观地从不同角度观察数据立方体中不同维之间的关系:OA、上卷 B、下钻 C、切片 D、旋转6、 数据挖掘的经典案例“啤酒与尿布试验最主要是应用了哪种数据挖掘方法:OA、分类 B、预测 C、关联分析D、聚类7、 利用信息增益方法作为属性选择度量建立决策树时,某训练样本集的四个属性的信息增益分别为:Gain 收入位,Gai n
4、 职业位,Gai n年龄位,Gain信誉位,那么应该选择哪个属性作为决策树的测试属性:oA、“收入属性B、“职业属性 C、“年龄属性 D、“信誉属性8、多维数据模型中,以下哪种模式不属于多维模式:( )OA、星型模式B、雪花模式 C、星座模式D、网型模式9、 以下哪种数据挖掘方法是研究自变量与因变量之间关系的分析方法, 其目的在于根据自变量来预测因变量的值: oA、概念描述 B、关联分析 C、回归D、分类10、 以下哪种数据挖掘方法能够帮助市场分析人员根据购置模式从顾客数据库中发现 不同的顾客群:oA、分类 B、预测 C、关联分析 D、聚类11、 假设属性income的最大最小值分别是1200
5、0元和98000元,利用最大最小规 范化方法将属性income的值为73600标准后的结果为:。A、 0.821 B、 1.224 C . 1.458 D、 12、 考 虑数据集12 , 24, 33, 2, 4, 55, 68, 26,其四分位数极差是:。13、原始数据进行数据清洗、集成、变换、规约是以下哪个步骤的任务 。A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流 挖掘14、 数据仓库上的业务处理称作是: oA、联机事务处理OLTP B、联机分析处理OLAPC、联机查询处理 D、联机输入处理15、 以下哪一种处理过程不是在数据清理阶段完成的 。A、空缺值处理 B、噪声数据 C、不
6、一致数据处理 D、标准化处理三、 多项选择题1、 以下四类数据挖掘功能中哪些是描述性功能 。A、分类B、回归C、关联分析D、聚类E、概念描述2、 下面选项中,哪些是数据仓库的根本特征: oA、 数据仓库是面向主题的B、 数据仓库的数据是集成的C、 数据仓库的数据是非易失的D数据仓库的数据是时变的E、数据仓库是面向事务的3、 下面哪些操作是联机分析处理OLAP操作。A、上卷B、切片C、旋转D、切块E、下钻4、 以下哪些度量常用来评价关联规那么的相关度:oA、提升度B、全置信度C、余弦D、支持度E、置信度5、 以下属于聚类算法的是。A、K均值B、K中心点C、Apriori D 决策树E、贝叶斯6、
7、 分类和预测方法可以根据以下哪些标准进行比拟和评估: oA、准确率B、速度C、鲁棒性D、可伸缩性E、可解释四、 简答题:1、简述知识发现的一般过程。2、 简述K均值聚类的根本思想。3、 某班20名学生的英语成绩分别为:64,65,67,70,71 ,75,75,75,76,77,78,79,79, 79,80,81,82,84,85,90。求:(1)该组成绩的中位数,众数,极差(2)该组成绩的箱图。4、某销售公司销售数据仓库 2004年关于销售量的数据立方体(其中location time item为三个维)如以下图所示,答复以下问题:(1)该数据库立方体涉及到几个维,几个事实,分别是什么?(
8、2)在该数据立方体中,要想获得第3季度Q3在New York四类产品总的销 售量,应当执行哪些OLAP操作,按执行顺序依次列出。廨唱计算机 平安豕處 娱乐item(types)5、数据库有4个事务(如下表所示) 设最小支持度min_sup = 75%,最小置信度 min_conf=80%oTID购置商品T100F,A,D,BT200D,A,C,E,BT300T400B,A,D(1)写出使用Apriori算法找出频繁3项集的过程。关联规那么A=D是强关联规那么吗?为什么?6辽宁、浙江、河南、甘肃、青海五省 1991年城镇居民生活情况的差异矩阵如下所示,试根据居民的消费情况对五省实现分层聚类, 组
9、间距离采用最小距离法度量。(1)写出使用最小距离法对该问题实现分层聚类的过程。(2)画出分层聚类层次图。51辽宁101浙江211 .6701D o二河南310甘肃4011青海512 .800|7、 在数据挖掘中为什么要对原始数据进行预处理?对空缺值处理有哪些方法?8、 简述使用一元线性回归方法实现预测功能的根本步骤?并举例说明。根据以下图所示的决策树,写出相应的所有决策规那么。并预测一客户年龄在40岁以 上,但不是学生,信誉为中等,他属于“是的一类还是“否的一类,说出你判断 的根据。9、 假设12个销售价格记录已经排好序:5,10,11,13,15,35,50,55,72,92,204,215
10、, 请按以下要求完成对以上销售价格 数据的处理。(1)使用等深的分箱方法将数据分成3组。(2)使用边界值平滑方法分别对以上3组数据进行平滑处理。10 下表包含了属性 name gender, trait-1 , trait-2 , trait-3 ,及 trait-4 ,这里的 name是对象的id, gender是一个对称二元变量,剩余的trait属性是 非对称二元变 量,其中值P被设为1,值N被设为0,这些属性描述了希望找到笔友的三个人的个人 特点。假设有一个效劳是试图发现适宜的笔友,在计算时只针对非对称二元变量的值 进行分析计算。n amegendertrait-1trait-2trai
11、t-3trait-4Keva nMNPPNCaroli neFNPPNErikMPNNP(1)列岀对象之间的相依表。(2)你认为哪两个人最有可能成为最正确笔友?哪两个是最不能相容的?为什么五、综合应用题1、 简述分类的根本思想和解决分类问题的一般过程,并举例说明如何利分类方 法预测新申请信用卡用户的信用等级。2、 下表是某地区12年的固定资产投资额和国内生产总值的关系表。年份国内生产总值y固定资产投资完成额X19981952019992102020002442620012643520022945220033145620043608120054321312006481149200756716320216552322021704202(1)请问哪种数据挖掘方法可以根据以上数据预测 2021年固定资产投资完成 额x为300时该地区的国内生产总值。(2)简要说明预测的过程。3、下表为辽宁等5省1991年城镇居民生活消费8个指标的数据分布情况X1x2x3x4x5x6x7x8辽宁1浙江2河南3甘肃4青海5(1)现欲将5个省划分成居民消费水平高、中、低3组,请问哪种数据挖掘功 能可以完成分组。(2)简要说明分组的过程并举例说明如何利分类方4、简述分类的根本思想和解决分类问题的一般过程, 法预测新申请信用卡用户的信用等级。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1