数据挖掘练习题.docx

资源描述

数据挖掘练习题.docx

《数据挖掘练习题.docx》由会员分享，可在线阅读，更多相关《数据挖掘练习题.docx（9页珍藏版）》请在冰豆网上搜索。

数据挖掘练习题.docx

数据挖掘练习题

一、填空题

1、数据预处理对于数据挖掘是一个重要问题，主要包括、数

据集成、和数据归约。

2、多维数据模型的星形模式中，主要依靠事实表中的与维表联系在

一起。

3、允许从多个维对数据建模和观察，它由维和事实定义。

4、数据集{5,10,11,13,15,15,35,50,55,72,92,204,215}的中位数为,

众数为o

5、在多个抽象层上挖掘数据产生的关联规那么称为。

6、将物理或抽象对象的集合分成相似的对象类（或簇）的过程称

为o

7、分类和预测是两种数据分析形式，可以用來建立模型，预测数据未來的趋势，

其中用来预测类别标号，用来建立连续函数

模型。

8、给定两个对象，分别表示为（22,1,42,10）,（20,0,36,8）,两个对象

之间的曼哈顿距离为o

9、通常数据仓库与OLAP工具是基于模型进行设计的。

10、涉及两个或多个维的关联规那么称为o

二、单项选择题

1、SPSS乍为通用的统计软件包不仅被广泛地用于经济、管理、工业等领域的数据

统计处理，而且在（）中得到了应用。

A、数据挖掘领域B、数据仓库领域C、信息管理领域D、系统

管理领域

2、以下度量中，哪一个度量不属于集中趋势度量：

（）o

A、中位数B、中列数C、众数D、极差

3、OLAP技术的核心是：

（）o

A、在线性B、对用户的快速响应C、互操作性D、多维分析

4、关于OLAP和OLTP的说法，以下不正确的选项是：

（）

A、OLTP事务量大，但事务内容比拟简单且重复率高

B、OLAP的数据来源与OLTP不完全一样

C、OLTP面对的是决策人员和高层管理人员

D、OLTP以应用为核心，是应用驱动的

5、以下哪种操作对以使用户更加直观地从不同角度观察数据立方体中不同维之间的关

系：

〔〕O

A、上卷B、下钻C、切片D、旋转

6、数据挖掘的经典案例“啤酒与尿布试验〞最主要是应用了哪种数据挖掘方法：

〔〕O

A、分类B、预测C、关联分析D、聚类

7、利用信息增益方法作为属性选择度量建立决策树时，某训练样本集的四

个属性的信息增益分别为：

Gain〔收入〕位,Gain〔职业〕位,Gain

〔年龄〕位,Gain〔信誉〕位，那么应该选择哪个属性作为决策树的

测试属性：

〔〕o

A、“收入〞属性

B、“职业〞属性C、

“年龄〞属性D、“信

誉

〞属性

8、

多维数据模型中,

以下哪种模式不属于多维模式：

（）O

A、星型模式

B、雪花模式C、星座模式

D、网型模式

9、以下哪种数据挖掘方法是研究自变量与因变量之间关系的分析方法，其目的

在于根据自变量来预测因变量的值：

〔〕o

A、概念描述B、关联分析C、回归D、分类

10、以下哪种数据挖掘方法能够帮助市场分析人员根据购置模式从顾客数据库中发现不同的顾客群：

〔〕o

A、分类B、预测C、关联分析D、聚类

11、假设属性income的最大最小值分别是12000元和98000元，利用最大最小规范化方法将属性income的值为73600标准后的结果为：

〔〕。

A、0.821B、1.224C.1.458D、

12、考虑数据集{12,24,33,2,4,55,68,26},其四分位数极差是：

〔〕。

13、

原始数据进行数据清洗、集成、变换、规约是以下哪个步骤的任务〔〕。

A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘

14、数据仓库上的业务处理称作是：

〔〕o

A、联机事务处理〔OLTP〕B、联机分析处理〔OLAP〕

C、联机查询处理D、联机输入处理

15、以下哪一种处理过程不是在数据清理阶段完成的〔〕。

A、空缺值处理B、噪声数据C、不一致数据处理D、标准化处

理

三、多项选择题

1、以下四类数据挖掘功能中哪些是描述性功能〔〕。

A、分类B、回归C、关联分析D、聚类E、概念描述

2、下面选项中，哪些是数据仓库的根本特征：

〔〕o

A、数据仓库是面向主题的

B、数据仓库的数据是集成的

C、数据仓库的数据是非易失的

D数据仓库的数据是时变的

E、数据仓库是面向事务的

3、下面哪些操作是联机分析处理〔OLAP操作〔〕。

A、上卷B、切片C、旋转D、切块E、下钻

4、以下哪些度量常用来评价关联规那么的相关度：

〔〕o

A、提升度B、全置信度C、余弦D、支持度E、置信度

5、以下属于聚类算法的是〔〕。

A、K均值B、K中心点C、AprioriD＞决策树E、贝叶斯

6、分类和预测方法可以根据以下哪些标准进行比拟和评估：

〔〕o

A、准确率B、速度C、鲁棒性D、可伸缩性E、可解释

四、简答题：

1、简述知识发现的一般过程。

2、简述K均值聚类的根本思想。

3、某班20名学生的英语成绩分别为：

64,65,67,70,71,

75,75,75,76,77,78,79,79,79,80,81,82,84,85,90。

求：

（1）该组成绩的中位数，众数，极差

（2）该组成绩的箱图。

4、某销售公司销售数据仓库2004年关于销售量的数据立方体（其中

location>time>item为三个维）如以下图所示，答复以下问题：

（1）该数据库立方体涉及到几个维，几个事实，分别是什么？

（2）在该数据立方体中，要想获得第3季度Q3在NewYork四类产品总的销售

量，应当执行哪些OLAP操作，按执行顺序依次列出。

廨唱计算机平安

豕處

娱乐

item

（types）

5、数据库有4个事务（如下表所示）设最小支持度min_sup=75%,最小置

信度min_conf

=80%o

TID

购置商品

T100

F,A,D,B

T200

D,A,C,E,B

T300

T400

B,A,D

（1）写出使用Apriori算法找出频繁3■项集的过程。

⑵关联规那么A=D是强关联规那么吗？

为什么？

6辽宁、浙江、河南、甘肃、青海五省1991年城镇居民生活情况的差异

矩阵如下所示，试根据居民的消费情况对五省实现分层聚类，组间距离采用

最小距离法度量。

（1）写出使用最小距离法对该问题实现分层聚类的过程。

（2）画出分层聚类层次图。

辽宁

浙江

11.67

Do二河南

甘肃

青海

12.80

7、在数据挖掘中为什么要对原始数据进行预处理？

对空缺值处理有哪些方法？

8、简述使用一元线性回归方法实现预测功能的根本步骤？

并举例说明。

根据以下图所示的决策树，写出相应的所有决策规那么。

并预测一客户年龄在40岁以上，但不是学生，信誉为中等，他属于“是〞的一类还是“否〞的一类，说出你判断的根据。

9、假设12个销售价格记录已经排好序：

5,10,11,13,15,35,50,55,72,92,204,215,请按以下要求完成对以上销售价格数据的处理。

（1）使用等深的分箱方法将数据分成3组。

（2）使用边界值平滑方法分别对以上3组数据进行平滑处理。

10>下表包含了属性namegender,trait-1,trait-2,trait-3,及trait-4,这里的name是对象的id,gender是一个对称二元变量，剩余的trait属性是非对称二元变量，其中值P被设为1,值N被设为0,这些属性描述了希望找到笔友的三个人的个人特点。

假设有一个效劳是试图发现适宜的笔友，在计算时只针对非对称二元变量的值进行分析计算。

name

gender

trait-1

trait-2

trait-3

trait-4

Kevan

Caroline

Erik

（1）列岀对象之间的相依表。

（2）你认为哪两个人最有可能成为最正确笔友？

哪两个是最不能相容的？

为什么

五、综合应用题

1、简述分类的根本思想和解决分类问题的一般过程，并举例说明如何利分类方法预测新申请信用卡用户的信用等级。

2、下表是某地区12年的固定资产投资额和国内生产总值的关系表。

年份

国内生产总值y

固定资产投资完成额X

1998

195

1999

210

2000

244

2001

264

2002

294

2003

314

2004

360

2005

432

131

2006

481

149

2007

567

163

2021

655

232

2021

704

202

（1）请问哪种数据挖掘方法可以根据以上数据预测2021年固定资产投资完成额

x为300时该地区的国内生产总值。

（2）简要说明预测的过程。

3、下表为辽宁等5省1991年城镇居民生活消费8个指标的数据分布情况

辽宁1

浙江2

河南3

甘肃4

青海5

（1）现欲将5个省划分成居民消费水平高、中、低3组，请问哪种数据挖掘功能可

以完成分组。

（2）简要说明分组的过程

并举例说明如何利分类方

4、简述分类的根本思想和解决分类问题的一般过程,法预测新申请信用卡用户的信用等级。

展开阅读全文