数据挖.docx - 冰豆网

资源描述

数据挖.docx

《数据挖.docx》由会员分享，可在线阅读，更多相关《数据挖.docx（8页珍藏版）》请在冰豆网上搜索。

数据挖.docx

数据挖

数据挖掘试卷一

数据挖掘整理（熊熊整理-----献给梦中的天涯）

单选题

1．下面哪种分类方法是属于神经网络学习算法？

（）

A.判定树归纳

B.贝叶斯分类

C.后向传播分类

D.基于案例的推理

2．置信度（confidence）是衡量兴趣度度量（A）的指标。

A、简洁性

B、确定性

C.、实用性

D、新颖性

3．用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？

（A）

A.根据内容检索B.建模描述

C.预测建模D.寻找模式和规则

4．数据归约的目的是（）

A、填补数据种的空缺值

B、集成多个数据源的数据

C、得到数据集的压缩表示

D、规范化数据

5．下面哪种数据预处理技术可以用来平滑数据，消除数据噪声？

A.数据清理

B.数据集成

C.数据变换

D.数据归约

6．假设12个销售价格记录组已经排序如下：

5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。

等频（等深）划分时，15在第几个箱子内？

（B）

A第一个B第二个C第三个D第四个

7．下面的数据操作中，（）操作不是多维数据模型上的OLAP操作。

A、上卷（roll-up）

B、选择（select）

C、切片（slice）

D、转轴（pivot）

8．关于OLAP和OLTP的区别描述,不正确的是:

（C）

A.OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.

B.与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.

C.OLAP的特点在于事务量大,但事务内容比较简单且重复率高.

D.OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的

9．下列哪个描述是正确的？

（）

A、分类和聚类都是有指导的学习

B、分类和聚类都是无指导的学习

C、分类是有指导的学习，聚类是无指导的学习

D、分类是无指导的学习，聚类是有指导的学习

10简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作（B）

A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类

11将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？

（C）

A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘

12什么是KDD？

（A）

A.数据挖掘与知识发现B.领域知识发现

C.文档知识发现D.动态知识发现

为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？

（B）

A.探索性数据分析B.建模描述

C.预测建模D.寻找模式和规则

判断题

1.数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。

（对）

2.数据挖掘的目标不在于数据采集策略，而在于对于已经存在的数据进行模式的发掘。

（对）3.图挖掘技术在社会网络分析中扮演了重要的角色。

（对）

4.模式为对数据集的全局性总结，它对整个测量空间的每一点做出描述；模型则对变量变化空间的一个有限区域做出描述。

（错）

5.寻找模式和规则主要是对数据进行干扰，使其符合某种规则以及模式。

（错）

6.离群点可以是合法的数据对象或者值。

　　　　（对）

7.离散属性总是具有有限个值。

　　　　　　　　（错）

8.噪声和伪像是数据错误这一相同表述的两种叫法。

　　　　　（错）

9.用于分类的离散化方法之间的根本区别在于是否使用类信息。

　　　（对）

10.特征提取技术并不依赖于特定的领域。

　　　　　　（错）

11.序列数据没有时间戳。

　　　　　　（对）

12.定量属性可以是整数值或者是连续值。

　　　　　（对）

13.可视化技术对于分析的数据类型通常不是专用性的。

　　　　（错）

14.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。

（对）

15.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息，是继数据库技术发展之后迅猛发展起来的一种新技术。

（对）

16.商业智能系统与一般交易系统之间在系统设计上的主要区别在于：

后者把结构强加于商务之上，一旦系统设计完毕，其程序和规则不会轻易改变；而前者则是一个学习型系统，能自动适应商务不断变化的要求。

（对）

17.数据仓库中间层OLAP服务器只能采用关系型OLAP（错）

18．数据仓库系统的组成部分包括数据仓库，仓库管理，数据抽取，分析工具等四个部分.（错）

19.Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息.（错）

21.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

（错）

22.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数（对）。

23.先验原理可以表述为：

如果一个项集是频繁的，那包含它的所有项集也是频繁的。

（错

24.如果规则不满足置信度阈值，则形如的规则一定也不满足置信度阈值，其中是X的子集。

（对）

25.具有较高的支持度的项集具有较高的置信度。

（错）

26.聚类（clustering）是这样的过程：

它找出描述并区分数据类或概念的模型（或函数），以便能够使用模型预测类标记未知的对象类。

（错）

27.分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数值。

（对）

28.对于SVM分类算法，待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。

（对）

29.Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。

（错）

30.分类模型的误差大致分为两种：

训练误差（trainingerror）和泛化误差（generalizationerror）.（对）

31.在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。

（错）

32.SVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimalmarginclassifier）（错）

33.在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。

（错）

34.聚类分析可以看作是一种非监督的分类。

（对）

35.K均值是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。

（错

36.给定由两次运行K均值产生的两个不同的簇集，误差的平方和最大的那个应该被视为较优。

（错）

37.基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。

（对）

38.如果一个对象不强属于任何簇，那么该对象是基于聚类的离群点。

（对）

39.从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。

（错）40.DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。

（对）

简答题

1．简述面向属性归纳的基本思想，并说明什么时候使用属性删除，什么时候使用属性概化。

（7分）

答：

面向属性归纳的基本思想是：

首先使用关系数据库查询收集任务相关的数据；然后通过考察任务相关数据中每个属性的不同值的个数，进行概化（通过属性删除或者属性概化）。

聚集通过合并相等的广义元组，并累计他们相应的计数值进行。

这压缩了概化后的数据集合。

结果广义关系可以映射到不同形式，如图表或规则，提供用户。

（3分）

使用属性删除的情况：

如果初始工作关系的一个属性上有大量的不同值，但是

（1）在此属性上没有概化操作符，或

（2）它的较高层概念用其他属性表示；（2分）

使用属性概化的情况：

如果初始工作关系的一个属性上有大量的不同值，并且该属性上存在着概化操作符。

（2分）

2．为什么在进行联机分析处理（OLAP）时，我们需要一个独立的数据仓库，而不是直接在日常操作的数据库上进行。

（6分）

答：

使用一个独立的数据仓库进行OLAP处理是为了以下目的：

（1）提高两个系统的性能

操作数据库是为OLTP而设计的，没有为OLAP操作优化，同时在操作数据库上处理OLAP查询，会大大降低操作任务的性能；而数据仓库是为OLAP而设计，为复杂的OLAP查询,多维视图，汇总等OLAP功能提供了优化。

（2）两者有着不同的功能

操作数据库支持多事务的并行处理，而数据仓库往往只是对数据记录进行只读访问；这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作，就会显著降低OLAP的性能。

（3）两者有着不同的数据

数据仓库中存放历史数据；日常操作数据库中存放的往往只是最新的数据。

3．对于具有递减支持度的多层关联规则挖掘，分别都有哪些搜索策略？

各有什么特点？

（6分）

答：

具有递减支持度的多层关联规则挖掘中使用的搜索策略包括：

逐层独立：

完全的宽度搜索，没有频繁项集的背景知识用于剪枝。

考察每一个节点，不管其父节点是否频繁。

特点是条件很松，可能导致在低层考察大量非频繁的项，找出一些不重要的关联；（2分）

层交叉k-项集过滤：

一个第i层的k-项集被考察，当且仅当它在第（i-1）层的对应父节点的k-项集是频繁的。

特点是限制太强，有些有价值的模式可能被该方法过滤掉；（2分）

层交叉单项过滤：

一个第i层的项被考察，当且仅当它在第（i-1）层的父节点是频繁的。

它是上述两个极端策略的折中。

（2分）

4．跟其他应用领域相比，在电子商务中进行数据挖掘有哪些优势？

（6分）

答：

跟其他应用领域相比，在电子商务中进行数据挖掘的优势包括：

电子商务提供海量的数据：

“点击流”（Clickstreams）将会产生电子商务挖掘的大量数据；

丰富的记录信息：

良好的WEB站点设计将有助于获得丰富的关于商品、分类、访客等等信息；

干净的数据：

从电子商务站点收集的都是电子数据，无需人工输入或者是从历史系统进行整合；

研究成果容易转化：

在电子商务中，很多知识发现都可以进行直接应用；

投资收益容易衡量：

所有数据都是电子化的，可以非常方便的生成各种报表和计算各种收益。

5什么是数据仓库？

简述数据仓库的几种常用模型。

6数据挖掘过程中为什么要进行数据预处理？

数据预处理有哪些方面？

7请简述数据挖掘过程.

1确定挖掘对象2准备数据3建立模型4数据挖掘5结果分析6知识应用

8请叙述元数据的定义及其在数据仓库中的作用。

元数据是关于数据的数据，从元数据的类型与作用来看，元数据实际上是解决何人在何时、何地为了什么原因、怎样使用数据仓库的问题。

1、数据仓库元数据的重要性

（1）为数据仓库服务和DSS分析员及高层决策人员服务提供便利

（2）解决操作型环境和数据仓库的复杂关系（3）数据仓库中数据的管理

2、元数据在数据仓库开发期间的使用

数据仓库的开发过程是一个构造工程的过程，它必须提供清晰的文档。

该过程产生的元数据主要用于数据仓库的应用管理

（1）元数据的设计需要改变传统数据库设计的观念

（2）突出操作系统的当前元数据

（3）在抽取、求精、和重构过程中，时刻保持从资源到数据仓库之间的映射关系。

3、元数据在数据源抽取中的作用

数据源块的元数据用于数据库的定义，以及向数据仓库及其定义提供从办公系统和外部来源中抽取的数据条目。

元数据对多个来源的数据集成发挥着关键作用。

（1）资源领域的确定

（2）跟踪历史数据结构变化的过程（3）属性到属性的映射（4）属性转换

4、元数据在数据求精与重构工程上的作用

数据求精与重构工程负责净化资源中的数据、增加资源戳和时间戳、将数据转换为符合数据仓库的数据格式、预算概括和衍生数据的值。

（1）集成与分割

（2）概括与聚集（3）预算与推导（4）转换与再映像

四、算法题（共20分）

1．Apriori算法是从事务数据库中挖掘单维布尔关联规则的常用算法，该算法利用频繁项集性质的先验知识，从候选项集中找到频繁项集。

（1）Aprior算法包括哪两个基本步骤

（2）对下图中所示的事务数据记录D，（|D|＝4），请用图示与说明解释如何使用Apriori算法寻找D中的频繁项集。

（假设最小事务支持计数为2）

TID

项ID的列表

T100

A,C,D

T200

B,C,E

T300

A,B,C,E

T400

B,E

2．判定树归纳算法是一种常用的分类算法

（1）请简述判定树归纳算法的基本策略

（2）使用判定树归纳算法，根据顾客年龄age（分为3个年龄段：

<18，18...23，>23），收入income（取值为high，medium，low），是否为student（取值为yes和no），信用credit_rating等级（取值为fair和excellent）来判定用户是否会购买PCGame，即构建判定树buys_PCGame，假设现有的数据经过第一次划分之后得到如下图所示结果，并根据该结果对每一个划分中的各个属性计算信息增益

对age<18的顾客：

Gain（income）=0.022，Gain（student）=0.162，Gain（credit_rating）=0.323

对age>23的顾客：

Gain（income）=0.042，Gain（student）=0.462，Gain（credit_rating）=0.155

请根据以上结果绘制出判定树buys_PCGame。

（4分）

训练数据集合age、student、income、rating这四个属性，其类别属性为buys，它有两个不同的取值：

{yes，no}。

设C1对应类别buys=yes，C2对应类别buys=no

Age

Income

Student

Rating

Buys

<=30

High

Fair

<=30

High

Excel

30-40

High

Fair

Yes

>40

Medium

Fair

Yes

>40

Low

Yes

Fair

Yes

>40

Low

Yes

Excel

30-40

low

Yes

Excel

Yes

Age

Income

Student

Rating

Buys

<=30

Medium

Fair

<=30

Low

Yes

Fair

Yes

>40

Medium

Yes

Fair

Yes

<=30

Medium

Yes

Excel

Yes

30-40

Medium

Excel

Yes

30-40

High

Yes

Fair

Yes

>40

Medium

Excel

（a）为什么朴素贝叶斯分类称为“朴素”？

根据上面训练数据集，采用朴素贝叶斯分类方法对下列未知样本进行分类，并给出具体步骤，其中未知样本为：

X=（age=“<30”,income=medium,student=yes,rating=fair）

展开阅读全文