数据仓库与数据挖掘技术复习资料全Word文件下载.docx

资源描述

数据仓库与数据挖掘技术复习资料全Word文件下载.docx

《数据仓库与数据挖掘技术复习资料全Word文件下载.docx》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘技术复习资料全Word文件下载.docx（10页珍藏版）》请在冰豆网上搜索。

数据仓库与数据挖掘技术复习资料全Word文件下载.docx

C．决策树算法对于噪声的干扰非常敏感

D．寻找最佳决策树是NP完全问题

9.假设收入属性的最小与最大分别是10000和90000，现在想把当前值30000映射到区间[0,1],若采用最大－最小数据规方法，计算结果是（A）

A.0.25B.0.375C.0.125D.0.5

10.在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是：

A.有放回的简单随机抽样B.无放回的简单随机抽样

C.分层抽样D.渐进抽样

11.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？

（B）

A.分类B.聚类C.关联分析D.隐马尔可夫链

12.设X={1，2，3}是频繁项集，则可由X产生（C）个关联规则。

A.4B.5C.6D.7

13.（C）将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度，它是一种凝聚层次聚类技术。

A．MIN（单链）B．MAX（全链）C．组平均D．Ward方法

14.只有非零值才重要的二元属性被称作：

A.计数属性B.离散属性

C.非对称的二元属性D.对称属性

15.在基本K均值算法里，当邻近度函数采用（A）的时候，合适的质心是簇中各点的中位数。

A.曼哈顿距离B.平方欧几里德距离C.余弦距离D.Bregman散度

16.下面关于数据粒度的描述不正确的是:

（C）

A.粒度是指数据仓库小数据单元的详细程度和级别

B.数据越详细,粒度就越小,级别也就越高

C.数据综合度越高,粒度也就越大,级别也就越高

D.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量

17.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？

（B）

A.聚类B.关联规则发现C.分类D.自然语言处理

18.OLAP技术的核心是:

A.在线性B.对用户的快速响应C.互操作性D.多维分析

19．下面哪种不属于数据预处理的方法？

A.变量代换B.离散化C.聚集D.估计遗漏值

20.假设12个销售价格记录组已经排序如下：

5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。

等深划分时，15在第几个箱子？

（B）

A.第一个B.第二个C.第三个D.第四个

21.上题中，等宽划分时（宽度为50），15又在哪个箱子里？

（A）

A.第一个B.第二个C.第三个D.第四个

22.熵是为消除不确定性所需要获得的信息量，投掷均匀正六面体骰子的熵是：

A.1bitB.2.6bitC.3.2bitD.3.8bit

23.假设属性income的最大最小值分别是12000元和98000元。

利用最大最小规化的方法将属性的值映射到0至1的围。

对属性income的73600元将被转化为：

（D）

A.0.821B.1.224C.1.458D.0.716

24.假定用于分析的数据包含属性age。

数据元组中age的值如下（按递增序）：

13，15，16，16，19，20，20，21，22，22，25，25，25，30，33，33，35，35，36，40，45，46，52，70,问题：

使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为3。

第二个箱子值为：

（A）

A.18.3B.22.6C.26.8D.27.9

25.给定两个对象，分别用元组（22,1,42,10）和（20,0,36,8）表示，则这两个对象之间的曼哈坦距离为：

（）

A.5B.11C.2.92D.2.24

26.概念分层图是（B）图。

A.无向无环B.有向无环C.有向有环D.无向有环

27.假设A为事件“产品合格”，B为“机器工作正常”，现给出以下概率：

机器工作正常，生产产品合格的概率为P（A|B）=0.95；

机器不正常工作时，生产产品合格的概率为

=0.1；

机器正常工作的概率，即P（B）=0.9。

已知生产了一个不合格品，机器不正常工作的概率，即

是（）。

A.0.90B.0.333C.0.667D.0.05

二、填空题

1．数据仓库是面向主题的、（集成的）、（具有特性的）、稳定的数据集合，用以支持经营管理中的决策制定过程。

2．OLAP的基本多维分析操作有（聚类）、切片、切块以及（旋转）等。

3.多维数据集通常采用（星型）或雪花型架构，以（事实）为中心，连接多个（维表）。

4.空缺值数据的处理方法主要有使用默认值、（属性平均值）、（同类样本平均值）和预测最可能的值等。

5．平均互信息等于（信息）熵减（条件）熵，表示不确定性的消除。

6.神经网络的学习方式有3种：

（监督学习）、（非监督学习）和再励学习（强化学习）。

7.聚类分析的数据通常可分为区间标度变量、二元变量、（标称变量）、（比例标度变量）、序数型以及混合类型等。

8．数据立方体是数据的多维建模和表示，由维和事实组成。

维就是涉及的（属性）、而事实是一个具体的（数据）。

9.数据预处理的主要容（方法）包括（数据清洗）、（数据变换）、（数据集成）和数据归约等。

10.关联规则的经典算法包括（Apriori）算法和（FP_Growth）算法,其中（FP_Growth）算法的效率更高。

11.非线性回归的模型有：

直接换元法、（间接代换法）和（非线性型）三种。

12.人工神经网络的特点和优势主要表现在具有（自学习）功能、具有（联系存储）功能和具有高速寻找优化解的能力三个方面。

13.ID3算法只能对描述属性为（离散）型属性的数据集构造决策树。

14.按照对应的数据类型，Web挖掘可分为容挖掘、（）和（）。

15.BP神经网络由（输入）、（输出）以及一或多个隐含结点组成。

三、判断题

1.数据挖掘的目标不在于数据采集策略，而在于对于已经存在的数据进行模式的发掘。

（对）

2.模式为对数据集的全局性总结，它对整个测量空间的每一点做出描述；

模型则对变量变化空间的一个有限区域做出描述。

（错）

3.数据仓库中间层OLAP服务器只能采用关系型OLAP。

4.特征提取技术并不依赖于特定的领域。

　　　　　　（错）

5.定量属性可以是整数值或者是连续值。

　　　　　（对）

6.Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。

7.贝叶斯法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。

8.给定由两次运行K均值产生的两个不同的簇集，误差的平方和最大的那个应该被视为较优。

（错）。

9.如果规则不满足置信度阈值，则形成的规则一定也不满足置信度阈值，其中是X的子集。

（对）

10.分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数值。

11.如果一个对象不强属于任何簇，那么该对象是基于聚类的离群点。

（对）

12.K均值是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。

（错）

13.数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。

14.离散属性总是具有有限个值。

（错）

15.用于分类的离散化方法之间的根本区别在于是否使用类信息。

　（对）

16.特征提取技术并不依赖于特定的领域。

17.定量属性可以是整数值或者是连续值。

　　　　　（对）

18.Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。

19.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

（错）

20.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。

（对）

21.具有较高的支持度的项集具有较高的置信度。

22.聚类（clustering）是这样的过程：

它找出描述并区分数据类或概念的模型（或函数），以便能够使用模型预测类标记未知的对象类。

23.分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数值。

四、简答题

1．设某事务项集构成如表1所示，填空完成粗体字部分支持度和置信度的计算，保留1位小数。

表1

事务ID

项集

支持度%

规则

置信度%

A,D

A,B

33.3

A=>

D,E

A,C

C=>

A,C,E

44.4

66.7

A,B,D,E

B,D

B=>

A,B,C

C,D

A,B,D

D=>

42.9

A,C,D

C,D,E

B,C,D

2.写出非对称二元变量相异度计算公式（即jaccard系数），并计算表2中各对象间的相异度。

表2

测试项目

对象

test-1

test-2

test-3

test-4

test-5

test-6

OBJ1

OBJ2

OBJ3

…

解：

Jaccard系数公式可描述为

非对称二元相异度=取值不同的同位属性数/（单个元素的属性位数-同取0的位数）。

，其中r表示对象i取值为1，对象j取值为0；

s表示对象i取0值，对象j取1值，q表示对象i和j同取1值。

3.给定两个对象，分别用元组（22,1,42,10）和（20,0,36,8）表示

（a）计算两个对象之间的欧几里德的距离；

（b）计算两个对象之间的曼哈坦距离；

（c）计算两个对象间的明考斯基距离，q＝3。

（a）欧几里德距离：

；

（b）曼哈坦距离：

（c）明考斯基距离，q=3。

。

五、分析题

1.已知某事务数据库如表3所示，请采用FP-Growth算法绘制出FP-tree，要求画出绘制过程。

表3：

事务数据库

TID

项目列表

I1,I2,I5

I2,I3

I2,I4

I1,I2,I4

I1,I4,I5

I3,I4

I1,I2,I3,I5

I1,I2,I3

图：

FP-tree

2．给定表4所示的训练数据，数据样本属性age，income，student和credit_rating描述。

类标号属性buys_computer具有两个不同值（即{Yes,No}）。

给定一个没有类标号的数据样本X=（age=”<

=30”，income=”medium”，student=”yes”，credit_rating=”fair”），使用朴素贝叶斯分类预测这个数据样本的类标号。

（10分）

表4数据库训练数据元组

RID

age

income

student

Credit_rating

Class:

buys_computer

=30

high

fair

excellent

31…40

Yes

medium

low

yes

（1）每个类的先验概率

P（buys_computer=”Yes”）=9/14

P（buys_computer=”No”）=5/14

（2）为计算P（X/Ci），i=1,2，计算下面的条件概率：

P（age<

=”30”|buys_computer=”Yes”）=2/9

=”30”|buys_computer=”No”）=3/5

P（income=”medium”|buys_computer=”Yes”）=4/9

P（income=”medium”|buys_computer=”No”）=2/5

P（student=”yes”|buys_computer=”Yes”）=6/9

P（student=”yes”|buys_computer=”No”）=1/5

P（credit_rating=”fair”|buys_computer=”Yes”）=6/9

P（credit_rating=”fair”|buys_computer=”No”）=2/5

（3）总结：

使用以上概率，可以得到：

P（X|buys_computer=”yes”）=（2/9）*（4/9）*（6/9）*（6/9）=0.044

P（X|buys_computer=”No”）=（3/5）*（2/5）*（1/5）*（2/5）=0.019

P（X|buys_computer=”yes”）P（buys_computer=”yes”）=0.044*（9/14）=0.028

P（X|buys_computer=”No”）P（buys_computer=”No”）=0.019*（5/14）=0.007

因此，对于样本X，朴素贝叶斯分类预测buys_computer=”Yes”。

展开阅读全文