数据仓库习题集.docx

资源描述

数据仓库习题集.docx

《数据仓库习题集.docx》由会员分享，可在线阅读，更多相关《数据仓库习题集.docx（24页珍藏版）》请在冰豆网上搜索。

数据仓库习题集.docx

数据仓库习题集

一、选择填空.

数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。

、

粒度是对数据仓库中数据的综合程度高低的一个衡量。

粒度越小，细节程度越高，综合程度越低，回答查询的种类越多。

维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。

连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。

在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ）

A分类B关联C估值D预言

数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ）

A数据抽取B数据转换C数据加载D数据稽核

数据分类的评价准则包括（ABCD）

A精确度B查全率和查准率CF-MeasureD几何均值

层次聚类方法包括（BC）

A划分聚类方法B凝聚型层次聚类方法C分解型层次聚类方法D基于密度聚类方法

贝叶斯网络由两部分组成，分别是（AD）

A网络结构B先验概率C后验概率D条件概率表

置信度（confidence）是衡量兴趣度度量（A）的指标。

A、简洁性

B、确定性

C.、实用性

D、新颖性

关于OLAP和OLTP的区别描述,不正确的是:

（C）

A.OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.

B.与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.

C.OLAP的特点在于事务量大,但事务内容比较简单且重复率高.

D.OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的

简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作（B）

A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类

将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？

（C）

A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘

为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？

（B）

A.探索性数据分析B.建模描述

C.预测建模D.寻找模式和规则

6.在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ）

A分类B关联C估值D预言

7.数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ）

A数据抽取B数据转换C数据加载D数据稽核

8.数据分类的评价准则包括（ABCD）

A精确度B查全率和查准率CF-MeasureD几何均值

9.层次聚类方法包括（BC）

A划分聚类方法B凝聚型层次聚类方法C分解型层次聚类方法D基于密度聚类方法

10.贝叶斯网络由两部分组成，分别是（AD）

A网络结构B先验概率C后验概率D条件概率表

二、判断题

1.数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。

（对）

2.数据挖掘的目标不在于数据采集策略，而在于对于已经存在的数据进行模式的发掘。

（对）3.图挖掘技术在社会网络分析中扮演了重要的角色。

（对）

4.模式为对数据集的全局性总结，它对整个测量空间的每一点做出描述；模型则对变量变化空间的一个有限区域做出描述。

（错）

5.寻找模式和规则主要是对数据进行干扰，使其符合某种规则以及模式。

（错）

6.离群点可以是合法的数据对象或者值。

　　　　（对）

7.离散属性总是具有有限个值。

　　　　　　　　（错）

8.噪声和伪像是数据错误这一相同表述的两种叫法。

　　　　　（错）

9.用于分类的离散化方法之间的根本区别在于是否使用类信息。

　　　（对）

10.特征提取技术并不依赖于特定的领域。

　　　　　　（错）

11.序列数据没有时间戳。

　　　　　　（对）

12.定量属性可以是整数值或者是连续值。

　　　　　（对）

13.可视化技术对于分析的数据类型通常不是专用性的。

　　　　（错）

14.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。

（对）

15.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息，是继数据库技术发展之后迅猛发展起来的一种新技术。

（对）

16.商业智能系统与一般交易系统之间在系统设计上的主要区别在于：

后者把结构强加于商务之上，一旦系统设计完毕，其程序和规则不会轻易改变；而前者则是一个学习型系统，能自动适应商务不断变化的要求。

（对）

17.数据仓库中间层OLAP服务器只能采用关系型OLAP（错）

18．数据仓库系统的组成部分包括数据仓库，仓库管理，数据抽取，分析工具等四个部分.（错）

19.Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息.（错）

21.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

（错）

22.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数（对）。

23.先验原理可以表述为：

如果一个项集是频繁的，那包含它的所有项集也是频繁的。

（错

24.如果规则不满足置信度阈值，则形如的规则一定也不满足置信度阈值，其中是X的子集。

（对）

25.具有较高的支持度的项集具有较高的置信度。

（错）

26.聚类（clustering）是这样的过程：

它找出描述并区分数据类或概念的模型（或函数），以便能够使用模型预测类标记未知的对象类。

（错）

27.分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数值。

（对）

28.对于SVM分类算法，待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。

（对）

29.Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。

（错）

30.分类模型的误差大致分为两种：

训练误差（trainingerror）和泛化误差（generalizationerror）.（对）

31.在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。

（错）

32.SVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimalmarginclassifier）（错）

33.在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。

（错）

34.聚类分析可以看作是一种非监督的分类。

（对）

35.K均值是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。

（错

36.给定由两次运行K均值产生的两个不同的簇集，误差的平方和最大的那个应该被视为较优。

（错）

37.基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。

（对）

38.如果一个对象不强属于任何簇，那么该对象是基于聚类的离群点。

（对）

39.从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。

（错）40.DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。

（对）

三、计算题

1.一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定supmin=40%，confmin=40%，使用Apriori算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。

（15分）

事务

项目

事务

项目

面包、果冻、花生酱

面包、花生酱

面包、牛奶、花生酱

啤酒、面包

啤酒、牛奶

解：

（1）由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1，计算其支持度，取出支持度小于supmin的项集，形成1-频繁集L1，如下表所示：

项集C1

支持度

项集L1

支持度

{面包}

{花生酱}

{牛奶}

{啤酒}

4/5

3/5

2/5

{面包}

{花生酱}

{牛奶}

{啤酒}

4/5

3/5

2/5

（2）组合连接L1中的各项目，产生2-候选集C2，计算其支持度，取出支持度小于supmin的项集，形成2-频繁集L2，如下表所示：

项集C2

支持度

项集L2

支持度

{面包、花生酱}

3/5

{面包、花生酱}

3/5

至此，所有频繁集都被找到，算法结束，

所以，confidence（{面包}→{花生酱}）=（4/5）/（3/5）=4/3>confmin

confidence（{花生酱}→{面包}）=（3/5）/（4/5）=3/4>confmin

所以，关联规则{面包}→{花生酱}、{花生酱}→{面包}均是强关联规则。

2.给定以下数据集（2，4，10，12，15，3，21），进行K-Means聚类，设定聚类数为2个，相似度按照欧式距离计算。

（15分）

解：

（1）从数据集X中随机地选择k个数据样本作为聚类的出示代表点，每一个代表点表示一个类别，由题可知k=2，则可设m1=2，m2=4：

（2）对于X中的任意数据样本xm（1

当m1=2时，样本（2，4，10，12，15，3，21）距离该代表点的距离分别为2，8，10，13，1，19。

当m2=4时，样本（2，4，10，12，15，3，21）距离该代表点的距离分别为-2，6，8，11，-1，17。

最小距离是1或者-1将该元素放入m1=2的聚类中，则该聚类为（2，3），另一个聚类m2=4为（4，10，12，15，21）。

（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点：

m1=2.5，m2=12：

（4）对于X中的任意数据样本xm（1

当m1=2.5时，样本（2，4，10，12，15，3，21）距离该代表点的距离分别为-0.5，0.5，1.5，7.5，9.5，12.5，18.5。

当m2=12时，样本（2，4，10，12，15，3，21）距离该代表点的距离分别为-10，-9，-8，2，3，9。

最小距离是1.5将该元素放入m1=2.5的聚类中，则该聚类为（2，3，4），另一个聚类m2=12为（10，12，15，21）。

（5）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点：

m1=3，m2=14.5：

（6）对于X中的任意数据样本xm（1

当m1=3时，样本（2，4，10，12，15，3，21）距离该代表点的距离分别为-1，1，7，9，12，18，。

当m2=14.5时，样本（2，4，10，12，15，3，21）距离该代表点的距离分别为-12.58，-11.5，-10.5，-4.5，-2.5，0.5，6.5。

最小距离是0.5将该元素放入m1=3的聚类中，则该聚类为（2，3，4），另一个聚类m2=14.5为（10，12，15，21）。

至此，各个聚类不再发生变化为止，即误差平方和准则函数的值达到最优。

K均值算法的过程为：

1：

选择K个点作为初始质点。

2：

repeat

每个点指派到最近的质心，形成K个簇。

4.重新计算每个簇的质心、

5.until质心不发生变化。

例题:

A1,B1,C作为初始质点，距离函数是Euclidean函数，指派点到最近的质心，方法为计算其他点到质点的欧几里得距离。

计算距离如下：

A1-A2：

dist=（2-2）2+（5-10）2=25;

A1-A3:

dist=（8-2）2+（4-10）2=72;A1-B2:

dist=（7-2）2+（5-10）2=50;A1-B3:

dist=（6-2）2+（4-10）2=52;

A1-C2:

dist=（4-2）2+（9-10）2=5;B1-A2:

dist=（2-5）2+（5-8）2=18;B1-A3:

dist=（8-5）2+（4-8）2=25;

B1-B2:

dist=（7-5）2+（5-8）2=13B1-B3:

dist=（6-5）2+（4-8）2=17

B1-C2:

dist=（4-5）2+（9-8）2=2C1-A2:

dist=（2-1）2+（5-2）2=10C1-A3:

dist=（8-1）2+（4-2）2=53C1-B2:

dist=（7-1）2+（5-2）2=45C1-B3:

dist=（6-1）2+（4-2）2=29C1-C2:

dist=（4-1）2+（9-2）2=58

其他五个结点选择与其最近的质心，三个簇分别为：

｛B1,C2,B3,B2,A3｝{C1,A2}{A1}

计算这三个簇的质心：

｛B1,C2,B3,B2,A3｝的质心为：

（（8+5+7+6+4）/5,（4+8+5+4+9）/5）即（6，6）；｛C1,A2｝的质心为：

（（2+1）/2，（5+2）/2）即为（1.5,3.5）;{A1}的质心为（2，10）。

（a）在第一次循环执行后的三个簇中心分别为（6，6），（1.5,3.5），（2，10）

重新指派各个对象到离其最近的质心，与上面方面相同，形成的三个簇为｛A3,B1,B2,B3｝，｛C1，A2｝，｛A1,C2｝三个簇的质心分别为（6.5，5.25），（1.5，3.5），（3，9.5）;重新指派各个对象到离其最近的质心,形成的三个簇为:

｛A3,B2,B3｝{C1,A2}{A1,B1,C2}

三个簇的质心分别为：

（7，4.3），（1.5，3.5），（3.67，9）；重新指派各个对象到离其最近的质心,形成的三个簇为:

｛A3,B2,B3｝{C1,A2}{A1,B1,C2}三个簇的质心分别为：

（7，4.3），（1.5，3.5），（3.67，9）；至此质心不发生变化；

（b）最后三个簇即为｛A3,B2,B3｝{C1,A2}{A1,B1,C2};

4考虑下面的由Big-University的学生数据库挖掘的关联规则

major（X,”science”）⇒status（X,”undergrad”）

（1）

假定学校的学生人数（即，任务相关的元组数）为5000，其中56%的在校本科生的专业是科学，64%的学生注册本科学位课程，70%的学生主修科学（science）。

（a）计算规则

（1）的支持度和置信度。

（b）考虑下面的规则

major（X,”biology”）⇒status（X,”undergrad”）[17%,80%]

（2）

假定主攻科学的学生30%专业为biology。

与规则

（1）对比，你认为规则

（2）新颖吗？

解释你的结论。

（1）对于形如“A⇒B”的关联规则，支持度定义为support（A⇒B）=包含A和B的元组数/元组总数;

规则

（1）的支持度计算如下：

主修科学（science）且未注册本科学位课程的学生人数为：

5000*70%-5000*64%*56%=1708；元组总数为5000；

支持度为：

1708/5000=34.16%

对于形如“A⇒B”的关联规则，置信度定义为：

confidence（A⇒B）=包含A和B的元组数/包含的A元组数

规则

（1）的置信度计算如下：

主修科学（science）且未注册本科学位课程的学生人数为：

5000*70%-5000*64%*56%=1708；主修科学的人数为：

5000*70%=3500

置信度为：

1708/3500=48.8%

（2）假定主攻科学的学生30%专业为biology：

我们可以猜测下面的规则

major（X,”biology”）⇒status（X,”undergrad”）的支持度和置信度应为

34.16%*30%=10.238%，48.8%，而题目中给出的major（X,”biology”）status（X,”undergrad”）的支持度和置信度应为17%，80%，与我们由规则

（1）推测出来的相差较大，所以规则

（2）并不是冗余的，是新颖的。

下表由雇员数据库的训练数据组成。

数据已泛化。

例如，年龄“31…35”表示31到35的之间。

对于给定的行，count表示department,status,age和salary在该行上具有给定值的元组数。

（老师给的大题第三题中文版）

department

status

age

salary

count

sales

systems

marketing

secretary

senior

junior

senior

junior

senior

junior

senior

junior

31...35

26...30

31...35

21...25

31...35

26...30

41...45

36...40

31...35

46...50

26...30

46K...50K

26K...30K

31K...35K

46K...50K

66K...70K

46K...50K

66K...70K

46K...50K

41K...45K

36K...40K

26K...30K

设status是类标号属性。

（a）你将如何修改基本决策树算法，以便考虑每个广义数据元组（即，每一行）的count？

基本的决策树算法应作如下修改，以考虑到每个广义数据元组（即，每一行）的count:

每个元组的count必须综合考虑属性的选择测量计算（假如信息获取）：

考虑count来决定元组中最普遍的分类。

（b）使用你修改过的算法，构造给定数据的决策树。

（c）给定一个数据元组，它在属性department,age和salary上的值分别为“systems”,“26…30”和“46…50K”。

该元组status的朴素贝叶斯分类结果是什么？

依题意，希望分类的元组为X=（department=systems,age=26-30,salary=46k-50k），我们需要最大化PX|CiPCi,i=1,2。

每个类的先验概率PCi可以根据训练元组计算：

P（status=senior）=52/165=0.315

P（status=junior）=113/165=0.685

为了计算PX|CiPCi,i=1,2，计算下面的条件概率

P（department=systems|status=senior）=8/52=0.154

P（department=systems|status=junior）=23/113=0.204

P（age=26-30|status=senior）=1/（52+6）=0.017//使用拉普拉斯校准

P（status=26-30|status=junior）=49/113=0.434

P（salary=46k-50k|status=senior）=40/52=0.769P（salary=46k-50k|status=junior）=23/113=0.204

使用上面的概率得到：

P（X|status=senior）

=P（department=systems|status=senior）*P（age=26-30|status=senior）*P（salary=46k-50k|status=senior）=0.154*0.017*0.769=0.002

P（X|status=junior）

=P（department=systems|status=junior）*P（age=26-30|status=junior）*P（salary=46k-50k|status=junior）=0.204*0.434*0.204=0.018

为了发现最大化PX|CiPCi的类，计算

P（X|status=senior）P（status=senior）=0.002*0.315=0.00063

P（X|status=junior）P（status=junior）=0.018*0.685=0.01233

因此，对于元组X，朴素贝叶斯分类器预测元组X的类为status=junior。

解一：

设元组的各个属性之间相互独立，所以先求每个属性的类条件概率：

P（systems|junior）=（20+3）/（40+40+20+3+4+6）=23/113;

P（26-30|junior）=（40+3+6）/113=49/113；

P（46K-50K|junior）=（20+3）/113=23/113；

∵X=（department=system,age=26…30,salary=46K…50K）；

∴P（X|junior）=P（systems|junior）P（26-30|junior）P（46K-50K|junior）

=23×49×23/1133=25921/1442897=0.01796；

P（systems|senior）=（5+3）/（30+5+3+10+4）=23/52;

P（26-30|senior）=（0）/53=0;

P（46K-50K|senior）=（30+10）/52=40/52；

∵X=（department=system,age=26…30,salary=46K…50K）；

∴P（X|senior）=P（systems|senior）P（26-30|senior）P（46K-50K|senior）=0;

∵P（junior）=113/165=0.68；

∵P（senior）=52/165=0.32；

∴P（X|junior）P（junior）=0.01796×0.68=0.0122128>0=0=P（X|senior）P（senior）；

所以：

朴素贝叶斯分类器将X分到junior类。

解二：

设元组的各属性之间不独立，其联合概率不能写成份量相乘的形式。

所以已知：

X=（department=system,age=26…30,salary=46K…50K），元组总数

为：

30+40+40+20+5+3+3+10+4+4+6=165。

先验概率：

当status=senior时，元组总数为：

30+5+3+10+4=52，P（senior）=52/165=0.32；

当status=junior时，元组总数为：

40+40+20+3+4+6=113，

P（junior）=113/165=0.68；

因为status=senior状态没有对应的age=26…30区间，所以：

P（X|senior）=0；

因为status=junior

展开阅读全文