数据仓库习题集24页word文档Word文档下载推荐.docx

上传人:b****5 文档编号:20669943 上传时间:2023-01-25 格式:DOCX 页数:15 大小:72.55KB
下载 相关 举报
数据仓库习题集24页word文档Word文档下载推荐.docx_第1页
第1页 / 共15页
数据仓库习题集24页word文档Word文档下载推荐.docx_第2页
第2页 / 共15页
数据仓库习题集24页word文档Word文档下载推荐.docx_第3页
第3页 / 共15页
数据仓库习题集24页word文档Word文档下载推荐.docx_第4页
第4页 / 共15页
数据仓库习题集24页word文档Word文档下载推荐.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

数据仓库习题集24页word文档Word文档下载推荐.docx

《数据仓库习题集24页word文档Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数据仓库习题集24页word文档Word文档下载推荐.docx(15页珍藏版)》请在冰豆网上搜索。

数据仓库习题集24页word文档Word文档下载推荐.docx

为数据的总体分布建模;

把多维空间划分成组等问题属于数据挖掘的哪一类任务?

(B)

A.探索性数据分析B.建模描述

C.预测建模D.寻找模式和规则

6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD)

7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)

8.数据分类的评价准则包括(ABCD)

9.层次聚类方法包括(BC)

10.贝叶斯网络由两部分组成,分别是(AD)

二、判断题

1.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。

(对)

2.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。

(对)3.图挖掘技术在社会网络分析中扮演了重要的角色。

(对)

4.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;

模型则对变量变化空间的一个有限区域做出描述。

(错)

5.寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。

6.离群点可以是合法的数据对象或者值。

    (对)

7.离散属性总是具有有限个值。

        (错)

8.噪声和伪像是数据错误这一相同表述的两种叫法。

     (错)

9.用于分类的离散化方法之间的根本区别在于是否使用类信息。

   (对)

10.特征提取技术并不依赖于特定的领域。

      (错)

11.序列数据没有时间戳。

      (对)

12.定量属性可以是整数值或者是连续值。

     (对)

13.可视化技术对于分析的数据类型通常不是专用性的。

    (错)

14.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。

15.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。

16.商业智能系统与一般交易系统之间在系统设计上的主要区别在于:

后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;

而前者则是一个学习型系统,能自动适应商务不断变化的要求。

17.数据仓库中间层OLAP服务器只能采用关系型OLAP(错)

18.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分.(错)

19.Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息.(错)

21.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

22.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。

23.先验原理可以表述为:

如果一个项集是频繁的,那包含它的所有项集也是频繁的。

(错

24.如果规则不满足置信度阈值,则形如的规则一定也不满足置信度阈值,其中是X的子集。

25.具有较高的支持度的项集具有较高的置信度。

26.聚类(clustering)是这样的过程:

它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。

(错)

27.分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。

28.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。

29.Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。

30.分类模型的误差大致分为两种:

训练误差(trainingerror)和泛化误差(generalizationerror).(对)

31.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

32.SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimalmarginclassifier)(错)

33.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

34.聚类分析可以看作是一种非监督的分类。

35.K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。

36.给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。

37.基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。

38.如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。

39.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。

(错)40.DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。

三、计算题

1.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin=40%,confmin=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。

(15分)

事务

项目

T1

T2

T3

面包、果冻、花生酱

面包、花生酱

面包、牛奶、花生酱

T4

T5

啤酒、面包

啤酒、牛奶

解:

(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于supmin的项集,形成1-频繁集L1,如下表所示:

项集C1

支持度

项集L1

支持度

{面包}

{花生酱}

{牛奶}

{啤酒}

4/5

3/5

2/5

4/5

3/5

2/5

(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于supmin的项集,形成2-频繁集L2,如下表所示:

项集C2

项集L2

{面包、花生酱}

至此,所有频繁集都被找到,算法结束,

所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3>

confmin

confidence({花生酱}→{面包})=(3/5)/(4/5)=3/4>

所以,关联规则{面包}→{花生酱}、{花生酱}→{面包}均是强关联规则。

2.给定以下数据集(2,4,10,12,15,3,21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。

(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k=2,则可设m1=2,m2=4:

(2)对于X中的任意数据样本xm(1<

xm<

total),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:

当m1=2时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为2,8,10,13,1,19。

当m2=4时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,-1,17。

最小距离是1或者-1将该元素放入m1=2的聚类中,则该聚类为(2,3),另一个聚类m2=4为(4,10,12,15,21)。

(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:

m1=2.5,m2=12:

(4)对于X中的任意数据样本xm(1<

当m1=2.5时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为-0.5,0.5,1.5,7.5,9.5,12.5,18.5。

当m2=12时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为-10,-9,-8,2,3,9。

最小距离是1.5将该元素放入m1=2.5的聚类中,则该聚类为(2,3,4),另一个聚类m2=12为(10,12,15,21)。

(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:

m1=3,m2=14.5:

(6)对于X中的任意数据样本xm(1<

当m1=3时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为-1,1,7,9,12,18,。

当m2=14.5时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为-12.58,-11.5,-10.5,-4.5,-2.5,0.5,6.5。

最小距离是0.5将该元素放入m1=3的聚类中,则该聚类为(2,3,4),另一个聚类m2=14.5为(10,12,15,21)。

至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优。

3.

K均值算法的过程为:

1:

选择K个点作为初始质点。

2:

repeat

3:

每个点指派到最近的质心,形成K个簇。

4.重新计算每个簇的质心、

5.until质心不发生变化。

例题:

A1,B1,C作为初始质点,距离函数是Euclidean函数,指派点到最近的质心,方法为计算其他点到质点的欧几里得距离。

计算距离如下:

A1-A2:

dist=(2-2)2+(5-10)2=25;

A1-A3:

dist=(8-2)2+(4-10)2=72;

A1-B2:

dist=(7-2)2+(5-10)2=50;

A1-B3:

dist=(6-2)2+(4-10)2=52;

A1-C2:

dist=(4-2)2+(9-10)2=5;

B1-A2:

dist=(2-5)2+(5-8)2=18;

B1-A3:

dist=(8-5)2+(4-8)2=25;

B1-B2:

dist=(7-5)2+(5-8)2=13B1-B3:

dist=(6-5)2+(4-8)2=17

B1-C2:

dist=(4-5)2+(9-8)2=2C1-A2:

dist=(2-1)2+(5-2)2=10C1-A3:

dist=(8-1)2+(4-2)2=53C1-B2:

dist=(7-1)2+(5-2)2=45C1-B3:

dist=(6-1)2+(4-2)2=29C1-C2:

dist=(4-1)2+(9-2)2=58

其他五个结点选择与其最近的质心,三个簇分别为:

{B1,C2,B3,B2,A3}{C1,A2}{A1}

计算这三个簇的质心:

{B1,C2,B3,B2,A3}的质心为:

((8+5+7+6+4)/5,(4+8+5+4+9)/5)即(6,6);

{C1,A2}的质心为:

((2+1)/2,(5+2)/2)即为(1.5,3.5);

{A1}的质心为(2,10)。

(a)在第一次循环执行后的三个簇中心分别为(6,6),(1.5,3.5),(2,10)

重新指派各个对象到离其最近的质心,与上面方面相同,形成的三个簇为{A3,B1,B2,B3},{C1,A2},{A1,C2}三个簇的质心分别为(6.5,5.25),(1.5,3.5),(3,9.5);

重新指派各个对象到离其最近的质心,形成的三个簇为:

{A3,B2,B3}{C1,A2}{A1,B1,C2}

三个簇的质心分别为:

(7,4.3),(1.5,3.5),(3.67,9);

{A3,B2,B3}{C1,A2}{A1,B1,C2}三个簇的质心分别为:

至此质心不发生变化;

(b)最后三个簇即为{A3,B2,B3}{C1,A2}{A1,B1,C2};

4考虑下面的由Big-University的学生数据库挖掘的关联规则

major(X,”science”)⇒status(X,”undergrad”)

(1)

假定学校的学生人数(即,任务相关的元组数)为5000,其中56%的在校本科生的专业是科学,64%的学生注册本科学位课程,70%的学生主修科学(science)。

(a)计算规则

(1)的支持度和置信度。

(b)考虑下面的规则

major(X,”biology”)⇒status(X,”undergrad”)[17%,80%]

(2)

假定主攻科学的学生30%专业为biology。

与规则

(1)对比,你认为规则

(2)新颖吗?

解释你的结论。

(1)对于形如“A⇒B”的关联规则,支持度定义为support(A⇒B)=包含A和B的元组数/元组总数;

规则

(1)的支持度计算如下:

主修科学(science)且未注册本科学位课程的学生人数为:

5000*70%-5000*64%*56%=1708;

元组总数为5000;

支持度为:

1708/5000=34.16%

对于形如“A⇒B”的关联规则,置信度定义为:

confidence(A⇒B)=包含A和B的元组数/包含的A元组数

规则

(1)的置信度计算如下:

主修科学(science)且未注册本科学位课程的学生人数为:

主修科学的人数为:

5000*70%=3500

置信度为:

1708/3500=48.8%

(2)假定主攻科学的学生30%专业为biology:

我们可以猜测下面的规则

major(X,”biology”)⇒status(X,”undergrad”)的支持度和置信度应为

34.16%*30%=10.238%,48.8%,而题目中给出的major(X,”biology”)status(X,”undergrad”)的支持度和置信度应为17%,80%,与我们由规则

(1)推测出来的相差较大,所以规则

(2)并不是冗余的,是新颖的。

下表由雇员数据库的训练数据组成。

数据已泛化。

例如,年龄“31…35”表示31到35的之间。

对于给定的行,count表示department,status,age和salary在该行上具有给定值的元组数。

(老师给的大题第三题中文版)

department

status

age

salary

count

sales

systems

marketing

secretary

senior

junior

31...35

26...30

21...25

41...45

36...40

46...50

46K...50K

26K...30K

31K...35K

66K...70K

41K...45K

36K...40K

30

40

20

5

3

10

4

6

设status是类标号属性。

(a)你将如何修改基本决策树算法,以便考虑每个广义数据元组(即,每一行)的count?

基本的决策树算法应作如下修改,以考虑到每个广义数据元组(即,每一行)的count:

每个元组的count必须综合考虑属性的选择测量计算(假如信息获取):

考虑count来决定元组中最普遍的分类。

(b)使用你修改过的算法,构造给定数据的决策树。

(c)给定一个数据元组,它在属性department,age和salary上的值分别为“systems”,“26…30”和“46…50K”。

该元组status的朴素贝叶斯分类结果是什么?

依题意,希望分类的元组为X=(department=systems,age=26-30,salary=46k-50k),我们需要最大化PX|CiPCi,i=1,2。

每个类的先验概率PCi可以根据训练元组计算:

P(status=senior)=52/165=0.315

P(status=junior)=113/165=0.685

为了计算PX|CiPCi,i=1,2,计算下面的条件概率

P(department=systems|status=senior)=8/52=0.154

P(department=systems|status=junior)=23/113=0.204

P(age=26-30|status=senior)=1/(52+6)=0.017//使用拉普拉斯校准

P(status=26-30|status=junior)=49/113=0.434

P(salary=46k-50k|status=senior)=40/52=0.769P(salary=46k-50k|status=junior)=23/113=0.204

使用上面的概率得到:

P(X|status=senior)

=P(department=systems|status=senior)*P(age=26-30|status=senior)*P(salary=46k-50k|status=senior)=0.154*0.017*0.769=0.002

P(X|status=junior)

=P(department=systems|status=junior)*P(age=26-30|status=junior)*P(salary=46k-50k|status=junior)=0.204*0.434*0.204=0.018

为了发现最大化PX|CiPCi的类,计算

P(X|status=senior)P(status=senior)=0.002*0.315=0.00063

P(X|status=junior)P(status=junior)=0.018*0.685=0.01233

因此,对于元组X,朴素贝叶斯分类器预测元组X的类为status=junior。

解一:

设元组的各个属性之间相互独立,所以先求每个属性的类条件概率:

P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113;

P(26-30|junior)=(40+3+6)/113=49/113;

P(46K-50K|junior)=(20+3)/113=23/113;

∵X=(department=system,age=26…30,salary=46K…50K);

∴P(X|junior)=P(systems|junior)P(26-30|junior)P(46K-50K|junior)

=23×

49×

23/1133=25921/1442897=0.01796;

P(systems|senior)=(5+3)/(30+5+3+10+4)=23/52;

P(26-30|senior)=(0)/53=0;

P(46K-50K|senior)=(30+10)/52=40/52;

∴P(X|senior)=P(systems|senior)P(26-30|senior)P(46K-50K|senior)=0;

∵P(junior)=113/165=0.68;

∵P(senior)=52/165=0.32;

∴P(X|junior)P(junior)=0.01796×

0.68=0.0122128>

0=0=P(X|senior)P(senior);

所以:

朴素贝叶斯分类器将X分到junior类。

解二:

设元组的各属性之间不独立,其联合概率不能写成份量相乘的形式。

所以已知:

X=(department=system,age=26…30,salary=46K…50K),元组总数

为:

30+40+40+20+5+3+3+10+4+4+6=165。

先验概率:

当status=senior时,元组总数为:

30+5+3+10+4=52,P(senior)=52/165=0.32;

当status=junior时,元组总数为:

40+40+20+3+4+6=113,

P(junior)=113/165=0.68;

因为status=senior状态没有对应的age=26…30区间,所以:

P(X|senior)=0;

因为status=junior状态对应的partment=systems

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 判决书

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1