电子科大大数据挖掘作业6Word文档格式.docx

资源描述

电子科大大数据挖掘作业6Word文档格式.docx

《电子科大大数据挖掘作业6Word文档格式.docx》由会员分享，可在线阅读，更多相关《电子科大大数据挖掘作业6Word文档格式.docx（14页珍藏版）》请在冰豆网上搜索。

电子科大大数据挖掘作业6Word文档格式.docx

数据立方体

数据立方体是二维表格的多维扩展，如同几何学中立方体是形的三维扩展一样，是一类多维矩阵，让用户从多个角度探索和分析数据集，通常是一次同时考虑三个维度。

数据立方体提供数据的多维视图，并允许预计算和快速访问汇总数据。

多维数据模型上的OLAF操作

a）上卷（roll-up）:

汇总数据

通过一个维的概念分层向上攀升或者通过维规约

b）下卷（drill-down）:

上卷的逆操作

由不太详细的数据到更详细的数据，可以通过沿维的概念

分层向下或引入新的维来实现

c）切片和切块（sliceanddice）

投影和选择操作

d）转轴（pivot）

立方体的重定位，可视化，或将一个3维立方体转化为一个2维平面序列

2）OLAP多维分析如何辅助决策？

举例说明。

OLAP是在多维数据结构上进行数据分析的，一般在多维数据上切片、

切块成简单数据来进行分析，或是上卷、下卷来分析。

OLAP要查询大量的日常商业信息，以及大量的商业活动变化情况，如每周购买量的变化值，经理通过查询变化值来做决策。

例如经理看到利润小于预计值是，就会去深入到各地区去查看产品利润情况，这样他会发现一些比较异常的数据。

经过进一步的分析和追踪查询可以发现问题并解决

3）举例说明OLAP的多维数据分析的切片操作。

切片就是在某两个维上取一定区间的维成员或全部维成员。

如用三维数组表示为（地区，时间，产品，销售额），如果在地区维度上选定一个维成员，就可以得到在该地区的一个切片（关于时间和产品的切片）。

第三章数据预处理

1）假定用于分析的数据包含属性age，数据元组中age的值如下（按递增序）：

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。

（a）使用按箱平均值平滑对以上数据进行平滑，箱的深度为3。

解释你的步

骤。

评论对于给定的数据，该技术的效果

已知数据元组中age的值如下（按递增序）：

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70，

且箱的深度为3，划分为（等频）箱：

箱1:

13,15,16

箱2:

16,19,20

箱3:

20,21,22

箱4:

22,25,25

箱5:

25,25,30

箱6:

33,33,33

箱7:

35,35,35

箱8:

35,36,40

箱9:

45,46,52

箱10:

用箱均值光滑：

15,15,15

18,18,18

21,21,21

24,24,24

27,27,37

37,37,37

48,48,48

（b）对于数据平滑，还有哪些其它方法？

（1）回归：

可以用一个函数（如回归函数）拟合数据来光滑数据；

（2）聚类：

可以通过聚类检测离群点，将类似的值组织成群或簇。

直

观地，落在簇集合之外的值视为离群点。

2）使用习题1）给出的age数据，回答以下问题：

（a）使用min-max规化，将age值35转换到［0.0，1.0］区间。

已知最大值为70，最小值为13，则可将35规化为：

（b）

（c）

（d）

|35-13|

（70-13）

=0.386

使用z-score规化转换age值35,其中，age的标准偏差为12.94年。

已知均值为30，标准差为12.94，则可将35规化为：

35-30

——=0.386

12.94

使用小数定标规化转换age值35。

使用小数定标规化可将35规化为：

35小厂

=0.35

100

指出对于给定的数据，你愿意使用哪种方法。

述你的理由。

对于给定的数据，你愿意使用min-max规化。

理由是计算简单。

3）以下是一个商场所销售商品的价格清单（按递增顺序排列，括号中的数表示

前面数字出现次数）1

（2）、5（5）、8

（2）、10（4）、12、14（3）、15（5）、18（8）、20（7）、21（4）、25（5）、28、30（3）。

请分别用等宽的方法和等高的方法对上面的数据集进行划分。

（1）等宽方法：

划分为3个数据集，每个数据集的宽度为价格10。

价

格在1—10之间出现次数为13；

价格在11—20之间出现的次数为24；

价格在21—30之间出现的次数为13。

（2）等高方法：

划分为2个数据集，每个数据集的高度为出现的次数

4。

出现次数1—4之间的价格为1、&

10、12、14、21、28、30，共8个数据；

出现次数5—8之间的价格为5、15、18、20、25,共5个数据。

第四章关联规则

1）考虑如下的频繁3-项集：

｛1,2,3｝

，{1,2,4}，{1,2,5}，{1,

3,4｝，｛1,3,5｝，｛2,3,4｝，｛2,3,5｝，｛3,4,5｝。

（a）根据Apriori算法的候选项集生成方法，写出利用频繁3-项集生

成的所有候选4-项集。

{1,2,3,4};

{1,2,3,5};

{1,2,4,5};

{1,3,4,5};

{2,3,4,5}

（b）写出经过剪枝后的所有候选4-项集.

2）一个数据库有5个事务，如下表所示。

设min_sup=60%,min_conf=80%。

事务ID

购买的商品

T100

{M,O,N,K,E,丫}丁

T200

{D,O,N,K,E,Y}

T300

{M,A,K,E}

T400

{M,U,C,K,Y}

T500

{C,O,O,K,I,E}

（a）

FP-growth算法

分别用Apriori算法和FP-growth算法找出所有频繁项集。

比较两种挖掘方法的效率。

Apriori算法

Ed匚

水沿丄一

仆；

件

k：

效率比较：

Apriori需多次扫描数据库而FP增长建立FP树只需一次的扫描。

在Apriori算法中产生候选是昂贵的（由于联接），而FP增长不产生任何候选,但是FP消耗了大量的存，当数据量很大时。

（b）比较穷举法和Apriori算法生成的候选项集的数量。

穷举法：

M=2-1=211-1=2047

Apriori算法：

（c）利用（a）所找出的频繁项集，生成所有的强关联规则和对应的支持度和置信度。

{0,K}—>

{E}，支持度0.6，置信度1

{0,E}—>

{k}，支持度0.6，置信度1

3）如下表所示的相依表汇总了超级市场的事务数据。

其中hotdogs指包含热狗的事务，hotdogs指不包含热狗的事务。

hamburgers指包含汉堡的事务，hamburgers指不包含汉堡的事务。

hotdogs

艺row

Hamburgers

2,000

500

[2,500

hamburgers

1,000

1,500

2,500

艺col

3,000

「5,000

假设挖掘出的关联规则是“hotdogs?

hamburgers”。

给定最小支持度阈值25呀口最小置信度阈值50%，这个关联规则是强规则吗？

s（{hotdogs}）=3000/5000=60%;

s（{hotdogs,hamburgers}）=2000/5000=40%

C（{hotdogs}—{hamburgers}）=40%/60%=66.7%

故这个关联规则是强规则。

计算关联规则“hotdogs?

hamburgers”的提升度，能够说明什么问

题？

购买热狗和购买汉堡是独立的吗？

如果不是，两者间存在哪种相关关系？

S（{hamburgers}）=2500/5000=50%

提升度lift（{hotdogs}f{hamburgers}）=C（{hotdogs}f{hamburgers}）/S（{hamburgers}）=1.334提升度大于1,表明hotdogs和hamburgers不是互相独立的，二者之间存在正相关关系。

第五章分类和预测

1）简述决策树分类的主要步骤。

决策树生成的过程如下：

（1）对数据源进行数据预处理，得到训练集和测试集;

（2）对训练集进行训练；

（3）对初始决策树进行树剪枝；

（4）由所得到的决策树提取分类规则；

（5）使用测试数据集进行预测，评估决策树模型；

2）考虑下表所示二元分类问题的数据集。

类标号

（a）计算按照属性A和B划分时的信息增益。

决策树归纳算法将

会选择那个属性？

按照属性A和B划分时，数据集可分为如下两种情况：

A=T

A=F

B=T

B=F

划分前样本集的信息熵为

E=-0.4log20.4-0.6log20.6=0.9710

按照属性A划分样本集分别得到的两个子集（A取值T和A取值F）的信

息熵分别为：

为訂0,怦“

环f二雳纭“抿祜技和探f鼾惮

纟二°

△二£

命%厂话知F

二。

斶3

按照属性B划分样本集分别得到的两个子集（B取值T和B取值F）的信息熵分别为：

-*网詁二個13

2二o、6s90b

△二E-＜屍7厉勾:

二trz歹6，

因此，决策树归纳算法将会选

展开阅读全文