电子科大大数据挖掘作业6Word文档格式.docx
《电子科大大数据挖掘作业6Word文档格式.docx》由会员分享,可在线阅读,更多相关《电子科大大数据挖掘作业6Word文档格式.docx(14页珍藏版)》请在冰豆网上搜索。
数据立方体
数据立方体是二维表格的多维扩展,如同几何学中立方体是形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个维度。
数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据。
多维数据模型上的OLAF操作
a)上卷(roll-up):
汇总数据
通过一个维的概念分层向上攀升或者通过维规约
b)下卷(drill-down):
上卷的逆操作
由不太详细的数据到更详细的数据,可以通过沿维的概念
分层向下或引入新的维来实现
c)切片和切块(sliceanddice)
投影和选择操作
d)转轴(pivot)
立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列
2)OLAP多维分析如何辅助决策?
举例说明。
OLAP是在多维数据结构上进行数据分析的,一般在多维数据上切片、
切块成简单数据来进行分析,或是上卷、下卷来分析。
OLAP要查询大量的日常商业信息,以及大量的商业活动变化情况,如每周购买量的变化值,经理通过查询变化值来做决策。
例如经理看到利润小于预计值是,就会去深入到各地区去查看产品利润情况,这样他会发现一些比较异常的数据。
经过进一步的分析和追踪查询可以发现问题并解决
3)举例说明OLAP的多维数据分析的切片操作。
切片就是在某两个维上取一定区间的维成员或全部维成员。
如用三维数组表示为(地区,时间,产品,销售额),如果在地区维度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产品的切片)。
第三章数据预处理
1)假定用于分析的数据包含属性age,数据元组中age的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。
(a)使用按箱平均值平滑对以上数据进行平滑,箱的深度为3。
解释你的步
骤。
评论对于给定的数据,该技术的效果
已知数据元组中age的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,
且箱的深度为3,划分为(等频)箱:
箱1:
13,15,16
箱2:
16,19,20
箱3:
20,21,22
箱4:
22,25,25
箱5:
25,25,30
箱6:
33,33,33
箱7:
35,35,35
箱8:
35,36,40
箱9:
45,46,52
箱10:
70
用箱均值光滑:
15,15,15
18,18,18
21,21,21
24,24,24
27,27,37
37,37,37
48,48,48
(b)对于数据平滑,还有哪些其它方法?
(1)回归:
可以用一个函数(如回归函数)拟合数据来光滑数据;
(2)聚类:
可以通过聚类检测离群点,将类似的值组织成群或簇。
直
观地,落在簇集合之外的值视为离群点。
2)使用习题1)给出的age数据,回答以下问题:
(a)使用min-max规化,将age值35转换到[0.0,1.0]区间。
已知最大值为70,最小值为13,则可将35规化为:
(b)
(c)
(d)
|35-13|
(70-13)
=0.386
使用z-score规化转换age值35,其中,age的标准偏差为12.94年。
已知均值为30,标准差为12.94,则可将35规化为:
35-30
——=0.386
12.94
使用小数定标规化转换age值35。
使用小数定标规化可将35规化为:
35小厂
=0.35
100
指出对于给定的数据,你愿意使用哪种方法。
述你的理由。
对于给定的数据,你愿意使用min-max规化。
理由是计算简单。
3)以下是一个商场所销售商品的价格清单(按递增顺序排列,括号中的数表示
前面数字出现次数)1
(2)、5(5)、8
(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。
请分别用等宽的方法和等高的方法对上面的数据集进行划分。
(1)等宽方法:
划分为3个数据集,每个数据集的宽度为价格10。
价
格在1—10之间出现次数为13;
价格在11—20之间出现的次数为24;
价格在21—30之间出现的次数为13。
(2)等高方法:
划分为2个数据集,每个数据集的高度为出现的次数
4。
出现次数1—4之间的价格为1、&
10、12、14、21、28、30,共8个数据;
出现次数5—8之间的价格为5、15、18、20、25,共5个数据。
第四章关联规则
1)考虑如下的频繁3-项集:
{1,2,3}
,{1,2,4},{1,2,5},{1,
3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}。
(a)根据Apriori算法的候选项集生成方法,写出利用频繁3-项集生
成的所有候选4-项集。
{1,2,3,4};
{1,2,3,5};
{1,2,4,5};
{1,3,4,5};
{2,3,4,5}
(b)写出经过剪枝后的所有候选4-项集.
2)一个数据库有5个事务,如下表所示。
设min_sup=60%,min_conf=80%。
事务ID
购买的商品
T100
{M,O,N,K,E,丫}丁
T200
{D,O,N,K,E,Y}
T300
{M,A,K,E}
T400
{M,U,C,K,Y}
T500
{C,O,O,K,I,E}
(a)
FP-growth算法
分别用Apriori算法和FP-growth算法找出所有频繁项集。
比较两种挖掘方法的效率。
Apriori算法
Ed匚
水沿丄一
仆;
件
Rm
<
k:
°
o
效率比较:
Apriori需多次扫描数据库而FP增长建立FP树只需一次的扫描。
在Apriori算法中产生候选是昂贵的(由于联接),而FP增长不产生任何候选,但是FP消耗了大量的存,当数据量很大时。
(b)比较穷举法和Apriori算法生成的候选项集的数量。
穷举法:
M=2-1=211-1=2047
Apriori算法:
23
(c)利用(a)所找出的频繁项集,生成所有的强关联规则和对应的支持度和置信度。
{0,K}—>
{E},支持度0.6,置信度1
{0,E}—>
{k},支持度0.6,置信度1
3)如下表所示的相依表汇总了超级市场的事务数据。
其中hotdogs指包含热狗的事务,hotdogs指不包含热狗的事务。
hamburgers指包含汉堡的事务,hamburgers指不包含汉堡的事务。
hotdogs
艺row
Hamburgers
2,000
500
[2,500
hamburgers
1,000
1,500
2,500
艺col
3,000
「5,000
假设挖掘出的关联规则是“hotdogs?
hamburgers”。
给定最小支持度阈值25呀口最小置信度阈值50%,这个关联规则是强规则吗?
s({hotdogs})=3000/5000=60%;
s({hotdogs,hamburgers})=2000/5000=40%
C({hotdogs}—{hamburgers})=40%/60%=66.7%
故这个关联规则是强规则。
计算关联规则“hotdogs?
hamburgers”的提升度,能够说明什么问
题?
购买热狗和购买汉堡是独立的吗?
如果不是,两者间存在哪种相关关系?
S({hamburgers})=2500/5000=50%
提升度lift({hotdogs}f{hamburgers})=C({hotdogs}f{hamburgers})/S({hamburgers})=1.334提升度大于1,表明hotdogs和hamburgers不是互相独立的,二者之间存在正相关关系。
第五章分类和预测
1)简述决策树分类的主要步骤。
决策树生成的过程如下:
(1)对数据源进行数据预处理,得到训练集和测试集;
(2)对训练集进行训练;
(3)对初始决策树进行树剪枝;
(4)由所得到的决策树提取分类规则;
(5)使用测试数据集进行预测,评估决策树模型;
2)考虑下表所示二元分类问题的数据集。
A
B
类标号
T
F
+
-
(a)计算按照属性A和B划分时的信息增益。
决策树归纳算法将
会选择那个属性?
按照属性A和B划分时,数据集可分为如下两种情况:
A=T
A=F
4
3
B=T
B=F
1
5
划分前样本集的信息熵为
E=-0.4log20.4-0.6log20.6=0.9710
按照属性A划分样本集分别得到的两个子集(A取值T和A取值F)的信
息熵分别为:
为訂0,怦“
环f二雳纭“抿祜技和探f鼾惮
纟二°
"
△二£
命%厂话知F
二。
斶3
按照属性B划分样本集分别得到的两个子集(B取值T和B取值F)的信息熵分别为:
-*网詁二個13
2二o、6s90b
△二E-<屍7厉勾:
二trz歹6,
因此,决策树归纳算法将会选