数据仓库与数据挖掘ppt习题.ppt

上传人:b****2 文档编号:2646371 上传时间:2022-11-05 格式:PPT 页数:85 大小:2.54MB
下载 相关 举报
数据仓库与数据挖掘ppt习题.ppt_第1页
第1页 / 共85页
数据仓库与数据挖掘ppt习题.ppt_第2页
第2页 / 共85页
数据仓库与数据挖掘ppt习题.ppt_第3页
第3页 / 共85页
数据仓库与数据挖掘ppt习题.ppt_第4页
第4页 / 共85页
数据仓库与数据挖掘ppt习题.ppt_第5页
第5页 / 共85页
点击查看更多>>
下载资源
资源描述

数据仓库与数据挖掘ppt习题.ppt

《数据仓库与数据挖掘ppt习题.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘ppt习题.ppt(85页珍藏版)》请在冰豆网上搜索。

数据仓库与数据挖掘ppt习题.ppt

数据仓库与数数据仓库与数据据挖挖掘掘主讲教师:

王浩畅主讲教师:

王浩畅E-mail:

wanghch_SchoolofComputer&InformationTechnologyofNEPU第2章数据预处理练习练习11假定用于分析的数据包含属性age.数据元组age值(以递增序)是:

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.l(a)该数据的均值是什么?

中位数是什么?

l(b)该数据的众数是什么?

讨论数据的峰l(c)数据的中列数是什么?

解答解答(a)均值:

l中位数:

有序集中间值或者中间两个值平均。

奇数个,中间值:

25(b):

表示数据集中出现频率最高的值两个值出现了相同的最高频率,25和35,都出现了4次,也就是双峰(c)中列数:

最大值和最小值的平均l(13+70)/2=41.5练习练习22假定用于分析的数据包含属性age.数据元组age值(以递增序)是:

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.l(d)找出数据的第一个四分位数Q1和第三个四分位数Q3l(e)给出数据的五数概括解答解答(d)第一个四分位数Q1:

20第三个四分位数Q3:

35l中位数:

有序集中间值或者中间两个值平均。

奇数个,中间值:

25(e)五数概括:

13,20,25,35,70练习练习33假定用于分析的数据包含属性age.数据元组age值(以递增序)是:

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.l(f)画出数据的盒图解答解答2035257013年龄(f)52噪声数据噪声数据(3)(3)u数据平滑的分箱方法price的排序后数据(单位:

美元):

4,8,15,21,21,24,25,28,34划分为(等深的)箱:

l箱1:

4,8,15l箱2:

21,21,24l箱3:

25,28,34用箱平均值平滑:

l箱1:

9,9,9l箱2:

22,22,22l箱3:

29,29,29用箱边界平滑:

l箱1:

4,4,15l箱2:

21,21,24l箱3:

25,25,34练习练习假定用于分析的数据包含属性age.数据元组age值(以递增序)是:

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.l使用分箱均值光滑对以上数据进行光滑,箱的深度为3.解释你的步骤解答解答Step1:

排序数据.Step2:

将有序值划分到大小为3的等频箱中Step3:

计算每个箱中数据的算术平均值.Step4:

.将每个箱中的每个值用此箱的算术平均值替换Bin1:

44/3,44/3,44/3Bin2:

55/3,55/3,55/3Bin3:

21,21,21Bin4:

24,24,24u规范化最小最大规范化:

对原始数据进行线性变换。

假定minA和maxA分别为属性A的最小和最大值。

将A的值v映射到区间new_minA,new_maxA中的vl最小-最大规范化通过计算l例:

假定属性income的最小与最大值分别为12000美元和98000美元。

我们想把income映射到区间0.0,0.1。

根据最小最大规范化,income值73600美元将变换为:

数据变换数据变换

(2)

(2)z-score规范化:

属性A的值基于A的平均值和标准差规范化。

l最大最小值未知,或者离群点影响较大的时候适用l例:

假定属性income的均值和标准差分别为54000美元和16000美元。

使用z-score规范化,值73600美元转换为数据变换数据变换(3)(3)小数定标规范化:

通过移动属性A的小数点位置进行规范化。

小数点的移动位数依赖于A的最大绝对值。

例:

假定A的取值由-986917。

A的最大绝对值为986。

使用小数定标规范化,用1000(即j=3)除每个值,这样,986规范化为0.986,而917被规范化为0.917。

数据变换数据变换(4)(4)其中,j是使Max(|)1的最小整数练习练习用如下两种方法规范化如下数据组200;300;400;600;1000l(a)min-max规范化令min=0,max=1l(b)z-score规范化解答解答l(a)min-max规范化令min=0,max=1l(b)z-score规范化例下面的数据是AllElectronics通常销售的商品的单价表(按$取整)。

已对数据进行了排序:

1,1,5,5,5,5,5,5,8,8,10,10,10,10,12,12,12,12,14,14,14,15,15,15,15,15,15,18,18,18,18,18,18,18,18,20,20,20,20,20,20,20,21,21,21,21,25,25,25,25,25,25,28,28,30,30,30为进一步压缩数据,让每个桶代表price的一个不同值。

通过自然划分分段通过自然划分分段将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。

l聚类分析产生概念分层可能会将一个工资区间划分为:

51263.98,60872.34l通常数据分析人员希望看到划分的形式为50000,60000自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间自然划分的自然划分的3-4-53-4-5规则规则规则的划分步骤:

l如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(72,3,2)l如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间;l如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;l将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;l对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分顶层分段段时,选用一个大部分的概率空间。

e.g.5%-95%3-4-53-4-5规则规则例子例子u假定AllElectronics所有分部1999年的利润覆盖了一个很宽的区间,由-$351,976.00到$4,700,896.50。

用户希望自动地产生利润的概念分层。

为了改进可读性,我们使用记号(l.r表示区间(l,r。

例如,(-$1,000,000.$0表示由-$1,000,000(开的)到$0(闭的)的区间。

1根据以上信息,最小和最大值分别为MIN=-$351,976.00和MAX=$4,700,896.50。

对于分段的顶层或第一层,要考虑的最低(第5个百分位数)和最高(第95个百分位数)值是:

LOW=-$159,876,HIGH=$1,838,761。

2给定LOW和HIGH,最高有效位在百万美元数字位(即,msd=1,000,000)。

LOW向下对百万美元数字位取整,得到LOW=-$1,000,000;HIGH向上对百万美元数字位取整,得到HIGH=+$2,000,000。

3-4-53-4-5规则规则例子例子3由于该区间在最高有效位上跨越了三个值,即,(2,000,000(1,000,000)/1,000,000=3,根据3-4-5规则,该区间被划分成三个等宽的区间:

(-$1,000,000.$0,($0.$1,000,000和($1,000,000.$2,000,000。

这代表分层结构的最顶层。

4.现在,我们考察MIN和MAX,看它们“适合”在第一层分划的什么地方。

由于第一个区间(-$1,000,000.$0覆盖了MIN值(即,LOWHIGH,我们需要创建一个新的区间来覆盖它。

对MAX向上对最高有效位取整,新的区间为($2,000,000$5,000,000。

因此,分层结构的最顶层包含4个区间:

(-$400,000.$0,($0.$1,000,000,($1,000,000.$2,000,000和($2,000,000.$5,000,000。

3-4-53-4-5规则规则例子例子5.递归地,每一个区间可以根据3-4-5规则进一步划分,形成分层结构的下一个较低层:

l第一个区间(-$400,000.$0划分成4个子区间:

(-$400,000.-$300,000,(-$300,000.-$200,000,(-$200,000.-$100,000和(-$100,000.$0。

l第二个区间($0.$1,000,000划分成5个子区间:

($0.$200,000,($200,000.$400,000,($400,000.$600,000,($600,000.$800,000和($800,000.$1,000,000。

l第三个区间($1,000,000.$2,000,000划分成5个子区间:

($1,000,000.$1,200,000,($1,200,000.$1,400,000,($1,400,000.$1,600,000,($1,600,000.$1,800,000和($1,800,000$2,000,000。

l最后一个区间($2,000,000.$5,000,000划分成3个子区间:

($2,000,000.$3,000,000,($3,000,000.$4,000,000和($4,000,000.$5,000,000。

l类似地,如果必要的话,3-4-5规则可以在较低的层上继续迭代3-4-53-4-5规则规则例子例子(-$400-$5,000)(-$400-0)(-$400-$300)(-$300-$200)(-$200-$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)msd=1,000Low=-$1,000High=$2,000第二步第四步第一步第一步-$351-$159profit$1,838$4,700MinLow(i.e,5%-tile)High(i.e,95%-0tile)Maxcount(-$1,000-$2,000)(-$1,000-0)(0-$1,000)第三步($1,000-$2,000)第3章数据仓库和数据挖掘的OLAP技术习题习题假定数据仓库包含三个维:

time,doctor和patient;两个度量:

count和charge;其中,charge是医生对一位病人的一次来访的收费。

l(a)列举三种流行的数据仓库建模模式。

l(b)使用星型模式,画出上面数据仓库的模式图。

解答解答(a)星型模式、雪花模式、或事实星座模式(b)习题习题假定数据仓库包含三个维:

time,doctor和patient;两个度量:

count和charge;其中,charge是医生对一位病人的一次来访的收费。

l(c)由基本方体day,doctor,patient开始,为列出2004年每位医生的收费总数,应当执行哪些OLAP操作?

解答解答上卷(Roll-up)操作,时间维的概念分层向上攀升,从day攀升到year.切片(Slice)操作,fortime=2004.上卷(Roll-up)操作:

维规约,对patient维进行规约。

patientfromindividualpatienttoall.第4章挖掘频繁模式、关联和相关由事务数据库挖掘单

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工程科技 > 材料科学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1