数据挖掘概念与技术第三版部分习题答案.docx
《数据挖掘概念与技术第三版部分习题答案.docx》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术第三版部分习题答案.docx(31页珍藏版)》请在冰豆网上搜索。
数据挖掘概念与技术第三版部分习题答案
数据仓库和数据库有何不同有哪些相似之处
答:
区别:
数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。
它用表组织数据,采用ER数据模型。
相似:
它们都为数据挖掘提供了源数据,都是数据的组合。
定义下列数据挖掘功能:
特征化、区分、关联和相关分析、预测聚类和演变分析。
使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。
答:
特征化是一个目标类数据的一般特性或待性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:
Gradepointaversge)的信息,
还有所修的课程的最大数量。
□区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。
最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA的学生的75%是四年级计算机科学专业的学生,而具有低GPA的学生的65%不是。
□关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。
例如,一个数据挖掘系统可能发现的关联规则为:
major(X,"computingscience”)nowns(X,
upersonalcomputerM)
[support=12%,confidence二98%]其中.X是一个表示学生的变量。
这个规则指出正在学习的学生,12%
(支持度)主修计算机科学并且拥有一台个人计算机。
这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
□分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能)•而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。
它们的相似性是他们都是预测的工具:
分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。
□聚类分析的数据对象不考虑已知的类标号。
对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。
形成的每一簇可以被看作一个对象类。
聚类也便于分类法组织形式,将观测组织成类分
层结构,把类似的事件组织在一起。
□数据演变分析描述和模型化随时间变化的对象的规律或趋势•尽管这可能包括时间相关数据的特征化.区分、关联和相关分析.分类、或预测,这种分析的明确待征包括时间序列数据分析、序列或周期模式匹配.和基于相似性的数据分析
假设给定的数据集的值巳经分组为区间。
区间和对应的频率如下。
年龄
频率
C5
200
5~15
450
15~20
300
20~50
1500
50~80
700
80^110
44
?
计算数据的近似中位数值。
解答:
先判定中位数区间:
N=200+450+300+1500+700+44二3194;N/2=1597
I200+450+300二950〈1597〈2450二950+1500:
•••20、50对应中位数区间。
我们冇:
厶=20,¥=3197,(审•呦尸950,/轡®/=1500,我t"=30,使用公
式(23):
•:
median=岁。
假定用于分析的数据包含属性age。
数据元组的age值(以递增序)13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
答:
(a)该数据的均值長什么中位数長什么
均值
=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/
27
中位数应是第14个,即幻4=25二Q2。
该数据的众数是什么讨论数据的峰(即双峰.三峰等)。
这个数集的众数有两个:
25和35•发生在同样最高的频率处•因此是双峰众数。
数据的中列数是最大数和最小数的均值。
即:
midrange=(70H3)/2=o
(d)你能(粗略地)找出数据的笫一个四分位数(0)和笫三个四分位数3吗
数捋集的第一个四分位数应发生在25%处,即在(N+l)/4二(27+1)/4=7处。
所以:
5二20。
而第三个四分位数应发生在75%处,即在3X(N+1)/4=21处。
所以:
3=35
(e)给出数据的五数概括。
一个数据集的分布的5数概括由最小值、第一个四分位数.中位数、第三个四分位数.和最大值构成。
它给出了分布形状良好的汇总+并且这些数据是:
13、20、25、35、70o
(f)画出数据的盒图。
(g)分位数一分位数图与分位数图的不同之处長什么
分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。
这样•他可以展示所有数的分位数信息•而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。
但分位数一分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。
两个坐标轴显示它们的测量值相应分布的值域•且点按照两种分布分位数值展示。
一条线(y=x)可画到图中+以增加图像的信息。
落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高。
反之•对落在该线以下的点则低。
假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果:
age
23
23
27
27
39
41
17
49
50
%fat
9.5
26.5
7.8
17.8
31.4
25.9
27.4
27.2
31.2
age
52
54
54
56
57
58
58
60
61
%fat
34.6
42.5
2&8
33.4
30.2
34.1
32.9
41.2
35.7
@)计算年龄和脂肪百分比的均值、中位数和标准差.
年龄均值二(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=,中位数二(50+52)/2=51,
标准差二方差的平方根二开根号(l/n[E(Xi)2-l/n(EXi)2])=开根号1/18[]='脂肪百分比均值乞中位数二,标准差二.
(b)绘制年龄和脂肪百分比的盒图
60
1
・1
-
1
1
1
1
40
■1
S5
-
-
1
1
50
-
-
35
1
1
30
-
-
45
-
-
1
•s25
1
•1
>40
-
-
>
1
V
1
1
20
1
1
•
35
1
-
1
1
1
15
30
•1
1
1
?
5
1
1
1
■
10
+
1
+
(c)根据这两个属性,绘制散布图,各q-q图
(d)根据z-score规范化来规范化这两个属性(P46)
scatterpw
散布图
ageWat
age
23
23
27
27
39
41
47
49
50
“ge
-1.83
-1.83
-1.51
-1.51
•0.58
-0.42
0.04
0.20
0.28
%fat
9.5
26.5
7.8
17.8
31.4
25.9
27.4
27.2
31.2
z-%fat
-2.14
-0.25
233
-1.22
0.29
-0.32
-0.15
-0.18
0.27
dge
.72
54
54
56
57
58
58
6()
61
z-age
0.43
0.59
0.59
0.74
0.82
().90
0.9()
1.06
1.13
%fat
34.6
42.5
2&8
33.4
30.2
34.1
32.9
41.2
35.7
z-%fat
().65
1.53
0.()
(151
().16
0.50
0.46
1.38
0.77
'(e)计算相关系数(皮尔逊积矩系数).这两个变量是正相关还是负相关
(3厂A)(bi-B)/NowF(E(a>bi)-NAB)/NoAoB=(E(aibi)-18**)/18**=相关系数是。
变捷呈正相关。
使用习题给出的age数据回答下列问题:
(a)使用分箱均值光滑对以上数据进行光滑,箱的深度为3。
解释你的步骤。
评述对于给定的数据,该技术的效果。
(b)如何确定数据中的离群点
(C)对于数据光滑,还有哪些其他方法
解答:
(a)
的数据,该技术的效果。
使用分箱均值光滑对以上数据进行光滑,箱的深度为3。
解释你的步骤。
评述对于给定
用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤:
步骤1:
对数据排序。
(因为数据已被排序,所以此时不需要该步骤。
)步骤2:
将数据划分到大小为3
(b)如何确定数据中的离群点
聚类的方法可用来将相似的点分成组或“簇S并检测离群点。
落到簇的集外的值可以被视为离群点。
作为选择,一种人机结合的检测可被釆用,而计算机用一种事先决定的数据分布来区分可能的离群点。
这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。
(c)对于数据光滑,还有哪些其他方法
其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。
作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。
除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。
分类技术也能被用来对概念分层.这是通过将低级概念上卷到高级概念来光滑数据。
如下规范化方法的值域是什么
答:
(a)min-max规范化。
值域是[newmin,newmax]o
(b)z-score规范化。
值域是[(oldmin—mean)/o,(oldmax—mean)/o],总的来说,对于所有可能的数据集的值域是(—8,+8)。
(C)小数定标规范化。
值域是(一,O
使用习题给出的age数据,回答以下问题:
(a)使用min-max规范化age值35变换到[,]区间。
(b)使用z-score規范化变换age值35,其中ago的标准差为岁。
(
(C)使用小数定标規范化变换age值35。
(d)对于给定的数据,你愿意使用哪种方法陈述你的理由。
解答:
(a)使用mHi-max规范化将age値35变换到[OO1.0]区间。
*/nnn^=13imaxA=7Qtnr、v_nim£=0・0,new_niax^=l.0»而\=35,
tv-niint/・\
v=y—(刃maxJ+new_min左
max总-milld---
=.0-0.0)+0.0=0.3860
70-13
(b)使用z-score规范化变换age值3気其中age的标准差为12.94趴
13十15十2x16十19十2x20十21+2x22十4*25
27
30+2x33+4x35+36+40+45+46+52+70
809
~"27"
=29.963
fl)
旦=161.2949,
N
YU-a)
或宀匕厂=时986・
\-=35
或叮二-—=
4
卢亠963=5.037十妙"39
12.942112.9421
(c)使用小数定标规范化变换吒已值35。
由于最大的绝对值为70,所以皿V=^-=^=035
假设12个销售价格记录组巳经排序如下:
5,10,11,13,15,35.
50,55,72,92,204,215。
使用如下每种方法将其划分成三个箱。
(a)等頻(等深)划分。
(b)等宽划分。
(c)聚类。
解
答:
(a)等頻(等深)划分。
binl
5.10.11,13
c
f•■
15,35.50,55
(b)等宽划分。
每个区间的宽度是:
(215-5)/3=70
binl
5.10.11,13.15,35,50.55
binl
91
binl
204.215
(c)聚类。
我们可以使用一种简单的聚类技术:
用2个最大的间隙将数据分成3个箱。
binl
5.10.11,13.1
binl
35,50,55,72.9
binl
204.215
使用习题给出的age数据,
(a)画出一个等宽为10的等宽宜方图;
b解答:
(a)画出一个等宽为10的等宽直方图;
狐所以不能有相同的元组。
SRSWOR
(n=5)
SRSWR
(n=5)
T
16
T
20
T
20
T
20
T
22
T
35
T
25
T
35
T
52
T
46
Sample2
Sample5
聚类抽样:
设起始聚类共有6类,可抽其中的m类。
Samplei
Sample2
Sanple3
Sample4
Sample5
Sample6
T
13
T
20
T
25
T
33
T
35
T
52
T
15
T
20
T
25
T
33
T
36
T
70
T
16
T
21
T
25
T
35
T
40
T
16
T
22
T
25
T
35
T
45
T
19
T
22
T
30
T
35
T
46
T
20
T
35
T
20
T
36
T
21
T
40
T
22
T
45
T
22
T
46
Sample2Sample5
T
13
young
T
22
young
T
35
middleage
T
15
young
T
25
young
T
35
middleage
T
16
young
T
25
young
T
35
middleage
T
16
young
T
25
young
T
36
middleagt
T
19
young
T
25
young
T
40
middleage
T
20
young
T
30
middleage
T
45
middleage
T
20
young
T
33
middleage
T
46
middleage
T
21
young
T
33
middleage
T
52
middleage
T
22
young
T
35
middleage
T
70
senior
T
16
young
T
25
young
T
33
middleage
T
46
middleage
T
70
Senior
假定数据仓库包含三维:
time,doctor和patient;和两个度量:
count和charge;其中,charge是医生对病人一次诊治的收费。
(a)列举三种流行的数据仓库建模模式
答:
三类模式一般用于建模数据仓库架构的星形模型,雪花模型和事实星座模型。
(b)使用(a)列举的模式之一,画出上面的数据仓库的模式图
riine^key
rimeTey1一―
dooctorid
day
doctoridI
doctorname
dayo匚week
J
patientid|
phone#
month
/
/
address
quarter
/
chargei
sex
year
/
count[
time
doctor
dimensiontable葩"ble(liinensioiitable
patientdimensiontable
patient_id/
sex一
description
addieis
数据仓库的星形模型
(C)由基本方体[day,doctor,patient]开始,为列出2004年每位医生的收费总数,应当执行哪些OLAP操作沿课程(course)维从courseid"上卷"到departmento
沿时间(time}维从day“上卷”到yg
取time二2004、对维time昨“切片"操作沿病人(讯讥加)维从个别病人“上卷”到全部病人。
(d)为得到同样结果,写一个SQL查询。
假定数据存放在关系数据库中,其模式为
fee(day,month9year,doctor,hospital,patientscount,charge)c
答:
SQL查询语句如下:
selectdoctor.SUM(charge)
fromfee
whereyear=2004groupbydoctor
*^rea_id.
department)
major,status,university)♦course(course_name.
semester(semester,year)和instructor(dept.rank):
2个
B度量:
counti际课程成绩。
和avg_gradeo在最低概念层,度<avg_grade存放学生的实
在较高槪念层,avg_grade存放给定组合的平均成绩。
g(a)为该数据仓库画出雪花形模式图。
(b)由基本方体[student,course,semester.instructor]开:
始,为列出BigUniversity每个学生的CS课程的平均成绩,应当
:
使用哪些特殊的OLAP操作。
e(
T解爸:
s)
a)为该数摇仓库画出雪花形模式图。
雪花模式如图所示。
courseunivstudent
维表爭实表维表
b)由基本方体[student.course,semester,instructor]开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。
这些特殊的联机分析处理(OLAP)操作有:
i.沿课程(course)维从course_id"上卷”到departmento
ii.沿学生(student)维从student_id"上卷"到universityo
iii.取department="CS”和university二"BigUniversity7沿课程
(course)维和学生(student)维切片。
iv.沿学生(student)维从university下钻到student_nameo
这个立方体将包含5=625个方体。
如
果
每
维
有
5
层
假定数据仓库包含4维:
date,spectator,location.和game、和两个度疑:
count和charge;其中,charge是观众在给定的日期观看节目的付费。
观众可以是学生、成年人或老年人,每类观众有不同的收费标准。
(a)画出该数据仓库的星形模式图。
答:
星形模式图如下:
b.由基本方体[date,spectator,location,的加]开始,为列出2004年学生观众在GMPlace的总付费,应执行的OLAP操作:
沿时间(date)维从dateid"上卷"到year。
沿时间game)维从game.id“上卷”到全部。
沿时间(location)维从locationid"上卷"到location_name。
沿时间(.spectator}维从spectatorid"上卷"到status。
以status="studentslocationniune=f'GMPlace"andyear=2004作转轴操作
数据仓库可以用星形模式咸雪花模式建模。
简咯讨论这两种模式的相似点和不同点,然后分析它们的相对做优、缺点。
哪种模式更实用,给出你观点并陈述你的理由。
答:
星形模式或雪花模式的相似点是它们包含一个事实表和一些维表。
它们主要的不同在于,雪花模式的维表可能是规范化形式,以便减少了冗余,这种表易于维护并节省存储空间。
然而,与巨大的事实表相比,这种空间的节省可以忽略。
此外,由于执行查询需要更多的连接操作,雪花形结构可能降低浏览的性能,这样,系统的性能可能相对的受到影响。
星型模式的优点是简单、这使得它更有效,但它需要更多的空间。
因此,只要空间的要求不是太大时,星形模式比雪花模式更好,因为通常效率比空间具有更高的优先级。
在工业上,有时可能将数据从一个雪花模式非规范化为星型模式以加快处理速度,另一种选择是保持雪花模式的维表,然后相同数据的当前用户折叠为星形。
解答:
(a)根据计算数据芷方体所用的聚樂函数.列出•度虽的三种类型。
三聊度毘分别是:
分布式厦量.代数式度量.整休式厦量。
(b)烛于具有3个维time,location和product的数据立方体,函数variaact<方差)属于哪一类?
如果该立方休分刮成一些块.描述如何计算它。
提示£计算
variant函数的公式是z£壬(兀-打・其山.艾是这些口的平均似
N飞
囲为\曲边12函数的i卜算公式是:
又由于「代万事
因此方差函数可表示为:
所以.方差函数是代数度址。
如果立方休可以被分成许多大块,方差可以用
如下方法计算2逐个读取大块屮的每一个数据.保留并累加如下聚集
(1)元组的数址;
⑵叶)的和:
(3)兀的和。
渎完所有的块以后.将元组的数虽N、卅)的和.为的和帯入.就可应用上述
公式得到方差variance〜
(c)假迄函数是“最窩的10个销唐额二讨论如何在频据立方休里有效的计算该度童。
(1)对每个立方休,初始时先用10个存储单元存储任意选定的10个销售楸;
(2)将这10个存储祇元屮的销售额由大到小排序:
(3)在立方体中读一个元组,如来该元组屮的销書额大于10个中最小销害额,就用、前销售额替换用小甫皆额。
(4)亟复
(2)、(3),直到读遍芷方休中所有的元组后停止。
解答:
(a)简要描述每种实现技术。
关系联机分析处理技术(ROLAP)是中间