数据挖掘复习题纲资料.docx
《数据挖掘复习题纲资料.docx》由会员分享,可在线阅读,更多相关《数据挖掘复习题纲资料.docx(15页珍藏版)》请在冰豆网上搜索。
数据挖掘复习题纲资料
一、
1.2数据仓库与数据库有何不同?
它们有哪些相似之处?
简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。
维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。
单从概念上讲,有些晦涩。
任何技术都是为应用服务的,结合应用可以很容易地理解。
以银行业务为例。
数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。
数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。
比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。
如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。
显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。
事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。
而分析系统是事后的,它要提供关注时间段内所有的有效数据。
这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。
那么,数据仓库与传统数据库比较,有哪些不同呢?
让我们先看看W.H.Inmon关于数据仓库的定义:
面向主题的、集成的、与时间相关且不可修改的数据集合。
“面向主题的”:
传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。
这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。
也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。
“与时间相关”:
数据库保存信息的时候,并不强调一定有时间信息。
数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。
决策中,时间属性很重要。
同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。
“不可修改”:
数据仓库中的数据并不是最新的,而是来源于其它数据源。
数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。
因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。
数据仓库的出现,并不是要取代数据库。
目前,大部分数据仓库还是用关系数据库管理系统来管理的。
可以说,数据库、数据仓库相辅相成、各有千秋。
补充一下,数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。
为了更好地为前端应用服务,数据仓库必须有如下几点优点,否则是失败的数据仓库方案。
1.效率足够高。
客户要求的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。
由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。
2.数据质量。
客户要看各种信息,肯定要准确的数据,但由于数据仓库流程至少分为3步,2次ETL,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
3.扩展性。
之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,客户不用太快花钱去重建数据仓库系统,就能很稳定运行。
主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
1.3定义下列数据挖掘功能:
特征化、区分、关联和相关性分析、分类、回归、聚类、离君点分析。
使用你熟悉的现实生活中的数据库,给出每种数据挖掘功能的例子。
特征化是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:
Gradepointaversge)的信息,还有所修的课程的最大数量。
.区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。
最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA的学生的75%是四年级计算机科学专业的学生,
而具有低GPA的学生的65%不是。
.关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。
例如,一个数据挖掘系统可能发现的关联规则为:
major(X,“computingscience”)⇒owns(X,“personalcomputer”)
[support=12%,confidence=98%]
其中,X是一个表示学生的变量。
这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。
这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
.分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。
它们的相似性是他们都是预测的工具:
分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。
.聚类分析的数据对象不考虑已知的类标号。
对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。
形成的每一簇可以被看作一个对象类。
聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。
.数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析
二、
2.2假设所分析的数据包括属性age,它在数据元组中的值(以递増)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70
A)该数据的均值是多少?
中位数是什么?
B)该数据的众数是什么?
讨论数据的模态(即二模,三模等)。
C)该数据的中列数是多少
D)你能(粗略地)找出该据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?
E)给出该数据的五数概括。
F)绘制出该数据的盒图。
G)分位数——分位数图与分位数图有何不同?
解答:
(a)该数据的均值是什么?
中位数是什么?
(b)该数据的众数是什么?
讨论数据的峰(即双峰、三峰等)。
这个数集的众数有两个:
25和35,发生在同样最高的频率处,因此是双峰
众数。
(c)数据的中列数是什么?
数据的中列数是最大术和最小是的均值。
即:
midrange=(70+13)/2=41.5。
(d)你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)
吗?
数据集的第一个四分位数应发生在25%处,即在(N+1)/4=7处。
所以:
Q1=20。
而第三个四分位数应发生在75%处,即在3×(N+1)/4=21处。
所以:
Q3=35
(e)给出数据的五数概括。
一个数据集的分布的5数概括由最小值、第一个四分位数、中位数、第三个
四分位数、和最大值构成。
它给出了分布形状良好的汇总,并且这些数据是:
13、
20、25、35、70。
(f)画出数据的盒图。
略。
(g)分位数—分位数图与分位数图的不同之处是什么?
分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变
量的粗略百分比。
这样,他可以展示所有数的分位数信息,而为独立变量测得的
值(纵轴)相对于它们的分位数(横轴)被描绘出来。
但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一
单变量分布的分位数。
两个坐标轴显示它们的测量值相应分布的值域,且点按照
两种分布分位数值展示。
一条线(y=x)可画到图中,以增加图像的信息。
落在
该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值
的分布高。
反之,对落在该线以下的点则低。
2.3设给定的数据集已经分组到区间。
这些区间和对应频率如下所示:
Agefrequency
1-5200
6-15450
16-20300
21-501500
51-80700
80-11044
计算该数据的近似中位数。
2.4假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得到如下结果:
Age232327273941474950
Fat9.526.57.817.831.425.927.427.231.2
Age525454565758586061
Fat34.642.528.833.430.234.132.941.235.7
A)计算age和%fat的均值,中位数和标准差。
B)绘制age和%fat的盒图。
C)绘制基于这两个变量的散点图和q-q图。
三
3.3在习题2.2中,age包括如下值(以递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.
A)使用蒌3的箱,用箱均值光滑以上数据。
说明你的步骤,讨论这种技术对缎带定数据的效果。
B)如何确定该数据中的离群点?
C)还有什么其他方法来光滑数据?
(a)使用分箱均值光滑对以上数据进行光滑,箱的深度为3。
解释你的步骤。
评述对于给定的数据,该技术的效果。
用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤:
步骤1:
对数据排序。
(因为数据已被排序,所以此时不需要该步骤。
)
步骤2:
将数据划分到大小为3的等频箱中。
箱1:
13,15,16箱2:
16,19,20箱3:
20,21,22
箱4:
22,25,25箱5:
25,25,30箱6:
33,33,35
箱7:
35,35,35箱8:
36,40,45箱9:
46,52,70
步骤3:
计算每个等频箱的算数均值。
步骤4:
用各箱计算出的算数均值替换每箱中的每个值。
箱1:
44/3,44/3,44/3箱2:
55/3,55/3,55/3箱3:
21,21,21
箱4:
24,24,24箱5:
80/3,80/3,80/3箱6:
101/3,101/3,101/3
箱7:
35,35,35箱8:
121/3,121/3,121/3箱9:
56,56,56
(b)如何确定数据中的离群点?
聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。
落到簇的集
外的值可以被视为离群点。
作为选择,一种人机结合的检测可被采用,而计算机
用一种事先决定的数据分布来区分可能的离群点。
这些可能的离群点能被用人工
轻松的检验,而不必检查整个数据集。
(c)对于数据光滑,还有哪些其他方法?
其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界
光滑。
作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围
均是常量。
除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过
线性或多线性回归。
分类技术也能被用来对概念分层,这是通过将低级概念上卷
到高级概念来光滑数据。
3.5如下规范化方法的值域是什么?
A)最小-最大规范化
B)Z分数规范化。
C)Z分数规范化,使用均值绝对念头而不是标准差。
D)小数定标规范化。
(a)min-max规范化。
值域是[new_min,new_max]。
(b)z-score规范化。
值域是[(old_min-mean)/σ,(old_max-mean)/σ],总的来说,对于所有可能
的数据集的值域是(-∞,+∞)。
(c)小数定标规范化。
值域是(-1.0,1.0)。
3.6使用如下方法规范化如下数据组:
200,300,400,600,1000
(a)min=0,max=1,最小-最大规范化。
(b)Z分数规范化。
(c)Z分数规范化,使用均值绝对偏差而不是标准差。
(d)小数定标规范化。
(a)min-max规范化。
值域是[new_min,new_max]。
(b)z-score规范化。
值域是[(old_min-mean)/σ,(old_max-mean)/σ],总的来说,对于所有可能
的数据集的值域是(-∞,+∞)。
(c)小数定标规范化。
值域是(-1.0,1.0)。
4.1试述对于多个异构信息源的集成,为什么许多公司更愿意使用更新驱动的方法(构造和使用数据仓库),而不是查询驱动的方法(使用包装程序和集成程序)。
描述一些查询驱动方法比更新驱动方法更可取的情况。
答:
因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大。
而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理。
此外,数据仓库存储并集成历史信息,支持复杂的多维查询。
4.2简略比较以下概念,可以用例子解释你的观点。
(a)雪花模式、事实星座、星网查询模型。
(b)数据清理、数据变换、刷新。
(c)发现驱动的立方体、多特征冷言冷语腐朽、虚拟仓库
(a)雪花形模式、事实星座形、星形网查询模型。
答:
雪花形和事实星形模式都是变形的星形模式,都是由事实表和维表组成,雪花形模式的维表都是规范化的;而事实星座形的某几个事实表可能会共享一些维表;星形网查询模型是一个查询模型而不是模式模型,它是由中心点发出的涉嫌组成,其中每一条射线代表一个维的概念分层。
(b)数据清理、数据变换、刷新答:
数据清理是指检测数据中的错误,可能时订正它们;数据变换是将数据由遗产或宿主格式转换成数据仓库格式;刷新是指传播由数据源到数据仓库的更新。
4.5假定数据仓库包含4个维——date,spectator,location,game,2个度量——count和charge,其中charge是观众在给定的日期观看节目的费用。
观众可以是学生、成年人或老年人,每类观众有不同的收费标准。
(a)画出该数据仓库的星形模式图
(b)由基本方体【date,spectator,location,game】开始,为列出2010年学生观众在GM_place的总付费,应当执行哪些OLAP操作?
(c)对于数据仓库,位图是有用的。
以该数据立方体为例,简略讨论使用位图索引结构的优点和问题。
6.3Apriori算法使用子集支持度性质的先验知识。
(a)证明频繁项集的所有非空子集一定也是频繁的。
(b)证明项集s的任意非空子集s’的支持度至少与s的支持度一样大。
(c)给定频繁项集l和l的子集s,证明规则“s=>l(s’)”的置信度不可能大于“s=>l(s)”的置信度。
其中,s’是s的子集
(d)Apriori算法的一种变形将事务数据库D中的事务划分成n个不重叠的分区。
证明在D中频繁的项集至少在D的一个分区中是频繁的。
1.证明频繁集的所有非空子集必须也是频繁的。
证明:
根据定义,如果项集I不满足最小支持度阈值min_sup,则I不是频繁的,即
supmin_)(因此,也不是频繁
的,即矛盾。
2.同理可证。
3
6.6数据库有5个事务。
设min_sup=6-%,min_conf=80%。
TID购买的商品
T100{M,O,N,K,E,Y}
T200{D,O,N,K,E,Y}
T300{M,A,K,E}
T400{M,U,C,K,Y}
T500{C,O,O,K,I,E}
(a)分别使用Apriori算法和FP-growth算法找出频繁项集。
比较两种挖掘过程的有效性。
(b)列举所有与下面元规则匹配的强关联规则(缎带出支持度s和置信度c),其中,X是代表太阳穴的变量,item,是表示项的变量(如“A”,“B”等):
≯x∈transaction,buys(X,item1)∧buys(X,item2)=>buys(X,itm3)[s,c]
6.8数据库有4个事务。
设min_sup=60%,min_conf=80%。
Cust_IDTID购买的商品(以brand-item_category形式)
01T100{King’s-Carb,Sunset-Milk,Dairyland-Cheese,best-Bread}
02T200{Best-Cheese,Dairyland-Milk,Goldenfarm-Apple,Tasty-Pie,Wonder-Bread}
01T300{Westcoast-Apple,Dairyland-Milk,Wonder-Bread,Tasty-Pie}
03T400{Wonder-Bread,Sunset-Milk,Dairyland-Cheese}
(a)在item_category粒度(例如,item,所可能已经”milk”),对于下面的规则模板
≯x∈transaction,buys(X,item1)∧buys(X,item2)=>buys(X,item3)[s,c]
列出最大k的频繁k项集和包含最大k的频繁k諅的所有强关联规则(包括它们的支持度s和置信度c)。
(b)在brand-item_category粒度(例如,itemi可以是Sunset-Milk),对于下面的规则模板
≯x∈customer,buys(X,item1)∧buys(X,item2)=>buys(X,item3)
列出最大k的频繁k项集(但不输出任何规则)
7.3量化关联规则可能提示数据集中的异常行为,其中“异常”可以根据统计学理论定义。
例如,7.2.3节表明关联规则
Sex=female∧meanwage=7,90$/h(overallmeanwage=9.02$/h)
暗示一个异常模式。
该规则说明,女性的平均工资每小时只有7.90美元,显著地于每小时9.02美元的总体平均工资。
讨论如何在具有量化属性的大型数据集中系统而有效地发现这种量化规则。
8.1简述决策树分类的主要步骤。
8.7下表由雇员数据库的训练数据组成。
数据已泛化。
例如,age“31...35”表示年龄在31-35之间。
对于给定的行,count表department、status、age和salary在该行上具有给定值的元组数。
Departmentstatusagesalarycount
Salessenior31-3546k-50k30
Salesjunior26-3026-30k40
Salesjunior31-3531-35k40
Systemsjunior21-2546-50k20
Systemssenior31-3566-70k5
Systemsjunior26-3046-50k3
Systemssenior41-4566-70k3
Marketingsenior36-4046-50k10
Marketingjunior31-3541-45k4
Secretarysenior46-5036-40k4
Secretaryjunior26-3026-30k6
(a)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count?
(b)使用修改过的算法,构造绷带定数据的决策树
(c)给定一个数据元组,它的属性department、age和salary的值分别为“system”“26…30”和“46…60”。
该元级status的相互贝叶斯分类是什么?
解一:
设元组的各个属性之间相互独立,所以先求每个属性的类条件概率:
P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113;
P(26-30|junior)=(40+3+6)/113=49/113;
P(46K-50K|junior)=(20+3)/113=23/113;
∵X=(department=system,age=26…30,salary=46K…50K);
∴P(X|junior)=P(systems|junior)P(26-30|junior)P(46K-50K|junior)
=23×49×23/1133=25921/1442897=0.01796;
P(systems|senior)=(5+3)/(30+5+3+10+4)=23/52;
P(26-30|senior)=(0)/53=0;
P(46K-50K|senior)=(30+10)/52=40/52;
∵X=(department=system,age=26…30,salary=46K…50K);
∴P(X|senior)=P(systems|senior)P(26-30|senior)P(46K-50K|senior)=0;
∵P(junior)=113/165=0.68;
∵P(senior)=52/165=0.32;
∴P(X|junior)P(junior)=0.01796×0.68=0.0122128>0=0=P(X|senior)P(senior);
所以:
朴素贝叶斯分类器将X分到junior类。
解二:
设元组的各属性之间不独立,其联合概率不能写成份量相乘的形式。
所以已知:
X=(department=system,age=26…30,salary=46K…50K),元组总数
为:
30+40+40+20+5+3+3+10+4+4+6=165。
先验概率:
当status=senior时,元组总数为:
30+5+3+10+4=52,P(senior)=52/165=0.32;
当status=junior时,元组总数为:
40+40+20+3+4+6=113,
P(junior)=113/165=0.68;
因为status=senior状态没有对应的age=26…30区间,所以:
P(X|senior)=0;
因为status=junior状态对应的partment=systems、age=26…30区间的总元组
数为