数据挖掘复习111Word格式文档下载.docx

资源描述

数据挖掘复习111Word格式文档下载.docx

《数据挖掘复习111Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《数据挖掘复习111Word格式文档下载.docx（10页珍藏版）》请在冰豆网上搜索。

数据挖掘复习111Word格式文档下载.docx

（bookp105）（P3-3）

数据清理,数据集成与变换,数据归约。

7．什么是数据清理（datacleaning）？

（bookP109）（P3-5）

现实世界的数据一般是脏的、不完整的和不一致的，数据清理例程试图填充空缺的值，识别孤立点，消除噪声，并纠正数据中的不一致。

8．数据清理（datacleaning）的内容包括哪些？

（bookP109-112小节标题）（（P3-5-6））

填充缺失值，平滑噪音数据，纠正不一致的数据

9．什么是数据集成（dataintegration）？

（bookP1123.3.1）（P3-8）

将数据由多个源合并成一致的数据存储。

10．什么是数据归约（datareduction）？

（bookP116）（P3-10）

一种用于得到数据集归约表示的技术，它小得多，但仍接近于保持原数据的完整性。

11.将下列缩略语（acronym）复原

OLAP——on-lineanalyticalprocessing

DM——datamining

KDD——knowledgediscoveryindatabases

OLTP——on-linetransactionprocessing

DBMS——databasemanagementsystem

DWT——discretewavelettransform

12．什么是数据挖掘（datamining）？

答案1：

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

答案2：

（bookP5）（P1-6）数据挖掘就是从大量数据中提取或“挖掘”知识。

13．什么是关联规则（associationrule）？

（bookP23）（P1-14）

关联规则是形如XY，即“A1∪…∪Am”“B1∪…∪Bn”的规则（其中A1（i∈{1,…,m}）,Bj（j∈{1,…,n}）的属性值对。

14．什么是置信度（confidence）？

（p6-4-5）

置信度是条件概率P（Y|X）；

即，包含X的事务也包含Y的概率。

更形式地，置信度定义为

confidence（X⇒Y）=P（Y|X）

15．什么是支持度（support）？

支持度表示满足规则的样本百分比。

支持度是概率P（X∪Y），其中，X∪Y表示同时包含X和Y的事务；

即，项集X和Y的并。

更形式地，支持度定义为

support（X⇒Y）=P（X∪Y）

16．数据仓库（datawarehouse）的主要特征是什么？

（bookp40）（P2-3-4）

（1）面向主题的（subject-oriented）:

数据仓库围绕一些主题，如顾客、供应商、产品和销售组织。

（2）集成的（integrated）：

构造数据仓库是将多个异种数据源，如关系数据库、一般文件和联机事务处理记录，集成在一起。

（3）时变的（time-variant）：

数据存储从历史的角度提供信息数据仓库的关键结构，隐式地或显式地包含时间元素。

（4）非易失的（nonvolatile）：

数据仓库总是物理地分离存放数据；

这些数据源于操作环境下的应用数据。

由于这种分离，数据仓库不需要事务处理、恢复和并发控制机制。

它只需要两种数据访问：

数据的初始化装入和数据访问。

17．什么是数据集市（datamart）？

（bookP15）

答案：

数据集市是数据仓库的一个部门子集。

它聚焦在选定的主题上，是部门范围的。

18．数据库中的知识发现（knowledgediscoveryindatabases）过程由哪几个步骤组成？

（bookp7）（P1-6）

数据清理：

消除噪声或不一致数据。

数据集成：

将多种数据源组合在一起。

数据选择：

从数据库中检索与分析任务相关的数据。

数据变换：

数据变换或统一成适合挖掘的形式，如通过汇总或聚集操作。

数据挖掘：

基本步骤，使用智能方法提取数据模式。

模式评估：

根据某种兴趣度度量，识别表示知识的真正有趣的模式。

知识表示：

使用可视化和知识表示技术，向用户提供挖掘的知识。

19．典型的数据挖掘系统有哪几个主要成分？

（bookp7-9）（1-7-8）

数据库、数据仓库或其他数据库,数据库或数据仓库服务器,知识库,数据挖掘引擎,模式评估模块,图形用户界面。

20．从软件工程的观点来看，数据仓库的设计和构造包含哪些步骤？

（bookP64）（P2-20）

规划,需求分析,问题分析,仓库设计,数据集成和测试,部署数据仓库。

21-22.deleted

23．数据清理时，对空缺值有哪些处理方法？

（bookP1094-9）（3-5-6）

忽略元组

人工填写空缺值

使用一个常量填充空缺值

使用属性的平均值填充空缺值

使用与给定元组属同一类的所有样本的平均值

使用最可能的值填充空缺值。

24．什么是数据变换（datatransformation）？

包括哪些内容？

（bookP114）（3-8-9）

数据变换是把数据转换成适用于挖掘的形式。

所涉及的内容包括：

平滑：

去掉数据中的噪声。

包括分箱、聚类和回归。

属于数据清理。

聚集：

对数据进行汇总和聚集。

属于数据归约。

数据概化：

使用概念分层，用高层次概念替换低层次原始数据。

规范化：

将属性数据按比例缩放，使之落入一个小的特定区间。

属性构造：

构造新属性，加入到给定的属性集合中，为数据挖掘过程提供帮助。

25．数据归约（datareduction）的策略包括哪些？

（bookP116-117）（3-10）

数据立方体聚集,维归约,数据压缩,数值压缩,离散化和概念分层产生。

26．提高数据挖掘算法效率有哪几种思路？

共有三种思路：

（1）减少数据库扫描次数，这种技术对效率会有巨大提高。

（2）利用采样技术，对要挖掘的数据集合进行选择。

（3）采用并行数据挖掘。

因为大规模的数据库经常分布在若干网络节点上，并行挖掘技术显然能提高效率。

这对于在Internet上的海量数据挖掘研究具有重要的意义。

27．（P115P3-9例3.1）假定属性income的最小值与最大值分别为￥12000和￥98000，如映射income到区间[0.0，1.0]，根据min-max规范化，income值￥73600将变为0.716。

计算过程：

（73600-12000）/（98000-12000）*（1.0-0.0）+0.0=0.716

28．（P115P3-9例3.2）假定属性income的平均值和标准差分别为￥54000和￥16000。

使用Z-score规范化，值￥73600被转换为1.225。

（73600-54000）/16000=1.225

29．（P116P3-9例3.3）假定A的值由-986到917。

A的最大绝对值为986，使用小数定标规范化，-986被规范化为-0.986。

30．从结构角度来看，有三种数据仓库模型（datawarehousemodel）________________。

企业仓库,数据集市,虚拟仓库

31．什么是离散小波变换（discretewavelettransform）？

（bookP121）（P3-13）

离散小波变换是一种线性信号处理技术，当用于数据向量D时，将它转换成数值上不同的小波系数的向量D’。

两个向量具有相同的长度。

32.与数据挖掘类似的术语有：

（bookP5）（P1-6）

数据库中知识挖掘,知识提取,数据/模式分析,数据考古,数据捕捞。

33．解释下列术语（bookP7）（P1-6）

34．翻译下列术语

DataMining数据挖掘

Datawarehousing数据仓库

DataMart数据集市

drill-down下钻

roll-up上卷

OLAP联机分析处理

Datacube数据立方体

Associationrule关联规则

Datacleaning数据清理

Dataintegration数据集成

Datatransformation数据变换

Datareduction数据归约

35.可以对按季度汇总的销售数据进行______，来观察按月汇总的数据。

（bookP15）（P1-12）

A上卷B下钻C切片D切块

36．可以对按城市汇总的销售数据进行______，来观察按国家总的数据。

37．通过不太详细的数据得到更详细的数据，称为________。

（bookP60）（P2-16）

A上卷B下钻C细化D维规约

38．三层数据仓库结构中，从底层到顶层分别是_________________。

（bookP65）（P2-21）

仓库数据库服务器,OLAP服务器,客户

39．已知事务数据库D，假定最小支持度为2，使用Apriori算法求所有的频繁项集和它们的支持度。

（bookP232-234）（P6-6-8）

解：

1）在算法的第一次迭代，每个项都是候选1-项集的集合C1的成员。

算法简单地扫描所有的事务，对每个项的出现次数计数。

2）由最小事务支持计数为2（即min_sup=2／9=22％），可以确定频繁1-项集的集合L1。

它由具有最小支持度的候选1-项集组成。

3）为发现频繁2-项集的集合L2，算法使用L1╳L1产生候选2-项集的集合C2。

C2由

个2-项集组成。

4）下一步，扫描D中事务，计算C2中每个候选项集的支持计数，如图1的第二行的中间表所示。

5）确定频繁2-项集的集合L2，它由具有最小支持度的C2中的候选2-项集组成。

6）候选3-项集的集合C3的产生详细地列在图2中。

首先，令C3=L2╳L2={{I1，I2，13}，{I1，I2，I5}，{I1，I3，I5}，{I2，I3，I4}，{I2，I3，I5}，{I2，I4，I5}}。

根据Apriori性质，频繁项集的所有子集必须是频繁的，我们可以确定后4个候选不可能是频繁的。

因此，我们把它们由C3删除，这样，在此后扫描D确定L3时就不必再求它们的计数值。

注意，Apriori算法使用逐层搜索技术，给定k-项集，我们只需要检查它们的（k-1）-子集是否频繁。

7）扫描D中事务，以确定L3，它由具有最小支持度的C3中的候选3-项集组成（图1）。

8）算法使用L3╳L3产生候选4-项集的集合C4。

尽管连接产生结果{{I1，I2，I3，I5}}，这个项集被剪去，因为它的子集{I2，13，15}不是频繁的。

这样，C4=Ø

（空集），因此算法终止，找出了所有的频繁项集。

图2

40.什么是聚类（clustering）？

它与分类（classification）有什么不同？

（bookP335）

聚类就是将数据对象分组成为多个类或簇（cluster），在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。

它与分类不同的是，它要划分的类是未知的。

41.什么是区间标度变量？

（bookP339）

区间标度变量是一个粗略线性标度的连续度量。

42.大体上，主要的聚类算法可以划分为哪几类？

（bookP346-348）

（1）划分方法（partitioningmethod）：

给定一个n个对象或元组的数据库，一个划分方法构建数据的k个划分，每个划分表示一个聚簇，并且k≤n。

（2）层次的方法（hierarchicalmethod）：

层次的方法对给定数据对象集合进行层次的分解。

根据层次的分解如何形成，层次的方法可以分为凝聚的和分裂的。

（3）基于密度的方法（density-basedmethod）：

绝大多数划分方法基于对象之间的距离进行聚类。

这样的方法只能发现球状的簇，而在发现任意形状的簇上遇到了困难。

（4）基子网格的方法（grid-basedmethod）：

基于网格的方法把对象空间量化为有限数目的单元，形成了一个网格结构。

所有的聚类操作都在这个网格结构（即量化的空间）上进行。

（5）基于模型的方法（model-basedmethod）：

基于模型的方法为每个簇假定了一个模型，寻找数据对给定模型的最佳拟合。

展开阅读全文