数据挖掘考试提纲.docx

资源描述

数据挖掘考试提纲.docx

《数据挖掘考试提纲.docx》由会员分享，可在线阅读，更多相关《数据挖掘考试提纲.docx（13页珍藏版）》请在冰豆网上搜索。

数据挖掘考试提纲.docx

数据挖掘考试提纲

第一章

1、数据挖掘的概念。

数据挖掘是从大量数据中提取或“挖掘”知识。

数据挖掘是个过程，目的是知识发现。

数据挖掘的过程：

1数据预处理：

®数据清理（消除重复的、不完全的、违反语义约束的数据），

②数据集成（多种数据源可以组合在一起），③数据选择（从数据库中检索与

分析任务相关的数据），⑷数据变换（数据变换或统一成适合挖掘的形式，如

通过汇总或聚集操作）。

2数据挖掘（使用智能方法提取数据模式）

3模式评估（根据某种兴趣度度量，识别表示知识的真正有趣的模式）

4知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）

2、数据挖掘有哪些模式。

数据挖掘的模式：

1分类模式，2回归模式，3时间序列模式，4聚类模式，5关联规则模式，6序列模式。

3、什么是有意义的模式。

1）它易于理解。

2）在某种必然程度上，对于新的或检验数据是有效的。

3）是潜在有用的。

4）是新颖的。

如果一个模式符合用户确信的某种假设，它也是有趣的。

有趣的模式就是知识。

4、数据挖掘中能否挖掘出所有模式。

数据挖掘可能产生数以千计的模式或规则，但并不是所有的模式或规则都是令人感兴趣的。

第二个问题——“数据挖掘系统能够产生所有有趣的模式吗?

”——涉及数据挖掘算法的完全性。

第三个问题——“数据挖掘系统能够仅产生有趣的模式吗”?

—是数据挖掘的优化问题。

5、数据挖掘的步骤（4）,以及每一步骤的作用。

图1*数撼挖掘视为知识发现过稈的一个步驟

6数据挖掘与知识发现有什么关系。

有趣的数据挖掘模式代表知识。

如果一个模式符合用户确信的某种假设,它也是有趣的。

有趣的模式就是知识。

7、数据挖掘的对象（11）。

P6-13

1）数据存储库包括：

关系数据库、数据仓库、事务数据库、高级数据库系统、一般文件、数据流和万维网。

2）高级数据库系统包括对象一关系数据库和面向特殊应用的数据库，如空间数据库、时间序列数据库、文本数据库和多媒体数据库。

8、数据挖掘的功能（6）。

P14-18

功能：

1概念/类描述：

特征化和区分；2挖掘频繁模式，关联和相关；3分类

和预测；4聚类分析；

9、数据挖掘5个相关学科、技术。

P19图

数据挖掘是交叉学科，受多个学科影响。

包括数据库系统，统计学，机器学习,可视化和信息科学还有其他科学。

1、数据挖掘的第一阶段是数据预处理。

数据清理是用于去掉数据中的噪声数据，纠正不一致

2、数据预处理的分类、每个分类的作用、有什么技术。

P31

1数据清理（可以去掉数据中的噪声，纠正不一致）：

试图填充缺失的值，光滑噪声并识别离群点，并纠正数据的不一致。

主要技术：

1缺失值；1忽略元组2人工填写缺失值3使用全局常量填充缺失值4使用属性的均值填充缺失值5使用与给定元组属同一类的所有样本的属性均值6使用最可能得值填充缺失值（使用推理进行预测）；2光滑技术：

1分箱，2回归，3聚类

2数据集成（将多个数据源合并成一致的数据存储，构成一个完整的数据集，如数据仓库或数据立方体）；

3数据变换（将一种格式的数据转换为另一格式的数据（如规范化）或统一成合适于挖掘的形式。

；

主要技术：

®光滑（去掉数据中的噪声，如分箱技术，回归，聚类）；

2聚集（对数据进行汇总或聚集）；数据泛化（分层，用高层概念代替低层）；

3规范化（1最大最小规范化

vvminA（new_maxAnew_minA）new_minA；maxAminA

[new_minA,new_maxA〕是映射后的区域,[mina,maxa]是变换前数据的最大

最小值。

v'是转换后的数据。

2z-score规范化v'-——Aa,a分别是原始

数据的平均值，和标准差）；3小数定标规范化、v'二）

10」

⑷属性构造；

4数据归约（可以通过聚集、删除冗余特性或聚类等方法来压缩数据）：

数据归约是保持原来数据的完整性，将数据集变小，并不影响对结果的分析。

归约的策略：

1数据立方体聚集2属性子集的选择3维度归约4数值归约5离散化和概念分层产生。

3、数据清理所需要的方法（6）。

P39

数据清理可以分为有监督和无监督两类。

主要技术：

1分箱，2回归，3聚类

4、什么是噪声数据。

如何处理（3）。

P40

噪声是被测量的变量的随机误差或方差。

处理：

（1）分箱。

（2）聚类。

（3）计算机和人工检查结合.（4）回归

5、数据集成的概念。

用来干什么。

方法有哪些。

P43

数据集成是将多个数据源合并成一致的数据存储，构成一个完整的数据集

如数据仓库或数据立方体

它需要统一原始数据中的所有矛盾之处，如字段的：

同名异义、异名同义、

单位不统一

字长不一致，从而把原始数据在最低层上加以转换，提炼和集成。

1模式集成，2冗余问题，3数据值冲突的检测与处理

6有哪些冗余

（2）,解决方法。

P43-44

属性冗余：

常用的解决方法是相关分析检测；卡方检验（分类或离散数据）；元组冗余

7、数据变换内容和含义（5）。

P45

数据变换将数据转换成适合于挖掘的形式。

主要是找到数据的特征表示，对数据进行规格化处理。

用维变换或转换方式减少有效变量的数目或找到数据的不变式

8、规范化有哪些方法。

至少掌握2种计算方法。

P45-46

®最大最小规范化

'vminav（new_maxAnew_minA）new_minA；

maxAminA_——

[new_mina,new_maxa]是映射后的区域,[mina,maxa]是变换前数据的最大最小值。

v是转换后的数据。

②z-score规范化v-―Aa,a分别是原始数据的平均值，和标准差）；

③小数定标规范化、

10j

9、数据规约策略（47）。

P47

归约的策略：

1数据立方体聚集2属性子集的选择3维度归约4数值归约5

离散化和概念分层产生

10、属性子集选择的基本启发式方法包括什么技术（4）。

P48-49

1逐步向前选择2逐步向后删除3向前选择和向后删除的结合4决策树归纳第三章

1、数据仓库的概念、目的、特点。

P67数据仓库是一个面向主题的（围绕主题组织数据），集成的（由多个异构数据源集成），时变的和非易失的数据集合，支持管理部门的决策过程。

2、数据仓库的逻辑模式。

P72星形，雪花和事实星座模式

3、星型模式的事实表包括

（2）。

P73事实表：

包含度量值和关联维度表的码。

星形事实模型：

包括维表和事实表。

维表记录的是基本信息，事实表记录业务过程。

所以星形事实模型中，一般在维表上建立主键，在事实表上建立外键。

事实表包括了外键和业务过程的数据。

事实表包含联系事实与维度表的数字度量值和键。

事实数据表包含描述业务内特定事件的数据。

4、数据仓库的物理结构（3：

MRH-SQLServer是H*）。

P86

5、OLAP操作（5）。

P79

1上卷：

就是将高维的数据压缩到低维，是个数据的累加过程。

Eg：

从街道上卷到城市。

就是把同一城市的所有街道的数据累加起来。

（维度高低是属性的个数，维度高属性个数多）。

通过一个维德概念分层向上攀升，或者通过维归纳，对数据立方体进行聚集。

2下钻：

是把数据的维度进一步分解，跟上卷相反。

Eg：

从城市分解到街道。

上卷操作的逆操作。

从高层概括到底层概括，从不详细到更加详细。

3切片和切块：

就是固定某一维数据，再观察其它维度的数据。

Eg：

固定时

间维，观察不同地点的销售数量。

4投影和选择。

转轴：

可视化操作，从不同角度观察数据。

6数据仓库的实现（3）。

P88

高效的立方体计算技术，存取方法和查询处理技术；

7、数据立方体的有效计算

（2）。

P88

CDcomputecube操作与维灾难

Computecube操作对操作指定维的所有子集计算聚集。

（立方体计算的方体或分组总数为2的N次方。

如3维（3个属性）数据的立方体，分组总数：

2A3=8）

C2部分物化：

方体的选择计算。

（数据立方体的物化：

不物化、完全物化、部

分物化。

）

8、维灾难概念。

P89完全物化指定义数据立方体的格中所有的方体的计算。

通常需要过多的存储空间，特别是当维数和相关联的概念分层增长时，该问题称为维灾难。

9、N维有多少个顶点。

2的N次方。

10、数据仓库的查询（取）方法（3）。

P90

1位图索引2连接索引3位图连接索引。

11、OLAP查询的有效处理步骤

（2）。

P92

1确定哪些操作应当在可利用的方体上执行

2确定相关操作应当使用哪些物化的方法。

第四章

1、冰山立方体的概念。

（多路数据聚集不能计算冰山立方体）。

冰山立方体：

不能满足阈值的单元，这种部分物化的单元称作冰山立方体。

2、BUC计算冰山立方体。

P109

1从顶点方体向下计算冰山立方体。

2Apriori剪枝。

3无共享聚集计算优点：

分治策略，减少不必要计算开销。

计算流程：

1扫描整个输入，计算整个度量。

2针对方体的每一维进行划分。

3针对每一个划分，对它进行聚集，为该划分创建一个元组并得到该元组的计算。

判断其分组计算是否满足最小支持度。

4如果满足，输出该划分的聚集元组，并在该划分上对下一维进行递归调用，否则进行剪枝操作。

3、OLAP预计算壳片段，缺点、计算。

P116-118

4、点查询、子立方体查询概念、计算。

P119-120

5、面向属性的归纳是用来干什么。

过程有哪些。

P128面向属性的归纳用于复杂的数据类型并依赖数据驱动的泛化过程。

1使用数据库查询收集任务相关的数据；2收集工作关系的统计量。

3导出主关系P

6、类比较的过程。

P136

1数据收集。

2维相关分析。

3同步泛化。

4导出比较的表示。

7、类描述：

特征化和比较的表示？

（这里不知道考什么）

第五章

1、支持度、置信度、提升度概念？

P147

定义N为总事务数，N（A）、N（B）分别为项集A、项集B出现的次数，N（AB）为项集A、项集B同时出现的次数，A、B为不相交项集AHB=?

，规则A-B表示由A推到B:

支持度：

对整体

小一、N（AB）

Support（AB）————

置信度：

对条件

提升度：

联合概率

NxN（AB）

S）xB）A（4）xN（B）

2、频繁项集概念。

P147

项的集合称为项集。

Eg：

{computer，antivirus_software}是2项集。

支持度计数：

项集出现的频率。

满足最小支持度的阀值的项集就是频繁项集。

3、Apriori算法、如何实现、缺点、改进方法。

P151。

P156,P157-159

Apriori算法：

是为布尔关联规则挖掘频繁项集的原创性算法。

性质：

频繁项集的所有非空子集也必须是频繁的。

缺陷：

1、它可能需要产生大量候选项集。

2、它可能需要重复地扫描数据库，通过模式匹配检查一个很大的候选集

合

改进：

1、不候选产生挖掘频繁项集。

2、使用垂直数据格式挖掘频繁项集。

3、挖掘闭频繁项集。

第六章

1、分类、预测的区别、关系。

P186

预测分为：

分类和数值预测。

分类是的目标值离散数据。

数值预测是的目标值是连续值或者有序值。

但是为了方便，把数值预测简称为预测。

分类：

*预测分类标号（或离散值）

*根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据

预测：

是构造和使用模型评估无样本类，或评估给定样本可能具有的属性或值空间。

预测和分类的异同

相同点：

*两者都需要构建模型

都用模型来估计未知值

不同点：

*分类法主要是用来预测类标号（分类属性值）

预测法主要是用来估计连续值（量化属性值）

2、决策树算法过程，计算。

P198

1计算信息量。

2计算信息熵。

3计算信息增益。

4选择根节点，递归操作

3、信息增益公式、概念、如何计算。

P192

■选择信息爛最大的作为分类属性

■设口是D中任一元组冨于类Q的概率厂用Q；dI/|D|估计

■D中元组分类所需的期望信息（entropy）:

力血（Q）二-工

j-i

■Information按属性A对D中元组进行划分所需的信息

力呃（D）=工守灯

（2）

戶DI

•信息增益：

原来的信息需求（近基于类的）与新的需求

（即对A划分之后得到的）之间的差

Gam（A）~Info（D）-Info/D）

4、神经网络输入层、输出层如何计算。

P215-216

向前传播输入：

WijOij

输出的计算：

1eIj

神经网络的上一层输出构成下一层的输入

5、例题6-9。

P261

6线性回归、最小二乘法计算。

P231

（Xix）（yi

y）

W0yWlX

y是y的平均值，X是X的平均值

最终回归方程为：

yiw0w1wi

第七章

1、聚类分析的数据类型。

不同数据类型如何计算。

P253-254

数据结构：

数据矩阵（原数据），相异度矩阵（例如数据间的距离，反映对象

之间的相异度，测量差）；

数据类型：

区间标度变量，二元变量，分类、序数和比例标度变量，混合类型的变量

区间标度变量：

O1标准化：

z-—z是标准化后的数据矩阵。

X原始数据，

是x平均值,是x的方差。

C2计算距离dqJ（Xikyjk）2（欧氏距离）。

把距

Vk1

离小的规划为一类。

分类变量：

djPP是全部变量总是，m是匹配数目

2、分类、序数和比例标度变量，计算例题7-3，7-5，7-6。

P256-260

对象标识符

Test1（分类的）

Test2序数的

Test3比例标

度

Code-A

优秀

445

Code-B

一般

Code-C

好

164

Code-A

优秀

1210

7-3:

计算分类变量的相异度

数据是Testi（分类的）行是对象（记录），列是属性（只有一列【维】）

dj令P=1；得：

7-5计算比例标度量间的相异度。

数据是Test3比例标度

先对比例标度变量进行对数变换。

再计算距离。

Test3数据取对数得：

2.65,1.34,2.21,3.08。

求欧氏距离:

1,3059

Q.4335

0,4344

l_3059

0.8F24

1-7404

工4335

0.9724

0.8679

0_4344

1.7404

0-8579

7-6计算混合类型变量间的相异度

temp=log10（Test3）得到：

2.6484

1.3434）

2.2148

3-0S2S

Temp2=temp/（max（temp）-min（temp））得至U

1.5217

0.7713

1.2726

L7713

在对Temp2求距离。

0.7504

0.2491

0.2496

0.75C4

0.5013

1.0000

0.2491

0.5013

0.4937

0.2496

L0000

0.4SS7

3、主要聚类方法的分类P261。

划分法，层次法，基于网格的方法，基于模型的方法。

4、K均值、k中心点计算、区别、优缺点。

P263

K均值计算：

1随机选取K个对象作为初始聚类中心。

2计算对象到中心的相异度（距离），重新划分聚类。

3重新计算聚类中心（根据每一类（簇）的的平均值作为该类（簇）的中心）

®重复计算2，3步骤，直到平方误差准则E（Pm）误差到达最小值,

i1PC

或者分类不再变化。

K中心点的计算:

（1）从n个数据对象任意选择k个对象作为初始聚类仲心）代表。

（2）循环（3）到（5）直到每个聚类不再发生变化为止。

评价准则：

绝对误差标准

E|PO|

i1PCi

（3）依据每个聚类的中心代表对象，以及最小距离重新对相应对象进行划分。

（4）任意选择一个非中心对象Orandom；计算其与中心对象oj交换的整个成本S

（5）若S为负值则交换Orandom与oj以构成新聚类的k个中心对象。

区别：

K均值用每类的平均值作为聚类中心，K中心点是选用对象作为聚类中心。

优缺点：

k-medoids聚类算法比k-means聚类算法在处理异常数据和噪声数据方面更为鲁棒，因为与聚类均值相比，一个聚类中心的代表对象要较少受到异常数据或极端数据的影响。

但是前者的处理时间要比后者更大。

两个算法都需要用户事先指定所需聚类个数k。

5、层次方法。

P267

层次方法对给定数据对象集合进行层次的分解。

凝聚自底向上

分裂自顶向下的

缺点:

一旦一个步骤（合并或分裂）完成，它就不能被撤消，因此而不能更正错误的决定。

代表算法有：

BIRCH算法（利用层次方法的平衡迭代归约和聚类）、CURE算

法（利用代表点聚类

展开阅读全文