数据挖掘考试提纲.docx

上传人:b****5 文档编号:6098978 上传时间:2023-01-03 格式:DOCX 页数:13 大小:90.82KB
下载 相关 举报
数据挖掘考试提纲.docx_第1页
第1页 / 共13页
数据挖掘考试提纲.docx_第2页
第2页 / 共13页
数据挖掘考试提纲.docx_第3页
第3页 / 共13页
数据挖掘考试提纲.docx_第4页
第4页 / 共13页
数据挖掘考试提纲.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

数据挖掘考试提纲.docx

《数据挖掘考试提纲.docx》由会员分享,可在线阅读,更多相关《数据挖掘考试提纲.docx(13页珍藏版)》请在冰豆网上搜索。

数据挖掘考试提纲.docx

数据挖掘考试提纲

第一章

1、数据挖掘的概念。

P3

数据挖掘是从大量数据中提取或“挖掘”知识。

数据挖掘是个过程,目的是知识发现。

数据挖掘的过程:

1数据预处理:

®数据清理(消除重复的、不完全的、违反语义约束的数据),

②数据集成(多种数据源可以组合在一起),③数据选择(从数据库中检索与

分析任务相关的数据),⑷数据变换(数据变换或统一成适合挖掘的形式,如

通过汇总或聚集操作)。

2数据挖掘(使用智能方法提取数据模式)

3模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)

4知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

2、数据挖掘有哪些模式。

P3

数据挖掘的模式:

1分类模式,2回归模式,3时间序列模式,4聚类模式,5关联规则模式,6序列模式。

3、什么是有意义的模式。

1)它易于理解。

2)在某种必然程度上,对于新的或检验数据是有效的。

3)是潜在有用的。

4)是新颖的。

如果一个模式符合用户确信的某种假设,它也是有趣的。

有趣的模式就是知识。

4、数据挖掘中能否挖掘出所有模式。

数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。

第二个问题——“数据挖掘系统能够产生所有有趣的模式吗?

”——涉及数据挖掘算法的完全性。

第三个问题——“数据挖掘系统能够仅产生有趣的模式吗”?

—是数据挖掘的优化问题。

5、数据挖掘的步骤(4),以及每一步骤的作用。

P4

图1*数撼挖掘视为知识发现过稈的一个步驟

6数据挖掘与知识发现有什么关系。

有趣的数据挖掘模式代表知识。

如果一个模式符合用户确信的某种假设,它也是有趣的。

有趣的模式就是知识。

7、数据挖掘的对象(11)。

P6-13

1)数据存储库包括:

关系数据库、数据仓库、事务数据库、高级数据库系统、一般文件、数据流和万维网。

2)高级数据库系统包括对象一关系数据库和面向特殊应用的数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库。

8、数据挖掘的功能(6)。

P14-18

功能:

1概念/类描述:

特征化和区分;2挖掘频繁模式,关联和相关;3分类

和预测;4聚类分析;

9、数据挖掘5个相关学科、技术。

P19图

数据挖掘是交叉学科,受多个学科影响。

包括数据库系统,统计学,机器学习,可视化和信息科学还有其他科学。

1、数据挖掘的第一阶段是数据预处理。

数据清理是用于去掉数据中的噪声数据,纠正不一致

2、数据预处理的分类、每个分类的作用、有什么技术。

P31

1数据清理(可以去掉数据中的噪声,纠正不一致):

试图填充缺失的值,光滑噪声并识别离群点,并纠正数据的不一致。

主要技术:

1缺失值;1忽略元组2人工填写缺失值3使用全局常量填充缺失值4使用属性的均值填充缺失值5使用与给定元组属同一类的所有样本的属性均值6使用最可能得值填充缺失值(使用推理进行预测);2光滑技术:

1分箱,2回归,3聚类

2数据集成(将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库或数据立方体);

3数据变换(将一种格式的数据转换为另一格式的数据(如规范化)或统一成合适于挖掘的形式。

主要技术:

®光滑(去掉数据中的噪声,如分箱技术,回归,聚类);

2聚集(对数据进行汇总或聚集);数据泛化(分层,用高层概念代替低层);

3规范化(1最大最小规范化

vvminA(new_maxAnew_minA)new_minA;maxAminA

[new_minA,new_maxA〕是映射后的区域,[mina,maxa]是变换前数据的最大

最小值。

v'是转换后的数据。

2z-score规范化v'-——Aa,a分别是原始

A

数据的平均值,和标准差);3小数定标规范化、v'二)

10」

⑷属性构造;

4数据归约(可以通过聚集、删除冗余特性或聚类等方法来压缩数据):

数据归约是保持原来数据的完整性,将数据集变小,并不影响对结果的分析。

归约的策略:

1数据立方体聚集2属性子集的选择3维度归约4数值归约5离散化和概念分层产生。

3、数据清理所需要的方法(6)。

P39

数据清理可以分为有监督和无监督两类。

主要技术:

1缺失值;1忽略元组2人工填写缺失值3使用全局常量填充缺失值4使用属性的均值填充缺失值5使用与给定元组属同一类的所有样本的属性均值6使用最可能得值填充缺失值(使用推理进行预测);2光滑技术:

1分箱,2回归,3聚类

4、什么是噪声数据。

如何处理(3)。

P40

噪声是被测量的变量的随机误差或方差。

处理:

(1)分箱。

(2)聚类。

(3)计算机和人工检查结合.(4)回归

5、数据集成的概念。

用来干什么。

方法有哪些。

P43

数据集成是将多个数据源合并成一致的数据存储,构成一个完整的数据集

如数据仓库或数据立方体

它需要统一原始数据中的所有矛盾之处,如字段的:

同名异义、异名同义、

单位不统一

字长不一致,从而把原始数据在最低层上加以转换,提炼和集成。

1模式集成,2冗余问题,3数据值冲突的检测与处理

6有哪些冗余

(2),解决方法。

P43-44

属性冗余:

常用的解决方法是相关分析检测;卡方检验(分类或离散数据);元组冗余

7、数据变换内容和含义(5)。

P45

数据变换将数据转换成适合于挖掘的形式。

主要是找到数据的特征表示,对数据进行规格化处理。

用维变换或转换方式减少有效变量的数目或找到数据的不变式

8、规范化有哪些方法。

至少掌握2种计算方法。

P45-46

®最大最小规范化

'vminav(new_maxAnew_minA)new_minA;

maxAminA_——

[new_mina,new_maxa]是映射后的区域,[mina,maxa]是变换前数据的最大最小值。

v是转换后的数据。

②z-score规范化v-―Aa,a分别是原始数据的平均值,和标准差);

A

③小数定标规范化、

v

10j

9、数据规约策略(47)。

P47

归约的策略:

1数据立方体聚集2属性子集的选择3维度归约4数值归约5

离散化和概念分层产生

10、属性子集选择的基本启发式方法包括什么技术(4)。

P48-49

1逐步向前选择2逐步向后删除3向前选择和向后删除的结合4决策树归纳第三章

1、数据仓库的概念、目的、特点。

P67数据仓库是一个面向主题的(围绕主题组织数据),集成的(由多个异构数据源集成),时变的和非易失的数据集合,支持管理部门的决策过程。

2、数据仓库的逻辑模式。

P72星形,雪花和事实星座模式

3、星型模式的事实表包括

(2)。

P73事实表:

包含度量值和关联维度表的码。

星形事实模型:

包括维表和事实表。

维表记录的是基本信息,事实表记录业务过程。

所以星形事实模型中,一般在维表上建立主键,在事实表上建立外键。

事实表包括了外键和业务过程的数据。

事实表包含联系事实与维度表的数字度量值和键。

事实数据表包含描述业务内特定事件的数据。

4、数据仓库的物理结构(3:

MRH-SQLServer是H*)。

P86

5、OLAP操作(5)。

P79

1上卷:

就是将高维的数据压缩到低维,是个数据的累加过程。

Eg:

从街道上卷到城市。

就是把同一城市的所有街道的数据累加起来。

(维度高低是属性的个数,维度高属性个数多)。

通过一个维德概念分层向上攀升,或者通过维归纳,对数据立方体进行聚集。

2下钻:

是把数据的维度进一步分解,跟上卷相反。

Eg:

从城市分解到街道。

上卷操作的逆操作。

从高层概括到底层概括,从不详细到更加详细。

3切片和切块:

就是固定某一维数据,再观察其它维度的数据。

Eg:

固定时

间维,观察不同地点的销售数量。

4投影和选择。

转轴:

可视化操作,从不同角度观察数据。

6数据仓库的实现(3)。

P88

高效的立方体计算技术,存取方法和查询处理技术;

7、数据立方体的有效计算

(2)。

P88

CDcomputecube操作与维灾难

Computecube操作对操作指定维的所有子集计算聚集。

(立方体计算的方体或分组总数为2的N次方。

如3维(3个属性)数据的立方体,分组总数:

2A3=8)

C2部分物化:

方体的选择计算。

(数据立方体的物化:

不物化、完全物化、部

分物化。

8、维灾难概念。

P89完全物化指定义数据立方体的格中所有的方体的计算。

通常需要过多的存储空间,特别是当维数和相关联的概念分层增长时,该问题称为维灾难。

9、N维有多少个顶点。

2的N次方。

2n

10、数据仓库的查询(取)方法(3)。

P90

1位图索引2连接索引3位图连接索引。

11、OLAP查询的有效处理步骤

(2)。

P92

1确定哪些操作应当在可利用的方体上执行

2确定相关操作应当使用哪些物化的方法。

第四章

1、冰山立方体的概念。

(多路数据聚集不能计算冰山立方体)。

冰山立方体:

不能满足阈值的单元,这种部分物化的单元称作冰山立方体。

2、BUC计算冰山立方体。

P109

1从顶点方体向下计算冰山立方体。

2Apriori剪枝。

3无共享聚集计算优点:

分治策略,减少不必要计算开销。

计算流程:

1扫描整个输入,计算整个度量。

2针对方体的每一维进行划分。

3针对每一个划分,对它进行聚集,为该划分创建一个元组并得到该元组的计算。

判断其分组计算是否满足最小支持度。

4如果满足,输出该划分的聚集元组,并在该划分上对下一维进行递归调用,否则进行剪枝操作。

3、OLAP预计算壳片段,缺点、计算。

P116-118

4、点查询、子立方体查询概念、计算。

P119-120

5、面向属性的归纳是用来干什么。

过程有哪些。

P128面向属性的归纳用于复杂的数据类型并依赖数据驱动的泛化过程。

1使用数据库查询收集任务相关的数据;2收集工作关系的统计量。

3导出主关系P

6、类比较的过程。

P136

1数据收集。

2维相关分析。

3同步泛化。

4导出比较的表示。

7、类描述:

特征化和比较的表示?

(这里不知道考什么)

第五章

1、支持度、置信度、提升度概念?

P147

定义N为总事务数,N(A)、N(B)分别为项集A、项集B出现的次数,N(AB)为项集A、项集B同时出现的次数,A、B为不相交项集AHB=?

,规则A-B表示由A推到B:

支持度:

对整体

小一、N(AB)

Support(AB)————

置信度:

对条件

提升度:

联合概率

NxN(AB)

S)xB)A(4)xN(B)

2、频繁项集概念。

P147

项的集合称为项集。

Eg:

{computer,antivirus_software}是2项集。

支持度计数:

项集出现的频率。

满足最小支持度的阀值的项集就是频繁项集。

3、Apriori算法、如何实现、缺点、改进方法。

P151。

P156,P157-159

Apriori算法:

是为布尔关联规则挖掘频繁项集的原创性算法。

性质:

频繁项集的所有非空子集也必须是频繁的。

缺陷:

1、它可能需要产生大量候选项集。

2、它可能需要重复地扫描数据库,通过模式匹配检查一个很大的候选集

改进:

1、不候选产生挖掘频繁项集。

2、使用垂直数据格式挖掘频繁项集。

3、挖掘闭频繁项集。

第六章

1、分类、预测的区别、关系。

P186

预测分为:

分类和数值预测。

分类是的目标值离散数据。

数值预测是的目标值是连续值或者有序值。

但是为了方便,把数值预测简称为预测。

分类:

*预测分类标号(或离散值)

*根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据

预测:

是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。

预测和分类的异同

相同点:

*两者都需要构建模型

都用模型来估计未知值

不同点:

*分类法主要是用来预测类标号(分类属性值)

预测法主要是用来估计连续值(量化属性值)

2、决策树算法过程,计算。

P198

1计算信息量。

2计算信息熵。

3计算信息增益。

4选择根节点,递归操作

3、信息增益公式、概念、如何计算。

P192

■选择信息爛最大的作为分类属性

■设口是D中任一元组冨于类Q的概率厂用Q;dI/|D|估计

■D中元组分类所需的期望信息(entropy):

m

力血(Q)二-工

j-i

■Information按属性A对D中元组进行划分所需的信息

力呃(D)=工守灯

(2)

戶DI

•信息增益:

原来的信息需求(近基于类的)与新的需求

(即对A划分之后得到的)之间的差

Gam(A)~Info(D)-Info/D)

4、神经网络输入层、输出层如何计算。

P215-216

向前传播输入:

1j

n

WijOij

i1

输出的计算:

oj

1

1eIj

神经网络的上一层输出构成下一层的输入

5、例题6-9。

P261

6线性回归、最小二乘法计算。

P231

W1

(Xix)(yi

i1

y)

W0yWlX

y是y的平均值,X是X的平均值

最终回归方程为:

yiw0w1wi

第七章

1、聚类分析的数据类型。

不同数据类型如何计算。

P253-254

数据结构:

数据矩阵(原数据),相异度矩阵(例如数据间的距离,反映对象

之间的相异度,测量差);

数据类型:

区间标度变量,二元变量,分类、序数和比例标度变量,混合类型的变量

X

区间标度变量:

O1标准化:

z-—z是标准化后的数据矩阵。

X原始数据,

是x平均值,是x的方差。

C2计算距离dqJ(Xikyjk)2(欧氏距离)。

把距

Vk1

离小的规划为一类。

分类变量:

djPP是全部变量总是,m是匹配数目

P

 

2、分类、序数和比例标度变量,计算例题7-3,7-5,7-6。

P256-260

对象标识符

Test1(分类的)

Test2序数的

Test3比例标

1

Code-A

优秀

445

2

Code-B

一般

22

3

Code-C

164

4

Code-A

优秀

1210

7-3:

计算分类变量的相异度

数据是Testi(分类的)行是对象(记录),列是属性(只有一列【维】)

pm

dj令P=1;得:

7-5计算比例标度量间的相异度。

数据是Test3比例标度

先对比例标度变量进行对数变换。

再计算距离。

Test3数据取对数得:

2.65,1.34,2.21,3.08。

求欧氏距离:

0

1,3059

Q.4335

0,4344

l_3059

0

0.8F24

1-7404

工4335

0.9724

0

0.8679

0_4344

1.7404

0-8579

0

7-6计算混合类型变量间的相异度

temp=log10(Test3)得到:

2.6484

1.3434)

2.2148

3-0S2S

Temp2=temp/(max(temp)-min(temp))得至U

1.5217

0.7713

1.2726

L7713

在对Temp2求距离。

0

0.7504

0.2491

0.2496

0.75C4

0

0.5013

1.0000

0.2491

0.5013

0

0.4937

0.2496

L0000

0.4SS7

0

3、主要聚类方法的分类P261。

划分法,层次法,基于网格的方法,基于模型的方法。

4、K均值、k中心点计算、区别、优缺点。

P263

K均值计算:

1随机选取K个对象作为初始聚类中心。

2计算对象到中心的相异度(距离),重新划分聚类。

3重新计算聚类中心(根据每一类(簇)的的平均值作为该类(簇)的中心)

k

2

®重复计算2,3步骤,直到平方误差准则E(Pm)误差到达最小值,

i1PC

或者分类不再变化。

K中心点的计算:

(1)从n个数据对象任意选择k个对象作为初始聚类仲心)代表。

(2)循环(3)到(5)直到每个聚类不再发生变化为止。

评价准则:

绝对误差标准

k

E|PO|

i1PCi

(3)依据每个聚类的中心代表对象,以及最小距离重新对相应对象进行划分。

(4)任意选择一个非中心对象Orandom;计算其与中心对象oj交换的整个成本S

(5)若S为负值则交换Orandom与oj以构成新聚类的k个中心对象。

区别:

K均值用每类的平均值作为聚类中心,K中心点是选用对象作为聚类中心。

优缺点:

k-medoids聚类算法比k-means聚类算法在处理异常数据和噪声数据方面更为鲁棒,因为与聚类均值相比,一个聚类中心的代表对象要较少受到异常数据或极端数据的影响。

但是前者的处理时间要比后者更大。

两个算法都需要用户事先指定所需聚类个数k。

5、层次方法。

P267

层次方法对给定数据对象集合进行层次的分解。

凝聚自底向上

分裂自顶向下的

缺点:

一旦一个步骤(合并或分裂)完成,它就不能被撤消,因此而不能更正错误的决定。

代表算法有:

BIRCH算法(利用层次方法的平衡迭代归约和聚类)、CURE算

法(利用代表点聚类

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1