大数据挖掘考试重点复习Word下载.docx

资源描述

大数据挖掘考试重点复习Word下载.docx

《大数据挖掘考试重点复习Word下载.docx》由会员分享，可在线阅读，更多相关《大数据挖掘考试重点复习Word下载.docx（18页珍藏版）》请在冰豆网上搜索。

大数据挖掘考试重点复习Word下载.docx

4.理解维度爆炸给数据挖掘带来的困难

数据过高的维度会给计算带来麻烦，在数据挖掘处理时，它会耗费很多的处理时间和内存容量。

数据的高维度还使得数据间的关系也不容易察觉，增加了数据的无关属性和噪音点。

5.掌握数据仓库的定义并理解其四个方面的特征

数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。

数据仓库研究和解决从数据库中获取信息的问题。

（数据仓库是为支持管理决策建立的，面向主题的、集成的、随时间变化的、相对稳定的数据集合。

）

【滔注：

我觉得写括号里的会好一点】

四方面特征：

1　面向主题：

主题是指用户使用数据仓库进行决策时所关心的重点忙面。

2　集成性：

在数据进入数据仓库之前，要进过统一于综合，将多个异源数据集成在一起。

这一步是数据仓库建设中最关键、最复杂的一步。

3　时变性：

数据仓库随时间变化不断增加新的数据。

4　相对稳定性：

数据仓库反映的是历史的内容，而不是联机数据，主要供企业决策分析之用。

6.掌握数据挖掘的定义并描述其主要特征

【数据挖掘定义】从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。

数据挖掘是从大量数据中寻找其规律的技术。

【主要步骤】

（1）数据准备：

从各种数据源中选取和集成用于数据挖掘的数据；

（2）规律寻找：

用某种方法将数据中的规律找出来；

（3）规律表示：

用尽可能符合用户习惯的方式将找出的规律表示出来。

7.掌握Minkowski距离，并熟练计算l1，l2，l无穷norm

【L1norm】当r=1，城市街区（也称曼哈顿、出租车、L1范数）距离；

【L2norm】当r=2，欧几里得距离；

【L∞norm】当r=∞，上确界距离，这是对象属性之间的最大距离。

8.理解Hunt’s算法的基本过程

通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。

设Dt是与节点t相关联的训练记录集,而Y={y1,y2,…,yc}是类标号,Hunt算法的递归定义如下:

（1）如果Dt中所有记录都属于同一个类yt,则t是叶节点,用yt标记。

（2）如果Dt中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集。

对于测试条件的每个输出,创建一个子女节点,并根据测试结果将Dt中的记录分布到子女节点中。

然后,对于每个子女节点,递归地调用该算法。

9.掌握吉尼系数、熵的定义，会计算其最大值与最小值，理解信息增益在构造决策树时的意义

【基尼系数、熵是度量不纯度的方法】GINI系数和熵都是越小，代表所分的节点属性越纯，最小可取到0，表示这个节点中只有一个类。

当一个节点中有n个父节点，而且能分出n个子节点，GINI系数取到最大值，为1-1/n.熵也取到最大值log2n（滔注：

那个2是角标，不是log2n！

【基尼值的性质】：

越大越不纯，越小越纯，0最纯，1-1/n最不纯。

b.子节点基尼值

c.最大值、最小值

（最小值表示最纯，最大值表示最不纯）

【熵】在信息领域熵被用来衡量一个随机变量出现的期望值。

熵是对信息的不确定性的度量。

熵越低，意味着传输的信息越少。

【熵的性质】：

熵是衡量节点一致性的函数。

熵大于等于0，当且仅当p1=p2=……pn时，熵最大，纯的节点熵是0.

【信息增益】当选择熵作为公式的不纯性度量时，熵的差就是所谓的信息增益。

信息增益描述了当使用Q进行编码时，再使用P进行编码的差异。

通常P代表样本或观察值的分布，也有可能是精确计算的理论分布。

Q代表一种理论，模型，描述或者对P的近似。

当纯度高达1时（即只有一种数据类型），熵最小，为0；

当其中的各类数据均匀分布时，熵最大，为-log2p（j|t）。

10.理解了解最邻近分类的基本思想，邻近分类的前提条件与分类过程

【近邻分类法】是基于类比学习，即通过将给定的检验元组与和它相似的训练元组进行比较来学习。

训练元组用n个属性描述。

每个元祖代表n维空间的一个点。

这样，所有的训练元组都存放在n维模式空间中。

当给定一个未知元组时，近邻分类法搜索模式空间，找出最接近未知元组的k个训练元组。

这k个训练元组是未知元组的k个“最近邻”。

一句话概述：

点x的k-最近邻分类就是离点x的欧式距离最近的k个点的集合。

三个前提条件：

训练集存在内存中；

给定距离度量指标；

给定K值

分类过程：

1计算未知点与其他训练集的距离

2找到K个最邻近的邻近组

3用邻近组的分类标签来决定未知点所在组的标签。

11.了解分类中的过拟合及产生的原因

【过度拟合数据】当决策树变大时，测试误差会越来越小，而训练误差会越来越大，测试集产生的决策树与实际会不符。

【产生的原因】

（1）噪声导致的过分拟合

（2）决策树的复杂程度超过了需要的程度，会产生过度拟合

（3）训练误差的减小已经对结果没有更多意义但却依然在计算，会产生过度拟合

（4）没有更多的属性来减小样本误差，会产生过度拟合

12.理解关联规则及支持与置信度的定义，并熟练计算支持度与置信度

【关联规则】关联规则是形如X→Y的蕴涵式，其中，X和Y都是事务数据集。

关联规则的强度可以用它的支持度和置信度度量。

【支持度Support】事务数据库中既包含X又包含Y某个项集的事务占事务总数的比例；

【置信度Confidence】在所有包含X的事务中包含Y的事务所占比例。

13.理解Apriori性质及其意义

【Apriori】如果一个项集是频繁的，那么它的所有子集都是频繁的。

相反，如果一个项集是非频繁的，则它的所有超集也一定是非频繁的。

【意义】利用该性质，通过减少搜索空间，来提高频繁项集逐层产生的效率。

14.理解FP-Growth算法克服了Apriori算法的那些不足

1.减少了扫描数据库的次数，只用扫描两次

2.候选项变少，不会产生那么大的候选项集

15.给定一个交易数据库与支持度阈值，能熟练运用Apriori算法与FP-Growth算法挖掘频繁项集

【Apriori算法计算频繁项集】

【步骤】1、第一次扫描，列出一项集，并计数。

2、去除低于阈值的项集，组合出二项集，扫描计数。

3、重复步骤2，依次组合出N项集，直至项集计数小于阈值，结束。

【注意】Apriori定义：

如果一个项集是非频繁的，则它的所有超集也一定是非频繁的。

所以在组合项集时一定要注意，新组合出的项集不应包含已经被“淘汰”的项集。

【FP-Growth算法计算频繁项集】

步骤一、扫描一次数据集，确定每个项的支持度计数。

丢弃非频繁项，将频繁项按照支持度的递减排序，生成频繁项集头表。

（注意事项：

1、降序排列。

2、MinSup的存在！

步骤二、第二次扫描投影，按照{f,c,a,b,m,p}的顺序逐条对应写出剔除非频繁项后的频繁集，（注意：

{f,c,a,b,m,p}的顺序确定后就不在变动，这在下面的步骤中起关键作用）

步骤三、并开始构建FP树。

按照事务ID号的顺序，将处理好的频繁项集映射创建FP树，并在对应节点计数。

步骤四、构建每个对象的条件模式基，建议从频率低的节点开始。

（注意：

不要忘了f对应的{}）。

步骤五、列出下表，对照MinSup剔除低于阈值的项。

步骤六、针对每一项建立条件FP树。

下面用m项作例子，如下。

步骤七、找出频繁项集。

16.理解关联规则产生时所采取的优化策略

（老师说直接距离就可以）比如，L={A,B,C,D}:

c（ABC→D）≥c（AB→CD）≥c（A→BCD）

【为什么？

分子不变，都是ABCD，分母越来越大】

17.理解K-means算法的内容并讨论该算法之不足

【K-means】K均值算法流程

1、随机选择K个对象，每个对象代表一个簇的初始均值或中心

2、对剩余的每个对象，根据它与簇均值的距离，将他指派到最相似的簇。

3、计算每个簇的新均值

4、回到步骤2，循环，直到准则函数收敛。

【不足之处】

1、只有当簇均值有定义的情况下，K-means方法才能够使用。

2、用户必须首先给定簇数目

3、不适合发现非凸形状的簇，或者大小差别很大的簇。

4、对噪声和离群点数据敏感。

18.理解凝聚聚类算法的基本过程，并分析算法时间与空间复杂度

步骤：

1计算距离矩阵

2让每个数据点成为一个群集

3,循环开始

4，合并两个距离最近的群集

5，更新距离矩阵

6，直到只剩下一个群集

时间复杂度：

N²

倍空间复杂度：

N³

倍

19.理解DBSCAN算法将待聚类的点分为哪几类，分解解释之

三类：

中心点：

中心点领域范围内的点的个数≥临界值（MinPts）

边界点：

边界点领域范围内的点个数小于临界值，但是它在中心点邻域范围的边界上。

噪音点：

既不是中心点又不是边界点的点。

（噪音点领域范围内的点个数小于临界点。

20.理解DBSCAN算法的思想及它克服了K-means算法的哪些不足

【基于密度的聚类】只要一个区域中的点的密度大于某个域值，就把它加到与之相近的聚类中去。

克服基于距离的算法只能发现“类圆形”的聚类的缺点，可发现任意形状的聚类，且对噪声不敏感。

但是，其计算密度短语的计算复杂度大，需要建立空间索引来降低计算量，且对数据维数的伸缩性较差。

【DBSCAN】

（Density-BasedSpatialClusteringofApplicationswithNoise）具有噪声的基于密度的聚类应用。

【算法步骤】

1、通过检查数据集中每个对象的ε-邻域（可以理解为半径）来寻找聚类

2、如果一个点P的ε-邻域包含多于MinPts（最少包含点数）个对象，则创建一个P作为核心对象的新簇。

3、反复地寻找从这个核心对象直接密度可达的对象，这个过程可能涉及一些密度可达簇的合并。

4、当没有新的点可以被添加到任何簇时，过程结束。

【评价】1、适合发现任意形状的簇。

2、易于发现噪声。

3、无需设置K值。

4、需要输入ε、MinPts。

（对照着14题理解两种算法）

21.理解SSE指标对聚类的意义。

【SSE】即SumofSquaredError，错误的平方和。

【意义】1、SSE可以很好的用于比较两个聚类或两个簇。

2、也可以用于估计簇的数目。

【观察】增加K（即簇的数目）即可降低SSE。

展开阅读全文