大数据挖掘考试重点复习Word下载.docx

上传人:b****5 文档编号:16635662 上传时间:2022-11-25 格式:DOCX 页数:18 大小:1.27MB
下载 相关 举报
大数据挖掘考试重点复习Word下载.docx_第1页
第1页 / 共18页
大数据挖掘考试重点复习Word下载.docx_第2页
第2页 / 共18页
大数据挖掘考试重点复习Word下载.docx_第3页
第3页 / 共18页
大数据挖掘考试重点复习Word下载.docx_第4页
第4页 / 共18页
大数据挖掘考试重点复习Word下载.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

大数据挖掘考试重点复习Word下载.docx

《大数据挖掘考试重点复习Word下载.docx》由会员分享,可在线阅读,更多相关《大数据挖掘考试重点复习Word下载.docx(18页珍藏版)》请在冰豆网上搜索。

大数据挖掘考试重点复习Word下载.docx

4.理解维度爆炸给数据挖掘带来的困难

数据过高的维度会给计算带来麻烦,在数据挖掘处理时,它会耗费很多的处理时间和内存容量。

数据的高维度还使得数据间的关系也不容易察觉,增加了数据的无关属性和噪音点。

5.掌握数据仓库的定义并理解其四个方面的特征

数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。

数据仓库研究和解决从数据库中获取信息的问题。

(数据仓库是为支持管理决策建立的,面向主题的、集成的、随时间变化的、相对稳定的数据集合。

【滔注:

我觉得写括号里的会好一点】

四方面特征:

1 面向主题:

主题是指用户使用数据仓库进行决策时所关心的重点忙面。

2 集成性:

在数据进入数据仓库之前,要进过统一于综合,将多个异源数据集成在一起。

这一步是数据仓库建设中最关键、最复杂的一步。

3 时变性:

数据仓库随时间变化不断增加新的数据。

4 相对稳定性:

数据仓库反映的是历史的内容,而不是联机数据,主要供企业决策分析之用。

6.掌握数据挖掘的定义并描述其主要特征

【数据挖掘定义】从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。

数据挖掘是从大量数据中寻找其规律的技术。

【主要步骤】

(1)数据准备:

从各种数据源中选取和集成用于数据挖掘的数据;

(2)规律寻找:

用某种方法将数据中的规律找出来;

(3)规律表示:

用尽可能符合用户习惯的方式将找出的规律表示出来。

7.掌握Minkowski距离,并熟练计算l1,l2,l无穷norm

【L1norm】当r=1,城市街区(也称曼哈顿、出租车、L1范数)距离;

【L2norm】当r=2,欧几里得距离;

【L∞norm】当r=∞,上确界距离,这是对象属性之间的最大距离。

8.理解Hunt’s算法的基本过程

通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。

设Dt是与节点t相关联的训练记录集,而Y={y1,y2,…,yc}是类标号,Hunt算法的递归定义如下:

(1)如果Dt中所有记录都属于同一个类yt,则t是叶节点,用yt标记。

(2)如果Dt中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集。

对于测试条件的每个输出,创建一个子女节点,并根据测试结果将Dt中的记录分布到子女节点中。

然后,对于每个子女节点,递归地调用该算法。

9.掌握吉尼系数、熵的定义,会计算其最大值与最小值,理解信息增益在构造决策树时的意义

【基尼系数、熵是度量不纯度的方法】GINI系数和熵都是越小,代表所分的节点属性越纯,最小可取到0,表示这个节点中只有一个类。

当一个节点中有n个父节点,而且能分出n个子节点,GINI系数取到最大值,为1-1/n.熵也取到最大值log2n(滔注:

那个2是角标,不是log2n!

【基尼值的性质】:

越大越不纯,越小越纯,0最纯,1-1/n最不纯。

b.子节点基尼值

c.最大值、最小值

(最小值表示最纯,最大值表示最不纯)

【熵】在信息领域熵被用来衡量一个随机变量出现的期望值。

熵是对信息的不确定性的度量。

熵越低,意味着传输的信息越少。

【熵的性质】:

熵是衡量节点一致性的函数。

熵大于等于0,当且仅当p1=p2=……pn时,熵最大,纯的节点熵是0.

【信息增益】当选择熵作为公式的不纯性度量时,熵的差就是所谓的信息增益。

信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。

通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。

Q代表一种理论,模型,描述或者对P的近似。

当纯度高达1时(即只有一种数据类型),熵最小,为0;

当其中的各类数据均匀分布时,熵最大,为-log2p(j|t)。

10.理解了解最邻近分类的基本思想,邻近分类的前提条件与分类过程

【近邻分类法】是基于类比学习,即通过将给定的检验元组与和它相似的训练元组进行比较来学习。

训练元组用n个属性描述。

每个元祖代表n维空间的一个点。

这样,所有的训练元组都存放在n维模式空间中。

当给定一个未知元组时,近邻分类法搜索模式空间,找出最接近未知元组的k个训练元组。

这k个训练元组是未知元组的k个“最近邻”。

一句话概述:

点x的k-最近邻分类就是离点x的欧式距离最近的k个点的集合。

三个前提条件:

训练集存在内存中;

给定距离度量指标;

给定K值

分类过程:

1计算未知点与其他训练集的距离

2找到K个最邻近的邻近组

3用邻近组的分类标签来决定未知点所在组的标签。

11.了解分类中的过拟合及产生的原因

【过度拟合数据】当决策树变大时,测试误差会越来越小,而训练误差会越来越大,测试集产生的决策树与实际会不符。

【产生的原因】

(1)噪声导致的过分拟合

(2)决策树的复杂程度超过了需要的程度,会产生过度拟合

(3)训练误差的减小已经对结果没有更多意义但却依然在计算,会产生过度拟合

(4)没有更多的属性来减小样本误差,会产生过度拟合

12.理解关联规则及支持与置信度的定义,并熟练计算支持度与置信度

【关联规则】关联规则是形如X→Y的蕴涵式,其中,X和Y都是事务数据集。

关联规则的强度可以用它的支持度和置信度度量。

【支持度Support】事务数据库中既包含X又包含Y某个项集的事务占事务总数的比例;

【置信度Confidence】在所有包含X的事务中包含Y的事务所占比例。

13.理解Apriori性质及其意义

【Apriori】如果一个项集是频繁的,那么它的所有子集都是频繁的。

相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。

【意义】利用该性质,通过减少搜索空间,来提高频繁项集逐层产生的效率。

14.理解FP-Growth算法克服了Apriori算法的那些不足

1.减少了扫描数据库的次数,只用扫描两次

2.候选项变少,不会产生那么大的候选项集

15.给定一个交易数据库与支持度阈值,能熟练运用Apriori算法与FP-Growth算法挖掘频繁项集

【Apriori算法计算频繁项集】

【步骤】1、第一次扫描,列出一项集,并计数。

2、去除低于阈值的项集,组合出二项集,扫描计数。

3、重复步骤2,依次组合出N项集,直至项集计数小于阈值,结束。

【注意】Apriori定义:

如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。

所以在组合项集时一定要注意,新组合出的项集不应包含已经被“淘汰”的项集。

【FP-Growth算法计算频繁项集】

步骤一、扫描一次数据集,确定每个项的支持度计数。

丢弃非频繁项,将频繁项按照支持度的递减排序,生成频繁项集头表。

(注意事项:

1、降序排列。

2、MinSup的存在!

步骤二、第二次扫描投影,按照{f,c,a,b,m,p}的顺序逐条对应写出剔除非频繁项后的频繁集,(注意:

{f,c,a,b,m,p}的顺序确定后就不在变动,这在下面的步骤中起关键作用)

步骤三、并开始构建FP树。

按照事务ID号的顺序,将处理好的频繁项集映射创建FP树,并在对应节点计数。

步骤四、构建每个对象的条件模式基,建议从频率低的节点开始。

(注意:

不要忘了f对应的{})。

步骤五、列出下表,对照MinSup剔除低于阈值的项。

步骤六、针对每一项建立条件FP树。

下面用m项作例子,如下。

步骤七、找出频繁项集。

16.理解关联规则产生时所采取的优化策略

(老师说直接距离就可以)比如,L={A,B,C,D}:

c(ABC→D)≥c(AB→CD)≥c(A→BCD)

【为什么?

分子不变,都是ABCD,分母越来越大】

17.理解K-means算法的内容并讨论该算法之不足

【K-means】K均值算法流程

1、随机选择K个对象,每个对象代表一个簇的初始均值或中心

2、对剩余的每个对象,根据它与簇均值的距离,将他指派到最相似的簇。

3、计算每个簇的新均值

4、回到步骤2,循环,直到准则函数收敛。

【不足之处】

1、只有当簇均值有定义的情况下,K-means方法才能够使用。

2、用户必须首先给定簇数目

3、不适合发现非凸形状的簇,或者大小差别很大的簇。

4、对噪声和离群点数据敏感。

18.理解凝聚聚类算法的基本过程,并分析算法时间与空间复杂度

步骤:

1计算距离矩阵

2让每个数据点成为一个群集

3,循环开始

4,合并两个距离最近的群集

5,更新距离矩阵

6,直到只剩下一个群集

时间复杂度:

倍空间复杂度:

19.理解DBSCAN算法将待聚类的点分为哪几类,分解解释之

三类:

中心点:

中心点领域范围内的点的个数≥临界值(MinPts)

边界点:

边界点领域范围内的点个数小于临界值,但是它在中心点邻域范围的边界上。

噪音点:

既不是中心点又不是边界点的点。

(噪音点领域范围内的点个数小于临界点。

20.理解DBSCAN算法的思想及它克服了K-means算法的哪些不足

【基于密度的聚类】只要一个区域中的点的密度大于某个域值,就把它加到与之相近的聚类中去。

克服基于距离的算法只能发现“类圆形”的聚类的缺点,可发现任意形状的聚类,且对噪声不敏感。

但是,其计算密度短语的计算复杂度大,需要建立空间索引来降低计算量,且对数据维数的伸缩性较差。

【DBSCAN】

(Density-BasedSpatialClusteringofApplicationswithNoise)具有噪声的基于密度的聚类应用。

【算法步骤】

1、通过检查数据集中每个对象的ε-邻域(可以理解为半径)来寻找聚类

2、如果一个点P的ε-邻域包含多于MinPts(最少包含点数)个对象,则创建一个P作为核心对象的新簇。

3、反复地寻找从这个核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并。

4、当没有新的点可以被添加到任何簇时,过程结束。

【评价】1、适合发现任意形状的簇。

2、易于发现噪声。

3、无需设置K值。

4、需要输入ε、MinPts。

(对照着14题理解两种算法)

21.理解SSE指标对聚类的意义。

【SSE】即SumofSquaredError,错误的平方和。

【意义】1、SSE可以很好的用于比较两个聚类或两个簇。

2、也可以用于估计簇的数目。

【观察】增加K(即簇的数目)即可降低SSE。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1