大数据复习提纲汇编.docx

资源描述

大数据复习提纲汇编.docx

《大数据复习提纲汇编.docx》由会员分享，可在线阅读，更多相关《大数据复习提纲汇编.docx（16页珍藏版）》请在冰豆网上搜索。

大数据复习提纲汇编.docx

大数据复习提纲汇编

1、线性判别函数的正负和数值大小的几何意义

正（负）表示样本点位于判别界面法向量指向的正（负）半空间中；绝对值正比于样本点到判别界面的距离。

2、感知器算法特点

收敛性：

经过算法的有限次迭代运算后，求出了一个使所有样本都能正确分类的W，则称算法是收敛的。

感知器算法是在模式类别线性可分条件下才是收敛的。

感知器算法只对线性可分样本有收敛的解，对非线性可分样本集会造成训练过程的震荡，这也是它的缺点。

3、聂曼-皮尔逊判决准则、最小最大判决准则等区别

聂曼-皮尔逊判决准则主要用于某一种判决错误较另一种判决错误更为重要情况；

最小最大判别准则主要用于先验概率未知的情况。

4、马式距离较之于欧式距离的优点

优点：

马氏距离不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关。

由标准化数据和中心化数据（即原始数据与均值之差）计算出的二点之间的马氏距离相同。

马氏距离还可以排除变量之间的相关性的干扰。

缺点：

夸大了变化微小的变量的作用。

受协方差矩阵不稳定的影响，马氏距离并不总是能顺利计算出。

尺度不变性；考虑了模式的分布

5、关联规则的经典算法有哪些

Apriori算法；FP-tree；基于划分的算法

Apriori算法、GRI算法、Carma

6、分类的过程或步骤

答案一：

ppt上的

1、模型构建（归纳）

通过对训练集合的归纳，建立分类模型。

2、预测应用（推论）

根据建立的分类模型，对测试集合进行测试。

答案二：

老师版本的

训练样本的收集训练集的预处理、模型的选择、模型的训练（问老师后理解整理）

7、分类评价标准

1）正确率（accuracy）就是被分对的样本数除以所有的样本数，通常来说，正确率越高，分类器越好；

2）错误率（errorrate）

错误率则与正确率相反，描述被分类器错分的比例，errorrate=（FP+FN）/（P+N），对某一个实例来说，分对与分错是互斥事件，所以accuracy=1- errorrate；

3）灵敏度（sensitive）

sensitive=TP/P，表示的是所有正例中被分对的比例，衡量了分类器对正例的识别能力；

4）特效度（specificity）

specificity=TN/N，表示的是所有负例中被分对的比例，衡量了分类器对负例的识别能力；

5）精度（precision）

精度是精确性的度量，表示被分为正例的示例中实际为正例的比例，precision=TP/（TP+FP）；

6）召回率（recall）

召回率是覆盖面的度量，度量有多个正例被分为正例，recall=TP/（TP+FN）=TP/P=sensitive，可以看到召回率与灵敏度是一样的。

正确率：

它表示的预测结果正确比例。

包括正例和负例。

精确度：

它表示的是预测是正例的结果中，实际为正例的比例。

召回率：

它表示的是实际为正例样本中，预测也为正例的比例。

综合指标：

F1=2*精确率*召回率/精确率+召回率，它实际上精确度和召回率的一个综合指标。

8、支持向量机及常见的核函数选择

SVM的目的是寻找泛化能力好的决策函数，即由有限样本量的训练样本所得的决策函数，在对独立的测试样本做预测分类时，任然保证较小的误差。

本质：

求解凸二次优化问题，能够保证所找到的极值解就是全局最优解。

支持向量机的标准：

使两类样本到分类面的最短距离之和尽可能大

支持向量机基本思想：

通过训练误差和类间宽度之间的权衡，得到一个最优超平面

支持向量机是利用分类间隔的思想进行训练的，它依赖于对数据的预处理,即在更高维的空间表达原始模式。

通过适当的到一个足够高维的非线性映射，分别属于两类的原始数据就能够被一个超平面来分隔。

支持向量机的基本思想可以概括为：

首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分类面，而这种非线性变换是通过定义适当的内积函数来实现的。

支持向量机求得的分类函数形式上类似于一个神经网络，其输出是若干中间层节点的线性组合，而每一个中间层节点对应于输入样本与一个支持向量的内积，因此也被叫做支持向量网络。

9、什么是数据样本、什么是机器学习

样本：

研究中实际观测或调查的一个个体叫样本

机器学习：

机器学习通过从数据里提取规则或模式来把数据转换成信息。

经典定义：

利用经验改善系统自身的性能，随着该领域的发展，主要做智能数据分析。

机器学习：

利用经验改善系统自身的性能随着该领域的发展，主要做智能数据分析

10、机器学习的一般步骤

1、问题识别、数据理解：

明确系统与组织之间的关键问题，分析数据的价值和质量

2、数据准备、数据预处理：

将数据汇集在一起，形成数据挖掘库或数据集市

3、模型选择：

通过分析，选择几个合适的模型

4、训练模型：

使用机器学习算法或统计方法对大量的数据进行建模分析，从而获得对系统最适合的模型

5、模型测试：

将真实数据带入模型，进行运算

6、模型验证：

模型评价包含两个方面：

功能性评价，和服务性评价

11.样本属性的主要类型

属性有四种类型：

1、连续性属性

2、二值离散型

3、多值离散型

4、混合类型

12．信息增益

信息增益是特征选择中的一个重要指标，来衡量一个属性区分以上数据样本的能力,它定义为一个特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。

信息增益量越大，这个属性作为一棵树的根节点就能使这棵树更简洁.信息增益就是前后信息的差值，在决策树分类问题中，即就是决策树在进行属性选择划分前和划分后的信息差值。

信息增益=先验熵（信息熵）-条件熵（表示信息消除随机不确定性的程度）

13．核函数SVM的判别方程

14.Adaboost的判别函数

16.聚类分析有哪些主要距离度量方法

欧氏距离（Euclideandistance）:

曼哈顿距离（Manhattandistance）:

闵可夫斯基距离（Minkowskidistance:

17、频繁项集

频繁项集：

有一系列集合，这些集合有些相同的元素，集合中同时出现频率高的元素形成一个子集，满足一定阈值条件，就是频繁项集。

频繁项集：

在所有训练元组中同时出现的次数超过人工定义的阈值的项集称为频繁项集。

18、支持度

项目集X的支持度support（X）是D中事务包含X的百分比，它是概率P（X）：

support（X）=P（X）=（包含X的事务数/D的事务总数）×100%

若support（X）不小于指定的最小支持度，则称X为频繁项目集（简称频集），否则称X为非频繁项目集（简称非频集）。

支持度：

项集同时出现的次数

19.可信度

XY对事务集D的置信度（confidence）

定义为D中包含有X的事务数与同时包含Y的百分比。

这是条件概率P（Y|X）即：

confidence（XY）=P（Y|X）=（包含X和Y的事务数/包含X的事务数）×100%

20关联规则

关联规则是形如“XY”的蕴涵式，其中X⊂I，Y⊂I，并且X∩Y=，X称为规则的条件，Y称为规则的结果。

在不知道关联函数或关联函数不确定的情况下，为了反映所发现规则的有用性和确定性，关联分析生成的规则都要满足最小支持度阀值和最小置信度阀值。

21什么是贝叶斯网络及作用

贝叶斯网络是描述随机变量（事件）之间依赖关系的一种图形模式，是一种可用来进行推理的模型。

贝叶斯网络通过有向图的形式来表示随机变量间的因果关系，并通过条件概率将这种因果关系量化。

一个贝叶斯网络由网络结构和条件概率表两部分组成。

作用：

贝叶斯网络的预测、诊断和训练、、、因果预测、原因诊断、解释远离

22、决策树算法及步骤

1生成一颗空决策树和一张训练样本属性集;

2若训练样本集T中所有的样本都属于同一类,

则生成结点T,并终止学习算法;否则

3根据某种策略从训练样本属性表中选择属性

A作为测试属性,生成测试结点A

4若A的取值为v1,v2,…,vm,则根据A的取值的

不同,将T划分成m个子集T1,T2,…,Tm;

5从训练样本属性表中删除属性A;

6转步骤2,对每个子集递归调用CLS;

23、ID3算法及步骤

1决定分类属性；

2对目前的数据表，建立一个节点N

3如果数据库中的数据都属于同一个类，N就是树叶，在树叶上标出所属的类

4如果数据表中没有其他属性可以考虑，则N也是树叶，按照少数服从多数的原则在树叶上标出所属类别

5否则，根据平均信息期望值E或GAIN值选出一个最佳属性作为节点N的测试属性

6节点属性选定后，对于该属性中的每个值：

从N生成一个分支，并将数据表中与该分支有关的数据收集形成分支节点的数据表，在表中删除节点属性那一栏如果分支数据表非空，则运用以上算法从该节点建立子树。

24、bp网络的优缺点

BP神经网络具有以下优点：

1）非线性映射能力：

BP神经网络实质上实现了一个从输入到输出的映射功能，数学理论证明三层的神经网络就能够以任意精度逼近任何非线性连续函数。

这使得其特别适合于求解内部机制复杂的问题，即BP神经网络具有较强的非线性映射能力。

2）自学习和自适应能力：

BP神经网络在训练时，能够通过学习自动提取输出、输出数据间的“合理规则”，并自适应的将学习内容记忆于网络的权值中。

即BP神经网络具有高度自学习和自适应的能力。

3）泛化能力：

所谓泛化能力是指在设计模式分类器时，即要考虑网络在保证对所需分类对象进行正确分类，还要关心网络在经过训练后，能否对未见过的模式或有噪声污染的模式，进行正确的分类。

也即BP神经网络具有将学习成果应用于新知识的能力。

4）容错能力：

BP神经网络在其局部的或者部分的神经元受到破坏后对全局的训练结果不会造成很大的影响，也就是说即使系统在受到局部损伤时还是可以正常工作的。

即BP神经网络具有一定的容错能力。

BP神经网络也暴露出了越来越多的缺点和不足，比如：

1）局部极小化问题：

从数学角度看，传统的BP神经网络为一种局部搜索的优化方法，它要解决的是一个复杂非线性化问题，网络的权值是通过沿局部改善的方向逐渐进行调整的，这样会使算法陷入局部极值，权值收敛到局部极小点，从而导致网络训练失败。

加上BP神经网络对初始网络权重非常敏感，以不同的权重初始化网络，其往往会收敛于不同的局部极小，这也是很多学者每次训练得到不同结果的根本原因。

2） BP 神经网络算法的收敛速度慢：

由于BP神经网络算法本质上为梯度下降法，它所要优化的目标函数是非常复杂的，因此，必然会出现“锯齿形现象”，这使得BP算法低效；又由于优化的目标函数很复杂，它必然会在神经元输出接近0或1的情况下，出现一些平坦区，在这些区域内，权值误差改变很小，使训练过程几乎停顿；BP神经网络模型中，为了使网络执行BP算法，不能使用传统的一维搜索法求每次迭代的步长，而必须把步长的更新规则预先赋予网络，这种方法也会引起算法低效。

以上种种，导致了BP神经网络算法收敛速度慢的现象。

3） BP 神经网络结构选择不一：

BP神经网络结构的选择至今尚无一种统一而完整的理论指导，一般只能由经验选定。

网络结构选择过大，训练中效率不高，可能出现过拟合现象，造成网络性能低，容错性下降，若选择过小，则又会造成网络可能不收敛。

而网络的结构直接影响网络的逼近能力及推广性质。

因此，应用中如何选择合适的网络结构是一个重要的问题。

4）应用实例与网络规模的矛盾问题：

BP神经网络难以解决应用问题的实例规模和网络规模间的矛盾问题，其涉及到网络容量的可能性与可行性的关系问题，即学习复杂性问题。

展开阅读全文