机器学习期末复习.docx

资源描述

机器学习期末复习.docx

《机器学习期末复习.docx》由会员分享，可在线阅读，更多相关《机器学习期末复习.docx（15页珍藏版）》请在冰豆网上搜索。

机器学习期末复习.docx

机器学习期末复习

-本页仅作为预览文档封面，使用时请删除本页-

机器学习期末复习（共15页）

机器学习是怎样的学科：

致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。

机器学习主要分为两大类：

监督学习、非监督学、强化学习（AlphaGo）、半监督学习。

机器学习所要研究的主要内容是关于计算机在从数据中产生“模型”的算法，即“学习算法”。

（有了学习算法，我们把经验提供给它，他就能基于这些数据产生模型）。

学习的特点：

数据驱动，以方法为中心，概率统计优化为基础。

从数据中学得模型的过程称为“学习”或“训练”，这个过程通过执行某个学习算法来完成。

训练过程中使用的数据称为“训练数据”，每一个样本称为“训练样本”，训练样本组成的集合称为“训练集”。

三要素：

模型、策略、算法。

学得模型后，使用其进行预测得过程称为“测试”。

被测样本称为“测试样本”。

机器学习的目标是使学得的模型能很好地适用于“新样本”。

独立同分布

学得模型适用于新样本的能力，称为“泛化”能力。

具有强泛化能力的模型能很好地适用于整个样本空间。

“奥卡姆剃刀”原则，是一种常用地、自然科学研究中最基础地原则，即“诺有多个假设与观察一致，则选最简单地那个”。

（采用这个原则，则所描绘地曲线更平滑，更简单）。

20世纪50年代-70年代初，人工智能处于“推理期”。

20世纪70年代中期开始，人工智能进入“知识期”。

20世纪80年代：

被研究最多的应用最广的是“从样本中学习”，其中的两个主流技术：

符号主义学习（决策树，ILP：

归纳逻辑程序设计），基于神经网络的连接主义学习

20世纪90年代中期：

统计学习：

代表性技术，支持向量机

21世纪以来，连接主义学习“深度学习”即很多层的神经网络

1980年夏，美国卡耐基梅隆大学举办了第一届机器学习研讨会（IWML）。

同年《策略分析与信息系统》连出三期机器学习专辑。

1986年，第一本机器学习专业期刊MachineLearning创刊。

1989年，人工智能领域地权威期刊ArtificialIntelligence出版机器学习专辑。

2006年，卡耐基梅隆大学宣告成立世界上第一个“机器学习系”。

经验误差：

学习器在训练集上的误差称为“训练误差”或“经验误差”。

泛化误差：

在新样本上的误差称为“泛化误差”。

“测试误差”作为泛化误差的近似。

模型评估时用来测试模型的数据集叫什么集：

A训练集B测试集C评估集D验证集

（训练集是用来训练模型的，通过尝试不同的方法和思路使用训练集来训练不同的模型，再通过验证集使用交叉验证来挑选最优的模型，通过不断的迭代来改善模型在验证集上的性能，最后再通过测试集来评估模型的性能。

将一个数据集D分为训练集S和测试集T的方法：

留出法：

直接将数据集D划分为两个互斥的集合，其中一个作为S一个作为T。

注意点：

训练/测试集的划分要尽可能保持数据分布一致。

单次使用留出法得到的估计结果往往不够稳定可靠。

一般采用若干次随机划分、重复进行实验评估后取平均值作为结果。

常见做法是将大约2/3~4/5的样本用于训练剩余样本用于测试。

保留类别比例的采样方式通常称为“分层采样”。

交叉验证法：

（可能大题）

将数据集D划分为k个大小相似的的互斥子集，每个子集尽可能保持数据分布的一致性，即通过分层采样得到。

然后每次用k-1个子集的并集作为训练集，余下的一个子集作为测试集并进行K次训练和测试。

例如：

5折交叉验证，D分为D1~D5，第一次取4个子集的并集，D2-D5作为训练集，D1作为测试集。

第二次取D1、D3、D4、D5的并集作为训练集，D2作为测试集。

以此类推，最后将5次测试结果平均得到返回结果。

其中，如果D一共有m个样本，k=m，则得到交叉验证法的特例：

留一法。

因为m个样本只有唯一的划分方式，即划分为m个子集，每一个子集只有一个样本。

这样所用的训练集只比原数据少一个样本。

留一法的优点：

评估结果往往被认为比较精确（并非最精确），

缺点：

数据集较大时，训练m个模型的计算开销可能难以忍受。

自助法：

（这种方法有一些样本永远取不到）

建立一个新的数据集D’在D中随机取一个样本复制到D’中，进行m次后，D’中的样本数量和D一样，这时将D’作为训练集D\D’（表示D中不包括D’的部分）作为测试集。

因为是复制到D’中所以D中的一部分样本会取不到，则不被取到的概率为（1-1/m）^m取极限得到=1/e≈，即数据集D中约有%的样本未出现在D’中。

得到结果也称为“包外估计”。

在数据集较小、难以有效划分训练/测试集时很有用此外，自助法能从初始数据集中产生多个不同的训练集，对集成学习有很大好处。

但是自助法改变了初始数据集的分布，这会引入估计偏差。

所以数据足够多的时候其他两种方法更加常用。

错误率与精度

错误率：

分类错误的样本占样本总数的比例。

精度：

分类正确的样本数占样本总数的比例。

查准率、查全率与F1

认为是正例的样本中：

真正例TP假正例FP

认为是假例的样本中：

假反例FN真反例TN

查准率P：

TP/（TP+FP）即在查到的正例中正确的占比。

查全率R：

TP/（TP+FN）即在所有正确的例子中查到的正例的占比。

一般来说，查准率高，查全率偏低，查全率高，查准率偏低。

根据这一现象可以得到“P-R曲线”，当R（X轴）相同时，P（Y轴）越大越好。

曲线和P=R的直线的交点称为平衡点。

越大越优。

因为平衡点过于简化，所以用F1来衡量优劣：

F1=（2*P*R）/（P+R）=（2*TP）/（样本总数+TP-TN）

=>1/F1=1/2*（1/P+1/R）

有时因为场景的需要，可能回偏向查全率或者查准率，则有了F1的变形：

Fβ

Fβ=（（1+β²）*P*R）/（（β²*P）+R）

当β=1时，则为标准的F1；β>1时查全率有更大影响；β<1时查准率有更大影响。

线性模型：

给定d个描述x=（x1;x2x3...xd）（例如西瓜颜色、形状2个描述，d=2），xi是x在第i个属性上的取值（即颜色=x1；形状=x2）。

从而有线性模型的基本形式f（x）=wTx+b加粗表示向量

线性回归

这里的数据集为D={（x1,y1）,（x2,y2）,...,（xm,ym）}，其中xi=（xi1,xi2,...,xid）即线性模型的描述。

此处的y应该是判断结果，我猜测为正确答案。

简单化xi，将其中的值缩减到1个，则D={（xi,yi）}i=1m。

同时，若属性间存在“序”，并且为离散值，则可以将输入变为类似身高=>{1，0}其中1表示高，0表示矮。

如果不存在“序”关系，k个属性就用k维向量表示。

线性回归目的是求出f（x）=wTx+b的函数使得带入的值经过函数计算后得到的f（x）与预测的y近似。

所以为了近似，则需要做差最小。

使用均方误差得到：

（w*,b*）=argminΣ（i=1~m）（f（xi）-yi）²不方便同时做上下标简单表示

=argminΣ（i=1~m）（yi-wxi-b）²这里我理解的是承接上面简化属性值仅有一个

分别对w和b做偏导得到书上P51的和，然后两个式子=0，解后得到和的解。

（过程作业有写，需要熟悉）

此时如果使用原本的数据集，而不简化，即f（x）=wTx+b≈yi称为“多元线性回归”

最小二乘法就是通过使两个式子的均方误差最小化，来求得函数的未知值。

来近似标准函数，可以XX关键词“最小二乘法”，其中原理的部分较好理解。

对数线性回归：

即之前的线性回归是为了逼近y值，如果要使得函数逼近与y相关的值，例如lny，就是改变指数尺度=>lny=wTx+b这一式子则称为对数线性回归，本质是使得e底的wTx+b逼近y。

该式子在本质上仍然是线性回归。

P56图表现得较为明显。

如果有g（.）使得y=g-1（wTx+b）这样得到得模型称为“广义线性模型”，函数g（.）称为“联系函数”，则对数线性回归是广义线性模型在g（.）=ln（.）时得特例。

我这里认为g（.）中.表示输入值。

对数几率回归：

是分类问题

通过找一个单调可微函数g（.）将分类任务的真实标记y与线性回归模型的预测值f（x）联系起来。

设预测值z=wTx+b则将z的值通过“单位越阶函数”P57与输出标记y一致。

即通过g（.）获取到的函数为P57图中的黑线。

红色部分则为判断的输出标记。

因为希望函数值接近0或1，所用用y=1/1+e-z作为“替代函数”且可微。

带入z=wTx+b，得到P58

则为了求“对数几率”，最后就是求ln（y/1-y），将y和1-y分别视为为1和为0的概率，则有P59作业有相关内容。

熵模型：

XX内容：

给定一个概率分布，则熵的定义为：

Hp=−p（x）logp（x）

放到作业中即-plnq大致意思是要求一个函数的最小值就取它的负，这样反过来求它的最大值。

线性判别分析：

是一种经典的线性学习方法，再二分类问题上提出。

简称LDA：

给定训练集例集，设法将样例投影到一条直线上，使得同类的样例的投影尽可能得靠近，异类样例尽可能远离；对新样本进行分析时，将样本投影到这条直线上，再根据位置判断类别。

快速判断是否可以线性可分：

将两类样本包起来，类似连接每类样例的最外层样本，形成一个封闭的图形，如果两个类别不重叠，则可以线性可分，反之不可。

多类别学习：

有些二分类学习方法可直接推广到多分类，但是再更多情形下，我们是基于一些基本策略，利用二类学习器来解决多分类问题。

即多次利用二分类来解决多分类。

最经典的拆分策略有三种：

“一对一”（OvO），“一对其余”（OvR）和“多对多”（MvM）。

OvR只需要N个分类器，OvO需要N（N-1）/2个分类器。

通常，OvO的存储开销和测试时间开销比OvR更大，但是OvO每次只用到两类样例，OvR则是全部样例。

所以在类别多的的情况下OvO的训练时间开销通常比OvR更小。

取决于具体数据分布。

P64图（大题）

信息增益：

信息熵：

是度量样本集合纯度最常用的一种指标。

集合D的信息熵定义为Ent（D）值越小表示纯度越高。

神经元模型：

“M-P神经元模型”P97图xi为输入y为输出Wi为对应xi的连接权重

激励函数：

类似神经传播，当一个电位超过一定值，则激活神经元，从而进行再传递。

类似地接收到带权重地输入信号，将总输入值和阀值进行比较，然后通过“激励函数”处理产生输出。

所以这里地激励函数最好是跃阶函数（即只有y=1或y=0）但是实际用Sigmoid函数将值压缩在0-1之间。

（1表示兴奋，0表示抑制）

把许多个这样地神经元按一定地层次结构连接起来，就得到了神经网络。

感知机和多层网络：

要求会计算“与”、“或”、“非”：

这里用跃阶函数计算。

wi和θ的值是可变化的，设定值后。

带入x1和x2计算，达到x1与x2x1或x2非x的效果。

y=f（Σiwi*xi-θ）

深度学习：

“深”在哪里？

参数越多、“容量”越大、复杂模型

典型的深度学习模型就是很深层的神经网络，显然，对神经网络模型，提高容量的一个简单办法是增加隐层的数目=>隐层数目大。

“多隐层”是指三个及以上隐层。

深度学习通常有八九层甚至更多隐层。

支持向量机：

两大重点：

最大间隔、核技巧

在样本空间中，划分超平面可通过如下线性方程描述：

wTx+b=0

间隔：

距离超平面最近的几个训练样本点中，两个异类支持向量到超平面的距离之和称为“间隔”。

最大间隔：

找到满足式子P122中约束的参数w和b，使得间隔最大。

支持向量机（SVM）的基本型：

P123

函数间隔：

实际上是|wTx+b|，函数间隔代表了我们认为特征是正例还是反例的确信度。

针对全局样本的定义的函数间隔：

意思就是找到训练样本中函数间隔最小的那个样本，并且要让它的函数间隔最大。

几何间隔：

几何间隔首先简单一点说就是点到直线距离。

在式子中的表现为||w||。

硬间隔：

要求所有样本均满足约束。

P122

软间隔：

允许某些样本不满足约束。

P130常用的“软间隔支持向量机”在P130P131

min和.部分。

线性间隔：

不需要升维，就可以找到一个超平面将训练样本正确分类。

非线性间隔：

需要升维，才能将训练样本分类。

组合，有线性软间隔、线性硬间隔、非线性软间隔、非线性硬间隔。

对偶问题：

作业大题。

主要还是求偏导。

因为在解对偶问题时，有用到二次规划算法，该问题的规模正比于训练样本数，这会在实际任务中造成很大的开销。

为了避开这个障碍，人们通过利用问题本身的特性，提出了很多高效算法，SMO（SequentialMinimalOptimization）是其中一个著名的代表。

核函数：

在样本无法线性可分的情况下，可以将原始空间映射到一个更高维的特征空间，使得样本在这个空间内线性可分。

在将其转换为对偶问题时。

可以设想一个函数k（xi,xj）用来计算xi与xj在特征空间的内积。

这函数称为“核函数”，这一方法称为“核技巧”。

核方法：

是解决非线性问题模式分析问题的一种有效途径，其核心思想是：

首先，通过某种非线性映射将原始数据嵌入到合适的高维特征空间；然后，利用通用的线性学习器在这个新的空间中分析和处理模式。

其表现形式：

P137

高斯核：

高斯核函数（Gaussiankernel），也称径向基（RBF）函数，是常用的一种核函数。

它可以将有限维数据映射到高维空间，我们来看一下高斯核函数的定义：

上述公式涉及到两个向量的欧式距离（2范数）计算，而且，高斯核函数是两个向量欧式距离的单调函数。

σσ是带宽，控制径向作用范围，换句话说，σσ控制高斯核函数的局部作用范围。

当xx和x′x′的欧式距离处于某一个区间范围内的时候，假设固定x′x′，k（x,x′）k（x,x′）随x的变化而变化的相当显著。

从二十世纪二三十年代开始出现了频率主义学派和贝叶斯学派的争论。

贝叶斯的判定准则：

P151-P153判定西瓜是好是坏的例题。

（大题）

判定过程中如果某一属性全是好或者坏，即另一个判断概率为0，则需要修正。

会有题目给一个集合，然后用k-means算法思想去划分集合内的数。

{10，12，7，5，6，20，54，61，99}类似这样，然后分成3类。

距离计算：

需要满足一些基本性质，

非负性：

dist（xi,xj）>=0

同一性：

dist（xi,xj）=0,当且仅当xi=xj

对称性：

dist（xi,xj）=dist（xj,xi）

直递性：

dist（xi,xj）<=dist（xi,xk）+dist（xk,xj）

计算距离时最常用“闵可夫斯基距离”P200

当p=2时，闵可夫斯基距离即欧氏距离

当p=1时，闵可夫斯基距离即曼哈顿距离

监督学习：

监督学习是指我们给算法一个数据集，并且给定正确答案。

训练集中的目标是由人标注的。

非监督学习：

在无监督学习中，给定的样本没有“正确答案”，无监督学习的任务是从给定的数据集中，找出可能具有的结构。

输入数据没有被标记，也没有确定的结果。

简单的说监督有标记，非监督无标记。

回归问题：

所得到答案是线性的。

分类问题：

所得到的答案是0或1，是或否。

也可两个以上。

支持向量机用SMO算法

线性回归用最小二乘法

对率回归用梯度下降法

神经网络（感知机）用梯度下降

展开阅读全文