一种深度学习的快速学习算法.docx

上传人:b****4 文档编号:937718 上传时间:2022-10-14 格式:DOCX 页数:20 大小:795.58KB
下载 相关 举报
一种深度学习的快速学习算法.docx_第1页
第1页 / 共20页
一种深度学习的快速学习算法.docx_第2页
第2页 / 共20页
一种深度学习的快速学习算法.docx_第3页
第3页 / 共20页
一种深度学习的快速学习算法.docx_第4页
第4页 / 共20页
一种深度学习的快速学习算法.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

一种深度学习的快速学习算法.docx

《一种深度学习的快速学习算法.docx》由会员分享,可在线阅读,更多相关《一种深度学习的快速学习算法.docx(20页珍藏版)》请在冰豆网上搜索。

一种深度学习的快速学习算法.docx

一种深度学习的快速学习算法

一种深度学习的快速学习算法

Hinton,G.E.,Osindero,S.andTeh,Y.

摘要:

我们展示了如何使用“先验的补充”,以消除解释离开的影响,使在有许多隐藏层密集相连的信念网推理困难。

使用互补先验,推导一种快速,贪心算法,可以在一个时间学习深,有向信任网络一层,设置在顶部两层形成一个无向相联存储器。

快速,贪心算法被用来初始化一个较慢的学习过程,使用所述唤醒睡眠算法的对比版本微调的权重。

经过微调,有三个隐藏层的网络构成了手写数字图像和它们的标签的联合分布的一个很好的生成模型。

这生成模型提供了更好的数字比分类的判别最好的学习方法。

低维流形在其上的数字谎言由长沟壑在顶层联存储器的自由能量景观进行建模,这是容易探索这些沟壑通过使用定向的连接,以显示什么相联存储器具有记。

1.介绍

学习难以在密集连接的,即有许多隐藏层,因为它是难以推断的隐藏活动的条件分布当给定一个数据矢量定向信念网。

变分方法使用简单的近似真实条件分布,但近似值可能是差的,特别是在最深隐藏层,其中事先假定独立性。

另外,变学习仍然需要所有一起被了解到的参数,使学习时间差缩放作为参数的数量增加。

我们描述了一种模型,其中,顶部的两个隐藏层形成一个无向关联存储器(见图1)和剩余的隐藏层形成,在相联存储器将观测变量的表示变换如图象的象素的向无环图。

这种混合模式有一些吸引人的特点:

1.有一个快速的,贪婪的学习算法,可以找到一个相当不错的参数集快,即使在深网络与数以百万计的参数和许多隐藏的图层。

2.学习算法是无监督,但可以通过学习一个模型,同时生成的标签和数据被施加到标签的数据。

3.有一个微调算法,学习优良的生成模型优于手写数字的MNIST数据库上判别方法。

4.生成模型可以很容易地理解在深隐层分布式表示。

5.需要形成一个知觉推理是既快速又准确。

6.学习算法是本地:

调整突触强度只依赖于突触前和突触后神经元的状态。

7.沟通是简单的:

神经元只需要传达他们随机二进制状态。

第2节介绍的想法“互补”之前这正是取消“解释离开”的现象,使推理难以在指挥模式。

定向信念网络具有互补先验的一个实例。

第3节显示了限制玻耳兹曼机之间和无限向网络使用权并列的等价性。

第4节介绍了一种快速,贪婪学习算法的时间构建多层向网络一层。

使用变约束它表明,因为每个新层添加,整体生成模型提高。

贪心算法有某些相似之处,以提高其重复使用相同的“弱”学习的,但不是每个重新加权数据载体,以保证下一步学习新的东西,它会重新代表它。

是,用于构造深定向网的“弱”学习者是本身无向图形模型。

第5节指出由快速贪婪算法产生的权重如何能够进行微调使用“上下”算法。

这是唤醒休眠算法顿等人的对比版本。

(1995),其不从“模式平均”的问题,可能会导致唤醒睡眠算法学习差识别权重受损。

第6节显示了一个网络有三个隐藏层并在MNIST一套手写数字约为170万权重模式识别性能。

当没有知识的几何设置,并且没有特殊的预处理,网络的推广能力是在101.25%的误差;000数字网络官方测试集。

这被击败最好的反向传播网实现时,不手工精制而成,为这个特殊的应用,他们的1.5%。

它也比同一任务支持向量机报告Decoste和Schoelkopf(2002年)的1.4%的误差略胜一筹。

最后,第7示出当它不被约束通过视觉输入运行在网络的头脑发生了什么。

该网络有一个完整的生成模型,所以很容易寻找到了主意-我们只是生成了高级别交涉的图像。

整篇文章,我们会考虑网随机二元变量组成,但思想可以推广到其他车型,其中一个变量的数概率是其直连的邻居状态的附加功能(请参阅附录A了解详细信息)。

图1:

用于模拟数字图像和数字标签的联合分布的网络。

在本文中,每个训练情况下由图像和显式类标签的,但在正在进行的工作已经表明,同样的学习算法可以如果“标签”是由一个多层通路的输入是从多个不同的扬声器谱图替换使用话说隔离数字。

然后,网络学习,以产生对,它由一个图象,并且在同一数字类的谱图。

图2:

包含两个独立的,少见的原因是变得高度抗相关,当我们观察到的房子跳一个简单的逻辑的信念网。

10地震节点上的偏置装置,在没有任何观察,此节点是E10倍更可能是又比上。

如果地震节点上,叉车节点是关闭的,跳转节点具有0总输入,这意味着它具有偶数几率成为上。

这是一个更好的解释,房子比跃升20Ë的适用如果没有隐藏的原因是活动的赔率观察。

但它是一种浪费就开启,既隐藏的原因来解释,因为观察他们两人发生的概率为E-10E-10=E20.当地震节点开启了“解释离开”为卡车节点证据。

2互补先验

客场解释的现象(在网络古尔2所示)进行推理难以在定向信念网。

在密集连接的网络,在隐变量的后验分布是棘手除少数特殊情况下,如混合模型或线性模型的加性高斯噪声。

马尔可夫链蒙特卡罗方法(尼尔,1992年),可用于从后品尝,但它们通常非常耗时。

变分法(尼尔和欣顿,1998年)近似真实后具有更易于处理的分布,它们可以被用来改善对训练数据的对数概率的下限。

令人欣慰的学习是保证提高,即使隐藏状态的推断操作不当势必一变,但它会好得多第二科幻消除解释完全走的方式,即使在车型的隐藏的变量有高度相关性的影响上的可见的变量。

人们普遍认为这是不可能的。

一个逻辑的信念网(尼尔,1992年)是由随机二进制单位。

当网被用于生成数据,装置接通i的概率是它的直接祖先,j的状态的逻辑功能,和权重,Wij,从祖先定向连接:

其中,Bi是我单位的偏差。

如果一个逻辑信念净只有一个隐藏层,先验分布在隐变量是阶乘,因为它们的二进制状态为独立选择的,当模型被用来产生数据。

非独立于后部分布由似然项从所述数据到来创建。

也许我们可以消除额外的使用隐藏层来创建一个“补充”之前,有完全相反的关系到那些在任期的可能性的第一个隐藏层中解释了。

然后,当似然性项乘以在先,我们将得到的后这正是阶乘。

这是不是在所有明显的互补先验存在的,但网络古尔图3显示的是无限的物流信念网一个简单的例子绑权重,其中先验是每隐藏层补充(见附录A的条件下更加一般治疗这互补先验存在)。

使用捆绑的权重,构建互补的先验可能看起来像一个纯粹的把戏使定向模式等同于无向的。

正如我们将要看到的,但是,它导致了一种新的和非常有效的学习算法,它通过逐步从权重解开的权重中的每个层中更高的层。

2.1在一个无限定向模型绑权重

我们可以从在无限向网在图3中通过启动与随机配置以在网络连接奈特雷深藏层,然后进行自顶向下的生成数据“祖先”传递,其中,每个变量在一个层中的二进制状态从选择贝努利分布通过自上而下输入从其活跃父母在上面的层未来确定的。

在这方面,它只是像任何其他向无环信念网。

不同于其他定向网,然而,我们可以从以上所有隐藏层的真实后验分布通过启动上的可见单元的数据向量,然后使用转置权重矩阵来推断在每个隐藏层依次阶乘分布进行采样。

在每一个隐藏层,我们计算阶乘后的上述2附录A层,从之前的阶乘样品后表明,该方法给出了公正的样品,因为之前互补每层保证后验分布真的是阶乘。

因为我们可以从真后样,我们可以计算数据的对数概率的衍生物。

让我们先来计算衍生的生成量,w00ij,从层H0单位J可我单位在层V0(见图3)。

在后勤信念网,用于单个数据向量的最大似然学习规则,V0,是:

其中<>表示平均过采样的状态和^V0i是概率单位我会被接通,如果可见载体从采样的隐状态随机重建。

计算在第一个隐藏层,H0后验分布在第二隐蔽层,V1,从采样的二进制状态,是完全相同的过程作为重建数据,所以V1i是从概率伯努利随机变量的样本^V0我。

该学习规则,因此可以写为:

对H0ĴV1我的依赖是没有问题的公式的推导。

从3方程2,因为^V0i是一种期望,是有条件的,H0学家自的权重被复制,通过累加所有成对层之间的生成权重的导数得到的全衍生物的生成重量:

所有的垂直排列的术语取消离开式.5玻尔兹曼机器学习规则。

3受限玻尔兹曼机对比发散学习

它可能不会立即明显的是无限向网图3是相当于一个受限波尔兹曼机(RBM)。

的成果管理具有未彼此连接的,并已无向,对称连接到一个层可见单元的隐藏单元的单层。

以从一个成果管理数据,我们可以用一个随机状态启动在所述层中的一个,然后执行交替Gibbs抽样:

所有的单位中一个层的被并行更新给定的单元的当前状态中的其他层,这重复进行,直到系统从它的平衡分布采样。

请注意,这是完全一样的过程,从在无限的信念与净重量绑生成数据。

来执行最大似然学习的成果管理,我们可以使用两个相关之间的差。

对于每个权重,WIJ,可见光单元i和一个隐藏的单元之间,J我们测量的相关性当数据载体被夹紧在可见单元和隐状态从它们的条件分布,这是阶乘采样。

然后,交替使用Gibbs抽样,我们运行图4所示的马尔可夫链,直到它达到其平稳分布和测量相关

训练数据的对数概率的梯度,然后

这种学习规则是相同的在无限物流信念净绑权重最大似然学习规则,和Gibbs抽样的每个步骤对应于计算的层中的在无限物流信念净的确切验分布。

最大化的数据的对数概率是完全相同最小化的Kullback-Leibler散,KL(P0jjP1),数据,P0的分布,以及借助该模型中,P1中定义的平衡分布之间。

在对比发散学习(欣顿,2002年),我们只测量第二相关运行前的马尔可夫链n个完整步骤3。

这等同于忽略了来自于无限网的更高层的衍生物。

所有这些忽略衍生物的总和是在层Vn的,后验分布的对数概率由限定的衍生物也是在层Vn的,光合速率后验分布之间的Kullback-Leibler散的衍生物,和平衡分布模型。

因此,对比分歧最小化学习两个库勒巴克-莱布勒分歧的区别:

忽略抽样噪音,这种差异绝不是负的,因为吉布斯抽样用于从P0和Gibbs抽样产生的Pn总是降低库勒巴克-Leibler距离的平衡分布。

注意到,光合速率取决于当前的模型参数,并且其中的Pn变化的参数变化是由对比发散学习忽略的方式,它是重要的。

与P0不会出现这个问题,因为训练数据不依赖于这些参数。

最大似然和对比发散学习规则之间的关系进行了实证研究可以在Carreira的-Perpinan和韩丁(2005)中找到。

图3:

在一个无限的物流信念与净权重追平。

向下的箭头表示的生成模型。

向上的箭头不是模型的一部分。

它们代表了用于推断从后验分布的样本在网的每个隐藏层时一个数据矢量被夹持在V0的参数。

图4:

这描述了使用交替Gibbs抽样马尔可夫链。

在Gibbs抽样的一个完整步骤中,隐藏单元在顶层中都并联通过应用公式更新。

1到输入从可见单元的当前状态容纳在底部层,则可见单元并联全部更新鉴于目前的隐藏状态。

链是通过设置的可见单元的二进制状态是相同的作为数据矢量初始化。

在可见和隐藏单元的活动的相关性隐藏单元的第一个更新后并再次在链的末端被测量。

这两个相关的差异提供了学习信号为连接上更新的重量。

对比发散学习在限制波尔兹曼机是足够的效率是实际的(Mayraz和欣顿,2001年)。

使用实值的单位和不同的采样方案变化德等人的描述。

(2003),并已相当成功的建模形成地形图(威灵等人,2003,),去噪自然图像(罗斯和黑色,2005)或生物细胞的图像(Ning等人,2005)。

标记和Movellan(2001)描述了使用对比发散进行因子分析和威灵等人的方法。

(2005)表明,与物流,二进制可见单元和线性网络,高斯隐藏单元可用于快速文件检索。

但是,看来效率已经买了高昂的代价:

当处于明显的方式应用,对比发散学习失败深,多层网络具有不同的权重,在每一层,因为这些网络花费的时间太长了,甚至达到使用条件的平衡被夹住的数据载体。

我们现在表明,RBM的之间的无限的等价定向篮网并列权提出一个有效的学习算法的多层网络中的权重是不依赖。

4贪婪学习算法转化交涉

学习复杂模型的有效方式是结合的一组简单的模型被顺序教训。

要强制每个模型的顺序来学习的东西从以前的机型不同的是,数据以某种方式之后

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1