深度学习介绍-ppt课件.ppt

资源描述

深度学习介绍-ppt课件.ppt

《深度学习介绍-ppt课件.ppt》由会员分享，可在线阅读，更多相关《深度学习介绍-ppt课件.ppt（49页珍藏版）》请在冰豆网上搜索。

深度学习介绍-ppt课件.ppt

深度学习简介主要内容现状神经网络深度学习介绍常见模型StackedAuto-EncoderConvolutionalNeuralNetworkDeepBeliefNetwork杂项现状2006年7月，机器学习界的著名学者GeofferyHinton和他的学生RuslanSalakhutdinov在Science上发表了一篇关于深层神经网络训练算法的文章，引起了深度学习在学术界和工业界的关注；2012年5月到10月，为了回应对于深度学习方法的质疑，也为了测试深度学习算法的真实效果，GeofferyHinton和他的另外一个学生AlexKrizhevsky参加了ImageNet大规模视觉识别竞赛，以大幅领先优势取得第一名；2012年6月，机器学习和人工智能的知名学者AndrewNg等人与谷歌经过多年的合作，在语音识别与图像目标识别方面取得了突破性的进展；2012年11月，在二十一世纪计算大会上，微软首席研究官RickRashid展示了一套基于深层神经网络模型的语音识别系统，能实时流畅翻译，切显著地降低了错误率，这在语音识别领域是一个突破；2013年1月，百度创始人兼CEO李彦宏在年会上宣布将成立百度研究院；2013年7月，谷歌收购了深度学习初创公司DNNResearchInc.，公司员工GeofferyHinton和他的两个学生AlexKrizhevsky，IlyaSutskever加入谷歌；现状2013年10月，雅虎收购图像识别公司LookFlow，正式加入深度学习研究队伍；2015到2016年，苹果收购人工智能研究公司VocalIQ，Percepti，Emotient，Turi等，强化Siri和摄像等应用上的优势；2015年11月，谷歌发布人工智能系统TensorFlow并宣布开放源代码；2016年5月，亚马逊发布了一个开源的使用GPU训练和部署深层神经网络开源工具DSSTNE；2016年8月，英特尔开发者大会上，英特尔宣布将于2017年推出专门为人工智能和深度学习而设计的最新一代CPUIntelXeonPhi处理器，代号KnightsMill，英特尔宣称其运算能力比对手NVIDIA的Kepler系列GPU产品快两倍以上。

2016年10月，NVIDIA发布了新版本的通用并行计算架构库：

统一计算设备架构（ComputeUnifiedDeviceArchitecture，CUDA）8.0，以及深度学习专用GPU加速库：

cuDNN5.0；2016年11月，在2016全球超级计算机大会（SC16）上，AMD宣布推出新版Radeon开放计算平台（RadeonOpenComputePlatform，ROCm），以及用于GPU加速器的免费开源库MIOpen。

主要内容现状神经网络深度学习介绍常见模型StackedAuto-EncoderConvolutionalNeuralNetworkDeepBeliefNetwork杂项神经网络在机器学习与认知识别领域中，人工神经网络是一类模拟生物神经网络的模型，基于大量训练数据，用来预测（决策问题）或估计目标函数模型。

人工神经网络一般呈现为相互关联的“神经元”之间相互交换信息的系统。

在神经元的连接中包含有可以根据训练样本调整的权重，使得神经网络可以自适应输入样本，并且拥有学习能力。

作为机器学习方法的一种，神经网络算法可以用来处理一系列传统机器方法无法处理，或者处理难度较大的问题，包括计算机视觉、语音识别等任务。

基本结构神经网络的基本单元是神经元。

通过对所有输入进行加权求和，之后进行非线性映射得到该神经元的输出值。

神经网络按照拓扑结构，大体分为层状与网状两大类。

ax1x2.xnw1w2wnb常用激活函数：

ReLU函数S型函数双曲正切函数xexf11）（神经元模型神经网络输出：

激活函数：

神经网络BP网络前馈网络的逐层计算：

输入值从输入层神经元通过加权连接逐层前向传播，经过隐含层，最后到达输出层得到输出。

在信号的前向传播过程中，网络的权值是固定不变的，每一层神经元的状态只影响下一层神经元的状态。

反向传播算法：

网络的实际输出与期望输出之间的差值即为误差信号。

误差信号由输出端开始逐层反向传播。

在误差信号反向传播的过程中，网络的权值根据误差的梯度进行调节，通过权值的不断修正使网络的实际输出更加接近期望输出。

b1b2输入隐含输出前馈网络结构说明代价函数在遇到回归问题时，指定代价函数以使目标变量的真实值和预测值的距离最小；代价函数描述了网络输出与真实值之间的误差；网络模型的训练过程即：

通过随机梯度下降的方法最小化代价函数以提高网络精度；可以在代价函数中引入其他约束以满足设定要求。

0x1x2aY=F（X）F（a）反向传播算法反向传播算法可表示为以下几个步骤：

1.进行前馈传导计算，利用前向传导公式，得到直到输出层的激活值。

2.对输出层（第层），计算：

3.对于的各层，计算：

4.计算最终需要的偏导数值：

5.根据残差对参数W和b做出更新：

反向传播与梯度下降求隐含层和输出层神经元输出开始数据输入求期望和实际的偏差E达到最大训练次数？

计算隐含层单元误差求误差梯度权值学习结束E满足要求？

NNYYBP算法流程S型函数导数主要问题主要问题训练过程易陷入局部极小值，从而得不到全局最优解；计算量大，训练次数多，使得学习效率低，收敛速度慢；对于隐含层个数和隐含层神经元节点的个数选择，至今还没有一个具体的定论，缺乏理论指导；训练时，学习新样本有遗忘旧样本的趋势常用改进方法添加动量项，Dropout等规则化算法等；采用改进的梯度下降法，使用硬件辅助计算；RNN，LSTM等改进模型和神经元。

主要内容现状神经网络深度学习介绍常见模型StackedAuto-EncoderConvolutionalNeuralNetworkDeepBeliefNetwork杂项深度学习深度学习的基础架构来自于前馈神经网络和BP算法，构造多层网络，通过最小化代价函数的方法来提高分类精度。

对于传统的ANN网络而言，由于多层网络训练的困难，实际使用的多数是只含有一层隐层节点的浅层模型。

深度学习更侧重于如何通过增加网络的深度，来减小每层需要拟合的特征个数，来提取出数据（尤其是语音与图像数据）的高层特征信息，从而达到更好的测试性能与分类精度。

深度学习对输入数据逐级提取从底层到高层的特征，从而能更好地建立从底层信号到高层语义的复杂映射关系。

传统的机器学习方法，在训练数据量到达一定规模后，算法的学习能力就饱和了，而深度学习目前还看不到瓶颈。

深度学习浅层模型深层模型隐含层数1-25层以上表达能力有限更强特征提取方式人工设计或自动学习自动学习代价函数存在凸代价函数，可以收敛到全局最优解非凸代价函数，存在大量局部最优点。

（实际情况是容易收敛到非常好的点）训练难度低高理论基础成熟不完善，需要根据实验结果调整模型先验知识和工程经验非常依赖较少依赖训练样本数量多非常多使用场景数据包含简单特征数据包含复杂、多层、抽象特征深度学习深度学习的实质，是通过构建包含很多隐含层的神经网络模型，以更少的单层参数与更深的网络结构，通过海量训练数据，来学习特征的多层抽象表示，从而最终提升分类或预测的准确性。

所以，“深度模型”是手段，“特征学习”是目的。

区别于传统的浅层学习，深度学习的不同在于：

）强调了模型结构的深度，通常有5层以上、甚至100多层的隐含层；）明确突出了特征学习的重要性，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，使得分类或预测更加容易。

深层带来的好处为什么采用层次网络预训练与梯度消失现象神经网络层数加深以后，容易出现梯度消失现象；由于前层的梯度是由后层的梯度项相乘得到，梯度会逐层衰减，从而导致后层的网络学习率超过前层，BP算法收敛缓慢。

当神经网络有很多层时，就会面临不稳定的情况。

对网络的预训练可以较好地避免这种现象。

这是因为：

实验表明，在非凸优化问题上初始点的选择十分重要；无监督学习增加了深层结构的鲁棒性；对神经网络进行不同的预训练能够使网络学习到数据的不同的高质量特征；单纯增加一个网络的深度，如果不进行预训练处理，会提高陷于局部极小点的可能性。

主要内容现状神经网络深度学习介绍常见模型StackedAuto-EncoderConvolutionalNeuralNetworkDeepBeliefNetwork杂项自编码器结构单层自动编码器网络（AutoEncoder）实质上是一个三层的反向传播神经网络。

它逐层采用无监督学习的方式，不使用标签调整权值，将输入映射到隐含层上，再经过反变换映射到输出上，实现输入输出的近似等价。

X1X2X3X4X5+1h1h2h3+1X1*X2*X3*X4*X5*Inputhiddenoutput自动编码器的主要思想是利用自动编码器的主要思想是利用无监督无监督方式最方式最小化重建误差，学习到的权重提供了一个网小化重建误差，学习到的权重提供了一个网络初始化的较好的初始点。

无监督学习的主络初始化的较好的初始点。

无监督学习的主要目的是从无标签的数据中提取有用的特征要目的是从无标签的数据中提取有用的特征，以减少输入信息，保留数据中关键的有效，以减少输入信息，保留数据中关键的有效信息。

网络通过没有标签的数据学习到潜在信息。

网络通过没有标签的数据学习到潜在的分布信息，有利于它区分有标签的信息。

的分布信息，有利于它区分有标签的信息。

然而，在网络中，权重仍然需要进行微调。

因此，需要在神经网络的顶部增加一个线性因此，需要在神经网络的顶部增加一个线性回归，再对有标签的数据进行处理。

网络的回归，再对有标签的数据进行处理。

网络的微调会采用梯度下降法，对所有层同时进行微调会采用梯度下降法，对所有层同时进行调整。

调整。

自编码器的建立建立AutoEncoder的方法是：

对于m个数据的输入，有：

Code编码:

使用非线性激活函数，将维输入数据映射到维隐含层（隐含节点表示特征）其中W是一个的权重矩阵，b是一个d维的偏移向量Decode解码:

通过反向映射，对映射后的数据进行重建SAE网络每一次训练输入都会得到映射后的与解码后的。

通过对代价函数的最优化可以得到训练集上的权重与偏置。

ihiy24节点的稀疏性限制22111（|）log

（1）log1ssjjjjjKLrrrrrrrr=-=+-邋为了增强网络的稳定性，避免过拟合的发生，为了增强网络的稳定性，避免过拟合的发生，我们需要让少部分神经元输出值大于我们需要让少部分神经元输出值大于0，其他，其他的大部分为的大部分为0（或近似为（或近似为0），这就是所谓的），这就是所谓的稀疏性。

稀疏性。

在人脑中有大量的神经元，但是大多数自然图在人脑中有大量的神经元，但是大多数自然图像通过视觉进入人脑时，只会刺激到少部分神像通过视觉进入人脑时，只会刺激到少部分神经元，大部分神经元都是出于抑制状态的。

而经元，大部分神经元都是出于抑制状态的。

而且，大多数自然图像，都可以被表示为少量基且，大多数自然图像，都可以被表示为少量基本元素（面或者线）的叠加。

稀疏性处理能够本元素（面或者线）的叠加。

稀疏性处理能够更加有助于我们用少量的神经元提取出自然图更加有助于我们用少量的神经元提取出自然图像更加本质的特征。

像更加本质的特征。

从数学的角度来说，稀疏编码是一种多维数据从数学的角度来说，稀疏编码是一种多维数据描述方法，数据经稀疏编码后仅有少数分量同描述方法，数据经稀疏编码后仅有少数分量同时处于明显激活状态。

在实际应用中，稀疏编时处于明显激活状态。

在实际应用中，稀疏编码有如下几个优点：

稀疏编码方案存储能力大码有如下几个优点：

稀疏编码方案存储能力大，具有联想

展开阅读全文