深度学习.pptx - 冰豆网

资源描述

深度学习.pptx

《深度学习.pptx》由会员分享，可在线阅读，更多相关《深度学习.pptx（109页珍藏版）》请在冰豆网上搜索。

深度学习.pptx

深度学习,神经网络CNN网络训练CNN网络RNN网络LSTM网络GRU网络,神经网络,神经网络其实就是按照一定规则连接起来的多个神经元。

上图展示了一个全连接（fullconnected,FC）神经网络。

常用的激活函数：

sigmoid、tanh、relu作用：

增加神经网络模型的非线性因素，使得神经网络可以更好的解决较为复杂的问题。

sigmoidTanh（x）ReLU,激活函数,sigmoid,优点：

1、输出映射在（0,1）之间，单调连续，输出范围有限，优化稳定，可以用作输出层。

2、求导容易。

缺点：

1、极限状态下偏导数等于0（软饱和），容易产生梯度消失，导致训练出现问题。

2、输出不是以0为中心。

Tanh（x）,优点：

1、比sigmoid函数收敛速度快。

2、输出以0为中心。

缺点：

没有改变Sigmoid函数的最大问题由于饱和性产生的梯度消失。

ReLU,优点：

相比起Sigmoid和tanh，ReLU能够快速收敛。

计算速度快有效缓解了梯度消失的问题。

缺点：

ReLU的输出不是zero-centeredDeadReLUProblem，指的是某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。

LeakyRELU函数,拥有RELU函数的所有优点解决DeadRELUproblem,ELU（ExponentialLinearUnits）函数,不会有DeadReLU问题输出的均值接近0，zero-centered,计算量有点大,对于神经网络的学习过程，大致分为如下的几步：

初始化参数，包括权重、偏置、网络层结构，激活函数等等循环计算正向传播，计算误差反向传播，调整参数返回最终的神经网络模型前向传播（信息）,更新权重和偏差,计算预测误差,反向传播（误差）,反向传播,反向传播主要使用误差后向传播和梯度下降对网络各层调整权重。

误差反向传播是将误差信号从输出层反向传播至输入层的过程，通过比较输出信号和期望信号得到的误差信号，利用链式求导法则将误差信号逐层向前传播得到各层误差信号，根据各层误差信号调整各层权重和相关参数。

4=w848+w9495=w858+w959,梯度是一个向量，它指向函数值上升最快的方向。

显然，梯度的反方向当然就是函数值下降最快的方向了。

我们每次沿着梯度相反方向去修改的值，当然就能走到函数的最小值附近。

函数的梯度的定义就是它相对于各个变量的偏导数,梯度下降,梯度下降算法的公式：

CNN的应用,卷积神经网络（CNN）,全连接层卷积层池化层,全连接层,32x32x3图像-展成3072x1,权重W与输入的点乘,全连接层,卷积层,32x32x3图像-保留空间结构,32x32x3图像,5x5x3卷积核,图像与卷积核进行卷积即“将卷积核在图像上滑动，求点积”,卷积核的深度必须和输入图像的深度相同,卷积层,32x32x3图像,5x5x3卷积核,卷积核与一个5x5x3图像块进行卷积即：

卷积层,在做卷积时，会不会把卷积核展开成一个向量？

为什么要写成对W进行转置?

卷积层,32x32x3图像5x5x3卷积核,对所有空间位置进行卷积（滑动）,激活映射,如果再多加一个卷积核呢？

示例,例如，我们有6个5x5的卷积核，我们将得到6个单独的激活映射：

卷积层,我们把这些叠加起来得到一个28x28x6的新图像,预览,卷积层ReLU6个5x5x3卷积核,卷积ReLU10个5x5x6卷积核,卷积ReLU,空间维数的计算,32x32x3图像5x5x3卷积核,对所有空间位置进行卷积（滑动）,激活映射,空间维数的计算,输入：

7x7卷积核：

3x3步长：

1,5x5output!

空间维数的计算,输入：

7x7卷积核：

3x3步长：

2,3x3output!

空间维数的计算,输入：

7x7卷积核：

3x3步长可以为3？

不可以！

空间维数的计算,输出：

（N-F）/步长+1,例：

N=7,F=3:

步长为1=（7-3）/1+1=5步长为2=（7-3）/2+1=3步长为3=（7-3）/3+1=2.33,卷积过程,问题,进行以上卷积操作，边缘信息会漏掉，怎么办？

用零来填充边界,用零填充边界,输入：

7x7卷积核：

3x3步长：

1,Padding:

1,输出？

7x7output!

一般来说，当步长为1，卷积核为FxF时，零填充为：

（F-1）/2,例如：

F=3=零填充为1F=5=零填充为2F=7=零填充为3,举例,32x32x3,输入：

卷积核：

105x5步长：

1Padding:

2,例：

输出？

（32+2*2-5）/1+1=3232x32x10output!

举例,例：

这一层有多少参数？

5*5*3+1=76,32x32x3,输入：

卷积核：

105x5步长：

1Padding:

2,（+1forbias）,76*10=760,总结,1x1卷积核,1x1卷积核,左图：

输入卷积核输出,4x4x3,21x1,4x4x2,4x4x3,右图输入卷积核41x1输出,4x4x4,降维,升维,11卷积核最早引起人们的重视是在NINMinLin,QiangChen,andShuichengYan.Networkinnetwork.CoRR,abs/1312.4400,2013结构中，后来在GoogLeNet的Inception结构中用于降维。

CNN常用框架,CNN常用框架,Caffe：

源于Berkeley的主流CV工具包，支持C+,python,matlab，ModelZoo中有大量预训练好的模型供使用TensorFlow：

Google的深度学习框架，TensorBoard可视化很方便，数据和模型并行化好，速度快Torch:

Facebook用的卷积神经网络工具包,通过时域卷积的本地接口，使用非常直观,定义新网络层简单.,CNN的特点,局部感知,全连接,局部连接,局部连接权值参数：

权值共享,具体做法：

在局部连接中隐藏层的每一个神经元连接的是一个1010的局部图像，因此有1010个权值参数，将这1010个权值参数共享给剩下的神经元，也就是说隐藏层中106个神经元的权值参数相同。

最终需要训练的参数就是1010。

核心思想,如果要多提取出一些特征，可以增加多个卷积核，不同的卷积核能够得到图像的不同映射下的特征，称之为FeatureMap。

CNN的核心思想是：

局部感受野（localfield），权值共享和多卷积核这三种思想结合起来，获得了某种程度的位移、尺度、形变不变性。

池化层,池化层,池化层：

对输入的特征图进行压缩一方面使特征图变小，简化网络计算复杂度；另一方面进行特征压缩，提取主要特征。

最大池化层,2x2filters步长2,卷积神经网络结构,卷积神经网络示例,LeNet-5,流程：

输入层第一层卷积层第一层池化层第二层卷积层第二层池化层三层全连通层输出层,RNN的应用,RecurrentNeuralNetwork,对于序列化的特征任务，都适合用RNN来解决：

情感分析关键字提取语音识别机器翻译股票分析,RNN的应用,RNN的分类,RecurrentNeuralNetworks:

ProcessSequences,e.g.ImageCaptioningimage-sequenceofwordse.g.MachineTranslationseqofwords-seqofwords,e.g.SentimentClassificationsequenceofwords-sentimente.g.Videoclassificationonframelevel,RecurrentNeuralNetwork,usuallywanttopredictavectoratsometimesteps,Wecanprocessasequenceofvectorsxbyapplyingarecurrenceformulaateverytimestep:

oldstate,newstate,somefunctionwithparametersW,inputvectoratsometimestep,RecurrentNeuralNetwork,Wecanprocessasequenceofvectorsxbyapplyingarecurrenceformulaateverytimestep:

Notice:

thesamefunctionandthesamesetofparametersareusedateverytimestep.,RecurrentNeuralNetwork,（Simple）RecurrentNeuralNetwork,Thestateconsistsofasingle“hidden”vectorh:

Simple-RecurrentNeuralNetwork,RNN的展开图,RNN:

ComputationalGraph,Re-usethesameweightmatrixateverytime-step：

RNN:

ComputationalGraph:

ManytoMany,RNN:

ComputationalGraph:

ManytoOne,RNN:

ComputationalGraph:

OnetoMany,SequencetoSequence:

Many-to-one+one-to-many,Manytoone:

Encodeinputsequenceinasinglevector,Onetomany:

Produceoutputsequencefromsingleinputvector,Backpropagationthroughtime,梯度截断（GradientClipping）,具体做法：

为梯度设置阈值，超过该阈值的梯度值都会被cut,这样更新的幅度就不会过大，因此容易收敛。

TruncatedBackpropagationthroughtime,TruncatedBackpropagationthroughtime,VanillaRNNGradientFlow,Computinggradientofh0involvesmanyfactorsofW（andrepeatedtanh）,Bengioetal,“Learninglong-termdependencieswithgradientdescentisdifficult”,IEEETransactionsonNeuralNetworks,1994Pascanuetal,“Onthedifficultyoftrainingrecurrentneuralnetworks”,ICML2013,Largestsingularvalue1:

Explodinggradients,Largestsingularvalue1:

Vanishinggradients,Gradientclipping:

ScaleComputinggradientgradientifitsnormistoobig,Simple-RNN在实际应用中并不多，原因：

如果输入越长的话，展开的网络就越深，对于“深度”网络训练的困难最常见的是GradientExplode和GradientVanish的问题。

Simple-RNN基于先前的词预测下一个词，但在一些更加复杂的场景中，例如，“IgrewupinFranceIspeakfluentFrench”“France”则需要更长时间的预测，而随着上下文之

展开阅读全文