深度学习-循环神经网络.pptx

资源描述

深度学习-循环神经网络.pptx

《深度学习-循环神经网络.pptx》由会员分享，可在线阅读，更多相关《深度学习-循环神经网络.pptx（49页珍藏版）》请在冰豆网上搜索。

深度学习-循环神经网络.pptx

深度学习之循环神经网络,陈鹏,1,目录1：

深度学习发展史2：

从神经网络到深度学习3：

循环神经网络基础4：

自然语言处理基础（扩充知识）,2,1：

深度学习发展史,3,深度学习发展史,SVMBoostingDecisiontreeKNN,NeuralnetworkBackpropagation,1986,2006,DeepbeliefnetScience,Speech,2011,2012,ComputervisionNLPSpeech,2014,GeoffreyHinton,1949,Learningmodelofneurons,1958,Perceptron,Hebb,Rosenblatt,GeoffreyHinton,DBNCNNRBMRNN,机器学习第一次浪潮：

机器学习第二次浪潮,浅层学习模型（ShallowLearning）,深度学习模型（DeepLearning）,FirstWinterofNN,SecondWinterofNN,4,深度学习（多层神经网络）,神经网络,神经元,5,synapse,dendrite,Cellbody,Synapticterminals,Axon,轴突末梢,突触,树突,细胞体,轴突,神经元是构成神经网络的最基本单元（构件）,因此,首要任务是构造人工神经元模型。

神经元模型,6,典型的激励函数（ActivationFunction）：

线性函数，非线性斜面函数，阶跃函数，S型函数等。

神经元模型,7,x1,xM,h1,hL,o1,oN,w11,wm1,wM1,wmL,wML,w1L,v11,vl1,vL1,vLN,神经网络一般形式,Nonlinearity非线性ParallelProcessing并行处理InputOutputMapping输入输出匹配Adaptivity自适应性,8,最简单的神经网络：

Perceptrons,9,SingleLayerPerceptrons,Rosenblatt,1957,10,两类样本：

白色和黑色分类错误的样本用红色轮廓目标：

分类正确所有样本，直到没有红色轮廓的样本。

W=1.661.11b=1.25,W=1.541.28b=-0.64,W=1.161.63b=-1.8,W=1.661.11b=-0.823,W=1.49-1.39b=-0.743,SingleLayerPerceptrons：

迭代过程,where?

11,SingleLayerPerceptrons：

局限性,Theobjectiveisonlytofindthelinethatseparatestwolinearlyseparableclasses.Assoonasthefirstsolutionweightsvector,whichseparatesallthedatapairscorretly,isfound,therewillbenofurtherchangesofthevector.So,theperceptronlearningisnotanoptimizationmethod.线性可分问题,Problems:

itcannotseparatepatternswhenthereisanoverlappingofdataorwhenclassesarenotlinearlySeparable不能处理线性不可分问题,异或问题：

12,LinearSeparableProblem,13,SingleLayerPerceptrons,ForXORproblem:

1.introducingoneadditionalneuroninaspecialway;2.usingdifferentiableactivationfunction;,一个单级网络可以将平面划分成两部分，用多个单级网组合在一起，就可以构成一个两级网，该网络可以被用来在平面上划分出一个封闭或者开放的凸域来；采用特殊的激励函数。

14,2：

从神经网络到深度学习,15,神经网络,深度学习网络,相似之处：

不同之处：

模拟人脑的分层网络结构；,强调深度的重要性；突出特征学习的重要性；（逐层抽象）训练机制；,16,深度学习思想起源：

人脑视觉机理,后脑皮层的不同视觉神经元，与瞳孔所受刺激之间，存在某种对应关系。

17,人的视觉系统的信息处理是分级的；高层的特征是低层特征的组合，从低层到高层的特征表示越来越抽象，越来越能表现语义或者意图；抽象层面越高，存在的可能猜测就越少，就越利于分类；,如何用计算机模拟？

深度学习起源：

人脑视觉机理,18,为什么需要深度？

深层网络具有刻画复杂函数的能力,19,常见深度学习网络一览,20,深度学习网络按是否有监督分类：

21,3：

循环神经网络（RNN）,22,递归神经网络模型,23,递归神经网络,吸收了HMM模型的有限序列关联的思想。

神经网络的隐藏层结构能够更好的表达有限的观察值背后的复杂分布。

递归神经网络（RNN），是两种人工神经网络的总称：

一种是时间递归神经网络（recurrentneuralnetwork）；一种是结构递归神经网络（recursiveneuralnetwork）；,递归神经网络模型,24,时序扩展,RecurrentNeuralNetwork,25,针对对象：

序列数据。

例如文本，是字母和词汇的序列；语音，是音节的序列；视频，是图像的序列；气象观测数据，股票交易数据等等，也都是序列数据。

核心思想：

样本间存在顺序关系，每个样本和它之前的样本存在关联。

通过神经网络在时序上的展开，我们能够找到样本之间的序列相关性。

RNN是一类扩展的人工神经网络，它是为了对序列数据进行建模而产生的。

RNN发展历史,26,Hopeldnetworks,J.Hopeld,1982,1986,JordanNetwork,ElmanNetwork,1990,J.Elman,BPTT,P.Werbos,Hochreiter&Schmidhuber,LSTM,1997,Schuster&Paliwal,BRNN,A.Graves,Neuralturingmachine,2014,Cho,etal,GRU,M.Jordan,早期（80、90年代）主要思想：

重新使用参数和计算,中期（90-2010）除LSTM以外，RNN基本从主流研究中消失了。

当前（2010-）应用广泛：

自然语言应用视频建模，手写识别，用户意图预测,StackRNN,2015,Joulin&Mikolov,开源工具包：

TheanoTorchPyBrainTensorFlow,RecurrentNeuralNetwork,27,RNN基本框架,e.g.ImageCaptioningimage-sequenceofwords,e.g.SentimentClassificationsequenceofwords-sentiment,e.g.MachineTranslationseqofwords-seqofwords,e.g.Videoclassificationonframelevel,RecurrentNeuralNetwork,28,典型应用：

图像标注,RecurrentNeuralNetwork,29,典型应用：

语言生成,RecurrentNeuralNetwork,30,典型应用：

音乐作曲,循环神经网络模型,31,激活函数,RNN常用的激活函数是tanh和sigmoid。

循环神经网络模型,32,softmax,Softmax函数是sigmoid函数的一个变种，通常我们将其用在多分类任务的输出层，将输入转化成标签的概率。

本质就是将一个K维的任意实数向量压缩（映射）成另一个K维的实数向量，其中向量中的每个元素取值都介于（0，1）之间。

循环神经网络模型,33,简单循环网络SRN,神经元之间的连接权重在时域上不变。

循环神经网络模型,34,随时间反向传播算法BPTT,BP回顾：

定义损失函数E来表示输出和真实标签y的误差，通过链式法则自顶向下求得E对网络权重的偏导。

沿梯度的反方向更新权重的值，直到E收敛。

BPTT的本质其实和BP很像，就是加上了时序演化。

定义权重U，V，W。

定义损失函数:

我们将整个序列作为一次训练，所以需要对每个时刻的误差进行求和。

循环神经网络模型,35,随时间反向传播算法BPTT,目前的任务是求E对于U，V，W的梯度。

定义E对于W的梯度（U，V同理）:

（1）求E对于V的梯度。

先求E3对于V的梯度:

W,V,U,其中：

求和可得。

其中：

依赖于，而又依赖于和W，依赖关系一直传递到t=0的时刻。

因此，当我们计算对于W的偏导数时，不能把看作是常数项！

循环神经网络模型,36,随时间反向传播算法BPTT,

（2）求E对于W的梯度。

注意，现在情况开始变得复杂起来。

先求E3对于W的梯度:

W,V,U,当我们求对于W的偏导时。

注意到：

求和可得。

同样：

依赖于，而又依赖于和U。

类似求W，当我们计算对于U的偏导数时，也不能把看作是常数项！

循环神经网络模型,37,随时间反向传播算法BPTT,（3）求E对于U的梯度。

情况与W类似。

先求E3对于U的梯度:

W,V,U,当我们求对于W的偏导时。

注意到：

求和可得。

循环神经网络模型,38,随时间反向传播算法BPTT,参数意义:

Whv:

输入层到隐含层的权重参数，Whh:

隐含层到隐含层的权重参数，Woh：

隐含层到输出层的权重参数，bh:

隐含层的偏移量,bo输出层的偏移量，h0:

起始状态的隐含层的输出，一般初始为0。

递归神经网络模型,39,随时间反向传播算法BPTT,面临的问题：

梯度消失问题梯度爆炸问题,解决方案：

选择其他的激活函数。

例如ReLU。

引入改进网络结构的机制，例如LSTM，GRU。

现在在自然语言处理上应用十分广的的就是LSTM。

4：

自然语言处理基础,40,4.1：

什么是自然语言处理？

概念：

研究人和计算机之间用自然语言进行通信的各种理论和方法,41,4.2：

词向量,42,1：

传统的One-HotEncode离散单独符号表示单词将一个单词转换成一个很长的向量。

例子：

0,0,0,0,0，1，0缺点：

A：

维数灾难，稀疏B：

不能反映出单词之间的相似性2：

分布式表示将一个单词表示成固定维度（小维度）向量分布式假设（distribute）:

上下文相似的词，其语义也相似相近的词投影到高维空间后距离很近,词的表示-词向量,4.3：

Word2Vec,43,现在常用的工具是Google2013年开源的Word2Vec：

根据采用的策略和模型我们主要分为以下几类,我们主要介绍架是NegativeSampling（负采样）模型,4.4：

工作原理,44,NegativeSampling,概念：

把语料中一个词替换为别的词，构造语料D中不存在的词串作为负样本优化目标为：

最大化正样本的概率，同时最小化负样本的概率。

例子：

假设我们的目标是根据目标词汇预测该目标词汇的上下文语料：

Thequickbrownfoxjumpedoverthelazydog这里我们的上下文长度取1；则对于brown单词而言正样本:

（brown,quick）,（brown,fox）负样本:

（brown,dog）,4.4：

工作原理,45,对于一个给定的样本（w,Context（w））,我们使用二项逻辑回归对其样本进行建模得,NegativeSampling原理,则其全部正样本的似然函数为,则其全部负样本的似然函数为,4.4：

工作原理,46,我们同时最大化正样本概率最小化负样本的概率就得到下式,对这个函数（模型）采用梯度下降算法进行训练,4.5：

工作模式,47,word2vec中的基于NegativeSampling模型的两种方法。

例子：

Iamastudent;CBOW：

知道am，student，去预测aSkip-gram模型：

知道a，去预测am，student,4.6：

实验步骤,48,原始语料,生成样本,训练模型参数,最终模型,生成结果,THANKS,49,

展开阅读全文