深度学习综述.docx
《深度学习综述.docx》由会员分享,可在线阅读,更多相关《深度学习综述.docx(7页珍藏版)》请在冰豆网上搜索。
![深度学习综述.docx](https://file1.bdocx.com/fileroot1/2022-10/17/2cdd4085-24df-46ad-8bd9-220d77334673/2cdd4085-24df-46ad-8bd9-220d773346731.gif)
深度学习综述
深度学习综述
深度学习综述
摘要:
深度学习是机器学习研究中的一个新领域,在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。
近年来,深度学习在各领域上也取得了丰硕的研究成果。
本文简要论述了深度学习的概念、模型、算法以及在各领域的应用,最后说明深度学习的问题及发展趋势。
关键字:
深度学习,神经网络,机器学习
ReviewofDeepLearning
Abstract:
Deepleaningisanewfieldinmachinelearningresearch.Itisawhichsimulatesthehumanbraintoanalyzeandstudythemechanismofthehumantointerpretthedata.Inrecentyears,deepleaninghasachievedfruitfulresultsinvariousfields.Thispaperbrieflydiscussestheconcept,model,algorithmandapplicationinvariousfieldsofdeeplearning.Finally,explainstheproblemsanddevelopmenttrendofdeeplearning.
Keywords:
Deeplearning,neuralnetwork,machinelearning
1深度学习的概念
深度学习是机器学习领域一个新的研究方向,近年来在图像识别与检索、语言信息处理、语音识别等多领域中都取得较为成功的发展。
深度学习应用的发展基础在于建立模型来模拟人类大脑的神经连接结构,在处理图像、声音和文本这些信号时,通过多个变换阶段分层对数据特征进行描述,进而给出数据的解释。
深度学习的概念源于人工神经网络的研究。
含多隐层的多层感知器就是一种深度学习结构。
深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
深度学习的概念最早G.E.Hinton等于2006年提出。
基于深信度网(DBN)提出非监督贪心训练逐层算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。
此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。
同机器学习方法一样,深度机器学习方法也有有监督学习和无监督学习之分,不同的学习框架下建立的学习模型不同。
例如卷积神经网络就是一种深度的监督学习下的机器学习模型,而就是一种无监督学习下的机器学习模型。
典型的深度学习模型有卷积神经网络、深度置信网络和堆栈自编码网络模型等,下面对这些模型进行描述。
1.1卷积神经网络模型
卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。
它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。
该优点在于网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统算法中复杂的特征提取和数据重建过程。
卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或是其他形式的变形具有高度不变形。
Lecun的卷积神经网络由卷积层和子抽样层两种类型的神经网络层组成。
每一层有一个拓扑图结构,即在接收域内,每个神经元与输入图像中某个位置对应的固定二维位置编码信息关联。
在每层的各个位置分布着许多不同的神经元,每个神经元有一组输入权值,这些权值与前一层神经网络矩形块中的神经元关联;同一组权值和不同输入矩形块与不同位置的神经元关联。
下图是一个用于手写体字符识别的卷积神经网络,由一个输入层、四个隐层和一个输出层组成。
由下图可以看出,与完全连接的多层前馈感知器网络相比,卷积神经网络通过使用接收域的局部连接,限制了网络结构。
卷积神经网络的另一个特点是权值共享,图中包含大量连接权值,但是由于同一隐层的神经元共享同一权值集,大大减少了自由参数的数量。
图1—1用于手写体字符识别的卷积神经网络
卷积神经网络本质上实现一种输入到输出的映射关系,能够学习大量输入与输出之间的映射关系,不需要任何输入和输出之间的精确数学表达式,只要用已知的模式对卷积神经网络加以训练,就可以使网络具有输入输出之间的映射能力。
卷积神经网络执行的是有监督训练,在开始训练前,用一些不同的小随机数对网络的所有权值进行初始化。
卷积神经网络中这种层间联系和空域信息的紧密关系,使其适于图像处理和理解。
而且,在其自动提取图像的显著特征方面还表现出了比较优异的性能。
在目前大部分的工作中,研究者将卷积神经网络应用到了多种机器学习问题中,包括人脸识别,文档分析和语言检测等。
为了达到寻找视频中帧与帧之间的相干性的目的,目前卷积神经网络通过一个时间想干性去训练,但这个不是卷积神经网络特有的。
1.2深度信任网络模型
深度信任网络可以解释为贝叶斯概率生成模型,由多层随机隐变量组成,上面的两层具有无向对称连接,下面的层得到来自上一层的自顶向下的有向连接,最底层单元的状态为可见输入数据向量。
深度信任网络由若干结构单元堆栈组成,如图1—2所示,结构单元通常为RBM。
堆栈中每个RBM单元的可视层神经元数量等于前一RBM单元的隐层神经元数量。
根据深度学习机制,采用输入样例训练第一层RBM单元,并利用其输出训练第二层RBM模型,将RBM模型进行堆栈通过增加层来改善模型性能。
在无监督预训练过程中,DBN编码输入到顶层RBM后解码顶层的状态到最底层的单元实现输入的重构。
练网络将输入投影到数据的主分量空间中,此时自编码模型的作用等效于PCA;当隐层非线性时与PCA不同,得到的表示可以堆栈成多层,自编码模型能够得到多模态输入分布。
重构误差的概率分布可以解释为非归一化对数概率密度函数这种特殊形式的能量函数,意味着有低重构误差的样例对应的模型具有更高的概率。
图1—4自编码模型结构
自编码模型的重构误差的梯度与深度信任网络的CD更新规则表达式存在对应关系。
堆栈自编码网络的结构单元除了上述的自编码模型之外,还可以使用自编码模型的一些变形,如降噪自编码模型和收缩自编码模型等。
降噪自编码模型避免了一般的自编码模型可能会学习得到无编码功能的恒等函数和需要样本的个数大于样本的维数的限制,尝试通过最小化降噪重构误差,从含随机噪声的数据中重构真实的原始输入。
降噪自编码模型使用由少量样本组成的微批次样本执行随机梯度下降算法,这样可以充分利用图处理单元的矩阵到矩阵快速运算使得算法能够更快地收敛。
降噪自编码模型与得分匹配方法直接相关。
得分匹配是一种归纳原理,当所求解的问题易于处理时,可以用来代替极大似然求解过程。
2深度学习算法
2.1深度费希尔映射方法
Wong等人提出一种新的特征提取方法——正则化深度费希尔映射方法,学习从样本空间到特征空间的显式映射,根据Fisher准则用深度结构神经网络提高特征的区分度。
深度结构神经网络具有深度非局部学习结构,从更少的样本中学习变化很大的数据集中的特点,显示出比核方法更强的特征识别能力,同时RDFM方法的学习过程由于引入正则化因子,解决了学习能力过强带来的过拟合问题。
在各种类型的数据集上进行试验,得到的结果说明了在深度学习微调阶段运用无监督正则化的必要性。
2.2非线性变换方法
Raiko等人提出了一种非线性变换方法,该变换方法使得多层感知器网络的每个隐神经元的输出具有零输出和平均值上的零斜率,使学习MLP变得更容易。
将学习整个输入输出函数的线性部分和非线性部分尽可能分开,用shorteut权值建立线性映射模型,令Fisher信息阵接近对角阵,使得标准梯度接近自然梯度。
通过实验证明非线性变换方法的有效性,该变换使得基本随机梯度学习与当前的学习算法在速度上不相上下,并有助于找到泛化性能更好的分类器。
用这种非线性变换方法实现的深度无监督自编码模型进行图像分类和学习图像的低维表示的实验,说明这些变换有助于学习深度至少达到五个隐层的深度结构神经网络,证明了变换的有效性,提高了基本随机梯度学习算法的速度,有助于找到泛化性能更好的分类器。
2.3稀疏编码对称机算法
Ranzato等人提出一种新的有效的无监督学习算法——稀疏编码对称机,能够在无须归一化的情况下有效产生稀疏表示。
稀疏编码对称机的损失函数是重构误差和稀疏罚函数的加权总和,基于该损失函数比较和选择不同的无监督学习机,提出一种与文献算法相关的迭代在线学习算法,并在理论和实验上将稀疏编码对称机与深度信任网络和PCA进行比较,在手写体数字识别MNIST数据集和实际图像数据集上进行实验,表明该方法的优越性。
2.4迁移学习算法
在许多常见学习场景中训练和测试数据集中的类标签不同,必须保证训练和测试数据集中的相似性进行迁移学习。
Mesnil等人研究了用于无监督迁移学习场景中学习表示的不同种类模型结构,将多个不同结构的层堆栈使用无监督学习算法用于五个学习任务,并研究了用于少量已标记训练样本的简单线性分类器堆栈深度结构学习算法。
叫研究了无监督迁移学习问题,讨论了无监督预训练有用的原因,如何在迁移学习场景中利用无监督预训练,以及在什么情况下需要注意从不同数据分布得到的样例上的预测问题。
2.5自然语言解析算法
Collobert基于深度递归卷积图变换网络提出一种快速可扩展的判别算法用于自然语言解析,将文法解析树分解到堆栈层中,只用极少的基本文本特征,得到的性能与现有的判别解析器和标准解析器的性能相似,而在速度上有了很大提升。
2.6学习率自适应方法
学习率自适应方法可用于提高深度结构神经网络训练的收敛性并且去除超参数中的学习率参数,其中包括全局学习率、层次学习率、神经元学习率和参数学习率等。
最近研究人员提出了一些新的学习率自适应方法,如Duchi等人提出的自适应梯度方法和Schaul等人提出的学习率自适应方法;Leroux等人提出自然梯度的对角低秩在线近似方法,并说明该算法在一些学习场景中能加速训练过程。
3深度学习的实际应用
3.1语音识别
2011年,微软语音识别采用深度学习技术降低语音识别错误20-30%,是该领域十多年来最大的突破性进展。
2013年6月18日,微软宣布已经研发出一种新型语音识别技术,可提供“接近即时”的语音至文本的转换服务,比目前的语音识别技术快两倍。
同时,准确率提高了15%,该技术模仿人类大脑对沟通理解的方式。
深度神经网络技术能够像人类大脑一样工作,该技术将会取代谷歌等竞争对手在搜索和安卓产品中常用的技术。
在国际上,IBM、google等公司都快速进行了深度学习语音识别研究,并且速度飞快。
国内方面,科大讯飞、XX、中科院自动化所等公司或研究单位,也在进行深度学习在语音识别上的研究。
3.2视频分析
描述视频的静态图像特征可以采用从imageNet上学习的得到的深度模型。
以往的视觉研究方法对动态特征的描述往往依赖于光流估计、对关键点的跟踪和动态纹理。
如何将这些信息体现在深度模型中是个难点。
最直接的做法是将视频是为三维图像,直接应用卷积网络在每一层学习三维滤波器。
但是这一思路显然没有考虑到时间维和空间维的差异性。
另外一种简单更加有效的思路是,通过与处理计算光流场或其它动态特征的空间厂分布,作为卷及网络的一个输入通道。
也有研究工作利用深度编码器以非线性的方式提取动态纹理。
在最新的研究工作中,长短时记忆网络受到广泛关注,它可以捕捉长期依赖性,对视频中复杂的动态建模。
3.3人脸识别
深度学习在物体识别上的另一个重要突破就是人脸识别。
人脸识别的最大挑战是如何区分由于光线、姿态和表情等因素引起的类内变化和由于身份不同产生的类间变化。