深度学习发展现状.doc

资源描述

深度学习发展现状.doc

《深度学习发展现状.doc》由会员分享，可在线阅读，更多相关《深度学习发展现状.doc（6页珍藏版）》请在冰豆网上搜索。

深度学习发展现状.doc

深度学习发展现状

王宇航

（北京交通大学计算机与信息技术学院，北京，100044）

摘要：

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据。

近年来，随着深度学习逐渐收到各界的广泛关注，其在各个尖端领域的作用也越来越大，深度学习已经在诸多领域取得客观的成就。

本文简要介绍深度学习的基本理论及思想，着重介绍了近年来深度学习在各个领域的应用及其发展．

关键字：

深度学习；机器学习；人工智能；无监督学习

1引言

2011年，斯坦福人工智能实验室主任吴恩达领导Google的科学家们，用16000台电脑模拟了一个模拟人脑神经网络出来，并向这个网络展示了1000万段随机从YouTube上选取的视频，看看它能学会什么．结果在完全没有外界干涉的条件下，它自己识别出了猫脸．

我们要注意的是，这种机器学习与我们通常意义上说的“机器识别”有所不同．现有的很多此类识别，需要人工输入一些用于对比的数据，或者一些已经进行初步分类、打好标签的数据，机器通过学习这些数据的共同点，得出规律，然后再去将规律应用于更大规模的数据中．粗略地说，这是一种“有监督的学习”，需要人工输入初始数据，有时候还要对识别结果进行判断，由此促进机器的学习速度．

而深度学习是一种“无监督的学习”．它基于一种学术假设：

即人类对外界环境的了解过程最终可以归结为一种单一算法，而人脑的神经元可以通过这种算法，分化出识别不同物体的能力．这个识别过程甚至完全不需要外界干预．

还是以识别猫脸为例：

吴恩达给神经网络输入了一个单词“cat”，这个神经网络中并没有辞典，不了解这个单词的含义．但在观看了一千万段视频，它最终确定，cat就是那种毛茸茸的小动物．这个学习过程，与一个不懂英语的人，在没任何人教他的时候，通过独立观察学会“cat”的过程几乎一致．

上述事例是深度学习发展中具有里程碑性质的事件，通过以上事件意在形象的向读者说明深度学习的基本思想．本文意在向读者介绍近年来深度学习在各个领域的应用及其发展．

2深度学习介绍

本节简要介绍深度学习及其思想．

2.1基本概念

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据。

深度学习的概念源于人工神经网络的研究。

含多隐层的多层感知器就是一种深度学习结构。

深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

2.2核心思想

把学习结构看作一个网络，则深度学习的核心思路如下：

①无监督学习用于每一层网络；

②每次用无监督学习只训练一层，将其训练结果作为其高一层的输入；

③用监督学习去调整所有层

2.3历史发展

图灵在1950年的论文里，提出图灵试验的设想，即，隔墙对话，你将不知道与你谈话的，是人还是电脑。

这无疑给计算机，尤其是人工智能，预设了一个很高的期望值。

但是半个世纪过去了，人工智能的进展，远远没有达到图灵试验的标准。

2006年前，尝试训练深度架构都失败了：

训练一个深度有监督前馈神经网络趋向于产生坏的结果（同时在训练和测试误差中），然后将其变浅为1（1或者2个隐层）。

2006年，加拿大多伦多大学教授、机器学习领域的泰斗GeoffreyHinton和他的学生RuslanSalakhutdinov在《科学》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。

这篇文章有两个主要观点：

1）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；2）深度神经网络在训练上的难度，可以通过“逐层初始化”来有效克服，在这篇文章中，逐层初始化是通过无监督学习实现的。

当前多数分类、回归等学习方法为浅层结构算法，其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力受到一定制约。

深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了强大的从少数样本集中学习数据集本质特征的能力。

（多层的好处是可以用较少的参数表示复杂的函数）。

深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。

因此，“深度模型”是手段，“特征学习”是目的。

区别于传统的浅层学习，深度学习的不同在于：

1）强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；2）明确突出了特征学习的重要性，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。

与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。

从2006年以来，大量的关于深度学习的论文被发表。

3深度学习的应用现状及发展

3.1深度学习在各个领域的应用概述

自2006年以来，深度学习在学术界持续升温，美国，加拿大，欧洲相继成为此领域的科研重镇。

2010年美国国防部先进研究项目局首次资助深度学习，参与方包括斯坦福大学、纽约大学和NEC美国研究院等机构。

2011年，微软语音识别采用深度学习技术降低语音识别错误率20-30%，是该领域十多年来最大的突破性进展。

2012是深度学习研究和应用爆发的一年，深度学习被应用于著名生物制药公司黙克的分子药性预测问题，从各类分子中学习发现那些可能成为药物的分子获得世界最好效果；谷歌的GoogleBrain项目用16000个处理器的服务器集群构建了一套超过10亿个节点的具备自主学习能力的神经网络，能自动从输入的大量数据中归纳出概念体系，图片搜索、无人驾驶汽车和GoogleGlass都将会从中受益。

6月，Google公司的深度学习系统在识别物体的精确度上比上一代系统提高了一倍，并且大幅度削减了Android系统语音识别系统的错误率。

百度引入深度学习以后，语音识别效果的提升超过了以往业界在过去15年里所取得的成绩。

12月，微软亚洲研究院展示了中英即时口译系统，错误率仅为7%，而且发音十分顺畅。

2013年，欧洲委员会发起模仿人脑的超级计算机项目，计划历时10年投入16亿美元，由全球80个机构的超过200名研究人员共同参与，希望在理解人类大脑工作方式上取得重大进展，并推动更多能力强大的新型计算机的研发，就资助力度，项目范围，和雄心而言，该项目堪比于大型强子对撞机项目。

库兹韦尔当前的目标就是帮助计算机理解自然语言并以自然语源与用户对话，虽然库兹韦尔的目标还要很多年才能实现。

他希望将深度学习算法用到解决自然语言的问题上，让计算机能够发现语言的问题，解决语言的问题。

3.2深度学习在搜索引擎方面的应用

由于计算机的高度普及，很多人可能已经固化了“搜索”的印象：

面对屏幕上的一个输入框，敲入一串词语，电脑返回一堆链接，用户再逐个点开查看哪个是自己需要的内容。

这是传统的搜索，其交互方式是人工提炼出关键词输入，才返回答案。

所以使用搜索引擎其实是一种技术，考验的是人能否准确观察问题、恰当提炼主题词，做到这些才有可能得到自己想要的信息。

这就与一切搜索引擎“公平地为每个人提供信息”的初衷相悖了。

但当我们要教会从没接触过电脑的父母这一搜索过程时，就发现它与人类天生的本能并不相同：

父母们往往会指着一株不知名的植物，问电脑是否能告诉我们这是什么；他们也并不习惯键入文字内容，甚至不会输入法，他们更希望对着电脑说一句“明天什么天气”就能得到答案。

2013年初，百度建立了深度学习研究院。

百度多媒体业务负责人用一个叫“明星脸搜索”的产品演示了人脸搜索能力。

改产品的功能是实验对象实时拍一张照片，百度可以搜索出这张照片最像哪个明星。

令人惊奇的是，在百度作为参考列出的互联网图片搜索照片中出现的第一张图片就是此次实验对象10年前拍的一张照片。

也就是说，在没有任何其他条件限定的前提下，百度根据一个现实场景，找到了一个确定的人。

深度学习的技术配合上大数据的储备，语音搜索、图像搜索等新兴技术就不再仅仅是技术的噱头，而是将搜索用户从数亿拓展到数十亿。

这也是Google、苹果和百度纷纷在语音搜索上推出新产品的原因。

另外值得一提的是，在今年国际机器学习大会ICML2013中，Andrew的学生仅用价值2万美元的GPU集群，就做到了与引言中提到的Google曾经用约100万美元做的猫脸识别软件相同的准确率。

3.3深度学习在语音识别方面的应用

2011年，微软语音识别采用深度学习技术降低语音识别错误率20-30%，是该领域十多年来最大的突破性进展。

2013年6月18日，微软宣布已经研发出一种新型语音识别技术，可提供“接近即时”的语音至文本的转换服务，比目前的语音识别技术快两倍，同时，准确率提高了15%。

该技术模仿人类大脑对沟通的理解方式，微软希望利用这个技术在语音识别领域保持领先。

深度神经网络技术能够像人类大脑一样工作，该技术将会取代谷歌等竞争对手在搜索和安卓产品中常用的声学技术。

微软希望使用这项新技术以便在必应搜索引擎中提供速度更快和更准确的通讯。

这种新技术已经在WindowsPhone设备上进行测试。

在国际上，IBM、google等公司都快速进行了DNN语音识别的研究，并且速度飞快。

国内方面，科大讯飞、百度、中科院自动化所等公司或研究单位，也在进行深度学习在语音识别上的研究。

3.4目前深度学习的研究团队

深度学习已经是计算机科学发展的大势所趋。

2011年，吴恩达在谷歌内部领导建立了GoogleBrain项目，最近几个月，谷歌在深度学习领域的投入明显加大，收购了加拿大多伦多大学教授杰弗里•辛顿创建的人工智能机构。

中国搜索巨头百度也建立了深度学习实验室，誓要在深度学习领域投入大量资源。

与此同时，日本的工程师开始构建控制机器人的人工神经网络，南非神经科学家亨利•马克曼正与来自欧盟和以色列的科学家们合作，希望能利用数千次实验得到的数据在一台超级计算机中模拟出人脑。

3.5深度学习目前主要瓶颈

研究的困难仍在于我们无法完全掌握人类大脑的工作原理，但科学家目前在这方面进展飞速。

中国的科学家正在研究一个新的大脑图谱，他们将之命名为“脑网络穹顶”项目。

在美国，随着奥巴马政府宣布将支持筹建一项跨学科的科研项目“基于神经科学技术创新的人脑研究”，许多类似的项目正雨后春笋般得涌现，“大神经网络时代”已经到来。

BRAIN项目的目标之一，是为绘制大脑复杂回路图开出所需的新技术，种种迹象表明，BRAIN的工作重心就是人工智能。

美国国防部研究部门称，希望BRAIN项目能够“催生新的信息处理架构或者计算方法”。

如果我们能够搞清楚人类大脑成千上万的神经元如何互相连结以及中枢神经系统存储和处理信息的原理，那么像吴恩达这样的工程师对于“人工大脑”的设想就能够更加清晰，对于人脑的研究成果和数据将能购帮助深度学习算法的研究，也能加速诸如计算机“视觉”、语言分析，以及苹果和谷歌等公司为智能手机提供的语音识别等技术的发展。

引用加州大学伯克利分校计算神经科学家布鲁诺•奥尔斯豪森的一句话——我们要学习生物生存使用的技巧，问题的关键在于生物将秘密隐藏得太深了，我们还没有掌握这些秘密所需要的工具。

4总结

由深度学习引爆的科技革命，将会催生出多个领域的变革和跨越式发展。

首先，深度学习作为核心信息技术，将本质上提升各类信息服务的质量，大幅提升自然语言、图片、声音识别和语言翻译等方面的准确率，可以预见未来的信息服务尤其是互联网信息服务的竞争，将聚焦于深度学习引发的数据智能，能否应用好深度学习将会对信息企业乃至国家的信息安全产生深远影响。

另外，由深度学习带来的各项突破，包括计算机视觉发展推动了下一代智能汽车的不断完善，以及应用于蛋白质分析等生物和医药领域并取得重要成果，都预示着深度学习不仅成为新一代信息科学研究的主流方法，更逐渐演变为一项核心

展开阅读全文