深度学习方法在图像处理中的应用与研究总结.docx

资源描述

深度学习方法在图像处理中的应用与研究总结.docx

《深度学习方法在图像处理中的应用与研究总结.docx》由会员分享，可在线阅读，更多相关《深度学习方法在图像处理中的应用与研究总结.docx（7页珍藏版）》请在冰豆网上搜索。

深度学习方法在图像处理中的应用与研究总结.docx

深度学习方法在图像处理中的应用与研究总结

深度学习方法在图像处理中的应用与研究

1.概述和背景

ArtificialIntelligence，也就是人工智能，就像长生不老和星际漫游一样，是人类最美好的梦想之一。

虽然计算机技术已经取得了长足的进步，但是到目前为止，还没有一台电脑能产生“自我”的意识。

是的，在人类和大量现成数据的帮助下，电脑可以表现的十分强大，但是离开了这两者，它甚至都不能分辨一个喵星人和一个汪星人。

图灵（图灵，大家都知道吧。

计算机和人工智能的鼻祖，分别对应于其著名的“图灵机”和“图灵测试”）在1950年的论文里，提出图灵试验的设想，即，隔墙对话，你将不知道与你谈话的，是人还是电脑。

这无疑给计算机，尤其是人工智能，预设了一个很高的期望值。

但是半个世纪过去了，人工智能的进展，远远没有达到图灵试验的标准。

这不仅让多年翘首以待的人们，心灰意冷，认为人工智能是忽悠，相关领域是“伪科学”。

但是自2006年以来，机器学习领域，取得了突破性的进展。

图灵试验，至少不是那么可望而不可及了。

至于技术手段，不仅仅依赖于云计算对大数据的并行处理能力，而且依赖于算法。

这个算法就是，DeepLearning。

借助于DeepLearning算法，人类终于找到了如何处理“抽象概念”这个亘古难题的方法。

在实际应用中，例如对象分类问题如对象的分类（对象可是文档、图像、音频等），我们不得不面对的一个是问题是如何用数据来表示这个对象，当然这里的数据并非初始的像素或者文字，也就是这些数据是比初始数据具有更为高层的含义，这里的数据往往指的就是对象的特征。

例如人们常常将文档、网页等数据用词的集合来表示，根据文档的词集合表示到一个词组短语的向量空间（vectorspacemodel,VSM模型）中，然后才能根抓不同的学习方法设计出适用的分类器来对目标对象进行分类;又如在图像处理中，像素强度的集合的表示方法可以最初浅的表示一幅图像，这也是我们视觉意义上的图像，一可是由于各种原因人们提出了更高层的语义的特征，如SIFT为经典的几何特征、以LBP为经典的纹理特征、以特征脸为经典的统计特征等，像SIFT，特征在很多图像处理的应用中突显出其优越性，因此特征选取得好坏对于实际应用的影响是很深刻的。

因此，选取什么特征或者用什么特征来表示某一对象对于解决一个实际问题非常的重要。

然而，人为地选取特征的时间代价是非常昂贵，另外劳动成本也高，而所谓的启发式的算法得到的结果往往不稳定，结果好坏经常是依靠经验和运气。

既然如此，人们自然考虑到自动学习来完成特征抽取这一任务。

DeepLearning的产生就是缘于此任务，它又被称为无监督的特征学习（UnsupervisedFeatureLearning），一显然从这个名称就可以知道这是一个没有人为参与的特征选取方法。

深度学习（DeepLearning）的概念是2006年左右由GeoffreyHinton等人在《science》上发表的一篇文章（（Reducingthedimensionalityofdatawithneuralnetworks》》提出来的，主要通过神经网络（NeuralNetworkNN）来模拟人的大脑的学习过程，希望借鉴人脑的多层抽象机制来实现对现实对象或数抓（图像、语音及文木等）的抽象表达，整合特征抽取和分类器到一个学习框架下，特征的抽取过程中应该尽量少地减少人为的干预。

深度学习是通过大量的简单神经元组成，每层的神经元接收更低层的神经元的输入，通过输入与输出之间的非线性关系，将低层特征组合成更高层的抽象表示，并发现观测数据的分布式特征。

通过自下而上的学习形成多层的抽象表示，并多层次的特征学习是大连理卜大学硕十学位论文一个自动地无人工干预的过程。

根据学习到的网络结构，系统将输入的样本数据映射到各种层次的特征，并利用分类器或者匹配算法对顶层的输出单元进行分类识别等。

2.人脑视觉机理

研究表明，哺乳动物的大脑皮层，处理输入信息时是采用了一种分层机制，信息从感知器官输入后，经过多层的神经元，在经过每一层神经元时，神经元会将能够体现对象本质的特征抽取出来，然后将这些特征继续传递到下一层神经元上，同样地，后继的各层神经元都是以类似的方式处理和传递信息，最后传至大脑。

深层的人工神经网络的诞生很大程度上受这一发现的启示，即构建一种包含多层结点，并且使得信息、得以逐层处理抽象的神经网络。

换言之，哺乳动物的大脑是以深度方式组织的，这一类深层的结构组织里的每一层会对于输入进行不同层次的信息处理或者抽象表示，因此，实际生活中，层次化的方法经常被用于表示一些抽象的语义概念。

与哺乳动物一样，人类的大脑处理信矛息时也是采用逐层传输和表达的方式，人脑的初级视觉系统，首先利用某些神经元探测物体边界、元形状，然后又利用其他的神经元组织，逐步向上处理形成更复杂的视觉形状。

人脑识别物体的原理是:

外部世界中的物体先在视网膜上进行投影，然后大脑的视皮层对于聚集在视网膜上的投影进行分解处理，最后利用这些分解处理后的信息进行物体识别。

因此视皮层的功能不是仅限于简单的重现视网膜图像，而是提取和计算感知信号。

视觉系统的输入数据量在人类感知系统的层次结构进行了维数减约，并剔除了与物体个性无关的信息;例如对于处理潜在结构是复杂的丰富数据（如图像、视频、主意等），深度学习应该与人类视觉系统一样可以精准地获取对象的本质特征。

深度学习的构想是借鉴大脑的分层组织方式，通过由下向上、由简单到高级的逐层抽象的特征学习，研究者们期望深度网络结构能通过模拟大脑来解决复杂的模式识别难题。

因此，深层的人工神经网络是一种人工定义用于模拟人脑组织形式的多层神经网络。

从文本来说，一个doc表示什么意思？

我们描述一件事情，用什么来表示比较合适？

用一个一个字嘛，我看不是，字就是像素级别了，起码应该是term，换句话说每个doc都由term构成，但这样表示概念的能力就够了嘛，可能也不够，需要再上一步，达到topic级，有了topic，再到doc就合理。

但每个层次的数量差距很大，比如doc表示的概念->topic（千-万量级）->term（10万量级）->word（百万量级）。

一个人在看一个doc的时候，眼睛看到的是word，由这些word在大脑里自动切词形成term，在按照概念组织的方式，先验的学习，得到topic，然后再进行高层次的learning。

那我们需要有多少个特征呢？

我们知道需要层次的特征构建，由浅入深，但每一层该有多少个特征呢？

任何一种方法，特征越多，给出的参考信息就越多，准确性会得到提升。

但特征多意味着计算复杂，探索的空间大，可以用来训练的数据在每个特征上就会稀疏，都会带来各种问题，并不一定特征越多越好。

一些浅层的算法（指仅含一个隐层的神经网络、核回归、支撑向量机等），当给定有限数量的样本和计算单元时，浅层结构难以有效地表示复杂函数，并且对于复杂分类问题表现性能及泛化能力针均有明显的不足，尤其当目标对象具有丰富的含义。

深度学习通过大量的简单神经元组成的网络，利用输入与输出之间的非线性关系，对复杂函数进行近似，对观测样本进行拟合，并在学习输入样本本质特征的抽取上体现了强大的能力。

有文献中就列举出一系列无法使用浅层网络表示的函数，这些研究成果揭示了浅层网络的局限性，从而也激发了人们探寻深度网络在一些复杂函数表示和复杂分类的应用前景。

指出深度学习结构在对于复杂函数的表示问题上具有非常高的效率及效果，而一个不适用的结构模型否（如浅层网络）对数据建模时可能需要数目非常大的计算单元。

3.深度学习的基本思想

假设一个系统S，它是一个n层（S1，…，Sn）的结构，I是系统的输入，O是系统输出，形象地表示为:

I=>S1=>S2=>...=>Sn=>O，如果输出O等于输入I，物理意义也就是表明在经过系统变化之后，输入I的信息量没有任何损失，和原始的输入保持了不变，这表明了输入I经过每一层S;均没有丢失任何信息,，即在任何一层S;，它都是输入I也就是原始信息的另外一种表示。

简单说，深度学习的精髓也就是，在一个n层的神经网络中，任何一层的输入I和输出O是“相等.’的。

学习过程中，我们希望它是不需要人为干预的，它能够自动地学习对象的特征。

在给定一组原始的输入I（可以理解为是一堆图像或者文本、一段语音之类），经过一个包含n层的系统S时，我们通过调整系统中参数，使得输出与输出相等，即输出O仍然是输入I，这样，我们就获取了输入I（原始数据）的一系列的层次特征，记为S,...Sn。

另外，前面是假设输出严格地等于输入，即这个地方“相等”有两个含义在里面:

第一个是说O和I不是在绝对形式上的相等，而是在抽象意义上的相等;另外一点指的是限制的约束的程度，比如说是不会造成歧义的完全“相等”还是有适当宽松条件的“相等”。

而绝对意义上的“相等”这个限制太严格，我们可以略微地放松这个限制，例如我们只要使得输入与输出的差别尽可能地小即可，这个放松会形成另外一类不同的深度学习的方法。

举个不太恰当的例子，比如说对“交通工具”这个概念上，I是“可以驾驶的四个轮子”，O是“车”，这样虽然对两者的描述不一致，但是我们都一可以理解为“交通工具”了。

上述就是深度学习的基本思想，而上述中的两个思想也对应了深度学习中的两个经典的方法AutoEncoder和SparseCoding，还有一个很常用的方法就是受限玻尔兹曼机（RestrictBoltzmannMachine，RBM）。

4.深度学习的常用方法

4.1AutoEncoder自动编码器

最简单的一种方法是利用人工神经网络的特点，人工神经网络（ANN）本身就是具有层次结构的系统，如果给定一个神经网络，我们假设其输出与输入是相同的，然后训练调整其参数，得到每一层中的权重，自然地，我们就得到了输入I的儿种不同表示（每一层是输入的一种表示），这些表示就是特征，在研究中可以发现，如果在原有的特征中加入这些自动学习得到的特t正可以大大提高精确度，甚至在分类问题中比}」前址好的分类算法效果还要好，这种方法称为自动编码（AutoEncoder）。

4.2、SparseCoding稀疏编码

如果我们把输出必须和输入相等的限制放松，同时利用线性代数中基的概念，即O=WxB,+砚xB,+...+W,xB,,,B是基，W;是系数，我们可以得到这样一个优化问题:

Min11一Olo

通过求解这个最优化式子，我们可以求得系数W和基B;，这些系数和基础就是输入的另外一种近似表达，因此，它们可以被当成特征来表达输入I，这个过程也是自动学习得到的。

如果我们在上述式子上加上L1的Regularity限制，得到:

Min}I一O}+u*（IW卜}砚I+…+}W，}）。

（2.1）

种方法被称为SparseCoding，它是一种对对象的简洁表征的方法，这种方法可以自动地学习到隐藏在对象数据潜在的基函数。

4.3、RestrictedBoltzmannMachine（RBM）限制波尔兹曼机

假设有一个二部图，每一个相同层的节点之间没有链接，一层是可视层，即输入数据层（v），一层是隐层（h），如果假设所有的节点都是二值变量节点（只能取0或者1值），同时假设联合概率分布p（v,h）满足Boltzmann分布，我们称这个模型是受限玻尔兹曼机（RBM）。

下面我们来看看为什么它是DeepLearning方法。

首先，这个模型因为是二部图，所以在己知v的情况下，所有的隐藏节点之间是条件独立的，即p（hIv卜p（h,I1,）...p（hIv）。

同理，在己知隐藏层h的情况下，所有的可视节点都是条件独立的，同时又由于所有的v和h满足Boltzmann分布，因此，当输入v的时候，通过p（hlv）可以得到隐藏层h，而得到隐藏层h之后，通过p（vlh）又能重构可视层，通过调整参数，我们就是要使得从隐藏层得到的可视层VI与原来的可视层v如果一样，那么得到的隐藏层就是可视层的另外一种表达，因此隐藏层可以作为可视层输入数据的特征，所以它就是一种DcepLearning方法。

文献X32]从理论一上证明，当隐层节点足够多时，深度网络就可以表示任意离散分布;文献[33]指出受限玻尔兹曼机中的隐层节点与可视节点可以为任意的指数族单元（即给定隐单元（可见单元），可见单元（隐单元）的分布的形式一可以为任意的指数族分布），如高斯单元、softmax单元、泊松单元等等。

4.4、DeepBeliefNetworks深信度网络

DBNs是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P（Observation|Label）和P（Label|Observation）都做了评估，而判别模型仅仅而已评估了后者，也就是P（Label|Observation）。

对于在深度神经网络应用传统的BP算法的时候，DBNs遇到了以下问题：

（1）需要为训练提供一个有标签的样本集；

（2）学习过程较慢；

（3）不适当的参数选择会导致学习收敛于局部最优解。

目前，和DBNs有关的研究包括堆叠自动编码器，它是通过用堆叠自动编码器来替换传统DBNs里面的RBMs。

这就使得可以通过同样的规则来训练产生深度多层神经网络架构，但它缺少层的参数化的严格要求。

与DBNs不同，自动编码器使用判别模型，这样这个结构就很难采样输入采样空间，这就使得网络更难捕捉它的内部表达。

但是，降噪自动编码器却能很好的避免这个问题，并且比传统的DBNs更优。

它通过在训练过程添加随机的污染并堆叠产生场泛化性能。

训练单一的降噪自动编码器的过程和RBMs训练生成模型的过程一样。

4.5Networks卷积神经网络

卷积神经网络是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点。

它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。

该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。

卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。

CNNs是受早期的延时神经网络（TDNN）的影响。

延时神经网络通过在时间维度上共享权值降低学习复杂度，适用于语音和时间序列信号的处理。

CNNs是第一个真正成功训练多层网络结构的学习算法。

它利用空间关系减少需要学习的参数数目以提高一般前向BP算法的训练性能。

CNNs作为一个深度学习架构提出是为了最小化数据的预处理要求。

在CNN中，图像的一小部分（局部感受区域）作为层级结构的最低层的输入，信息再依次传输到不同的层，每层通过一个数字滤波器去获得观测数据的最显著的特征。

这个方法能够获取对平移、缩放和旋转不变的观测数据的显著特征，因为图像的局部感受区域允许神经元或者处理单元可以访问到最基础的特征，例如定向边缘或者角点。

5.总结与展望

1）Deeplearning总结

深度学习是关于自动学习要建模的数据的潜在（隐含）分布的多层（复杂）表达的算法。

换句话来说，深度学习算法自动的提取分类需要的低层次或者高层次特征。

高层次特征，一是指该特征可以分级（层次）地依赖其他特征，例如：

对于机器视觉，深度学习算法从原始图像去学习得到它的一个低层次表达，例如边缘检测器，小波滤波器等，然后在这些低层次表达的基础上再建立表达，例如这些低层次表达的线性或者非线性组合，然后重复这个过程，最后得到一个高层次的表达。

Deeplearning能够得到更好地表示数据的feature，同时由于模型的层次、参数很多，capacity足够，因此，模型有能力表示大规模数据，所以对于图像、语音这种特征不明显（需要手工设计且很多没有直观物理含义）的问题，能够在大规模训练数据上取得更好的效果。

此外，从模式识别特征和分类器的角度，deeplearning框架将feature和分类器结合到一个框架中，用数据去学习feature，在使用中减少了手工设计feature的巨大工作量（这是目前工业界工程师付出努力最多的方面），因此，不仅仅效果可以更好，而且，使用起来也有很多方便之处，因此，是十分值得关注的一套框架，每个做ML的人都应该关注了解一下。

当然，deeplearning本身也不是完美的，也不是解决世间任何ML问题的利器，不应该被放大到一个无所不能的程度。

2）Deeplearning未来

深度学习目前仍有大量工作需要研究。

目前的关注点还是从机器学习的领域借鉴一些可以在深度学习使用的方法，特别是降维领域。

例如：

目前一个工作就是稀疏编码，通过压缩感知理论对高维数据进行降维，使得非常少的元素的向量就可以精确的代表原来的高维信号。

另一个例子就是半监督流行学习，通过测量训练样本的相似性，将高维数据的这种相似性投影到低维空间。

另外一个比较鼓舞人心的方向就是evolutionaryprogrammingapproaches（遗传编程方法），它可以通过最小化工程能量去进行概念性自适应学习和改变核心架构。

Deeplearning还有很多核心的问题需要解决：

（1）对于一个特定的框架，对于多少维的输入它可以表现得较优（如果是图像，可能是上百万维）？

（2）对捕捉短时或者长时间的时间依赖，哪种架构才是有效的？

（3）如何对于一个给定的深度学习架构，融合多种感知的信息？

（4）有什么正确的机理可以去增强一个给定的深度学习架构，以改进其鲁棒性和对扭曲和数据丢失的不变性？

（5）模型方面是否有其他更为有效且有理论依据的深度模型学习算法？

探索新的特征提取模型是值得深入研究的内容。

此外有效的可并行训练算法也是值得研究的一个方向。

当前基于最小批处理的随机梯度优化算法很难在多计算机中进行并行训练。

通常办法是利用图形处理单元加速学习过程。

然而单个机器GPU对大规模数据识别或相似任务数据集并不适用。

在深度学习应用拓展方面，如何合理充分利用深度学习在增强传统学习算法的性能仍是目前各领域的研究重点。

展开阅读全文