现代机器学习基于深度学习的图像特征提取Word文档下载推荐.docx

资源描述

现代机器学习基于深度学习的图像特征提取Word文档下载推荐.docx

《现代机器学习基于深度学习的图像特征提取Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《现代机器学习基于深度学习的图像特征提取Word文档下载推荐.docx（20页珍藏版）》请在冰豆网上搜索。

现代机器学习基于深度学习的图像特征提取Word文档下载推荐.docx

简单来说，机器学习就是通过算法，使得机器能从大量历史数据中学习规律，从而对新的样本做智能识别或对未来做预测。

从1980年代末期以来，机器学习的发展大致经历了两次浪潮：

浅层学习（ShallowLearning）和深度学习（DeepLearning）。

第一次浪潮：

浅层学习

1980年代末期，用于人工神经网络的反向传播算法（也叫BackPropagation算法或者BP算法）的发明，给机器学习带来了希望，掀起了基于统计模型的机器学习热潮。

这个热潮一直持续到今天。

人们发现，利用BP算法可以让一个人工神经网络模型从大量训练样本中学习出统计规律，从而对未知事件做预测。

这种基于统计的机器学习方法比起过去基于人工规则的系统，在很多方面显示出优越性。

这个时候的人工神经网络，虽然也被称作多层感知机（Multi-layerPerceptron），但实际上是一种只含有一层隐层节点的浅层模型。

90年代，各种各样的浅层机器学习模型相继被提出，比如支撑向量机（SVM，SupportVectorMachines）、Boosting、最大熵方法（例如LR，LogisticRegression）等。

这些模型的结构基本上可以看成带有一层隐层节点（如SVM、Boosting），或没有隐层节点（如LR）。

这些模型在无论是理论分析还是应用都获得了巨大的成功。

相比较之下，由于理论分析的难度，加上训练方法需要很多经验和技巧，所以这个时期浅层人工神经网络反而相对较为沉寂。

2000年以来互联网的高速发展，对大数据的智能化分析和预测提出了巨大需求，浅层学习模型在互联网应用上获得了巨大成功。

最成功的应用包括搜索广告系统（比如Google的AdWords、XX的凤巢系统）的广告点击率CTR预估、网页搜索排序（例如Yahoo!

和微软的搜索引擎）、垃圾邮件过滤系统、基于内容的推荐系统等。

2006年，加拿大多伦多大学教授、机器学习领域泰斗——GeoffreyHinton和他的学生RuslanSalakhutdinov在顶尖学术刊物《科学》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。

这篇文章有两个主要的信息：

1.很多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；

2.深度神经网络在训练上的难度，可以通过“逐层初始化（Layer-wisePre-training）来有效克服，在这篇文章中，逐层初始化是通过无监督学习实现的。

第二次浪潮：

深度学习

自2006年以来，深度学习在学术界持续升温。

斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。

2010年，美国国防部DARPA计划首次资助深度学习项目，参与方有斯坦福大学、纽约大学和NEC美国研究院。

支持深度学习的一个重要依据，就是脑神经系统的确具有丰富的层次结构。

一个最著名的例子就是Hubel-Wiesel模型，由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。

除了仿生学的角度，目前深度学习的理论研究还基本处于起步阶段，但在应用领域已显现出巨大能量。

2011年以来，微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率20％~30％，是语音识别领域十多年来最大的突破性进展。

2012年，DNN技术在图像识别领域取得惊人的效果，在ImageNet评测上将错误率从26％降低到15％。

在这一年，DNN还被应用于制药公司的DrugeActivity预测问题，并获得世界最好成绩，这一重要成果被《纽约时报》报道。

今天Google、微软、XX等知名的拥有大数据的高科技公司争相投入资源，占领深度学习的技术制高点，正是因为它们都看到了在大数据时代，更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息，并对未来或未知事件做更精准的预测。

在工业界一直有个很流行的观点：

在大数据条件下，简单的机器学习模型会比复杂模型更加有效。

例如，在很多的大数据应用中，最简单的线性模型得到大量使用。

而最近深度学习的惊人进展，促使我们也许到了要重新思考这个观点的时候。

简而言之，在大数据情况下，也许只有比较复杂的模型，或者说表达能力强的模型，才能充分发掘海量数据中蕴藏的丰富信息。

运用更强大的深度模型，也许我们能从大数据中发掘出更多有价值的信息和知识。

为了理解为什么大数据需要深度模型，先举一个例子。

语音识别已经是一个大数据的机器学习问题，在其声学建模部分，通常面临的是十亿到千亿级别的训练样本。

在Google的一个语音识别实验中，发现训练后的DNN对训练样本和测试样本的预测误差基本相当。

这是非常违反常识的，因为通常模型在训练样本上的预测误差会显著小于测试样本。

因此，只有一个解释，就是由于大数据里含有丰富的信息维度，即便是DNN这样的高容量复杂模型也是处于欠拟合的状态，更不必说传统的GMM声学模型了。

所以从这个例子中我们看出，大数据需要深度学习。

浅层模型有一个重要特点，就是假设靠人工经验来抽取样本的特征，而强调模型主要是负责分类或预测。

在模型的运用不出差错的前提下（如假设互联网公司聘请的是机器学习的专家），特征的好坏就成为整个系统性能的瓶颈。

因此，通常一个开发团队中更多的人力是投入到发掘更好的特征上去的。

要发现一个好的特征，就要求开发人员对待解决的问题要有很深入的理解。

而达到这个程度，往往需要反复地摸索，甚至是数年磨一剑。

因此，人工设计样本特征，不是一个可扩展的途径。

深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。

所以“深度模型”是手段，“特征学习”是目的。

区别于传统的浅层学习，深度学习的不同在于：

1.强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；

2.明确突出了特征学习的重要性，也就是说，同过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，使分类或预测更加容易。

与人工规则构造特征的方法相比，利用大数据来学习特征，更能刻画数据丰富的内在信息。

所以，在未来的几年里，我们将看到越来越多的例子：

深度模型应用于大数据，而不是浅层的线性模型。

图像是深度学习最早尝试的应用领域。

早在1989年，YannLeCun（现纽约大学教授）和他的同事们就发表了卷积神经网络（ConvolutionNeuralNetworks，简称CNN）的工作。

CNN是一种带有卷积结构的深度神经网络，通常至少有两个非线性可训练的卷积层，两个非线性的固定卷积层（又叫PoolingLaye）和一个全连接层，一共至少5个隐含层。

CNN的结构受到著名的Hubel-Wiesel生物视觉模型的启发，尤其是模拟视觉皮层V1和V2层中SimpleCell和ComplexCell的行为。

在很长时间里，CNN虽然在小规模的问题上，如手写数字，取得过当时世界最好结果，但一直没有取得巨大成功。

这主要原因是，CNN在大规模图像上效果不好，比如像素很多的自然图片内容理解，所以没有得到计算机视觉领域的足够重视。

这个情况一直持续到2012年10月，GeoffreyHinton和他的两个学生在著名的ImageNet问题上用更深的CNN取得世界最好结果，使得图像识别大踏步前进。

在Hinton的模型里，输入就是图像的像素，没有用到任何的人工特征。

这个惊人的结果为什么在之前没有发生？

原因当然包括算法的提升，比如dropout等防止过拟合技术，但最重要的是，GPU带来的计算能力提升和更多的训练数据。

XX在2012年底将深度学习技术成功应用于自然图像OCR识别和人脸识别等问题，并推出相应的桌面和移动搜索产品，2013年，深度学习模型被成功应用于一般图片的识别和理解。

从XX的经验来看，深度学习应用于图像识别不但大大提升了准确性，而且避免了人工特征抽取的时间消耗，从而大大提高了在线计算效率。

可以很有把握地说，从现在开始，深度学习将取代“人工特征+机器学习”的方法而逐渐成为主流图像识别方法。

二深度学习中的sparseautoencoder

2.1sparseautoencoder

Deeplearning领域比较出名的一类算法——sparseautoencoder，即稀疏模式的自动编码。

sparseautoencoder是一种自动提取样本（如图像）特征的方法。

把输入层激活度（如图像）用隐层激活度表征，再把隐层信息在输出层还原。

这样隐层上的信息就是输入层的一个压缩过的表征，且其信息熵会减小。

并且这些表征很适合做分类器。

我们知道，deeplearning也叫做无监督学习，所以这里的sparseautoencoder也应是无监督的。

如果是有监督的学习的话，在神经网络中，我们只需要确定神经网络的结构就可以求出损失函数的表达式了（当然，该表达式需对网络的参数进行”惩罚”，以便使每个参数不要太大）,同时也能够求出损失函数偏导函数的表达式，然后利用优化算法求出网络最优的参数。

应该清楚的是，损失函数的表达式中，需要用到有标注值的样本。

那么这里的sparseautoencoder为什么能够无监督学习呢？

难道它的损失函数的表达式中不需要标注的样本值（即通常所说的y值）么？

其实在稀疏编码中”标注值”也是需要的，只不过它的输出理论值是本身输入的特征值x，其实这里的标注值y=x。

这样做的好处是，网络的隐含层能够很好的代替输入的特征，因为它能够比较准确的还原出那些输入特征值。

Sparseautoencoder的一个网络结构图如下所示：

2.2损失函数

无稀疏约束时网络的损失函数表达式如下：

稀疏编码是对网络的隐含层的输出有了约束，即隐含层节点输出的平均值应尽量为0，这样的话，大部分的隐含层节点都处于非激活状态。

因此，此时的sparseautoencoder损失函数表达式为：

后面那项为KL距离，其表达式如下：

　隐含层节点输出平均值求法如下：

其中的参数一般取很小，比如说0.05，也就是小概率发生事件的概率。

这说明要求隐含层的每一个节点的输出均值接近0.05（其实就是接近0，因为网络中激活函数为sigmoid函数），这样就达到稀疏的目的了。

KL距离在这里表示的是两个向量之间的差异值。

从约束函数表达式中可以看出，差异越大则”惩罚越大”，因此最终的隐含层节点的输出会接近0.05。

假设我们有一个固定样本集

，它包含

个样例。

我们可以用批量梯度下降法来求解神经网络。

具体来讲，对于单个样例

，其代价函数为：

这是一个（二分之一的）方差代价函数。

给定一个包含

个样例的数据集，我们可以定义整体代价函数为：

以上公式中的第一项

是一个均方差项。

第二项是一个规则化项（也叫权重衰减项），其目的是减小权重的幅度，防止过度拟合。

权重衰减参数

用于控制公式中两项的相对重要性。

在此重申一下这两个复杂函数的含义：

是针对单个样例计算得到的方差代价函数；

是整体样本代价函数，它包含权重衰减项。

以上的代价函数经常被用于分类和回归问题。

在分类问题中，我们用

或

，来代表两种类型的标签，这是因为sigmoid激活函数的值域为

；

如果我们使用双曲正切型激活函数

展开阅读全文