完整word版基于深度卷积神经网络的图像分类Word下载.docx
《完整word版基于深度卷积神经网络的图像分类Word下载.docx》由会员分享,可在线阅读,更多相关《完整word版基于深度卷积神经网络的图像分类Word下载.docx(25页珍藏版)》请在冰豆网上搜索。
2)深度神经网络在训练上的难度,可以通过逐层无监督训练有效克服。
理论研究表明为了学习到可表示高层抽象特征的复杂函数,需要设计深度网络.深度网络由多层非线性算子构成,典型设计是具有多层隐节点的神经网络。
但是随着网络层数的加大,如何搜索深度结构的参数空间成为具有挑战性的任务。
近年来,深度学习取得成功的主要原因有:
1)在训练数据上,大规模训练数据的出现(如ImageNet),为深度学习提供了好的训练资源;
2)计算机硬件的飞速发展(特别是GPU的出现)使得训练大规模神经网络成为可能。
卷积神经网络(Convolutionalneuralnetworks,CNN)是一种带有卷积结构的神经网络,卷积结构采用权值共享的方式减少了深层网络占用的内存量,也减少了网络的参数个数,缓解模型的过拟合问题.为了保证一定程度的平移、尺度、畸变不变性,CNN设计了局部感受野、共享权重和空间或时间下采样,提出用于字符识别的卷积神经网络LeNet-5。
LeNet-5由卷积层、下采样层、全连接层构成,该系统在小规模手写数字识别中取得了较好的结果。
2012年,Krizhevsky等采用称为AlexNet的卷积网络在ImageNet竞赛图像分类任务中取得了最好的成绩,是CNN在大规模图像分类中的巨大成功。
AlexNet网络具有更深层的结构,并设计了ReLU(Rectifiedlinearunit)作为非线性激活函数以及Dropout来避免过拟合。
在AlexNet之后,研究者由提出了网络层数更深的神经网络,例如Google设计的GoogLeNet和MSRA设计的152层的深度残差网络等.表1是ImageNet竞赛历年来图像分类任务的部分领先结果,可以看出,层数越深的网络往往取得的分类效果更好.为了更好地改进卷积神经网络,本文在CIFAR10数据集上研究了不同的网络层设计、损失函数的设计、激活函数的选择、正则化等对卷积网络在图像分类效果方面的影响,本文引入了BatchNormalization与dropout结合的方法,通过加深卷层神经网络的层数,有效地提高了卷积神经网络在图像分类准确率.
表1-1ImageNet历年图像分类任务结果
公布时间
机构
Top—5错误率(%)
网络名称
网络深度
2015.12。
10
MSRA
3.57
ResNet
152
2014.8.18
Google
6。
66
GoogLeNet
22
2013.11。
14
NYU
7。
33
Clarifai
2012.10。
13
U.Toronto
11.7
Alexnet
8
2卷积神经网络的模型分析
2。
1网络基本拓扑结构
卷积神经网络与其他神经网络模型最大的区别是卷积神经网络在神经网络的输入层前面连接了卷积层,这样卷积层就变成了卷积神经网络的数据输输入.LeNet—5是YanLecun开发的用于手写字符识别的经典卷积神经网络模型,图2-1是其结构图.
图2—1LeNet—5结构图
LeNet-5的体系结构有7层,其中有3个卷积层。
第一卷积层由6个特征图(FeatureMaps,FM)组成,故C1包含156可训练参数((6个5X5内核加上6偏值)来创建122304(156*(28*28)-122,304)个连接。
在C1层FM的尺寸为28x28,由于边界条件,第二卷积层,C3包含1500权重和16偏置,C3层共有1516个可训练参数以及151600个连接。
S2和C3之间的连接如表2-1所示.Lecun设计这些连接最大化的特征由C3提取的数目,同时减少权重的数目。
在最后的卷积层C5包含120个FM,输出尺寸为1X1。
LeNet-5的体系结构还包含有两个子采样层:
S2和S4,S2包含6个特征图和S4有16个特征图.层S2有12个可训练的参数与5880连接,而层S4有32个可训练参数与156000连接.
表2-1S2与S3之间的连接
总结LeNet-5的网络结构,我们得到卷积神经网络的基本结构可以分为四个部分:
输入层,卷积层,全连接层和输出层四个部分:
输入层:
卷积输入层可以直接作用于原始输入数据,对于输入是图像来说,输入数据是图像的像素值。
卷积层:
卷积神经网络的卷积层,也叫做特征提取层,包括二个部分。
第一部分是真正的卷积层,主要作用是提取输入数据特征。
每一个不同的卷积核提取输入数据的特征都不相同,卷积层的卷积核数量越多,就能提取越多输入数据的特征.第二部分是pooling层,也叫下采样层(Subsamping),主要目的是在保留有用信息的基础上减少数据处理量,加快训练网络的速度。
通常情况下,卷积神经网络至少包含二层卷积层(这里把真正的卷积层和下采样层统称为卷积层),即卷积层-pooling层—卷积层—pooling层。
卷积层数越多,在前一层卷积层基础上能够提取更加抽象的特征。
全连接层:
可以包含多个全连接层,实际上就是多层感知机的隐含层部分。
通常情况下后面层的神经节点都和前一层的每一个神经节点连接,同一层的神经元节点之间是没有连接的。
每一层的神经元节点分别通过连接线上的权值进行前向传播,加权组合得到下一层神经元节点的输入。
输出层:
输出层神经节点的数目是根据具体应用任务来设定的。
如果是分类任务,卷积神经网络输出层通常是一个分类器,通常是Softmax分类器。
2.2卷积和池化
2.2.1卷积
卷积,一般利用卷积核对图像进行特征提取,其中最重要的就是卷积核。
卷积核的设计一般涉及卷积核的大小(size),卷积核的数目(number)以及卷积核的步长((stride).
从理论上来说,卷积核的个数表示从上层中通过卷积滤波得到特征图的个数,提取的特征图越多,网络表示特征空间就越大,学习能力也就越强,最后识别结果就比较准。
但卷积核太多(特征图太多),增大网络的复杂度,增加参数的个数,加大了计算的复杂度,易出现过拟合现象,所以有时候卷积核也不并是越多越好,而应根据具体的数据集图像的大小确定卷积核的个数。
图像卷积特征提取,通过设定的一个卷积核尺寸为
的滤波器,步长(stride)为
个像素,对一幅新的图像
进行卷积处理,得到一个大小为
的特征图,如图2—2所示.一般来说卷积核尺寸越小,特征提取的质量也就越高,具体大小还应根据输入图像的尺寸决定。
图2-2图像卷积示意图
2.2.2池化
对输入的图像邻域进行卷积处理得到图像的邻域特征图(FeatureMap),再通过亚采样层使用池化((pooling)技术将小邻域内进行下采样得到新的特征.通过对上层池化,特征结果可以使得参数减少(降低了特征维数),且增强特征使得最后的特征表达保持了某些不变性(旋转、平移、伸缩等),所以说池化的本质是一个降纬的过程。
常用的有均值采样(mean—pooling)、最大采样(max—pooling)。
据相关理论,特征提取的误差主要来自两个方面:
(1)邻域大小受限造成的估计值方差增大;
(2)卷积层参数误差造成估计均值的偏移.一般来说,mean—pooling能减小第一种误差,更多的保留图像的背景信息,max-pooling能减小第二种误差,更多的保留纹理信息。
3激活函数
在神经网络中经常使用的激活函数有Sigmoid函数、Tanh函数、ReLu函数等,前两种激活函数在传统的BP神经网络使用的较多,ReLu函数在深度学习中使用的较多。
ReLu(rectifiedfinearunit)函数是Hinton提出的修正线性单元(Relu),CNNs在利用ReLu函数进行训练几次之后明显比传统的sigmoid和tanh函数更快。
假设一个神经单元的激活函数为
,其中i表示隐含层单元的个数,
表示隐含单元的权值,那么ReLu函数的表达式为:
其函数图像如图2-3所示:
图2—3ReLu函数图像
由于ReLu函数具有线性的、非饱和的形式,单侧抑制,相对宽阔的兴奋边界,稀疏激活性,所以在卷积神经网络中的使用效果好于sigmoid和tanh函数。
4Softmax分类器与代价函数
在卷积神经网络应用于图像分类任务时,我们在神经网络最后一层全连接层后接一个Softmax分类器用于图像标签的预测。
在softmax回归中,我们解决的是多分类问题(相对于logistic回归解决的二分类问题),类标
可以取
个不同的值(而不是2个)。
因此,对于训练集
,我们有
。
(注意此处的类别下标从1开始,而不是0).
对于给定的测试输入
,我们想用假设函数针对每一个类别j估算出概率值
也就是说,我们想估计
的每一种分类结果出现的概率。
因此,我们的假设函数将要输出一个
维的向量(向量元素的和为1)来表示这
个估计的概率值。
具体地说,我们的假设函数
形式如下:
为了方便起见,我们同样使用符号
来表示全部的模型参数.在实现Softmax回归时,将
用一个
的矩阵来表示会很方便,该矩阵是将
按行罗列起来得到的,如下所示:
由上式子可得样本
属于
的概率为:
当每个样本所属类别的条件概率
都最大时,分类器识别率最高,此时等价于最大化如下的似然函数:
为了降低计算量和防止溢出,对似然函数取对数,并适当变形得:
其中1{。
}称为示性函数,表达的功能为:
1{true}=1,1{false}=0.此时最大化似然函数
等价于最小化代价函数
,故使用梯度下降法求解
的最小值,从而确定参数
代价函数
的梯度为:
在实际应用中,我们为了防止过拟合问题,我们通常在代价函数后加正则化项
(L2正则化),这样代价函数变为:
上式中的第二项它会对偏大的参数值进行惩罚,又称权值衰减项。
适当的
可以降低权值的数量级,从而控制网络参数的取值,在一定程度上防止了过拟合.
5学习算法
在神经网络的学习中我们主要利用反向传播算法来进行梯度计算,并且用梯度执行参数更新,主要的方法有随机梯度下降法(StochasticGradientDecent,SGD),自适应矩估计法(AdaptiveMomentEstimation,Adam)。
通常情况下我们的训练数据集会比较大,如何一次性装载所有训练样本进行训练,往往会出现内存溢出问题,所以我们实际中常常采用数据集的一个微型集(mini-batch,数量为N<
<
|D|,此时的代价函数为:
5。
1随机梯度下降
随机梯度下降法每次输入一个微型集(mini—batch)对网络进行训练,由于每次的微型集都是随机选取的,所以每次迭代的代价函数会不同,当前bacth的梯度对网络参数的更新影响较大,为了减少这种影响,我们通常情况下会引入动量系数对传统的随机梯度下降法进行改进.
momentum即动量,它模拟的是物体运动时的惯性,即更新的时候在一定程度上保留之前更新的方向,同时利用当前batch的梯度微调最终的更新方向。
这样一来,可以在一定程度上增加稳定性,从而学习地更快,并且还有一定摆脱局部最优的能力.加动量的随机梯度下降算法迭代公式如下:
其中
是上一次的权值更新量,
为动量系数,表示要在多大程度上保留原来的更新方向,这个值在0-1之间,
为学习率。
特点如下:
Ø
下降初期时,使用上一次参数更新,下降方向一致,乘上较大的
能够进行很好的加速
下降中后期时,在局部最小值来回震荡的时候,
使得更新幅度增大,跳出陷阱
在梯度改变方向的时候,
能够减少更新,总而言之,动量项能够在相关方向加速SGD,抑制振荡,从而加快收敛。
2.5.2自适应矩估计法
Adam(AdaptiveMomentEstimation)本质上是带有动量项的RMSprop,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。
Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。
迭代公式如下:
其中,
分别是对梯度的一阶矩估计和二阶矩估计,可以看作对期望
,
的估计;
是对
的校正,这样可以近似为对期望的无偏估计。
可以看出,直接对梯度的矩估计对内存没有额外的要求,而且可以根据梯度进行动态调整,而
对学习率形成一个动态约束,而且有明确的范围。
具有善于处理稀疏梯度和非平稳目标的优点
对内存需求较小
为不同的参数计算不同的自适应学习率
适用于大多非凸优化问题,也适用于大数据集和高维空间
通常情况下且迭代速度快于SGD,但是其收敛精度一般不如SGD
2.6Dropout
权值衰减(L2正则化)是通过修改代价函数来实现的,但是Dropout通过修改神经网络结构来实现的,它是在训练神经网络时用的一种优化方法。
Dropout是指在模型训练时随机让网络部分隐含层单元的不工作,不工作的那些单元可以暂时不作为网络的部分计算,但保留它的权重(暂时不更新),因为下次样本输入时它可能又工作。
在训练过程中,Dropout是以一定概率
将隐含层节点的输出清0,而用反向传播更新权值时,不再更新与该节点相连的权值,未设置Dropout与设置Dropout的神经网络结构如下:
(a)无Dropout的神经网络结构
(b)设置Dropout的神经网络结构
图2-4Dropout示意图
2.7BatchNormalization
我们知道,在训练深度神经网络时,常常会发生“梯度弥散"
问题,即当我们使用反向传播方法计算梯度导数的时候,随着网络深度的增加,反向传播的梯度(从输出层到网络的最初几层)的幅度值会急剧地减小.一个简单的例子就是:
,结果就造成了整体的代价函数对最初几层网络的权值的导数非常小.这样,当使用梯度下降法的时候,最初几层的权重变化非常缓慢,以至于它们不能够从样本中进行有效的学习。
为了解决梯度弥散问题,Google在2015年的ICML大会上提出了BatchNormalization的方法。
BatchNormalization嘛,即“批规范化”,即在每次进行随机梯度下降时,通过mini-batch来对相应的激活输出做规范化操作,使得结果(输出信号各个维度)的均值为0,方差为1。
具体的“批规范化"
算法如下:
在BatchNormalization中,通过将激活函数的输出规范为均值和方差一致的手段使得原本会减小的输出的变大,从而在很大程度上解决了梯度弥散问题,并加快了深度神经网络的训练。
3模型设计与实验分析
3.1CIFAR-10数据集
CIFAR—10数据集含有6万张
的自然图像,共分为10种类型,由AlexKrizhevsky,VinodNair和GeoffreyHinton收集而来。
包含50000张训练图片,10000张测试图片,数据集的数据存在一个
的数组中(按行存储,每一行表示一副图像),前1024位是R值,中间1024位是G值,最后1024位是B值,数据集样例如图3—1所示。
我们对实验数据集仅作简单的裁剪与白化处理后将像素值送入神经网络中进行训练。
图3-1CIFAR—10数据集样例
3。
2模型设计
在上一章中我们对卷积神经网络性能的影响因素进行了分析,如何选择感受野大小、核个数、池化大小、网络的层数等。
对此,我们根据这些影响因素并结合CIFAR—10数据集,设计了两个模型。
一种是浅层卷积网络模型,一种是深度卷积网络模型,浅层卷积网络模型受GoogleTensorFlow的教学手册启发,深度卷积网络模型是结合了影响卷积网络性能的影响因素设计而成。
浅层卷积网络与深度卷积网络的结构图分别如图3-2与图3-3所示。
图3—2浅层卷积网络
图3-3深度卷积网络
两个网络的架构图分别如表3—1与表3-2所示。
表3—1浅层卷积网络架构图
type
PatchSize/strides
FeatureMaps
depth
activation
learningrule
convolution
3×
3
32
1
ReLu
SGD+Momentum
maxpool
3/
[1,2,2,1]
64
[1,2,2,1]
Fullconnection
1×
384/192
2
softmax
表3—2深度卷积网络架构图
[1,2,2,1]
[1,2,2,1]
128
[1,2,2,1]
256
[1,2,2,1]
若我们将下采样层(pooling)与归一化层(BatchNormalization)不计入网络层数的计算,则我们设计的浅层网络的深度为5,深度网络的深度为11.
3实验结果与分析
3.3.1实验环境与基本参数设置:
实验中我们采用Python+tensorflow进行编程,tensorflow是Google开发的一种深度学习框架,其提供了C++与Python接口,主要支持Linux与MacOS,这种框架主要采用先进的图计算,即使用有向图的节点和边共同描述数学计算。
graph中的nodes代表数学操作,也可以表示数据输入输出的端点。
边表示节点之间的关系,传递操作之间互相使用的多位数组(tensors,张量),tensor在graph中流动——这也就是TensorFlow名字的由来.一旦节点相连的边传来了数据流,节点就被分配到计算设备上异步的(节点间)、并行的(节点内)执行,这种灵活的架构允许我们使用相同的API在单或多CPUs或GPU,服务器及移动设备上进行计算。
本文的编程环境处于Linux之中,具体的实验室环境如表3-3所示:
表3—3实验环境
CPU
i5-6500CPU@3。
20GHz
GPU
GTX750ti@2GB
内存
8GB
操作系统
Linuxmint18
深度学习框架
GoogleTensorFlow(r0.12)
编程语言
Python2。
7
为了后续进行对比实验,我们配置了基本的实验参数,后续相关的实验参数也是在基本参数上进行变动。
权值衰减的实现是在代价函数中增加惩罚项,随机训练样本会造成这惩罚项产生较大的随机突变,干扰梯度更新方向的稳定性,同时增大训练误差,故惩罚项的参数需要非常小,一般都要小于0.001;
另外,对神经元随机失能的比例不能太大,否则随机噪声会淹没训练集的作用;
批处理尺寸(batchsize)不能太大,负责会造