完整word行人检测综述报告.docx

资源描述

完整word行人检测综述报告.docx

《完整word行人检测综述报告.docx》由会员分享，可在线阅读，更多相关《完整word行人检测综述报告.docx（12页珍藏版）》请在冰豆网上搜索。

完整word行人检测综述报告.docx

完整word行人检测综述报告

基于深度神经网络的行人检测综述

摘要:

行人检测是汽车自动驾驶的基础技术之一。

基于深度神经网络模型的行人检测方法取得的效果已经远超于使用传统特征经行识别得到的效果。

仿生物视觉系统的卷积神经网络作为深度学习的重要组成、在图像、语音等领域得到了成功应用.其局部感受野、权值共享和降采样三个特点使之成为智能机器视觉领域的研究热点.通过增加网络层数所构造的深层神经网络使机器能够获得抽象概念能力,在诸多领域都取得了巨大的成功，又掀起了神经网络研究的一个新高潮.本文回顾了神经网络的发展历程，综述了其当前研究进展以及存在的问题，展望了未来神经网络的发展方向.

关键词：

行人检测；卷积神经网络；深度学习

SurveyofPedestriandetectionbasedonDeepNeuralNetwork

YinGuangchuan，Zhangshuai，QiShuaihui

Abstract：

Pedestriandetectionisoneofthebasictechnologiesofunmannedvehicles.Thepedestriandetectionmethodbasedonthedeepneuralnetworkmodelhasachievedmuchmoreeffectthanthetraditionalone。

Convolutionalneuralnetworkwhichimitatesthebiologicalvisionsystemhasmadegreatsuccessonimageandaudio,whichistheimportantcomponentofdeeplearning。

Localreceptivefield，sharingweightsanddownsamplingarethreeimportantcharacteristicsofCNNwhichleadittobethehotspotinthefieldofintelligentmachinevision．Withtheincreasingnumberoflayers,deepneuralnetworkentitlesmachinesthecapabilitytocapture“abstractconcepts”andithasachievedgreatsuccessinvariousfields，leadinganewandadvancedtrendinneuralnetworkresearch。

Thispaperrecallsthedevelopmentofneuralnetwork，summarizesthelatestprogressandexistingproblemsconsideringneuralnetworkandpointsoutitspossiblefuturedirections。

Keywords：

pedestriandetection;convolutionalneuralnetwork;deeplearning

1引言

行人兼具刚性和柔性物体的特性，外观易受穿着、尺度、遮挡、姿态和视角等影响，使得行人检测成为计算机视觉的研究难点与热点。

行人检测技术由于应用的广泛性使其在计算机视觉领域成为一个重要分支,对视频监控、车辆辅助驾驶、智能机器人等多个领域提供了重要的技术支持。

近几年来，深度学习在大规模图像分类方面取得的了重大突破，表明深度学习可以从多媒体内容中提取具有很强表达能力的特征。

卷积神经网络（ConvolutionalNeuralNetwork，CNN）［1]提供了一种端到端的学习模型,模型中的参数可以通过传统的梯度下降方法进行训练，经过训练的卷积神经网络能够学习到图像中的特征，并且完成对图像特征的提取和分类.作为神经网络领域的一个重要研究分支，卷积神经网络的特点在于其每一层的特征都由上一层的局部区域通过共享权值的卷积核激励得到.这一特点使得卷积神经网络相比于其他神经网络方法更适合应用于图像特征的学习与表达。

CNN把特征提取归入模型学习，把特征学习和分类学习有机结合起来,更有效地实现对图像的识别．特别是近两年，卷积神经网络受到了更为广泛地关注．CNN可能是机器学习领域近十年最成功的研究方向，因此本文拟对CNN的发展和其在行人检测上的研究成果进行了介绍，并对其预期研究方向进行展望。

2卷积神经网络的研究历史

20世纪60年代，Hubel等[2］的生物学研究表明，视觉信息从视网膜传递到大脑中是通过多个层次的感受野（ReceptiveField）激发完成的；1980年，Fukushima［3］第一次提出了一个基于感受野理论模型Neocognitron。

Neocognitron是一个自组织的多层神经网络模型,每一层的响应都由上一层的局部感受野激发得到，对于模式的识别不受位置、较小形状变化以及尺度大小的影响。

Neocognitron采用的无监督学习也是卷积神经网络早期研究中占据主导地位的学习方式.

1998年,Lecun等提出的LeNet-5［1]采用了基于梯度的反向传播算法对网络进行有监督的训练。

经过训练的网络通过交替连接的卷积层和下采样层将原始图像转换成一系列的特征图，最后，通过全连接的神经网络针对图像的特征表达进行分类。

卷积层的卷积核完成了感受野的功能,可以将低层的局部区域信息通过卷积核激发到更高的层次.LeNet—5在手写字符识别领域的成功应用引起了学术界对于卷积神经网络的关注。

同一时期，卷积神经网络在语音识别[4]、物体检测[5］、人脸识别［6]等方面的研究也逐渐开展起来。

2006年,机器学习领域的泰斗Hinton[7］指出多层的神经网络结构能够学习到更深刻更本质的特征,并通过“逐层初始化”的训练办法克服了传统神经网络训练瓶颈问题，引领了深度学习的发展方向。

从此，深度学习受到了各国学者的广泛关注，谷歌、微软、IBM、XX等拥有大数据的高科技公司相继投入大量资源进行深度学习理论研究。

2011年以来，微软研究院和谷歌的语音识别人员采用深度神经网络（deepneuralnetwork，DNN）技术，使语音识别有了突破性进展，识别误差可降低20％～30％.2012年，Krizhevsky等［8］提出的AlexNet在大型图像数据库ImageNet[9]的图像分类竞赛中以准确度超越第二名11%的巨大优势夺得了冠军，使得卷积神经网络成为了学术界的焦点。

2014年的大型视觉辨识挑战赛（ImageNetLargeScaleVisualRecognitionChallenge,ILSVRC）中，几乎所有的参赛队伍都采用了卷积神经网络及其变形方法。

2015年国际机器学习大会上来自工业界和学术界的各位专家对深度学习展开激烈讨论,指出深度学习在人类擅长的领域已经取得了令人振奋的成功,未来的探索方向是人类并不擅长的任务、数据集。

2015年国际计算机视觉与模式识别会议上关于DL和CNN的研究成果较往年有大幅的提升。

2015年9月，微软亚洲研究院的“深层残差网络”（deepresidualnetworks）在ILSVRC中获得图像分类、定位以及检测全部项目的冠军，如分类方面将错误率降低至4．94%，比人眼辨识（错误率5．1%）更精确[10］。

在大数据时代,各领域争先占领DL的技术制高点，希望找出更强大的模型来揭示海量数据所承载的丰富信息，对未知事件更精准地预测。

3卷积神经网络结构与改进

3.1卷积神经网络结构

Lecun等［1]提出的LeNet-5模型采用了交替连接的卷积层和下采样层对输入图像进行前向传导，并且最终通过全连接层输出概率分布的结构是当前普遍采用的卷积神经网络结构的原型。

卷积神经网络是一种多层的监督学习网络,有输入层、隐含层（包括卷积层和下采样层）和输出层，通过误差反传算法优化网络结构，求解未知参数，其网络结构如图1所示.

图1卷积神经网络框架

在卷积层，特征图（FeatureMap）的每一个神经元与前一层的局部感受野相连，经过卷积操作提取局部特征。

A卷积层中有多个FeatureMap，每个FeatureMap提取一种特征,在提取特征时，同一个FeatureMap的神经元共享一组权值（即卷积核），不同的FeatureMap权值不同，从而提取不同的特征,在训练过程中不断地调整权值参数，使特征提取朝着有利于分类的方向进行，卷积操作示意图如图2所示,一般卷积的公式如公式1所示

（1）

其中，l代表层数，k代表卷积核，

输入层的感受野，b代表偏置。

图2卷积操作示意图

在下采样层中，输入的FeatureMap经过池化（Pooling）后其个数不变，大小变为原来的1/n（假设池化尺寸为n）。

池化操作的主要作用是减小特征图的分辨率，降低特征维数,同时在一定程度上增加网络对位移、缩放、扭曲的鲁棒性。

池化分为最大池化和平均池化.下采样层的形式如公式2所示：

（2）

其中down（•）为池化函数，β为权重系数。

LeNet-5虽然在手写字符识别领域取得了成功，但是其存在的缺点也比较明显,包括难以寻找到合适的大型训练集对网络进行训练以适应更为复杂的应用需求；过拟合问题使得LeNet-5的泛化能力较弱;网络的训练开销非常大，硬件性能支持的不足使得网络结构的研究非常困难。

以上三大制约卷积神经网络发展的重要因素在近期的研究中取得了突破性的进展是卷积神经网络成为一个新的研究热点的重要原因。

并且,近期针对卷积神经网络的深度和结构优化方面的研究进一步提升了网络的数据拟合能力。

3。

2卷积神经网络模型的改进

3。

2.1CNN卷积层的改进

在增加模型深度可以有效增加网络性能的理论基础上，Krizhevsky等[11]把CNN的卷积层数加至5层，构成了深度卷积神经网络（deepconvolutionalneuralnetwork，DCNN）；zegedy等组成GoogLeNet小组构建了22层深度网络[12］，该网络比2012ILSVRC获胜者的网络参数少了12倍,却能更精确的分类和检测，在2014年的ILSVRC一举夺冠。

如何构建更深网络一直是CNN的研究热点，2015ILSVRC的152层“深层残差网络”［13］采用了一个全新的“残差学习"原则指导学习，并重新定向了深层CNN中的信息流，高效地解决了深层神经网络准确度与层数之间的矛盾.王冠皓［14]提出了多级金字塔卷积神经网（multi—levelpyramidCNN），CNN每层先使用稀疏自编码器预训练，再使用金字塔卷积神经网络对整个网络训练，将低层的滤波权值共享到高层,保证训练时的卷积滤波只在小尺寸图像上进行，大尺度图像只进行一次向前传播，加快训练速度.此外，Zhang在ImageNet上训练具有7层的快速非线性卷积神经网络[15］，对每层加速以达到对整个网络加速的目的，速度可达到与“AlexNet”［16］一致的同时，分类精度也提高了4。

7％。

3。

2。

2CNN降采样层的改进

常规DCNN只能对尺度固定的图像进行处理，对尺度不同的输入图像需人工裁剪或拉伸之后才输入网络，会造成图像失真而影响分类的准确率.DCNN的卷积层尾端引入空间金字塔降采样层去除固定尺度的约束，降采样获得与全连接层相匹配的特征。

多尺度训练得到的空间金字塔降采样网络（spatialpyramidpoolingnetworkSPP-net）［17]可处理任意尺度的图像。

Rippel等[18]提出了频谱池化的方法,将CNN进行傅里叶变换来把耗时的卷积操作替换为乘积操作可加速网络训练，通过截取信号在频域特征表示来降低维度，不仅可以保留更多的信息，还比其它的池化方法更灵活，提高了利用傅里叶变换计算卷积效率。

Zeiler等［19］提出了反卷积神经网络（deconvolutionalnetworks，DN），采用非监督方法对自然图像自顶向下进行卷积分解，再组合滤波器组学习到的卷积特征，获得一个特征丰富具有鲁棒性的图像表征.但大量卷积操作也DN比自底向上的编码模型耗时,因而Zeiler在DN每层之间采用3D最大池化层，引入一组潜在开关变量，使得模型可以根据多种输入模式自适应调整，构建了由卷积稀疏编码层和最大降采样层交替的自适应反卷积神经网络（adaptivedeconvolutionalnetworks,ADN）[20］，在中间层和高层特征学习都能取得不错的效果。

3.2.3CNN全连接层的改进

为了克服过拟合问题,Krizhevsky在CNN两个全连接层采用了“Dropout"策略[20］,每次迭代以0.5概率使一些随机分布的节点不工作但权值保留，之后又可能参与训练。

略可以防止某些特征仅在其它特殊特征出现下才产生作用的情况，从而有效地避免了网络中特征之间的相互依赖性。

孙艳丰［21］提出了基于改进Fisher准则的深CNN识别算法（fisher-basedconvolutionneuralnetwork，FCNN），反向传播采用Fisher的约束准则，加入判别准则的能量函数，在迭代求解权值的搜索空间受到判别条件约束影响,从全局搜索缩小到更有利于分类的局部空间,从而使权值更快地逼近便于分类的最优值。

Girshick等［22］提出基于区域卷积神经网络（RegionswithCNNfeatures,RCNN），先找兴趣区域再进行检测和分割.由于RCNN兴趣区域中心点的运算量大而耗时，提出fastR-CNN（FRCN）\,把全连接层的矩阵进行SVD分解，速度提高了30％．对于给定的图像和目标框方案,FRCN进行目标检测耗时60～330ms,忽略了在区域方案提取所需的时间（约1。

51s）.无论卷积层的改进，还是降采样层及全连接层的改进,都是针对网络的学习能力及学习效率两方面的改进。

因为CNN的学习能力可以通过调节网络的深度来增强，增加模型深度可以有效增加网络性能。

为了使CNN更好地模拟大脑复杂的深层次神经网络，增加网络深度逐渐成为一种趋势。

另外，CNN的卷积核相当于特征提取器，可以有效地提取输入信号的有用信息,但是耗时是卷积操作必须重视的问题,针对这个问题，提出了一系列的加速方法，在一定程度上降低了训练和测试的时间。

但整体上，与传统的非神经网络方法相比,CNN的耗时还是比较大，需要进一步改善。

如何在提高网络学习能力和减少耗时之间找到一个平衡点，依旧是CNN面临的问题。

4卷积神经网络算法在行人检测上的应用

4.1行人检测现状

行人检测主要分为四部分：

特征提取、形变处理、遮挡处理和分类。

特征提取的应该是行人最有判别力的特征，比较有名的特征描述子有:

Haar—like、SIFT、HOG等等；其次，可变形模型应该可以处理人体的各个部分，例如躯干、头、腿等等。

最有名的DPM（可变形部件模型）使得各部件具有连接性约束。

形变处理是人体姿态的多样性，给行人的准确识别带来了一定的困难，为克服形变带来的难题，在深度学习的框架中加入了形变处理层,采用混合形变模型,针对卷积产生的部位图生成对应的形变特征，把部位图与形变特征结合形成混合特征图，用最大化函数处理混合特征,生成对应的部位检测。

遮挡处理是运动目标检测中的一个难点问题，遮挡处理的结果将直接影响运动目标检测的准确性，因此，遮挡处理是行人检测过程中极其重要的一步，在遮挡处理的过程中可视度的估计是非常关键的，针对例如检测Blocks或Parts的得分以及采用线索：

图像分割、深度图等.分类器决定候选窗选中的为一个行人，如:

SVM、boostedclassifiers、随机森林等等。

在这些方法中,分类器是由训练数据来调整的，但是特征是手工设计的。

如果有用的信息在特征提取阶段遗漏了，那么在分类阶段不可能在恢复。

实际上，应该是分类器应该引导特征的学习。

用深度学习的方法将行人检测的几个方面进行系统的联合训练，避免每个步骤单一练造成的局部最优化问题，使得整个检测系统达到全局最优。

随着深度学习的提出以及这几年的大热，越来越多的研究人员将其应用到行人检测领域，例如:

PierreSermant［23］等人提出了用无监督的多特征学习法，应用稀疏卷积神经网络自动学习图像的所有特征,提高了检测的准确度；PingLuo等人提出了用可切换的深度网络检测行人，将RBM模型与卷积神经网络连接在一块，可针对图像中不同的行人部位选择更合适的模型，能有效的处理人体部位形变的问题；CNN是当前语音分析和图像检测、识别领域的研究热点，它的整个结构更加类似于人的神经网络结构，降低了网络模型的复杂度，具有权值共享性［24],避免了传统识别算法中复杂的数据重建过程。

WanliOuyang等人提出了联合深度学习（UDN）的概念，将行人检测的几个重要的部分进行了联合学习，在处理大量的视频图像方面取得了很好的效果。

联合深度学习将行人检测中的图像预处理、卷积采样、形变处理、遮挡处理和分类几个部分进行结合，深度网络可以将各部分放到不同的网络层并使用BP进行优化。

这种联合性质的深度学习算法相比于最初的深度学习算法在准确性上有了大幅的提升，能学习到更多更具判别力的特征，而且可以根据行人的部分身体而推断被遮挡行人的大体位置。

4.2行人检测DataSets

到目前为止，行人检测研究除提出了大量的行人检测方法外，另一个成果是收集了多个行人数据库以供不同方法进行测试和比较。

（1）MIT行人数据库[25］该数据库为较早公开的行人数据库，共924张行人图片（ppm格式,宽高为64x128），肩到脚的距离约80象素。

该数据库只含正面和背面两个视角，无负样本,未区分训练集和测试集。

Dalal等采用“HOG+SVM”，在该数据库上的检测准确率接近100%。

该库在2005年以前使用较多，因图像背景简单,目前较少被人使用。

（2）INRIA行人数据库［26]是目前使用较多的静态行人数据库,提供原始图片及相应的标注文件.训练集有正样本614张（包含2416个行人），负样本1218张；测试集有正样本288张（包含1126个行人）,负样本453张。

图片中人体大部分为站立姿势且高度大于100个象素，部分标注可能不正确。

图片主要来源于GRAZ-01、个人照片及google，因此图片的清晰度较高。

该库行人所处背景复杂，人的姿态也较多，而且含有光照等环境因素的变化，更加符合实际场景

（3）Daimer行人数据库的图像来源于车载摄像机，分为检测数据集（ClassificationBenchmark）［27,28］和分类数据集（DetectionBenchmark）［29］，图片均是灰度图像。

每个数据集均由训练集和测试集组成.测试集是一段大约27min的视频，其中包含完整的以及被部分遮挡的行人。

数据库中还包含3个辅助的非行人图像的数据集,即这3个附加库只包含负样本。

该库中大量的正样本由较少的正样本经过移位和镜像生成，所以训练分类器时重要特征会出现在相邻的多个位置上，从而产生模糊效应,分类效果不佳。

（4）Caltech行人数据库［30］是目前规模较大的行人数据库，库中的图像来源于车载摄像机,与现实生活中图像的实际遮挡频率一致，其中包含质量不太好的图像，约10个小时左右，视频的分辨率为640x480,30帧/秒。

标注了约250,000帧（约137分钟），350000个矩形框，2300个行人，另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。

数据集分为set00～set10，其中set00~set05为训练集,set06~set10为测试集（标注信息尚未公开）。

该数据库为评估已有的行人检测器的性能提供了一个较好的平台。

（5）TUD行人数据库[31]提供图像对以便计算光流信息，该数据集的训练集提供了行人的矩形框信息、分割掩膜及其各部位（脚、小腿、大腿、躯干和头部）的大小和位置信息。

主要用于评估运动信息在行人检测中的作用，常用于行人检测及跟踪研究中。

（6）NICTA行人数据库［32］是目前规模较大的静态图像行人数据库，包含25551张单人的图像和5207张高分辨率非行人图像，但不包含运动信息，数据库中已分好训练集和测试集，方便不同分类器的比较.

（7）ETH行人数据库［33］是基于双目视觉的行人数据.该数据库采用一对车载的AVTMarlinsF033C摄像头进行拍摄，分辨率为640x480，帧率13-14fps，给出标定信息和行人标注信息，深度信息采用置信度传播方法获取.该数据库主要用于多个行人的检测与跟踪研究。

（8）CVC行人数据库目前包含3个数据集:

CVC－01[34],CVC－02[35]和CVC－Virtual[36]。

其中,CVC－02包含3个子数据集，分别针对行人检测的3个不同任务:

感兴趣区域的产生、分类和系统性能评估。

CVC－Virtual是通过Half－Life2图像引擎产生的虚拟行人数据集以用于测试。

该数据库主要用于车辆辅助驾驶中的行人检测研究.

（9）USC行人数据库[37]的图像大部分来源于监控视频，是一个比较小的行人数据库，该数据库包含三组数据集（USC—A、USC-B和USC-C），以XML格式提供标注信息.USC-A的图片来自于网络，共205张图片，313个站立的行人，行人间不存在相互遮挡,拍摄角度为正面或者背面；USC—B的图片主要来自于CAVIAR视频库,包括各种视角的行人,行人之间有的相互遮挡，共54张图片，271个行人；USC-C有100张图片来自网络的图片，232个行人（多角度）,行人之间无相互遮挡.该数据库主要用于存在遮挡和多视角情况下的行人检测研究。

4.3卷积神经网络进行行人检测的分析

利用更具深度的卷积神经网络提取复杂行人特征，完成行人检测，避免了复杂的人工特征提取和数据重建过程。

卷积神经网络最早应用于手写字符识别,并在Mnist样本集上得到了非常好的结果。

其经典结构分为5层，包括2个卷积层，2个下采样层，卷积核大小为5×5。

如果直接将此经典网络模型用于测试行人检测样本集，训练样本大小为128×64，发现网络无法收敛,不能完成行人检测的二分类问题。

经过分析研究，其主要原因有以下几点：

（1）Mnist样本集图像内容相对单一,近乎于二值图像,而行人检测样本集中行人姿态与图像背景十分复杂，场景、光线不断变化,复杂的图像信息要求更深度的网络结构来提取高层的特征表达，5层结构已经无法完成有效的特征提取。

（2）经典网络结构中卷积核大小为5×5，对Mnist样本集图像能够有效提取局部特征，但相对于尺寸为128×64的图像来说，卷积核过小，卷积的结果无法包含表达局部特征的有效信息。

（3）Mnist样本集图像尺寸为28×28，而行人检测样本集图像尺寸为128×64，图像尺寸增大导致隐含层输出特征维数过高，分类器不能根据描述能力有限的高维特征做出正确的分类。

经典卷积神经网络不能有效完成行人检测任务，网络深度、卷积核大小、最终提取特征维数是影响结果的主要因素。

因此需要针对行人检测问题的具体特点，对卷积神经网络的结构进行重新的设计。

设计过程中重点考虑了以下问题。

（1）卷积核的影响。

卷积核是卷积神经网络模型中最具特性的部分，可以理解为生物视觉中感受

展开阅读全文