1、 ; 文獻标识码:A文章编号:1009-3044(2019)24-0218-04开放科学(资源服务)标识码(OSID):An Algorithm based on Faster R-CNN for Pedestrian DetectionXIA Jin-ming, FAN Yi-hong*, LIU Chang-zhi, DUAN Gao-hui(School of Software, Henan University of Science and Technology,Luoyang 471000,China)Abstract: In the school environment, pede
2、strian-intensive, sheltered, multi-scale problems are common.In this paper, Faster R-CNN is used for pedestrian detection in complex environment of school buildings. When training samples,; A training strategy for Difficult Sample Mining is introduced, which adjusts the weight of difficult samples w
3、hile picking out difficult samples, so as to make training more focused. LabelImg is used to lable the data sampled in complex environment. Then VOC2007 and the annotated samples are merged to obtain extended VOC2007 data set. Training and testing are carried out on this basis to establish the model
4、 with good performance. The experimental results show that compared with the four-step training method commonly used in Faster R-CNN, the generalization performance is improved by using this training method.Key words: Convolutional Neural Network;Difficult Sample Mining;Pedestrian detection;校舍安保是寄宿制
5、学校安全问题的重中之重,虽然现今学校对校舍安保极为重视,但安保人员数目毕竟有限。校舍监控辅助系统可以更好地协助安保人员的工作,因此,智能安保系统得到了广泛的关注。该系统中行人检测算法必不可少,行人检测的过程可以分为特征提取和分类两个阶段。传统行人检测常用的特征描述算子有HOG(Histogram Of Gradients)1、积分通道特征2等,其中HOG由于自身的优越性能,在行人检测特征提取方面,最为常用。分类器的选择也会直接影响检测的准确性,SVM3分类器由于其实现简单,效果好,也被广泛用于各种分类任务。本文使用Faster R-CNN5算法进行行人识别,并且引入了困难样本挖掘训练策略提升算
6、法泛化性能。1 Faster R-CNN介绍1.1 总体介绍Faster R-CNN5总体可以分为三个部分:用于获取输入图片特征的卷积神经网络、用于区域建议的RPN(Region Proposal Network)、用于分类的剩余部分网络。整体结构如图1所示。1.2 卷积层(Conv Layers)本文算法使用VGG166提取图像特征。VGG16(图2)中共有13个卷积层,13个ReLu层,4个pooling。最终输出的特征图为原始图像尺寸的1/16,输出的特征图被RPN使用进行预测。RPN的整体架构如图3,其中最重要的处理为Proposal。Proposal的具体过程:1.生成anchor;
7、2.对anchor进行边框回归(Border Box Regression) ;3按照step1中预测边框的得分值,对第2步中的边框回归结果进行第一次由大到小的排序,并提取前6000个前景定位信息;4.对超出图像边界的前景定位信息进行修正,使其处于图像内;5.剔除宽高非常小的前景定位信息;6.进行非极大值抑制(Non-Maximum Suppression ,NMS);7.将NMS后的前景定位信息按照第3步中相同的方法进行排序,并取前300个前景定位信息作为下一层的输入。anchor生成过程:把给定的初始正方形anchor的面积进行1:2:0.5的变化形成三种不同面积的anchor后|将其边长
8、在保持面积不变的情况下进行1:1、1:2、2:1的比值变化,最终形成9种不同比例的anchor。为了使anchor更准确,可使用边框回归(Border Box Regression) 5 提升精确度。整体网络的函数优化目标为:w*=argminW*iN(ti*-WT*(Ai)2+k|W*|2即对目标函数进行凸优化获得F的参数,使用梯度下降方法容易实现。整个网络的损失函数如下:LossRPN=1NclsiLclspi,p*i+k1Nregip*iLregti,t*i其中的:p*i=1,; IoUi0.70,; IoUi0.3Lregti,t*i=i(x,y,w,h)smoothL1(ti-t*i
9、)smoothL1x=0.5x2,; |x|1由于我们仅仅取pij0.3的部分(pij是第i个样本中第j个前的分类得分值)。综合考虑,当=30时比较合适。其中 pi为单个样本的分类平均得分,即真正例得分的和除以正例数。E(U)为训练集整体的IoU均值,E(P)为训练集整体的预测平均得分,计算方法同 pi。3 实验分析3.1数据集本文训练集采用了VOC2007中person分类的2095张图片,同时使用LabelImg进行校舍环境下采样,并对得到的数据集进行标注,从而得到扩充的新的数据集。详细情况如表1所示。数据集中的样本:80%用于训练,剩余的20%用于测试。以下段落中,将此合并数据集称为VO
10、C2007扩充数据集。3.2 训练本文实验在Tensorflow(GPU)上进行,操作系统使用Win10,硬件信息为:CPU为Intel i7-6700HQ,显卡是NVIDIA GTX1060(3G),内存16G。训练共进行六轮。前五轮中,第一轮使用VOC2007扩充数据集不改变训练集样本的权重进行50000次的训练,生成的模型作为对比组。剩下的四轮,每一轮训练30000次后,使用此轮训练得到的模型对训练集样本进行预测,进而生成下一轮训练的数据集。第一次生成的训练集样本的分布情况如图7。最后一轮训练所使用的训练集是考虑前四轮训练集中训练集样本的权值而生成的。3.3检测结果分析由表2和表3可知,
11、相较于四步训练法,本文训练方法查全率有1.67%的提升,并且mAP也有些许提升。在本文训练方法第四轮中,mAP有0.71%的提升,并且查全率也有1.23%的提升。由图8可以看出,第一组对照样本人与人之间出现了遮挡且密集。相比较之下,本文训练方法在保证前景建议区域位置准确的情况下,查全性能也更好一些。分析第二组对照图片可得出:Faster R-CNN更倾向于把密集的人群当作是单个的人,习得人的特征并不是特别好,造成这种情况的主要原因是RPN的输出不准确。相较于四步训练法,本文训练方法由于对RPN输出与GT(Ground Truth)偏差较大的样本权值进行了增大,在训练时更多次的训练了偏差较大的样
12、本,所以RPN的输出也更加的准确,这种预测不准的情况也稍有改善。由图9可以看出,在小尺度、密集情况下,Faster R-CNN表现情况欠佳。相比较于四步训练法,困难样本挖掘方法检测出了更多的人。即在行人小尺度的情况下,本文训练方法适性更强,泛化性能也相对更好。4 结束语本文使用Faster R-CNN来替代传统的行人检测算法,并且提出困难样本挖掘训练策略,改变样本权重,使训练更有侧重点。相对于四步法训练,用本文训练方法的学习器在30000iters下的查全率比普通训练法的查全率有1.67%的提升,mAP也有所提升。在mAP提升0.71%的情况下查全率有1.29%的提升。速度上,由于没有改变神经
13、网络整体结构,仍然保持了RPN计算速度快的优点。在本文实验环境下,平均每张图片的处理速度为52ms,提升硬件性能后完全可以用于实时检测。参考文献:1 Dalal N; Triggs B.Histograms of oriented gradients for human detectionC/Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on. IEEE, 2005, 1: 886-893.2 P. Dollar, Z. Tu, P. Perona and S
14、. Belongie.Integral Channel FeaturesC.BMVC 2009, London, England. 13MASSA A,BONI A,DONELLI M. A classification approach based on SVM for electromagnetic subsurface sensingJ. IEEE Transaction on Geoscience &Remote Sensing, 2004,43(9):2084-2093.4 常玲玲,马丙鹏,常虹,等.深度网络结构在行人检测任务中的性能对比J.计算机仿真,2017,34(7):373-
15、377+411.5 Shaoqing Ren; Kaiming He; Ross Girshick; Jian Sun.Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.6 Karen Simonyan, Andrew Zisserman. Very Deep Convolutional Networks for Larg
16、e-Scale Image RecognitionC, in International Conference on Learning Representations (ICLR), 2015.7Peng Wang; Chunhua Shen; Barnes, N.Fast and Robust Object Detection Using Asymmetric Totally Corrective BoostingC, IEEE Transactions on Neural Networks and Learning Systems, 2012,23(1):33-46.8 Zhu Ji;Arbor Ann;Hastie Trevor. Multi-class AdaBoostJ.Statistics & Its Interface,2009,2(3):200-2059SUNG K K.Learning and example selection for object and pattern detectionM.Cambridge:Massachusetts Institute of Technology,1996.10 艾拓,梁亞玲,杜明辉.基于难负样本挖掘的改进Faster RCNN训练方法J.计算机科学,2018,45(5):250-254.【通联编辑:唐一东】
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1