完整版目标检测综述.docx-资源下载

完整版目标检测综述.docx

1、完整版目标检测综述，、传统目标检测方法区1妣擡1 J特征提取1 jJ*1 分类器1分类丿如上图所示，传统目标检测的方法一般分为三个阶段：首先在给定的图像上选择一些候选的区域，然后对这些区域提取特征，最后使用训练的分类器进行分类。下面我们对这三个阶段分别进行介绍。(1)区域选择这一步是为了对目标的位置进行定位。由于目标可能出现在图像的任何位置，而且目标的大小、长宽比例也不确定，所以最初采用滑动窗口的策略对整幅图像进行遍历，而且需要设置不同的尺度，不同的长宽比。这种穷举的策略虽然包含了目标所有可能出现的位置，但是缺点也是显而易见的：时间复杂度太高，产生冗余窗口太多，这也严重影响后

2、续特征提取和分类的速度和性能。(实际上由于受到时间复杂度的问题，滑动窗口的长宽比一般都是固定的设置几个，所以对于长宽比浮动较大的多类别目标检测，即便是滑动窗口遍历也不能得到很好的区域)(2)特征提取由于目标的形态多样性，光照变化多样性，背景多样性等因素使得设计一个鲁棒的特征并不是那么容易。然而提取特征的好坏直接影响到分类的准确性。(这个阶段常用的特征有SIFT HOG等)(3)分类器主要有SVM, Adaboost等。总结：传统目标检测存在的两个主要问题：一是基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余；二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。1、基

3、于Region ProposaI的深度学习目标检测算法对于传统目标检测任务存在的两个主要问题，我们该如何解决呢？对于滑动窗口存在的问题，region proposal提供了很好的解决方案。regionproposal候选区域）是预先找出图中目标可能出现的位置。但由于region proposal 利用了图像中的纹理、边缘、颜色等信息，可以保证在选取较少窗口（几千个甚至几百个）的情况下保持较高的召回率。这大大降低了后续操作的时间复杂度，并且获取的候选窗口要比滑动窗口的质量更高（滑动窗口固定长宽比）。比较常用的 region proposal 算法有 selective Search和 ed

4、ge Boxes 如果想具体了解 region proposal 可以看一下 PAMI2015 的 “What makes for effective detection proposals？ ”有了候选区域，剩下的工作实际就是对候选区域进行图像分类的工作（特征提取+分类）。对于图像分类，不得不提的是2012年ImageNet大规模视觉识别挑战赛（ILSVRC上，机器学习泰斗 Geoffrey Hinton教授带领学生Krizhevsky使用卷积神经网络将ILSVRC类任务的Top-5 error降低到了 15.3%,而使用传统方法的第二名top-5 error高达26.2%。此后，卷

5、积神经网络占据了图像分类任务的绝对统治地位，微软最新的ResNet和谷歌的Inception V4模型的top-5 error降到了 4%以内多，这已经超越人在这个特定任务上的能力。所以目标检测得到候选区域后使用CNN对其进行图像分类是一个不错的选择。 2014年，RBG（ Ross B.Girshick）大神使用region proposal+CNN代替传统目标检测使用的滑动窗口 +手工设计特征，设计了 R-CNN框架，使得目标检测取得巨大突破，并开启了基于深度学习目标检测的热潮。1.R-CNN (CVPR2014, TPAMI2015) (Region-based Convolut

6、ionNetworks for Accurate Object detecti on and Segme ntati on)tVTOCiiitor? no.R-CNN: Region-based Convolutional NetworkL Inputiniaiic22. Extract region 3* Compute 4. Classifyproposals 卜2k CNN features regions上面的框架图清晰的给出了 R-CNN 的目标检测流程：(1)输入测试图像(2)利用selective search算法在图像中提取2000个左右的region proposal。(3)

7、将每个region proposal缩放(warp)成227x227的大小并输入到 CNN,将 CNN的fc7层的输出作为特征。(4)将每个region proposal提取到的CNN特征输入到SVM进行分类。上面的框架图是测试的流程图,要进行测试我们首先要训练好提取特征的CNN模型，以及用于分类的SVM：使用在ImageNet上预训练的模型 (AlexNet/VGG16进行微调得到用于特征提取的 CNN模型，然后利用CNN模型对训练集提特征训练 SVM。对每个region proposal缩放到同一尺度是因为 CNN全连接层输入需要保证维度固定。上图少画了一个过程对于 SVM 分好类

8、的 region proposal 做边框回归(bounding-box regression), 边框回归是对 region proposal进行纠正的线性回归算法，为了让 region proposal 提取到的窗口跟目标真实窗口更吻合。因为 region proposal 提取到的窗口不可能跟人手工标记那么准，如果 region proposal 跟目标位置偏移较大，即便是分类正确了，但是由于loU(region proposal与Ground Truth 的窗口的交集比并集的比值 )低于 0.5，那么相当于目标还是没有检测到。小结：R-CNN在PASCAL VOC200上的检测结果

9、从 DPM HSC的 34.3%直接提升到了 66%(mAP如此大的提升使我们看到了 region proposal+CNN的巨大优势。但是R-CNN框架也存在着很多问题：(1)训练分为多个阶段，步骤繁琐：微调网络+训练SVM+训练边框回归器(2)训练耗时，占用磁盘空间大：5000张图像产生几百G的特征文件(3)速度慢：使用GPU, VGG16模型处理一张图像需要47s。针对速度慢的这个问题，SPPNET给出了很好的解决方案。2.SPF-NET (ECCV2014, TPAMI2015) (Spatial Pyramid Pooling in Deep Convo lutio nal

10、Networks for Visual Recog niti on)先看一下R-CNN为什么检测速度这么慢，一张图都需要47s!仔细看下R-CNN 框架发现，对图像提完region proposal （2000个左右）之后将每个proposal当成一张图像进行后续处理（CNN提特征+SVM分类），实际上对一张图像进行了 2000 次提特征和分类的过程！有没有方法提速呢？好像是有的，这 2000个regionproposal不都是图像的一部分吗，那么我们完全可以对图像提一次卷积层特征，然后只需要将region proposal在原图的位置映射到卷积层特征图上，这样对于一张图像我们只需要提

11、一次卷积层特征，然后将每个region proposal的卷积层特征输入到全连接层做后续操作。（对于CNN来说，大部分运算都耗在卷积操作上，这样做可以节省大量时间）。现在的问题是每个region proposal的尺度不一样，直接这样输入全连接层肯定是不行的，因为全连接层输入必须是固定的长度。SPPNET恰好可以解决这个问题:ure niups of11 xv2Cpnn la严r Cvnn loytrCon* loysn Ccr Cri1jIi2561 4 1j1ji512 办10如3x3*5)21 3x3JO24 J 3104hU3)2 J曲MO备血曲1也丄 Judidgl槪Macpp

12、l la呷2x22那么如何才能做到直接在不同位置的网格上回归出目标的位置和类别信息呢？上面是YOLO的网络结构图，前边的网络结构跟 GoogLeNet的模型比较类似，主要的是最后两层的结构，卷积层之后接了一个 4096维的全连接层，然后后边又全连接到一个7*7*30维的张量上。实际上这7*7就是划分的网格数，现在要在每个网格上预测目标两个可能的位置以及这个位置的目标置信度和类别，也就是每个网格预测两个目标，每个目标的信息有 4维坐标信息（中心点坐标+长宽），1个是目标的置信度，还有类别数20（VOC上20个类别），总共就是（4+1）*2+20 = 30 维的向量。这样可以利用前边 4

13、096维的全图特征直接在每个网格上回归出目标检测需要的信息（边框信息加类别）。小结：YOLO#目标检测任务转换成一个回归问题，大大加快了检测的速度，使得YOLO可以每秒处理45张图像。而且由于每个网络预测目标窗口时使用的是全图信息，使得false positive比例大幅降低（充分的上下文信息）。但是YOLO 也存在问题：没有了 region proposal机制，只使用7*7的网格回归会使得目标不能非常精准的定位，这也导致了 YOLO的检测精度并不是很高。2.SSD （SSD: Single Shot MultiBox Detector）上面分析了 YOLO存在的问题，使用整图特征在

14、7*7的粗糙网格内回归对目标的定位并不是很精准。那是不是可以结合region proposal的思想实现精准一些的定位？ SSD吉合YOLO的回归思想以及Faster R-CNN的 anchor机制做到了这点。a 一 41ThT I1 11,(1 F 1nHJ -SL -4C三曲-L j1*1L 7(l) 8x8 feature map (c) 4 X 4 fealwr innph) flW Ml】 GT上图是SSD的一个框架图，首先SSD获取目标位置和类别的方法跟 YOLC一样，都是使用回归，但是 YOLO预测某个位置使用的是全图的特征，SSD预测某个位置使用的是这个位置周围的特征（感觉

15、更合理一些）。那么如何建立某个位置和其特征的对应关系呢？可能你已经想到了，使用 Faster R-CNN的anchor机制。如SSD的框架图所示，假如某一层特征图（图b）大小是8*8，那么就使用3*3 的滑窗提取每个位置的特征，然后这个特征回归得到目标的坐标信息和类别信息（图 c）。不同于Faster R-CNN,这个anchor是在多个feature map上，这样可以利用多层的特征并且自然的达到多尺度（不同层的 feature map 3*3滑窗感受野不同）。小结：SSD结合了 YOLO中的回归思想和Faster RCNN中的anchor机制，使用全图各个位置的多尺度区域特征进行回

16、归，既保持了 YOLO速度快的特性，也保证了窗口预测的跟Faster R-CNN一样比较精准。SSD在 VOC2OO7上mAP可以达到72.1%,速度在GPU上达到58帧每秒。总结：YOLO的提出给目标检测一个新的思路，SSD的性能则让我们看到了目标检测在实际应用中真正的可能性。四.提高目标检测方法 R-CNN系列目标检测框架和 YOLO目标检测框架给了我们进行目标检测的两个基本框架。除此之外，研究人员基于这些框架从其他方面入手提出了一系列提高目标检测性能的方法。（1）难分样本挖掘（hard negative mining） R-CNN在训练SVM分类器时使用了难分样本挖掘的思想，但Fast RCNN和Faster RCNN由于使用端到端的训练策略并没有使用难分样本挖掘（只是设置了正负样本的比例并随机抽取）。CVPR2016的 Training Region-based Object Detectors with

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？