ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:68.77KB ,
资源ID:8552992      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/8552992.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(完整版目标检测综述.docx)为本站会员(b****7)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

完整版目标检测综述.docx

1、完整版目标检测综述,、传统目标检测方法区1妣擡1 J特征提取1 jJ*1 分类器1分类丿如上图所示,传统目标检测的方法一般分为三个阶段: 首先在给定的图像上 选择一些候选的区域,然后对这些区域提取特征,最后使用训练的分类器进行分 类。下面我们对这三个阶段分别进行介绍。(1)区域选择 这一步是为了对目标的位置进行定位。 由于目标可能出现在图像的任何位置,而且目标的大小、长宽比例也不确定,所以最初采用滑动窗口 的策略对整幅图像进行遍历,而且需要设置不同的尺度,不同的长宽比。这种穷 举的策略虽然包含了目标所有可能出现的位置, 但是缺点也是显而易见的:时间 复杂度太高,产生冗余窗口太多,这也严重影响后

2、续特征提取和分类的速度和性 能。(实际上由于受到时间复杂度的问题,滑动窗口的长宽比一般都是固定的设置几个,所以对于长宽比浮动较大的多类别目标检测, 即便是滑动窗口遍历也不能得到很好的区域)(2)特征提取 由于目标的形态多样性,光照变化多样性,背景多样性等因 素使得设计一个鲁棒的特征并不是那么容易。然而提取特征的好坏直接影响到分 类的准确性。(这个阶段常用的特征有SIFT HOG等)(3)分类器 主要有SVM, Adaboost等。总结:传统目标检测存在的两个主要问题:一是基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余; 二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。1、基

3、于Region ProposaI的深度学习目标检测算法对于传统目标检测任务存在的两个主要问题,我们该如何解决呢?对于滑动窗口存在的问题,region proposal提供了很好的解决方案。regionproposal候选区域)是预先找出图中目标可能出现的位置。但由于region proposal 利用了图像中的纹理、边缘、颜色等信息,可以保证在选取较少窗口(几千个甚 至几百个)的情况下保持较高的召回率。这大大降低了后续操作的时间复杂度, 并且获取的候选窗口要比滑动窗口的质量更高(滑动窗口固定长宽比) 。比较常用的 region proposal 算法有 selective Search和 ed

4、ge Boxes 如果想具体了解 region proposal 可以看一下 PAMI2015 的 “What makes for effective detection proposals? ”有了候选区域,剩下的工作实际就是对候选区域进行图像分类的工作(特征 提取+分类)。对于图像分类,不得不提的是2012年ImageNet大规模视觉识别挑 战赛(ILSVRC上,机器学习泰斗 Geoffrey Hinton教授带领学生Krizhevsky使用 卷积神经网络将ILSVRC类任务的Top-5 error降低到了 15.3%,而使用传统方法 的第二名top-5 error高达26.2%。此后,卷

5、积神经网络占据了图像分类任务的绝 对统治地位,微软最新的ResNet和谷歌的Inception V4模型的top-5 error降到了 4%以内多,这已经超越人在这个特定任务上的能力。所以目标检测得到候选区 域后使用CNN对其进行图像分类是一个不错的选择。 2014年,RBG( Ross B.Girshick)大神使用region proposal+CNN代替传统目标检测使用的滑动窗口 +手工 设计特征,设计了 R-CNN框架,使得目标检测取得巨大突破,并开启了基于深 度学习目标检测的热潮。1.R-CNN (CVPR2014, TPAMI2015) (Region-based Convolut

6、ionNetworks for Accurate Object detecti on and Segme ntati on)tVTOCiiitor? no.R-CNN: Region-based Convolutional NetworkL Inputiniaiic22. Extract region 3* Compute 4. Classifyproposals 卜2k CNN features regions上面的框架图清晰的给出了 R-CNN 的目标检测流程:(1)输入测试图像(2)利用selective search算法在图像中提取2000个左右的region proposal。(3)

7、将每个region proposal缩放(warp)成227x227的大小并输入到 CNN,将 CNN的fc7层的输出作为特征。(4)将每个region proposal提取到的CNN特征输入到SVM进行分类。 上面的框架图是测试的流程图,要进行测试我们首先要训练好提取特征的CNN模型,以及用于分类的SVM:使用在ImageNet上预训练的模型 (AlexNet/VGG16进行微调得到用于特征提取的 CNN模型,然后利用CNN模型 对训练集提特征训练 SVM。对每个region proposal缩放到同一尺度是因为 CNN全连接层输入需要保证 维度固定。上图少画了一个过程 对于 SVM 分好类

8、的 region proposal 做边框回归(bounding-box regression), 边框回归是对 region proposal进行纠正的线性回归 算法,为了让 region proposal 提取到的窗口跟目标真实窗口更吻合。因为 region proposal 提取到的窗口不可能跟人手工标记那么准,如果 region proposal 跟目标 位置偏移较大,即便是分类正确了,但是由于loU(region proposal与Ground Truth 的窗口的交集比并集的比值 )低于 0.5,那么相当于目标还是没有检测到。小结:R-CNN在PASCAL VOC200上的检测结果

9、从 DPM HSC的 34.3%直接提 升到了 66%(mAP如此大的提升使我们看到了 region proposal+CNN的巨大优 势。 但是R-CNN框架也存在着很多问题:(1)训练分为多个阶段,步骤繁琐:微调网络+训练SVM+训练边框回归器(2)训练耗时,占用磁盘空间大:5000张图像产生几百G的特征文件(3)速度慢:使用GPU, VGG16模型处理一张图像需要47s。 针对速度慢的这个问题,SPPNET给出了很好的解决方案。2.SPF-NET (ECCV2014, TPAMI2015) (Spatial Pyramid Pooling in Deep Convo lutio nal

10、Networks for Visual Recog niti on)先看一下R-CNN为什么检测速度这么慢,一张图都需要47s!仔细看下R-CNN 框架发现,对图像提完region proposal (2000个左右)之后将每个proposal当成 一张图像进行后续处理(CNN提特征+SVM分类),实际上对一张图像进行了 2000 次提特征和分类的过程! 有没有方法提速呢?好像是有的,这 2000个regionproposal不都是图像的一部分吗,那么我们完全可以对图像提一次卷积层特征, 然后只需要将region proposal在原图的位置映射到卷积层特征图上, 这样对于一张图像我们只需要提

11、一次卷积层特征, 然后将每个region proposal的卷积层特征输入到全连接层做后续操作。(对于CNN来说,大部分运算都耗在卷积操作上, 这样做可以节省大量时间)。现在的问题是每个region proposal的尺度不一样, 直接这样输入全连接层肯定是不行的,因为全连接层输入必须是固定的长度。SPPNET恰好可以解决这个问题:ure niups of11 xv2Cpnn la严r Cvnn loytrCon* loysn Ccr Cri1jIi2561 4 1j1ji512 办10如3x3*5)21 3x3JO24 J 3104hU3)2 J曲MO备血曲1也丄 Judidgl槪Macpp

12、l la呷2x22那么如何才能做到直接在不同位置的网格上回归出目标的位置和类别信息呢? 上面是YOLO的网络结构图,前边的网络结构跟 GoogLeNet的模型比较类似,主 要的是最后两层的结构,卷积层之后接了一个 4096维的全连接层,然后后边又全连接到一个7*7*30维的张量上。实际上这7*7就是划分的网格数,现在要在 每个网格上预测目标两个可能的位置以及这个位置的目标置信度和类别, 也就是 每个网格预测两个目标,每个目标的信息有 4维坐标信息(中心点坐标+长宽),1个是目标的置信度,还有类别数20(VOC上20个类别),总共就是(4+1)*2+20 = 30 维的向量。这样可以利用前边 4

13、096维的全图特征直接在每个网格上回归出目标 检测需要的信息(边框信息加类别)。小结:YOLO#目标检测任务转换成一个回归问题,大大加快了检测的速度, 使得YOLO可以每秒处理45张图像。而且由于每个网络预测目标窗口时使用的 是全图信息,使得false positive比例大幅降低(充分的上下文信息)。但是YOLO 也存在问题:没有了 region proposal机制,只使用7*7的网格回归会使得目标不 能非常精准的定位,这也导致了 YOLO的检测精度并不是很高。2.SSD (SSD: Single Shot MultiBox Detector)上面分析了 YOLO存在的问题,使用整图特征在

14、7*7的粗糙网格内回归对目 标的定位并不是很精准。那是不是可以结合region proposal的思想实现精准一些 的定位? SSD吉合YOLO的回归思想以及Faster R-CNN的 anchor机制做到了这点。a 一 41ThT I1 11,(1 F 1nHJ -SL -4C三曲-L j1*1L 7(l) 8x8 feature map (c) 4 X 4 fealwr innph) flW Ml】 GT上图是SSD的一个框架图,首先SSD获取目标位置和类别的方法跟 YOLC一样,都是使用回归,但是 YOLO预测某个位置使用的是全图的特征,SSD预测某个位置使用的是这个位置周围的特征(感觉

15、更合理一些) 。那么如何建立某个位置和其特征的对应关系呢?可能你已经想到了,使用 Faster R-CNN的anchor机制。如SSD的框架图所示,假如某一层特征图(图b)大小是8*8,那么就使用3*3 的滑窗提取每个位置的特征,然后这个特征回归得到目标的坐标信息和类别信息(图 c)。不同于Faster R-CNN,这个anchor是在多个feature map上,这样可以利用 多层的特征并且自然的达到多尺度(不同层的 feature map 3*3滑窗感受野不 同)。小结:SSD结合了 YOLO中的回归思想和Faster RCNN中的anchor机制,使 用全图各个位置的多尺度区域特征进行回

16、归,既保持了 YOLO速度快的特性,也 保证了窗口预测的跟Faster R-CNN一样比较精准。SSD在 VOC2OO7上mAP可以达到72.1%,速度在GPU上达到58帧每秒。 总结:YOLO的提出给目标检测一 个新的思路,SSD的性能则让我们看到了目标检测在实际应用中真正的可能性。四.提高目标检测方法 R-CNN系列目标检测框架和 YOLO目标检测框架给了我 们进行目标检测的两个基本框架。除此之外,研究人员基于这些框架从其他方面入手提出了一系列提高目标检 测性能的方法。(1)难分样本挖掘(hard negative mining) R-CNN在训练SVM分类器时使用了难分样本挖掘的思想,但Fast RCNN和Faster RCNN由于使用端到端的训练 策略并没有使用难分样本挖掘(只是设置了正负样本的比例并随机抽取) 。CVPR2016的 Training Region-based Object Detectors with

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1