行人检测综述.docx-资源下载

行人检测综述.docx

1、行人检测综述最近一直在看行人检测的论文，对目前的行人检测做大概的介绍。行人检测具有极其广泛的应用：智能辅助驾驶，智能监控，行人分析以及智能机器人等领域。从2005年以来行人检测进入了一个快速的发展阶段，但是也存在很多问题还有待解决，个人觉得主要还是在性能和速度方面还不能达到一个权衡。1.行人检测的现状（大概可以分为两类）（1）.基于背景建模：利用背景建模方法，提取出前景运动的目标，在目标区域内进行特征提取，然后利用分类器进行分类，判断是否包含行人；背景建模目前主要存在的问题：(背景建模的方法总结可以参考我的前一篇博文介绍）（前景目标检测总结）必须适应环境的变化（比如光照的变化造成图像色度的变

2、化）；相机抖动引起画面的抖动(比如手持相机拍照时候的移动)；图像中密集出现的物体（比如树叶或树干等密集出现的物体，要正确的检测出来）；必须能够正确的检测出背景物体的改变（比如新停下的车必须及时的归为背景物体，而有静止开始移动的物体也需要及时的检测出来）。物体检测中往往会出现Ghost区域，Ghost区域也就是指当一个原本静止的物体开始运动，背静差检测算法可能会将原来该物体所覆盖的区域错误的检测为运动的，这块区域就成为Ghost，当然原来运动的物体变为静止的也会引入Ghost区域，Ghost区域在检测中必须被尽快的消除。（2）.基于统计学习的方法：这也是目前行人检测最常用的方法，根据大量

3、的样本构建行人检测分类器。提取的特征主要有目标的灰度、边缘、纹理、颜色、梯度直方图等信息。分类器主要包括神经网络、SVM、adaboost以及现在被计算机视觉视为宠儿的深度学习。统计学习目前存在的难点：（a）行人的姿态、服饰各不相同、复杂的背景、不同的行人尺度以及不同的关照环境。（b）提取的特征在特征空间中的分布不够紧凑；（c）分类器的性能受训练样本的影响较大；（d）离线训练时的负样本无法涵盖所有真实应用场景的情况；目前的行人检测基本上都是基于法国研究人员Dalal在2005的CVPR发表的HOG+SVM的行人检测算法(Histograms of Oriented Gradients for

4、Human Detection, Navneet Dalel,Bill Triggs, CVPR2005)。HOG+SVM作为经典算法也别集成到opencv里面去了，可以直接调用实现行人检测为了解决速度问题可以采用背景差分法的统计学习行人检测，前提是背景建模的方法足够有效（即效果好速度快），目前获得比较好的检测效果的方法通常采用多特征融合的方法以及级联分类器。（常用的特征有Harry-like、Hog特征、LBP特征、Edgelet特征、CSS特征、COV特征、积分通道特征以及CENTRIST特征。2.行人检测综述性文章1D. Geronimo, and A. M.Lopez. Vision-

5、based Pedestrian Protection Systems for Intelligent Vehicles, BOOK, 2014.2P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the state of the art J.IEEE Transactions on PatternAnalysis andMachine Intelligence, 2012, 34(4): 743-761.3苏松志, 李绍滋, 陈淑媛等.行人检测技术综述J.电子学报, 2012, 40(4)

6、: 814-820.4M. Enzweiler, and D.Gavrila. Monocular pedestrian detection: survey and experiments J.IEEE Transactions on Pattern Analysis andMachine Intelligence, 2009, 31(12): 2179-2195.5D. Geronimo, A. M.Lopez and A. D. Sappa, et al. Survey of pedestrian detection for advanced driverassistance system

7、s J.IEEE Transactionson Pattern Analysis and Machine Intelligence, 2010, 32(7): 1239-1258.6贾慧星, 章毓晋.车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述J,自动化学报, 2007, 33(1): 84-90.7许言午, 曹先彬,乔红. 行人检测系统研究新进展及关键技术展望J,电子学报, 2008, 36(5): 368-376.8杜友田; 陈峰;徐文立; 李永彬;基于视觉的人的运动识别综述,电子学报, 2007. 35(1): 84-90.9朱文佳. 基于机器学习的行人检测关键技术研究D.第一章,

8、硕士学位论文, 上海交通大学. 2008. 指导教师: 戚飞虎.最新论文2014_ITS_Toward real-time pedestrian detection based on a deformable template model2014_PAMI_Scene-specific pedestrian detection for static video surveillance2014_CVPR_Pedestrian Detection in Low-resolution Imagery by Learning Multi-scale Intrinsic Motion Structur

9、es (MIMS)2014_CVPR_Switchable Deep Network for Pedestrian Detection2014_CVPR_Informed Haar-like Features Improve Pedestrian Detection2014_CVPR_Word Channel Based Multiscale Pedestrian Detection Without Image Resizing and Using Only One Classifier2013_BMVC_Surveillance camera autocalibration based on

10、 pedestrian height distribution2013_Virtual and real world adaptation for pedestrian detection2013_Search space reduction in pedestrian detection for driver assistance system based on projective geometry2013_CVPR_Robust Multi-Resolution Pedestrian Detection in Traffic Scenes2013_CVPR_Optimized Pedes

11、trian Detection for Multiple and Occluded People2013_CVPR_Pedestrian Detection with Unsupervised and Multi-Stage Feature Learning2013_CVPR_Single-Pedestrian Detection aided by Multi-pedestrian Detection2013_CVPR_Modeling Mutual Visibility Relationship in Pedestrian Detection2013_CVPR_Local Fisher Di

12、scriminant Analysis for Pedestrian Re-identification3.行人检测source code1.INRIA Object detection and Localization Toolkit, Dalal于2005年提出了基于HOG特征的行人检测方法，行人检测领域中的经典文章之一。HOG特征目前也被用在其他的目标检测与识别、图像检索和跟踪等领域中。2.Real-time Pedestrian Detection. Jianxin Wu实现的快速行人检测方法。3.Hough Transfom for Pedestrian Detection. Olg

13、a Barinova, CVPR 2010 Paper: On detection of multiple object instances using Hough Transforms4.HIKSVM, HOG+LBP+HIKSVM, 行人检测的经典方法.5.GroundHOG, GPU-based Object Detection with Geometric Constraints, In: ICVS, 2011. CUDA版本的HOG+SVM,video.6.100FPS_PDS, Pedestrian detection at 100 frames per second, R. Be

14、nenson. CVPR, 2012. 实时的(o)哦。 Real-time!7.POM: Probabilistic Occupancy Map. Multiple camera pedestrian detection.8.Pitor Dollar Detector. Integral Channel Feature + 多尺度特征近似+多特征融合. Real-Time!4.行人检测DataSetsMIT数据库该数据库为较早公开的行人数据库，共924张行人图片（ppm格式，宽高为64x128），肩到脚的距离约80象素。该数据库只含正面和背面两个视角，无负样本，未区分训练集和测试集。Dala

15、l等采用“HOG+SVM”，在该数据库上的检测准确率接近100%。INRIA数据库该数据库是目前使用最多的静态行人检测数据库，提供原始图片及相应的标注文件。训练集有正样本614张（包含2416个行人），负样本1218张；测试集有正样本288张（包含1126个行人），负样本453张。图片中人体大部分为站立姿势且高度大于100个象素，部分标注可能不正确。图片主要来源于GRAZ-01、个人照片及google，因此图片的清晰度较高。在XP操作系统下部分训练或者测试图片无法看清楚，但可用OpenCV正常读取和显示。Daimler行人数据库该数据库采用车载摄像机获取，分为检测和分类两个数据集。检测数据集的

16、训练样本集有正样本大小为18x36和48x96的图片各15560（3915x4）张，行人的最小高度为72个象素；负样本6744张（大小为640x480或360x288）。测试集为一段27分钟左右的视频（分辨率为640x480），共21790张图片，包含56492个行人。分类数据库有三个训练集和两个测试集，每个数据集有4800张行人图片，5000张非行人图片，大小均为18x36，另外还有3个辅助的非行人图片集，各1200张图片。Caltech行人数据库该数据库是目前规模较大的行人数据库，采用车载摄像头拍摄，约10个小时左右，视频的分辨率为640x480，30帧/秒。标注了约250,000帧（约1

17、37分钟），350000个矩形框，2300个行人，另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集分为set00set10，其中set00set05为训练集，set06set10为测试集（标注信息尚未公开）。性能评估方法有以下三种：（1）用外部数据进行训练，在set06set10进行测试；（2）6-fold交叉验证，选择其中的5个做训练，另外一个做测试，调整参数，最后给出训练集上的性能；（3）用set00set05训练，set06set10做测试。由于测试集的标注信息没有公开，需要提交给Pitor Dollar。结果提交方法为每30帧做一个测试，将结果保存在txt文档中（文件的命

18、名方式为I00029.txt I00059.txt ），每个txt文件中的每行表示检测到一个行人，格式为“left, top,width, height, score”。如果没有检测到任何行人，则txt文档为空。该数据库还提供了相应的Matlab工具包，包括视频标注信息的读取、画ROC（Receiver Operatingcharacteristic Curve）曲线图和非极大值抑制等工具。TUD行人数据库TUD行人数据库为评估运动信息在行人检测中的作用，提供图像对以便计算光流信息。训练集的正样本为1092对图像（图片大小为720x576，包含1776个行人）；负样本为192对非行人图像（手持

19、摄像机85对，车载摄像机107对）；另外还提供26对车载摄像机拍摄的图像（包含183个行人）作为附加训练集。测试集有508对图像（图像对的时间间隔为1秒，分辨率为640x480），共有1326个行人。Andriluka等也构建了一个数据库用于验证他们提出的检测与跟踪相结合的行人检测技术。该数据集的训练集提供了行人的矩形框信息、分割掩膜及其各部位（脚、小腿、大腿、躯干和头部）的大小和位置信息。测试集为250张图片（包含311个完全可见的行人）用于测试检测器的性能，2个视频序列（TUD-Campus和TUD-Crossing）用于评估跟踪器的性能。NICTA行人数据库该数据库是目前规模较大的静态图

20、像行人数据库，25551张含单人的图片，5207张高分辨率非行人图片，数据库中已分好训练集和测试集，方便不同分类器的比较。Overett等用“RealBoost+Haar”评估训练样本的平移、旋转和宽高比等各种因素对分类性能的影响：（1）行人高度至少要大于40个象素；（2）在低分辨率下，对于Haar特征来说，增加样本宽度的性能好于增加样本高度的性能；（3）训练图片的大小要大于行人的实际大小，即背景信息有助于提高性能；（4）对训练样本进行平移提高检测性能，旋转对性能的提高影响不大。以上的结论对于构建行人数据库具有很好的指导意义。ETH行人数据库Ess等构建了基于双目视觉的行人数据库用于多人的行人

21、检测与跟踪研究。该数据库采用一对车载的AVT Marlins F033C摄像头进行拍摄，分辨率为640x480，帧率13-14fps，给出标定信息和行人标注信息，深度信息采用置信度传播方法获取。CVC行人数据库该数据库目前包含三个数据集（CVC-01、CVC-02和CVC-Virtual），主要用于车辆辅助驾驶中的行人检测研究。CVC-01Geronimo,2007有1000个行人样本，6175个非行人样本（来自于图片中公路区域中的非行人图片，不像有的行人数据库非行人样本为天空、沙滩和树木等自然图像）。CVC-02包含三个子数据集（CVC-02-CG、CVC-02-Classification

22、和CVC-02-System），分别针对行人检测的三个不同任务：感兴趣区域的产生、分类和系统性能评估。图像的采集采用Bumblebee2立体彩色视觉系统，分辨率640x480，焦距6mm，对距离摄像头050m的行人进行标注，最小的行人图片为12x24。CVC-02-CG主要针对候选区域的产生，有100张彩色图像，包含深度和3D点信息；CVC-02-Classification主要针对行人分类，训练集有1016张正样本，7650张负样本，测试集分为基于切割窗口的分类（570张行人，7500张非行人）和整张图片的检测（250张包含行人的图片，共587个行人）；CVC-02-System主要用于系统

23、的性能评估，包含15个视频序列（4364帧），7983个行人。CVC-Virtual是通过Half-Life 2图像引擎产生的虚拟行人数据集，共包含1678虚拟行人，2048个非行人图片用于测试。USC行人数据库该数据库包含三组数据集（USC-A、USC-B和USC-C），以XML格式提供标注信息。USC-AWu, 2005的图片来自于网络，共205张图片，313个站立的行人，行人间不存在相互遮挡，拍摄角度为正面或者背面；USC-B的图片主要来自于CAVIAR视频库，包括各种视角的行人，行人之间有的相互遮挡，共54张图片，271个行人；USC-C有100张图片来自网络的图片，232个行人（多角

24、度），行人之间无相互遮挡。5.Others相关资料资料1. Edgar Seemann维护的行人检测网站，比较全，包括publications, code, datasets等。2.Pedestrian detection: state of the art. A video talk byPitor Dollar. Pitor Dollar做了很多关于行人检测方法的研究，他们研究小组的Caltech Pedestrian Dataset也很出名。6.人体行为识别（Human Action Recognition)来源：二一、论文CVPR2012与行人检测相关的论文1ContextualBoo

25、stforPedestrianDetectionYuanyuanDing,JingXiao2UnderstandingCollectiveCrowdBehaviors:LearningMixtureModelofDynamicPedestrian-AgentsBoleiZhou,XiaogangWang3Pedestriandetectionat100framespersecondRodrigoBenenson,MarkusMathias,RaduTimofte,LucVanGool4Multi-PedestrianDetectioninCrowdedScenes:AGlobalViewJun

26、jieYan,ZhenLei,DongYi,Stan.Z.Li5ADiscriminativeDeepModelforPedestrianDetectionwithOcclusionHandlingWanliOuyang,XiaogangWang6TransferringaGenericPedestrianDetectorTowardsSpecificScenesMengWang,WeiLi,XiaogangWang7GeodesicFlowKernelforUnsupervisedDomainAdaptationBoqingGong,YuanShi,FeiSha,KristenGrauman

27、综述类的文章1P.Dollar,C.Wojek,B.Schiele,etal.Pedestriandetection:anevaluationofthestateoftheartJ.IEEETransactionsonPatternAnalysisandMachineIntelligence,2012,34(4):743-761.2M.Enzweiler,andD.Gavrila.Monocularpedestriandetection:surveyandexperimentsJ.IEEETransactionsonPatternAnalysisandMachineIntelligence,2

28、009,31(12):2179-2195.3D.Geronimo,A.M.LopezandA.D.Sappa,etal.SurveyofpedestriandetectionforadvanceddriverassistancesystemsJ.IEEETransactionsonPatternAnalysisandMachineIntelligence,2010,32(7):1239-1258.4苏松志,李绍滋,陈淑媛等.行人检测技术综述J.电子学报,2012,40(4):814-820.5贾慧星,章毓晋.车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述J,自动化学报,2007,33(1)

29、:84-90.6许言午,曹先彬,乔红.行人检测系统研究新进展及关键技术展望J,电子学报,2008,36(5):368-376.7杜友田;陈峰;徐文立;李永彬;基于视觉的人的运动识别综述,电子学报,2007.35(1):84-90.8朱文佳.基于机器学习的行人检测关键技术研究D.第一章,硕士学位论文,上海交通大学.2008.指导教师:戚飞虎.二、SourceCode1.INRIAObjectdetectionandLocalizationToolkit,Dalal于2005年提出了基于HOG特征的行人检测方法，行人检测领域中的经典文章之一。HOG特征目前也被用在其他的目标检测与识别、图像检索和跟

30、踪等领域中。2.Real-timePedestrianDetection.JianxinWu实现的快速行人检测方法。3.HoughTransfomforPedestrianDetection.OlgaBarinova,CVPR2010Paper:OndetectionofmultipleobjectinstancesusingHoughTransforms4.HIKSVM,HOG+LBP+HIKSVM,行人检测的经典方法.5.GroundHOG,GPU-basedObjectDetectionwithGeometricConstraints,In:ICVS,2011.CUDA版本的HOG+SV

31、M,video.三、数据集MIT数据库该数据库为较早公开的行人数据库，共924张行人图片（ppm格式，宽高为64x128），肩到脚的距离约80象素。该数据库只含正面和背面两个视角，无负样本，未区分训练集和测试集。Dalal等采用“HOG+SVM”，在该数据库上的检测准确率接近100%。INRIA数据库该数据库是目前使用最多的静态行人检测数据库，提供原始图片及相应的标注文件。训练集有正样本614张（包含2416个行人），负样本1218张；测试集有正样本288张（包含1126个行人），负样本453张。图片中人体大部分为站立姿势且高度大于100个象素，部分标注可能不正确。图片主要来源于GRAZ-01、个人照

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？