基于视频的行人跟踪算法研究和实现.docx

上传人:b****6 文档编号:7592986 上传时间:2023-01-25 格式:DOCX 页数:18 大小:36.73KB
下载 相关 举报
基于视频的行人跟踪算法研究和实现.docx_第1页
第1页 / 共18页
基于视频的行人跟踪算法研究和实现.docx_第2页
第2页 / 共18页
基于视频的行人跟踪算法研究和实现.docx_第3页
第3页 / 共18页
基于视频的行人跟踪算法研究和实现.docx_第4页
第4页 / 共18页
基于视频的行人跟踪算法研究和实现.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

基于视频的行人跟踪算法研究和实现.docx

《基于视频的行人跟踪算法研究和实现.docx》由会员分享,可在线阅读,更多相关《基于视频的行人跟踪算法研究和实现.docx(18页珍藏版)》请在冰豆网上搜索。

基于视频的行人跟踪算法研究和实现.docx

基于视频的行人跟踪算法研究和实现

基于视频的行人跟踪算法研究和实现

摘要

计算机视觉的研究内容为,对搜聚的图像或视频进行处理,从而使计算机学习三维的场景信息。

行人跟踪是图像理解的基础,是计算机视觉领域的核心分析技术。

它在例如监控、导航等各个方面都拥有广泛的应用价值与良好的应用前景。

因此,行人跟踪问题一向是计算机视觉领域学者研究的热点问题。

在国内外,行人跟踪问题的研究都取得了不错的成果。

但由于行人运动无规则不确定、运动背景复杂、行人间易出现遮挡行为等问题,行人跟踪技术的研究依然是一个难点。

论文将行人跟踪算法分为两个部分进行研究。

第一部分是目标检测算法,它是跟踪算法的基础,主要工作是提取感兴趣区域,也就是需要跟踪的行人。

不准确的检测结果会让跟踪结果也变得不准确。

因此,论文研究了常用的检测算法的数学原理,经实验对比后论文选择混合高斯背景建模方法的检测结果作为跟踪的目标。

第二部分是目标跟踪算法,它定位上一部分的检测结果在帧中的位置。

论文总结了跟踪算法的分类,并研究三种主流方法的数学原理。

分析三种方法的优缺点后,考虑到运动系统通常具有非线性、非高斯的特点,论文选择在非线性、非高斯系统下依然稳定的粒子滤波算法进行实验。

实验结果显示了粒子滤波算法能快速且准确地跟踪行人。

关键词:

视频处理,行人跟踪,粒子滤波

Researchandimplementof

thepedestriantrackingalgorithmbasedonvideos

Abstract

Whatthecomputervisionresearchonisprocessingimagesandvideos,sothatcomputerscouldlearnsceneinformation.Pedestriantrackingisthebasisofimageunderstandingandacoreanalysistechniqueinthefieldofcomputervision.Ithasextensiveapplicationvalueandgoodapplicationprospectinmanyaspects,includingmonitoring,navigation,andbehaviorrecognition.Thus,pedestriantrackingproblemhasalwaysbeenthehotspotofthecomputervisionfield.Bothathomeandabroad,pedestriantrackingresearchhasachievedgoodresults.However,asaresultoftheuncertaintyofpedestrianmovement,thecomplexbackgroundofsportsandtheshadebetweenpedestrians,pedestriantrackingtechnologyisstilladifficultproblemincomputervision.

Thispaperdividestheresearchofpedestriantrackingalgorithmsintotwoparts.Thefirstpartisthetargetdetectionalgorithms;itisthebasisofthetracking.Themainworkofdetectionistoextractinterestedareawhichisthepedestrian.Non-accuratedetectiondirectlyaffectstheaccuracyoftracking.Sopaperstudiedthemathematicalprincipleofcommonlyuseddetectionalgorithm,andthenselectedtheresultsofGMM(Gaussianmixturemodels)astrackingtargetsthroughthecontrastofexperiments.Thesecondpartistheresearchoftargettrackingalgorithms.Itpositioneddetectedresultsintheframesofavideo.Papersummarizestheclassificationofthetrackingalgorithm,andstudiesthemathematicalprincipalsofthreecommonlyusedmethods.Afteranalyzingadvantagesanddisadvantagesofthreemethodsandconsideringthatthemotionsystemusuallyhasthecharacteristicsofnonlinearandnon-Gaussian,paperchoosestheparticlealgorithmwhichremainsstableundernonlinearandnon-Gaussiansystemsforexperiments.Atlast,theexperimentresultsshowaquickandaccuratetrackingofparticlefilteralgorithm.

KeyWords:

Videoprocessing;Pedestriantracking;Particlefilters

第一章绪论

1.1课题研究背景与意义

自计算机问世到现在六十多年,它由仅在军事方面被利用,到生活中的普及完成了一系列的更新迭代。

在这个过程中,也产生了专门的计算机学科。

而随着科技发展,计算机的应用领域被进一步拓宽,这个学科也随之产生了许多分支。

自20世纪50年代末开始,计算机被作为实现人类感知的工具。

而使用计算机对人类视觉进行模拟则导致了计算机视觉的产生。

计算机视觉的研究本质为理解三维的场景,其研究热潮兴起于80年代,新概念、新方法、新理论呈井喷式出现,至今依然是一个非常活跃的研究领域。

人体所接受的信息绝大部分由眼睛接收,而运动信息又是人眼接收的信息中重要的部分。

计算机视觉本意在于模拟人眼与处理视觉信息的大脑,人眼一直观察运动中的目标,所以目标跟踪成为计算机视觉领域的核心问题。

目标跟踪是指从图像序列中,获得目标的位置,以及目标运动的速度、加速度等信息。

这个问题的解决不能仅仅依靠一个学科的内容,它需要综合包括统计学、人工智能、模式识别、计算机图形学、图像处理等多方面的科学技术。

行人跟踪在场景监控、人机交互、智能交通等方面都具有深远的应用意义。

这些意义让行人跟踪成为计算机视觉研究中的热点。

(1)场景监控方面

通过摄像机获取需要监控的场景的视频,利用行人跟踪技术获得行人的位置以及运动轨迹等信息,借此可以预测分析行人的行为、状态。

在交通运输工具(火车、轮船)、执法管理场景,行人跟踪技术都能协助进行更完善的安保工作。

在商铺则可以分析人流量和行人的行动趋势,从而可以制定增加商铺收益的策划。

(2)人机交互方面

跟踪技术可以辅助计算机获得人体的肢体动作、手势等一系列信息。

通过人的肢体动作、手势等进行人机交互是新兴的人机交互方式,相比传统的键盘、鼠标等交互方式更方便快捷,具有发展意义。

(3)智能交通方面

行人跟踪技术能协助驾驶员驾驶交通工具,有效地减少交通意外的发生。

例如利用行人跟踪技术预测分析行人的运动状态,得到是否容易发生事故的判断,从而智能地提示驾驶员可能发生危险,或直接采取一些应急措施。

在交通事故频发的现代社会,这项技术将为人提供更高的安全保障。

除这些方面外,行人跟踪技术在人工智能、军事演习等诸多方面都有深远的意义。

因此,推进这项技术的发展,有益于提升公共环境中人的安全保障,有益于更便捷的交互,有益于规避异常或更快地对异常现象进行反应,有益于人的提高生存保障与生活质量。

所以这项技术更深更广地发展十分必要,这个问题的研究也一直是计算机视觉领域的核心问题。

1.2行人跟踪概述

行人跟踪是指对视频或图像序列进行处理,获得行人目标的位置、运动轨迹、速度等信息的过程。

是进一步进行行人分析的基础工作,有广泛的应用。

行人跟踪技术没有规定的流程,但是总体可以按照以下几步来操作:

预处理、目标检测、目标分类、跟踪。

其中目标检测与跟踪是行人跟踪的核心部分。

图1用实例展示了这个流程。

在整个跟踪的过程中,视频的质量对跟踪的准确性、效率都有巨大的影响。

想要获得一个前景分明、便于后续工作的视频,需要进行一些预处理工作。

预处理工作涵盖选择获取视频的设备、调整设备参数等工作。

例如根据需要监控的场景光照情况选择普通摄像机或是红外摄像机。

这些都属于预处理的范畴,而本文更关注跟踪的算法效果,所以已经选取固定摄像头、光照良好、移动背景少的视频进行分析处理。

目标检测,指从图像中提取感兴趣的区域(regionsofinterest,ROI)。

在本文中即提取行人目标作为ROI。

在很多文献中不明确提及目标检测的策略,但这个步骤的准确性直接关系到跟踪的准确性。

因为当检测出现目标缺失时,后续的跟踪就不能正确地跟踪到这个目标。

同样的,当检测出的目标多于真实的目标也是不可取的。

因此,选择一个能正确检测出行人目标的目标检测算法十分重要。

具体的算法的介绍将在下面的章节给出。

目标检测中提取的ROI,在很多情况下并不只有行人。

比如移动的车辆,或其他移动的物体,都有可能被检测为目标。

因此需要对目标进行分类,只选取行人进行跟踪。

但是本文更关注检测与跟踪,选取的测试视频不那么复杂,这个部分的内容将不作为重点讨论。

狭义的行人跟踪步骤,指在视频的各帧中定位行人的位置。

根据位置信息,即可以分析行人的移动轨迹、移动速度、移动加速度等信息。

结合人工智能等学科的内容,也可以预测行人的移动趋势等信息。

作为整个行人跟踪技术的核心步骤,它一直是研究的热点。

在国内外无数研究者的共同努力下,出现了很多优秀的方法。

像光流法、粒子滤波算法、Kalman滤波算法都有其优点,算法的详细介绍也将在后面的章节介绍。

(a)预处理(b)目标检测(c)目标分类(d)跟踪处理整张图像处理前景图像处理选定的区域图1跟踪流程示意图(a)预处理(b)目标检测(c)目标分类(d)跟踪处理整张图像处理前景图像处理选定的区域图1跟踪流程示意图

1.3国内外研究现状

由于行人跟踪技术的应用广泛,行人跟踪技术一直是国内外的研究热点。

而例如背景复杂、行人运动无规则这些原因,行人跟踪问题依然没有得到完善的解决办法。

尤其是对多目标进行跟踪,目前还没有既准确又高效的解决办法。

对比国内外,国外的研究进展相对国内还是比较进步。

在国外,对后续跟踪影响最大的目标检测部分也是研究热点。

法国学者Dalal与Triggs2005年在CVPR上首度提出一种综合HOG特征与SVM分类器的目标检测方法[1]。

而这个方法被提出以后,许多研究者基于这个方法做了改进。

比如Wójcikowski于2015年就提出在本来的HOG特征中再加入每个小连通区域的平均明度信息[2]。

与上述方法不同的,LaurentIttietal.于1998年提出基于神经网络的目标检测方法[3],将颜色、亮度等信息与神经网络结合起来进行目标检测。

YajunFangetal.于2004年提出一种适用于红外视频的算法[4],利用水平方向和垂直方向的投影信息进行检测。

早在上世纪五十年代,Gibson等学者提出SFM假设,之后Horn和Schunck在1981年创造性提出二维速度场与灰度相联系的方法,将光流法应用到了目标检测中。

之后的学者在此基础上改进光流法应用于目标检测。

如TakahiroNakada提出一种使用三维的光流法检测视频中行人的方法[5]。

同时,在EM算法的基础上,很多科学家对其做出了改进,如使用颜色直方图信息与EM算法[6]。

也将EM算法应用到混合高斯建模、朴素贝叶斯模型中,都取得了更好的效果。

此外,U.Franke首次提出了一种对双目摄像头拍摄的视频进行处理的方案[7]。

在国内,目标检测方面也取得了不错的成就,尤其是基于光流法、帧差法等方法的成果非常多。

在跟踪模块,自卡尔曼在1960年提出卡尔曼滤波之后,这个方法也被应用于目标跟踪。

G.Welch于1995年在论文中综合了卡尔曼滤波以及它的一些衍生,并给出了一个应用实例[8]。

在国内进行研究的学者也很多[9][10],他们的仿真结构也体现了方案的准确性。

粒子滤波的研究同样很广泛,J.Giebeletal2004年在论文中给出一种基于贝叶斯网络的目标跟踪方法[11]。

Philominetal.也在论文中给出粒子滤波变形以后的跟踪算法[12]。

在国内,XuFen等,2010年ICECE会议上介绍了利用相似度特征进行粒子滤波行人跟踪的方法[13]。

除此之外,2015年,RuiLinXu在IST会议上提出利用粒子滤波对远红外探测到的行人进行多目标跟踪[14]。

除了这两种常用的方法,还有许多新的方法在不断出现。

总而言之,国内外对于行人跟踪技术的研究,都取得了丰硕的成果。

在实际的应用、产品化方面。

我国主要的研究方向集中在公共场合智能防护、交通管制等方面。

而美国Vidient公司已经推出了SmartCatch系统,这个系统的主要功能是进行多物体跟踪与行为推理,主要被用在机场的安保工作上。

法国VisoWave公司的VisioWave监控系统也具有一流的检测技术,被应用于巴黎、纽约和伦敦的地铁安防项目中。

取得这么多成果,是值得骄傲的事情。

但是学者也不能忽视,行人跟踪问题依然存在困惑与难点需要攻克。

首先是行人的姿势动作多变,衣着等外观条件也十分多变,且行人在图像中的大小也没有规则。

现阶段,跟踪系统还不能适应这些变化,使得跟踪结果出现误差。

其次,高效地区分行人和其他目标也是一个难题。

特别需要注意的是,当行人出现遮挡时的跟踪处理。

目前的多目标跟踪系统在解决遮挡面积大、时间长的跟踪问题时,还不能维持其准确性、实时性。

因此,对行人跟踪问题的研究还需要通过思考与实验去寻找更稳定、高效、准确的方案。

1.4论文研究内容与结构安排

行人跟踪分为基于视频与静态图像序列两种情况,本文的研究对象是视频。

视频根据摄像头可划分为固定摄像头与可移动摄像头两种,本文研究的是固定摄像头拍摄下的普通视频。

本文主要从目标检测和跟踪两个方面阐述内容。

首先介绍主流的几个目标检测方法,然后用c++结合opencv对其中的帧差法与高斯混合建模的方法进行实验。

再介绍关于跟踪的常用方法,并具体就粒子滤波算法进行研究与实现。

具体的结构安排如下:

第一章绪论部分,介绍了选题的背景,阐述了选题的应用价值。

同时,也对主要研究的内容和国内外的研究现状进行了简单的介绍。

第二章主要介绍目标检测模块。

包括介绍光流法、帧差法等常用的目标检测方法,以及对帧差法与高斯混合建模的方法进行实验与结果分析。

第三章是本文的核心部分,阐述了本文对跟踪的研究。

与第二章类似,先介绍卡尔曼滤波、基于特征点的跟踪等主流的方法,之后重点对粒子滤波进行讨论。

本文也会在这一章节表述选用粒子滤波的原因。

最后,展示粒子滤波的跟踪结果,并进行分析。

第四章总结本文的工作,以及展望行人跟踪的前景,并对未来的研究方向提出自己的一些见解。

第二章目标检测

运动目标检测,即将前景从图像中分离出来,获得我们对图像感兴趣的区域(ROI)。

通常我们所获得的ROI相比较原来的图像而言,去除的无用信息占到很大的比重。

也就是说,经过这个步骤,后续跟踪工作的计算量将大大减少。

但是,如果检测结果不准确也会使后续跟踪失去准确性。

比如检测缺失了人体的一部分,那么这个区域可能不会被跟踪算法处理,则无法进行跟踪。

也正是因为目标检测减小计算量与对后续影响很大的特点,目标检测才成为整个行人跟踪技术中的一块核心问题。

视频的拍摄环境中存在很多不稳定因素,如光照变化、各类噪声等,目标检测算法应对这些变化时应当保持它的稳定性。

因此,一个能适应各种变化,并准确探测出行人目标的检测算法是迫切需求的。

2.1几种常用的目标检测方法

2.1.1光流法

光流法最初由Gibson在1950年提出,之后被广泛应用于目标检测中。

在目标检测中,光流场的定义是图像中带有灰度信息的像素点在视频中运动时产生的瞬时速度场。

光流法则可以解释为,通过像素点随时间变化以及帧间相关性的信息得到当前帧与前一帧的相关关系,从而计算出相邻帧之间目标移动的运动信息。

最初提出将光流法应用于目标检测的是Lucas和Kanade,他们于1981年提出基于梯度的光流法[15]。

后来发展出基于频域、基于特征的光流法。

最基本的L-K光流法中,有三个前提假设。

(1)亮度恒定。

对于携带灰度信息的像素点,应假设其在时间轴上亮度信息不发生变化。

(2)相邻视频帧的取帧时间应连续。

实际应用时指时间变化相对图像中运动比例较小,也就是目标在相邻帧间的移动速度应小。

(3)空间一致,即同一目标或者说邻近的点的像素点具有相似的运动。

假设图像中每个像素点的速度矢量为:

false根据光流法的假设

(1)和假设

(2),可以得到当前系统的状态方程:

对这个方程进行泰勒展开:

其中指泰勒展开中更高阶的部分,由于假设移动足够小,这个高阶项被忽略不计。

结合以上两式,得到:

即:

解这个方程,令。

将u和v带入上式,得到:

或者说

显然当只是单个点运用光流法,上式表示的方程是欠定方程,不能求解。

因此必须利用假设(3),邻近的点具有相似的运动,选用某个像素点的邻域进行处理。

这样得到一个超定方程组:

利用超定方程组的解法,当可逆时,可以解出:

从光流法问世到现在,后人也对光流法进行了许多改进,克服了光流法的一些缺点。

比如金字塔光流法,为图像序列构建一个金字塔模型,每一层往上是下面一层平滑后的结果,减小了运动量,使得光流法的第二个假设能被满足。

还有区域光流法,结合了帧差后的图像与光流法,大大减小了计算量。

总的来说,光流法是一种十分精确的目标检测方法,能直接获得目标的运动参数,对目标出现遮挡的情况也能够进行处理。

但是,光流法的假设条件也表示出了光流法的局限性。

光流法要求相邻帧的灰度保持不变,这就表示光流法抗噪声的能力很差,而且天气变化、光照变化等情况也很容易造成误差。

同时,光流法要求“运动量小”,这对于很多视频都是没有办法做到的。

此外,光流法的计算量很大,现阶段的计算机面对这样的计算量还不能保障运算的实时性。

且光流法的计算量与选用的领域相关,当为了达到运动量小的假设而扩大所选邻域的范围时,也增添了很多计算量。

2.1.2帧差法

帧差法是一种非常简单的目标检测方法。

原理是在视频中取相邻的两帧或三帧,以前一帧为背景图像进行背景减除,以此得到图像中运动区域。

帧差法的数学原理也很简单,假设代表第n帧图像,那么两帧图像的差可表示为:

假设目标图像用表示,T为用来判断是目标还是背景的阈值,则有:

阈值T的取值为经验值,通常取图像灰度动态范围的15%[16]。

我们处理的图像有255个灰度级,因此通常取T=40。

三帧差法对普通的帧差法做出了改进,由于用到了更多的信息,结果也要比普通的帧差法准确。

对第n-1,n,n+1帧图像进行减除,可以得到两个差值:

利用Otsu方法或其他方法得到两个阈值。

于是有:

则目标图像表示为:

帧差法的优点在于其思路简单、运算量小,对于动态环境的自适应性也很优秀,缓慢的光照变化对其结果也没有影响。

这样的特性使得帧差法在处理背景静止的简单视频时结果很好。

但是帧差法也有许多缺点,抗噪声能力低,还有最明显的是“双影”和“空洞”。

双影是指由于进行帧差时取差的绝对值,帧差法检测到的目标往往具有两个“影子”,具体表现为检测出的目标轮廓相较一般粗很多。

空洞是指在进行帧差时,目标内部的颜色没有发生改变,不被判定为目标,就出现了空洞现象。

2.1.3混合高斯分布背景建模法

混合高斯分布背景建模法,简称GMM,是背景差分法中的一种方法。

背景差分,也就是将当前帧与之前建立的背景模型进行比较,通过参量的变化来估计目标的运动。

背景差分法基于各种背景模型而建立,对于背景模型的研究已经进行了很久,包括平均法、中值法、混合高斯背景建模等众多方法。

平均法是将视频中某个时间序列的各帧图像求和取平均作为背景,这个方法十分简单,但是很容易将前景混入背景。

中值法对考虑每个像素点在时间序列上的变化,选择时间序列上的中值像素值做为背景。

选择中值的原因是,目标在运动时,考虑其背景至少在50%的时间内被观测到。

中值法与均值法一样,简单,但是当运动量小时,检测容易受到影响。

混合高斯模型法也被称为统计背景模型法,由Stauffer和Grimson提出[17]。

它的基本思想是,用高斯分布来表示像素值的变化。

高斯分布是自然现象中最常见的一种概率分布,在目标检测中,可以表示出复杂的干扰、噪声等信息。

GMM最开始被提出是三分布的GMM,对图像中的每一个像素点,GMM算法用三个高斯分布表示背景、前景的阴影、前景。

但是实际情况复杂,前景等都不能只用一个高斯分布来表示。

因此,固定分布数K的混合高斯分布模型、自适应分布数K的混合高斯分布模型被提出。

而经典的GMM算法中,假设像素点(x,y)在t时刻的像素值为I(x,y,t)。

因为像素点满足正态分布,即,其中表示均值,表示方差。

对一个T帧的图像序列,假设,则t时刻,(x,y)点的像素值由高斯分布表示为:

其中K表示每个像素点所混合的高斯分布的数量,表示t时刻该像素点第i个高斯分布的权重,是t时刻该像素点第i个高斯分布的均值。

而则表示t时刻第i个分布,其中为均值,而,是第i个高斯分布的协方差矩阵。

这个分布可以直接表述为:

在高斯混合模型中,权重越大,方差越小的高斯分布越能代表背景模型。

因此对权重与方差比进行排序,用B表示背景模型,则可以建模得到:

则B的取值为使得累积权重大于背景模型在高斯分布中占有的最小比例S的b值。

若存在这个B,则表示完成一次匹配。

在上面提到的平均法、中值法背景建模中,都没有进行背景更新,当然对跟踪造成了一定的误差。

而高斯背景建模在匹配完一次后会对背景模型进行更新。

初始化时,选择第一帧的像素值作为均值,方差则设为0。

更新时按照以下公式更新参数:

第k个高斯分布的权重:

;

t时刻的像素值的均值:

;

t时刻的像素值的方差:

参数:

α是高斯模型的学习速率,1/α的含义是一个时间常量,决定参数改变的速度,而ρ是根据α定义而来。

系统根据是否完成一次匹配决定是否按上述公式进行参数更新。

从GMM的数学原理来看,影响GMM方法准确性的参数有每个像素混合的高斯模型的数量K,学习速率α,累积权重的阈值S。

NikolaosKatsarakisetal.在论文中介绍了一种评估检测结果准确率的方法[18]。

用TP表示正确划分的前景部分,FP表示被划分成前景的背景部分,FN表示被划分成背景的前景部分。

参数prec:

,参数rec:

对检测结果进行评估的F1-score由这两个参数定义:

该论文中的实验结果显示:

随着混合

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 起诉状

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1