第九届IEEE高级视频监控国际会议.docx

资源描述

第九届IEEE高级视频监控国际会议.docx

《第九届IEEE高级视频监控国际会议.docx》由会员分享，可在线阅读，更多相关《第九届IEEE高级视频监控国际会议.docx（10页珍藏版）》请在冰豆网上搜索。

第九届IEEE高级视频监控国际会议.docx

第九届IEEE高级视频监控国际会议

2012年第九届IEEE高级视频与信号监控国际会议

基于多摄像头监控的人数统计

经为文，雷华，刘常平

中国科学院自动化研究所

摘要

人数统计被广泛的应用于大众视频监控中，我们提出了一种视场部分重叠的多摄像头人数统计系统。

本文主要的原创性成果主要有：

（1）我们提出了一种多目标的行人跟踪方法，它是基于一种选择和加权机制，将局部信息合成目标信息。

（2）我们提出了一种整合来自多个摄像头统计的人数的方法，通过homograpy变换和相似性度量，系统能发现处于重叠视场的准确目标，最终估计来自多摄像头的人数的整合人数。

实验结果表明我们的系统能有效并且正确的估计监控中的人数。

1、引言

在视频监控中，智能人数统计是一个很有挑战性的任务，通过分析监控视频没帧的图像，一个强健的系统能获取准确的人数，因此，智能人数统计系统在公共领域有很大的发展前景，例如，飞机场，地铁站，公园，广场等。

1.1、相关技术概况

经过十多年的发展，出现了许多人数统计的方法，人群检测与跟踪被广泛的应用。

Harasse.et.al.[5]通过人的皮肤颜色来检测和跟踪行人，他在公共汽车中统计过人数。

Li.et.al[8]提出一种估计人数的方法，它是基于前景分割和头肩来检测的融合的嵌式图像来统计人数。

Chen.rt.al[2]提出了一种改进的跟踪方法去统计人数。

与人群检测和跟踪方法相比，基于回归分析的方法处理人群情况较为复杂的情况优势比较明显。

Chanet.al提出一种隐私视觉保护系统，这种系统通过提取一系列简单整体特征并且用高斯方法回归分析来估计人数。

Kong.et.al提出一种基于在线人数统计系统的变量式学习来估计人数，这种变量式学习用神经网络来实现，这种神经网络是在人工监督的情况下来训练的。

然而，以往人们多是集中于单一摄像头监控的人数统计研究，在一些开阔的区域，多摄像头监控变得必要和重要，因为单一摄像头很难覆盖整个区域。

另外，由于遮挡原因，一些行人在一些视角不能被发现而在别的角度却很容易被发现，多摄像头监控可以解决此问题。

RanEsheletal.[3]通过提取高密度人群头部方法来跟踪人群，将人头分割出来，然后利用多摄像头获得的数据，根据人群运动方向和速度来跟踪他们。

Mohedano.et.al[2]3D人群跟踪方法，这种方法拥有带有部分视场重叠的多摄像头，检测人群在每个摄像头情况来跟踪人群，比2D人群跟踪更好。

Khan和Shal[6]提出了一种二位对应的约束，用来自多摄像头的前景可能信息，去解决遮挡问题，来统计人数。

因为前面论述的技术推动，采用多摄像头监控的人数统计被应用在关系广场，大厅等宽广区域。

1.2、我们的技术

图1是多摄像头监控统计人数的流程图，此系统的主要创新在于：

（1）我们提出了一种人群跟踪方法，此方法包括两条流程线路，术语叫做特征点处理和图像处理（如图2）一个选择与权重机制将局部特征信息合成对象信息，去解决对象跟踪。

（2）我们提出一种模型区整合多摄像头的统计结果。

在此过程中，我们首先估计不同摄像头的单应性联系，并且提出一系列相似性度量规则去找的重叠视场中的行人，最终获取多摄像头人数的整合人数数据。

本文章按如下顺序组织，章节2介绍基于特征点的人数跟踪算法，章节3介绍整合人数的细节，章节4评估了该系统，章节5总结了本文章。

2、基于特征点的人群跟踪

如图二所示，那是两个并行的流程线，一个为特征点处理，另一个为对象处理，特征点处理主要是根据KLT（最佳正交变换）跟踪器检测并跟踪特征点，特征点处理是对象处理的前提，目的是获取目标对象的运动轨迹。

在对象处理中，首先根据行人在监控窗口移动的特征，并且搜索的邻域限制在移动前景特征点附近，然后估计在每个跟踪行人特征点的边框，并且从前面的特征点信息获取下一新的特征点位置。

2.1特征点处理

特征点是行人跟踪的前提，特正点的位置和移动信息对目标处理很重要。

在我们的技术中，标准RostemDrummonal跟踪器被用去确定特征点，有代表性的，典型的，混合的特征，以及其他能正确跟踪的特征都有可能被我们的技术所涉及。

人们发现特征点往往可以从人的轮廓边界中获取，例如头，四肢，肩膀，特别是突出的点和曲面，哪些特征点经常在对象处理中被用到，特征点然后被KLT光流法跟踪。

2.2对象处理

因为人行走时姿势经常变化，所以对行人跟踪变得非常复杂。

即使我们约束行人行走和站立的姿势，跟踪也很复杂。

这本节介绍行人的部分特征点，它对行人姿势改变和遮挡具有好的抗干扰性。

跟踪之前，我们需要一些样本。

线性支持向量机被作为分类器有两种特性，DH-LBP特性和EOH特性，为了估计来自静态区域的干扰，运动检测应用于滑动窗口之前，它产生一个前景模板作为输出结果，滑动窗口然后被限制在前景模板和特征点附近。

一旦一个对象被检测到，它在边框内部的特征点被记为特征成员，然后通过跟踪特征成员，从而那个对象被跟踪。

表一显示跟踪成员的记录和更新信息，跟踪对象为OBk，背景信息包括他的边框Rk，中点CK和特征成员FK。

在FK中一个特征成员fki的信息包括它的位置Iki，权重Wki，从它的位置到对象中点的误差向量dvki和对象中心的信息Ski。

为了获取从特征成员到对象的细化基层信息，我们估计并存储所有特征成员的集合中心，并且几何中心作为在跟踪过程中的代表。

通过存储和调整几何中心和误差向量来估计对象在下一帧的位置。

然而这种方法未能正确考虑特征点的真确性和重要性。

如果一些特征点不属于那个对象或者错误的映射，可能引起错误连锁反应，为了解决此问题，采用选择与权重机制。

选择与权重机制的约束条件：

（1）每个特征成员必须能证明它的对象中心是建立在它自己的位置和误差向量上。

（2）特征成员是趋于和它自己暗示一致方向。

（3）这种暗示准确性较高。

（4）特征成员将会更具它的角色被赋予不同的基数。

例如，接近对象中心的特征成员基数较大。

为了比较两种暗示，我们定义建立在他们空间距离上的相似性度量。

Dist（sa,sb）为预测值sa,sb之间的欧氏距离。

对于这两个预测值，在空间上越接近，两个值的相似性越高。

为了更新从t帧到t+1帧OBk，它的特征成员Fkt首先需通过KLT映射到下一帧获取Fkt+1，然后，第i个特征成员fki,获得给予它的位置，Ikit+1的预测值和它的误差向量dvki;

如此循环上面的步骤，理论上，那些值将与真正的Ckt+1一致。

然而，由于噪声的干扰和对象姿势变化的干扰，会存在一定误差，为了去解决上述问题，通过选择机制来解决。

产生的第i个特征成员fki到第j个特征成员fkj的量被定义为：

其中Wki为权重系数，Simi（ski,skj）可从等式

（1）获取，整个Skj的和的量为

OPki->kj的总和，i=1,…….,n

最准确的预测值为最终结果

OBk位置在t+1帧后，特征成员的权重由（6），（7）式求得：

其中u为控制学习速率的参变量。

3、通过多摄像机实现人数统计

3.1单应性估计

为了通过多摄像机精确地进行人数统计，摄像机的一致性必须被定义为一个人在遮挡区域能否可见。

单应性变换是一个有效的方法，它能从一个视角到另一个视角的映射和局部化对象，但并不需要在3D空间调整摄像机，因此，本文采用比例不变特征转换特征匹配和随机抽样一致性算法去计算不同摄像机的单应性。

它包括两步：

第一步：

匹配对应点

首先，比例不变性特征转化（SIFT）特征被应用于准确的点匹配，在不同视图间，因为它在处理图像因旋转和光照而发生仿射变形，产生噪音都有非常大的优势。

为了方便说明这个问题，我们假设那是来自两个摄像头的视图，并且它很容易扩展到多个摄像机的情况，本系统选择来自两个摄像头捕获的第n帧关键点（实验中n=20）不选择第一帧是因为我们希望去获得更可信的数据，（BBF）最优二进制研究策略被应用去得到那些关键点的相似性，BBF算法在高维空间进行索引并且有效的限制了寻找时间，通过限制叶子节点，避免了延长搜索时间。

第二步：

计算单应性矩阵

单应性变换能在一个平面映射点，从一个摄像头视图映射到另一个摄像头视图，此处那些行人在一个主导平面行走。

H为视图1到视图2的一个3X3单应性矩阵，H-1为H逆矩阵，X1（p）表示在视图1中p点的位置，X1’（p）是在视图2中坐标，它通过映射X1（p）求得。

X2’（p’）和X2（p’）关系与X1’（p）和X1（p）关系相似。

X1（p）和X2（p’）是相似性坐标p和p’在视图1和视图2中的坐标，它和步骤一的相匹配。

如果至少4对一致性点能被提供，单应性矩阵的系数就能被匹配。

随机抽样一致性算法是一种有效的能从一系列对应点获取理想H的方法。

假设对应点组成保守值，保守值适合H的参数，而极端值不适合。

对每一个迭代i，4对对应点是被随机选择去估计单应性Hi，如果错误是低于阀值，这对点属于保守值，最后，最大系数的保守值是被用去计算那个H，这个算法能有效估计错误对应点的干扰。

3.2多摄像头计算结果的整合

检测和跟踪人群后，人群的数量在每个摄像头视频中能被统计，但怎样将那些结果整合在一起，得到最终的估计人数仍是一个问题。

M表示在当前监控区域摄像头的数量，Cami（i<=M）表示第i个摄像头，Ni为Cami统计人数，Nij为Cami和Camj在重叠视场的统计人数，整个人群数由（11）来计算：

Ni通过人数检测和统计能很容易获得，下面介绍如何获取Nij，主要任务是去计算Nij为Cami和Camj都可见的人数，在不同视场进行特征匹配是不实际的，以为个体在不同视场的特征可能不同。

在3.1节制单应性H已被估计，对Cami中的视场中每个行人OBki，它的轨迹能被表示为

Tk为对象轨迹的的长度，假设两个行人：

OBk1i在Cami视图中，而OBk2j在Camj视图中，假设OBk1i从Cami视图到Camj视图是OBk1i‘，如果OBk1i和OBk2j是同一人在3D视场中，OBk1i‘和OBk2j的轨迹和坐标相似性将会很高。

因此，我们将相似性度量作为OBk1i和OBk2j在视场重叠区域是否为同一人。

（如图3）

1、轨迹相似性

OBk1i和OBk2j轨迹不同判断由等式（12）决定：

T为两轨迹中的最小值，Hij为Cami和Camj的单应性矩阵，当

很小时，我们认为那两个轨迹有高度的相似性，即在3D场景中为一个人。

2、区域相似性

R（OBk1i）为OBk1i在Cami视图中的区域，R（OBk2j）为Camj视图中的区域，OBk1i和OBk2j区域相似性由等式（13）来计算：

如果

大于0.5，OBk1i和OBk2j被考虑为在3D视场中的同一个人。

匹配所有符合以上条件的在Cami和Camj中的对象，我们能获取Nij和所有行人数量Nall。

4、实验结果

4.1数据和标准

在这次实验中，我们用两个摄像头在大厅进行实验（Cam1,Cam2）,并存在部分重叠视场。

我们用4个视频片段来评价此系统（C1-T1,C2-T1,C1-T2,C2-T2）,视频片段C1-T1,C2-T1被捕获的同时，T1被Cam1和,Cam2捕获，C1-T2,C2-T2中T2也是。

这个系统通过同时分析来自Cam1和,Cam2的视频来统计人数，每个视频片段包括2000帧，在实验中，均方根误差被作为一个标准。

如式（14）

和

是在系统统计第i帧系统的真实人数和估计人数，N为视频片段的长度。

4.2结果

如图5（a）-5（c）表示T1的统计结果，图5（d）-5（f）表示T2的统计结果。

将本系统提出的人群检测和跟踪方法与一个参考方法作比较，本系统用选择与权重机制，而参考方法简单的用从对象中心到所有特征成员的几何中心的误差向量来计算。

从表2能看出本系统的优势。

结论：

这个系统能较准确地估计人数，并且有较低的RMSE，在多摄像头监控中，错误可能存在以下方面：

（1）行人慢速移动被作为背景。

（2）行人穿的衣服与背景相似。

（3）光照改变和人群遮挡可能影响结果。

5、总结

本文章中，我们提出了一种基于多摄像头并且部分视场重叠的人群数统计系统，通过恰当的获取局部特征，一种选择和权重机制是被应用于检测和跟踪行人，此机制对于视场的变化和遮挡抗干扰能力更强。

我们也提出了一种通过整合来自多摄像头人数获取总人数的方法，它主要通过单应性变换和相似性度量来判断。

所有的实验结果都论证了此方法的有效性。

在将来，我们将继续发展这种系统，例如增加在线学习方法，让它能更好的适应多种场合。

展开阅读全文