利用参照物基于SIFT的摄像机定位在多机环境和机器人的技术应用.docx

资源描述

利用参照物基于SIFT的摄像机定位在多机环境和机器人的技术应用.docx

《利用参照物基于SIFT的摄像机定位在多机环境和机器人的技术应用.docx》由会员分享，可在线阅读，更多相关《利用参照物基于SIFT的摄像机定位在多机环境和机器人的技术应用.docx（13页珍藏版）》请在冰豆网上搜索。

利用参照物基于SIFT的摄像机定位在多机环境和机器人的技术应用.docx

利用参照物基于SIFT的摄像机定位在多机环境和机器人的技术应用

SIFT，即尺度不变特征转换（Scale-invariantfeaturetransform，SIFT），是用于图像处理领域的一种描述子。

这种描述具有尺度不变性，可在图像中检测出关键点，是一种局部特征描述子。

关键字：

相机姿态估计，相对位姿；摄像机标定，规模歧义，参考对象；地方特色，尺度不变特征转换，多摄像机环境，智能客房，机器人定位

摘要：

本文的贡献是，提出了一个统一的方法来提高定位和在一个新的环境中使用已经安装摄像头的机器人的感觉。

用我们的方法可以在多摄像头的环境下任意定位摄像机。

采用自动延长网络摄像头在线的，无人值守时，实时的方式。

通过这种方式，所有的摄像机可用于提高场景的感知，并附加摄像机可以实时被添加，例如，删除盲点。

为此，我们使用尺度不变特征变换（SIFT）和至少一个任意已知大小的参考对象，让相机定位。

然后我们应用相对姿态估计的非线性优化并使用它来反复地校准摄像机网络以及本地化任意一个摄像机。

例如多相机环境的手机或机器人。

对此我们进行了综合评估，以及实际数据验证了该方法的适用性。

一．引言

近年来智能家居已经吸引了越来越多人的兴趣，例如，在办公环境下提高生产率，并协助人员危机应变中心。

为达到此目的，必须确定房间中的人的身份（以及关注的视听焦点必须被估计）例如，呈现目前正在查看人的个性化信息。

然而，这些应用依赖于信息的融合，该信息通过一组传感器提供，最重要的是麦克风和摄像机阵列。

为了在这种环境下融合来自不同传感器的信息，有必要建立一个共同的坐标系并确定他们的外部参数。

在下文中，我们专注于相机的传感器和在这一领域的离线标定方法应用最普遍（见参考文献）。

不幸的是，这些方法通常需要耗时的手动程序。

如果添加一个新的摄像头或移动一个摄像头，需要进行反复执行。

本文在这方面的贡献是，通过分析如何使用已经校准相机的环境的观点本地化一个新的相机，从而使随后的传感器融合。

例如，这里可以容易地扩展相机网络，允许可移动智能机器人的传感器信息的无缝集成，以及允许可移动智能机器人使用传感器的信息安装环境，以提高他们的认知能力。

根据所提出的方法，我们能够确定只给出了一个已知的相机在全局坐标系与任意的基准对象中的新相机的绝对姿态。

虽然我们专注于一个单一的已知相机可能会限制可实现的成果，方案中有大量相机具有广泛的重叠意见，我们选择这个作为重点。

因为它能够使我们整合相机并只查看现场的部分，记录只有另外一个摄像头。

这是特别重要的，如果摄像机的观点非常不同，或只有很少的相机使用。

根据我们的经验，在大多数应用领域更现实。

然而，我们的方法可以自然被扩展到具有多个视图的情况。

为此，我们对所有合理的计算机配对计算的位置，随后聚合成对的定位结果。

相反，大多数以前的工作，我们不依赖于特殊的校准模式或设备而是使用任意的引用对象代替。

为此，只需要非常少量的用户交互来构建已知物体的适当的数据库。

关于参考对象所需的信息可能会从互联网上自动收集，或在认知机器人领域，直接通过积极探索潜在对象获得。

一旦该信息可用时，摄像机可以在任何时间完全自动定位。

二．相关工作

摄像机校准的研究领域，其中相机姿态估计是一个重要的方面，是一个众所周知的和研究课题，并相应地有许多不同的方法已经被提出（见参考文献）。

为了计算出相对姿势，根本矩阵已经计算过。

归一和标准的8点算法，变体的7点算法，以及6点和5点算法进行比较。

归一化8点算法比非归一化版本可充分执行和当在没有先验知识摄像机运动时推荐使用，即可以横向或向前移动。

在大多数情况下5点算法可取得较好的结果，确认在（见参考文献），但前向运动有问题，结果很更糟。

鉴于8点算法有着综合的优秀表现，我们的方法中使用8点算法。

为了找到对应点，我们依靠罗威提出的SIFT特征匹配方法（见参考文献）。

在相对位姿估计和现场重建的背景下，有被使用过（见参考文献）。

在以前的工作中，（见参考文献）描述一种系统校准内在和外部会议室的网络摄像头的外部参数。

他们使用了有点和其他标志物的盒子来校准相机。

这导致了良好的准确度，对于大多数摄像机的摄像机位置小于1厘米。

然而，为了执行校准大量的用户交互是必需的，相机对的手动选择，每个摄像机对必须专门放置校准框。

（见参考文献）提出了一种技术，在多摄像机环境下校准，用较少的用户交互。

他们使用一个亮点作为校准功能，用激光指针连接到它的小扩散的塑料片产生，而不是使用专用的标定物体或标记。

他们的算法可以用来完全校准照相机网络，唯一的用户交互是通过工作容积挥舞着激光笔。

阿斯兰等推行类似的方法来自动校准多台摄像机的外部参数（见参考文献）。

他们发现人在房间里面走，在每个人头顶上用一个点作为校准功能，而不是一个亮点。

相对位姿是对每对摄像头的估计，因此，使用全局误差最小化技术建立完整的相机网络。

精度已经在不同的室内场景被评估，到达的投影误差小于的6px和现场标记的三角测量误差约5cm。

相机中心的位置并没有与他们的地面实况进行比较。

最近，布鲁克纳和Denzler建议使用多摄像机系统的积极校准技术。

（见参考文献）他们使用旋转和变焦云台变焦的功能（PTZ）相机优化每个之间的相对姿势摄像头对。

该比例因子的摄像头三角形估计两三个相对姿势。

相反，我们的做法没有必需的参考对象，但是仅限于使用云台全方位（PTZ）摄像机类型。

我们的系统不会对摄像机的类型进行任何限制，例如允许固定PTZ摄像机的组合，安装在机器人平台，甚至智能手机摄像头。

此外，需要两个以上的相机，而我们的方法允许以估计只有两个相机的绝对姿态。

类似的如那些用于校准多相机的环境中的技术，可以应用到其他应用程序，如机器人室内定位。

在（见参考文献）中，提出了基于一组已知的意见机器人定位和跟踪的系统。

首先，一组视图的场景，室内环境，机器人的具体位置和不同方向的记录。

该位置被选用的网格，大约相隔90厘米。

项目海报的环境被包围，以方便寻找对应的图像。

弗兰克-波顿等人得出结论，对极几何结合归一化的8点算法过于敏感，以确保一个强大的和准确的姿态估计。

相反，他们使用所谓质量阈值的聚类的技术，就造成了46厘米的平均位置误差和9的平均定位误差。

我们的研究结果（见第4节）验证了这个假设，一个更精确的定位可以实现了与我们的方法，使用该项目的海报作为参考对象。

三．姿态估计

我们的系统对于一个已知的相机计算出其全球姿势主要包括三个步骤：

第一步，可以计算摄像机的相对姿态。

这需要两个深思熟虑的图像之间的对应点的检测。

为此，SIFT特征需要计算并匹配。

这一步可以采用离群值。

图像点的对应关系是对相同场景点的不同预测。

如果他们不能稳健淘汰，将发生在所估计的姿态误差。

第二步，我们优化了估计的相对姿态，以尽量减少噪音和影响力取得更好的成绩。

最后，在第三步计算全球比例的相对姿态，这个步骤是基于对于至少一个参考对象在已知大小不知场景检测。

3.1相对位姿

第二相机的相对姿势是用极几何方法计算的。

对于这一点，基本矩阵F是用归一化8点算法与RANSAC结合计算，以消除点对应的异常值。

利用基本矩阵的场景可以重建到一个投影歧义。

我们假设用固有的校准矩阵K1和K2校准相机。

因此，如图2所示重建可以产生规模歧义。

作为未知规模的结果，平移矢量归一化为||t||=1

图二：

可视化规模歧义，第二摄像头沿着摄像机之间的基线可以“滑动”（即不同比例的相对位置）而不会影响对应点。

（极几何：

epipolargeometry，又称核面几何。

极几何是机器视觉中摄像机标定中的技术名词，在世界坐标系，观察坐标系，像素坐标系等坐标系转换中是很重要的一个概念。

）

（RANSAC为RANdomSAmpleConsensus的缩写，它是根据一组包含异常数据的样本数据集，计算出数据的数学模型参数，得到有效样本数据的算法。

它于1981年由Fischler和Bolles最先提出。

RANSAC基本思想描述如下：

①考虑一个最小抽样集的势为n的模型（n为初始化模型参数所需的最小样本数）和一个样本集P，集合P的样本数#（P）>n，从P中随机抽取包含n个样本的P的子集S初始化模型M；

②余集SC=P\S中与模型M的误差小于某一设定阈值t的样本集以及S构成S*。

S*认为是内点集，它们构成S的一致集（ConsensusSet）；

③若#（S*）≥N，认为得到正确的模型参数，并利用集S*（内点inliers）采用最小二乘等方法重新计算新的模型M*；重新随机抽取新的S，重复以上过程。

④在完成一定的抽样次数后，若未找到一致集则算法失败，否则选取抽样后得到的最大一致集判断内外点，算法结束。

）

本质矩阵E，基本矩阵的一种特殊形式是归一化图像坐标。

定义为

基本矩阵的定义是矩阵有两个奇异值是相等的，而第三个是0.由于噪声的存在通过摄像头校准过程中的小错误和基本矩阵的估计被引入，这个属性必须强制执行。

因此，让

作为E的奇异值分解，本质矩阵

，最大限度的减少了Frobenius（弗罗贝尼乌斯）范数||E-

||,被计算为

。

（奇异值：

设A为复数域内m*n阶矩阵，A*表示A的共轭转置矩阵，A*·A的n个非负特征值的算术平方根（即A*·A的开根号值）叫作矩阵A的奇异值。

记为σi（A）。

如果把A*·A的特征值记为λi（A*·A），则σi（A）=sqrt（λi（A*·A））。

同时，需要注意的是，任意矩阵都有奇异值。

对于一般的方阵来说，其奇异值与特征值是没有关系的。

）

第二相机的基本矩阵可以被分解为四个的姿势（t；R），用t表示平移，R表示旋转。

3D点只有一个重建解决办法，在两个摄像机图像平面的前方。

这个约束被称为手性约束。

在理想情况下，足以重建一个对应点，并测试是否满足手性约束。

但是由于离群不能排除投票机制必须放到位，以确定正确的解决方案。

每个重建点投票的解决方案，都满足它的手性约束。

根据最高票数的解决方案，作为正确的解决方案。

3.2姿优化

图3估计的红色相机的相对姿态（a）只是用极几何，（b）使用附加非线性优化。

使用优化，大多数的蓝色重构点平行于X轴，这符合地面真相。

图3显示一种场景重建，使用相对位姿描述。

该相机是面向平整墙面的。

然而重建点坐落在弯曲的表面，这表明是小误差得到的位姿。

为提高相对位姿，使用非线性，信赖域反光优化步骤。

（1966）已经出台最大限度的减少重投影误差。

与Levenberg-Marquardt的优化相比，信赖域反光优化可以处理边界约束条件的优化空间。

一个姿态通常有六个自由度，三个用来翻译，三个用来旋转。

作为规模歧义的结果，减少到五个自由度的相对姿态。

因为归一化||t||=1，对于t的所有可能的解决方案都围绕着所述第一单元球摄像头。

因此t的球面坐标可以表示为（θ，φ）。

一起旋转角rx，ry，rz，优化空间是（θ，φ，rx，ry，rz）。

由于优化步骤只能找到局部最小值的重投影误差，为了找到全局最小一个好的初始猜测是很重要的。

因此，优化任务的起点作为计算之前的相对位姿。

根据不同的应用，进一步限制可能存在以减少优化空间的维数。

例如，在一个房间里配备云台全方位监控摄像机，rz轴可以设置为0。

3.3解决规模歧义

如果只给出两种观点的场景，对于规模性问题的解决方案，需要了解在现场本身或位于其中的对象的更多的信息。

我们的方法是使用引用已检测到的对象的知识，在两种观点中使用尺度不变特征转换（SIFT），最好的结果可以得到平面物体，如海报或图片。

然而，非平面的物体也可能作为参照对象，但需要某些限制或更复杂的处理的地方特性，以达到类似的效果。

参照对象由匹配检测用两个视图的每个参考物体的图像和计算的射影变换对象。

与尺度不变特征转换进行匹配。

这是一个优点，因为该SIFT特征计算对于相对姿态的估计可重复使用。

摄影变换是单应性矩阵在参考对象和与其匹配的字符串。

单应是映射在一个平面上的点投影变换为另一面，这也是为什么平面的参考对象可以产生最佳结果。

矩阵H是一个3*3的单硬性矩阵。

一个算法来计算单应性的是直接线性变换算法，它可以与RANSAC进行组合，以确保对离群值的强壮性。

令H=[H1H2;H3]成为参考对象的图像之间的单应性矩阵和相机的内在校正矩阵K，摄像机图像的外在参数[R|t]相对于参考物体可被计算为

和旋转矩阵R=[r1,r2,r3]

参考物体到相机中心的距离（更准确参考对象的图像的原点）由||t||给出，如果对象的大小是已知世界坐标系中的单位，那么t也可以表示。

让dpx作为参考物体像素大小的矢量，dmm是以毫米为单位大小的矢量，因此平移向量t，缩小为以毫米为单位可以定义为

。

另x是参考物体场景中的图像的原点，它可以计算以前的，作为第二相机的姿势被估计重建。

因此有关的平移向量相应t1和t2在x的距离，并且相机中心C1和C2为我们提供了2比例因子。

在理论上这些缩放因子是相等的，但通常真实数据估计时略有不同。

利用这些因素来正确缩放第二照相机的尚未未换算的位置有两种

可能性。

第一种可能是直接的，直接运用平均缩放因子来作为第二相机的相对位置。

第二种可能是在相机中心和参考对象见运用矢量的比例因子。

这已被证明是更好的工作场景，其中，参考对象是可靠和精确的检测，给人非常准确缩放因子。

相反，Eq.为场景取得了良好的结果，其中相对姿态很精确。

而缩放因子是容易产生噪音，它会发生具有小的参考对象。

四．评价

对我们系统中的评价分为两部分：

合成和实时数据。

合成试验评估我们的系统的单个组件的相对姿态和计算的估计的规模。

以真实数据测试我们的算法，使用Strecha等人提供的数据集，而在我们大学的智能房间，记录自己的图像。

4.1合成数据

首先，我们评估的相对姿态估计算法确定优化结果的影响。

为了这个目的，我们产生在一个盒子边长为2的200个随机的三维点，中心在（003）T。

然后，我们就预计这些点与内在的校准矩阵的两个虚拟摄像头K=I，第二照相机随机放在单位范围内。

对于每个位置，姿势估计1000次。

我们设定RANSAC的门槛1000次迭代。

为测试的噪音影响，我们推出了一定的高斯白噪声信号-噪声比的投影点。

更多的描述性，在640*480px的图片，噪声水平50分贝将相当于一个标准偏差约1：

4像素，可达30分贝14px的和低20分贝43px。

离群值通过选择一定的比例分别插入点和分配到其他点。

离群值的不同百分比的表现不受优化。

这是由于事实上，这离群值在计算基础矩阵由RANSAC算法去除。

优化后不影响点对应。

我们得到非常可靠的结果：

到一个离群值的百分比的60％，有小于3%翻译错误和小于1%旋转误差。

图4示出了在噪声环境下相对位姿优化带来的改善。

翻译错误是在25分贝开始降低31.6％的噪音水平。

旋转误差优化后基本上不受影响。

图四：

噪声水平从25%开始，在31%优化减少翻译错误。

为了测试，如何准确的估计参考距离对象的距离，采用边长是50厘米的正方形参考对象围绕其Y轴旋转和沿z轴定位不同的距离。

对于每一个位置和旋转图像是创建了一个虚拟摄像头的2000焦距和主点位置[1000，1000]T。

参考部分中描述的对象的距离能在3.3中检索到，其中包括利尺度不变特征转换（SIFT）和基于单应估计的RANSAC算法。

进行重复100次计算。

图5中的结果说明，该距离可以鲁棒地计算为所有的位置和旋转高达30°。

误差不超过4cm和大多数测量小于2cm。

如果不旋转，误差不会超过1厘米。

对于45°的旋转来说，在距离4米到4.5米误差增大到20cm左右。

这仍然是小于5％参考物体的距离。

图5：

图中示出了针对不同旋转方形的参考对象所计算出的距离的误差

4.2实时数据

此外，我们用我们提出的方法在不同的真实数据集进行了评估。

在第一次测试使用Herz-Jesu-P8和fountain-P11数据集（见（Strecha等人）。

我们选择这些数据集，因为他们包含的具有高分辨率的图像和有很好的解释。

我们为裁剪图像的部分数据集生成参考对象，在大多数照片中墙壁也清晰可见。

我们减少那些图像的数据集，其中，所述参考对象可被检测。

相机的姿势被重复计算。

图6示出了重建结果和位置误差的数据集。

图6：

Herz-Jesu-P8（a-b）和fountain-P11（c-d）数据集的场景重建和相对误差。

红色相机显示计算机重复计算的姿势，绿色摄像机在地上的真相，场景重建就可获得，不需要进一步的优化，例如BundleAdjustment

由于相机的姿势被迭代估计，小的误差被传播并增加在该过程的计算。

尽管如此，结果是非常准确的并且错误在几厘米的范围内。

超过15.5米数据集Herz-Jesu-P8的总距离，最后相机的误差仅为12厘米，或误差率为0.77％。

第一个和最后相机之间的距离在fountain-P11下是11米，但位置误差仅为6厘米，或为0.55％。

该数据集具有某些特性：

帮助达到如此高的精确度：

高分辨率，摄像头之间的小基准和

极具质感的场景产生均匀分布的对应点。

这些特征很少存在于我们一间大约25平方米智能环境的数据记录中。

它有几个麦克风阵列，计算机控制照明，而最重要的是，分辨率为752*596像素的4吸顶式PTZ摄像机（云台解码器摄像机）。

PTZ摄像机的位置和旋转是已知的。

三脚架上的小PTZ摄像机在一个房间23个不同的位置拍摄照片。

该位置在环境的坐标系中被手动测量，得到地面的实况。

对于每个位置，绝对的相机姿态用一个已知的摄像机计算几次。

对于具有最严重投影错误的每张图片的结果通过使用平均值和坐标的中位数进行选择和聚合，然后和地面实况相比较。

有3张图片作为参考对象，其中有2张大小118.9*84厘米和另一个是60*91cm。

表1显示取得的成果。

我们到达一个平均位置误差为41.30cm的平均位置和39.50cm的中位数位置。

相比低得多的平均位置误差是25.24厘米，21.64厘米，我们知道对于几个测量点相机具有本地局限，在位置3有超过2米的误差，位置16和17大约有1米误差。

其它位置都非常接近地面实况，误差往往小于16厘米。

在我们的智能家居图片检测到的姿态的错误有不同的原因。

最重要的是，该摄像机没有提供有关噪声图像的太多细节，并且记录不精细。

此外，该环境本身不包含太多的细节，使得它很难找到可靠的对应点。

这使在摄像机之间少量相机和大视角转化更加困难。

其结果是，对应点发现大量参考对象，为此只有在本地分布的图像突出。

虽然错误似乎就第一眼见比较大-尤其是在Herz-Jesu-P8和fountain-P11上实现的结果，由于不同的环境难度，我们可以接受中位数21.64厘米误差的结果。

此外，我们必须考虑实际测量误差可能受影响，例如，PTZ摄像机外壳内的点引入未知的确切位置的焦点。

五．结论

我们提出了一种新的方法来计算给定一个已知参考两种视图之间的全球规模对象。

为此，我们首先用建立极几何的方法计算相对位姿。

然后，用一个非线性优化步骤减少重投影误差，显著改善结果。

此后，场景的整体规模通过检测已知对象在两个摄像机视图进行检测。

通过不同测试，我们的系统已经被证明非常准确计算绝对位姿。

在摄像机视图间两个小距离的数据集，我们实现了为减少绝对误差重复姿态估计超过1%。

在我们会议室对于低阻碍分辨率相机实现全球定位是不准确的，普通的墙壁没有太多的细节和宽基线。

但是，在大多数相机对中我们仍然实现了精确度20cm左右，使我们的系统的一个有用和方便的技术实现多个摄像机外部校准。

致谢

展开阅读全文