RealTime Human Pose Recognition in Parts from Single Depth Images中文翻译Word文档下载推荐.docx

上传人:b****1 文档编号:13261043 上传时间:2022-10-09 格式:DOCX 页数:18 大小:670.80KB
下载 相关 举报
RealTime Human Pose Recognition in Parts from Single Depth Images中文翻译Word文档下载推荐.docx_第1页
第1页 / 共18页
RealTime Human Pose Recognition in Parts from Single Depth Images中文翻译Word文档下载推荐.docx_第2页
第2页 / 共18页
RealTime Human Pose Recognition in Parts from Single Depth Images中文翻译Word文档下载推荐.docx_第3页
第3页 / 共18页
RealTime Human Pose Recognition in Parts from Single Depth Images中文翻译Word文档下载推荐.docx_第4页
第4页 / 共18页
RealTime Human Pose Recognition in Parts from Single Depth Images中文翻译Word文档下载推荐.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

RealTime Human Pose Recognition in Parts from Single Depth Images中文翻译Word文档下载推荐.docx

《RealTime Human Pose Recognition in Parts from Single Depth Images中文翻译Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《RealTime Human Pose Recognition in Parts from Single Depth Images中文翻译Word文档下载推荐.docx(18页珍藏版)》请在冰豆网上搜索。

RealTime Human Pose Recognition in Parts from Single Depth Images中文翻译Word文档下载推荐.docx

然而,即便是当前最好的系统仍然存在局限性。

尤其是在Kinect发布之前,并没有一款互动式的消费级别的硬件能够处理大范围的人体形状和尺寸[21]。

也有一些系统能够通过追踪一帧帧图案来达到高速度,但是快速初始化的努力却不够强大。

在本论文中,我们集中于姿势识别的研究:

通过对单幅深度图像的检测识别出每个骨骼关节的3D位置。

我们对每帧图像的初始化和恢复的集中研究是为了补充一些合适的追踪算法。

[7,39,16,42,13]。

这些将来有可能合并暂停与运动的连贯性。

该算法目前是Kinect游戏平台的核心组成部分。

如图一所示,受最近把实体划分成多个部分进行实物识别的研究方法的影响[12,43],我们的方法可以划分为两个关键性的设计目标:

计算效率与鲁棒性。

一幅输入的深度图像被分割成身体紧密概率的标记部分,同时每一部分被定义为在空间上相近的感兴趣的骨骼关节。

图1.深度图像人体分部3D关节模型

图一概述:

基于单幅深度图像,人体像素分布是可以推断出来的。

每一个像素的颜色显示该部分最有可能处在哪一部分,并在关节模型中与之相对应。

即便是面对多个用户,本地的信号建模也能够给出高质量的3D人体关节分布模型。

重新投影推断出来的部分到真实的空间中,本地化各部分的空间分布模式,因而能够产生可能是多个带有置信度权值的每一个骨骼关节的3D位置模型。

我们把这种人体分部的分割认为是一项像素分类任务(没有成对的条款或者CRF被证明是必要的)。

单独评价每一个像素避免了对不同的人体关节的组合式搜索,尽管单个身体部分在不同情形下外观仍然千差万别。

我们从运动捕捉数据库中采样出不同身材和体型人体的各种姿势(人体的深度图),然后生成逼真的合成深度图作为训练数据。

为避免过拟合,我们使用了数十万幅训练图像,并训练出了一个深度随机决策树分类器,。

简单差异性的深度图像特征的比较产生3D变换不变性的同时维持了计算的高效性。

为获得更高的速度,可以使用GPU在每个像素上并行运行分类器[34]。

最后,使用均值漂移[10]计算推理出每一个像素空间分布模型,并由此空间模型给出3D关节分布方案。

我们的一个优化体现在,算法在Xbox360GPU上能以每帧不超过5ms的速度运行(即200帧每秒),这比现有算法至少快一个数量级。

该算法通过一帧接一帧地运行来实现,每帧中人物的身材和体型都大不相同。

最后得出的区别型方法自然能够处理自闭塞并从帧图像中抠出人体姿势。

我们在真实和合成深度图像上均对算法进行了评估,这些深度图像包含了各种人物的具有挑战性的姿势。

甚至在没有时间或运动约束的情况下,3D关节的预测也既精确又稳定。

我们研究了几个训练参数的作用,指出了拥有大型训练集时,多深的(决策)树仍能避免过拟合。

(实验)表明在理想环境和现实环境下,我们的身体分部预测模型至少与“确切最近邻”方法一样通用,并且比现有技术水平有了实质提高。

此外,在轮廓图像(silhouetteimages)上的实验结果表明我们的方法有着更好的应用性。

我们的主要贡献是:

引入新颖的身体组件中间表示进而将姿势估计问题转变成实物识别问题,以便能够以低计算代价和高精度对感兴趣的关节从空间上定位。

我们从实验中也获得了几个启示:

(i)合成深度训练数据是真实数据的极好替代;

(ii)扩大多种合成数据的学习对提高精确性很重要;

(iii)我们基于分部的方法甚至比精妙的确切最近邻方法更通用。

相关工作:

关于人体姿势的估计已经有了大量文献([22,19]中有述评)。

近来引入的深度摄像机进一步推动了研究的发展[16,19,28]。

Grestetal.[16]通过迭代最近点来追踪一个已知尺寸和起始位置的骨骼。

Anguelovetal.[3]基于旋转图像和MRF对木偶3D图像分割成头部、四肢和躯干。

Zhu&

Fujimura[44]使用线性编程对人体上半部分(头部、躯干、手臂)进行粗略检测,但该方法需要将模型初始化化为T型结构。

Siddiqui&

Medioni[37]手工制作头部、手和前臂探测器,并显示数据驱动模型MCMC,且拟合优于ICP。

Kalogerakisetal.[18]将全封闭的三维网格分类和分割成不同部分,但不处理遮挡,而且该方法对网状拓扑结构敏感。

与我们的方法最相似的是:

Plagemann等[28]构建3D网络来发现测地极值兴趣点,这些兴趣点分类为3种组件:

头、手和脚。

他们的方法对各组件的位置和方向都进行了估计,但没区分左右,使用兴趣点也限制了组件的选择。

使用传统强度像机的研究也取得了进展,尽管通常付出了更高的计算代价。

Bregler&

Malik[7]使用已知初始姿势的扭曲和指数地图(maps)跟踪人物。

Ioffe&

Forsyth[17]将平行边进行分组,并作为身体部分(segment)的候选,然后使用投影分类器裁剪这些身体部分(候选)的组合。

Mori&

Malik[24]使用形状上下文描述匹配样本。

Ramanan&

Forsyth[31]将身体部分的候选当作平行线对,然后在帧间聚集外观。

Shakhnarovich等[33]通过参数敏感哈希(散列)匹配插值k-NN姿势估计上半身姿势。

Agarwal和Triggs[1]学习了一个从核化图像轮廓特征到姿势的回归函数。

Sigal等[39]使用本征外观模板检测器估计头、上臂和小腿。

Felzenszwalb和Huttenlocher[11]运用图画结构高效地估计姿势。

Navaratnam[25]等使用未标注数据的边际统计提高姿势估计的性能。

Urtasum和Darrel[41]提出使用高斯过程的局部混合来回归人物姿势。

[40]也有使用自动上下文来获取粗糙的身体组件标签,但它不是用来定位关节的,并且给每帧分类时需要约40秒。

Rogez等[32]在循环人类运动模式和摄像机角度集上定义了分类层次结构,然后基于该结构训练了随机决策树。

Wang和Popovic[42]跟踪了一只戴彩色手套的手。

我们的系统可以视作从深度图象中自动推理出虚拟彩色衣服的颜色。

Bourdev和Malik[6]使用SVMs检测,由3D姿势和2D图像外观的紧族获取了“姿势群”。

2.数据

姿势识别研究往往关注技术以便克服训练数据的缺乏[25],这是因为两个问题。

第一,使用计算机图形学技术[33,27,26]生成逼真的强度图像往往受限于衣服、头发和皮肤造成的颜色和纹理的极大多变性,从而往往使生成的图像退化为2D轮廓[1]。

尽管深度摄像机极大地减小了这种困难,仍然存在相当可观的身体和服装形状的变化。

第二个限制是合成身体姿势图像需要以动作捕获的数据作为输入。

尽管存在模拟人类运动的技术(如[38]),却无法模拟人类的所有自主运动。

在本节我们回顾一下深度图像,并且解释了我们如何使用真实运动捕获数据生成各种基本角色模型,从而合成一个大型且多样化的数据集。

我们相信这个数据集在规模和多样性方面都超过了现有水平,且实验表明这样大型的数据集在我们的评估中有多重要。

2.1深度图像

深度图像技术在过去的几年中有了极大的发展,随着Kinect[21]的发布最终成为了大众消费品。

深度图像中的像素记录了场景的校准深度,而不是场景强度或颜色的值。

我们使用的Kinect摄像机每秒能捕获640×

480规格的图像30帧,其深度分辨率为几厘米。

深度摄像机较传统强度传感器有几个优势:

工作光强水平低,提供校准后的尺度估计,具有颜色和纹理不变性,解决了姿势的轮廓模糊问题。

它们还极大简化了背景减除操作,本文我们将这一点作为前提之一。

但是对我们的方法更重要的是,我们可以直接合成人物的逼真深度图像,从而可以廉价地建起大型的训练数据集。

2.2动作捕捉数据

人体可以做出很多姿势,这些姿势是很难模仿的。

因此,我们通过捕获人类运动来构成一个大型运动数据库。

我们的目的是使数据库包含人们在娱乐场景下所能做的所有姿势。

数据库包含几百段内容为驾驶、跳舞、踢、跑、和导航菜单等序列约500k帧图像。

我们希望我们半局部的身体组件分类器多少能推广到未见过的姿势。

特别的,我们并不需要记录不同肢体的所有可能组合;

实际上已证实较多的各种姿势已经足够了。

进一步的,我们不需要记录运动捕获关于垂直轴的旋转变化、左右镜像、场景位置、身材和体型、或摄像机位置,所有这些都可以(半)自动添加。

因为分类器没有使用时间信息,我们关注静止的姿势而不是运动。

通常,一帧到下一帧之间的姿势变化小得可以忽略。

因此,我们使用“最远邻”聚集[15]从初始mocap数据中除去大量相似、冗余的姿势,“最远邻”聚集将姿势

之间的距离定义为

,即身体关节j的最大欧氏距离。

我们使用了任意两个姿势间距小于5cm总数100k个姿势。

为了使用之前遗漏的姿势空间区域提炼mocap(运动捕获)数据库,我们发现必须迭代执行包括运动捕获、从我们的模型采样、训练分类器和测试关节预测准确性的这一套流程。

我们早期的实验使用了CMU(卡耐基梅隆大学)运动捕获数据库[9]。

尽管覆盖的姿势空间远远不够,但它还是给出了可接受的结果。

2.3生成合成数据

我们建立了一个随机渲染管道,从中我们可以对全标注训练图像集采样。

我们建立该管道有两个目的:

真实性和多样性。

为使训练出的模型良好工作,采样必须与真实摄像机图像十分相似,并且良好覆盖我们在测试时希望识别的外观多样性。

我们的特征对深度/尺度和平移变化都进行了显式处理(见下述),但是其它不变性没能有效编码。

因此,我们从(训练)数据学习摄像机姿势、人体姿势、体型和身材的不变性。

合成管道首先随机采样一组参数,然后使用标准计算机图形学技术从纹理映射3D网络渲染深度和(见下述)身体组件图像。

使用[4],运动捕获重新指向覆盖身材和体型的15个基础网格。

在身高和体重上使用的进一步细微随机变化覆盖了额外的身材可变性。

其它随机参数包括mocap帧、摄像机姿势、摄像机噪声、服装和发型。

在补充材料中我们给出了这些变化的更多细节。

图2比较了管道的各种输出与手工标注的摄像机图像。

图2.合成的与真实的数据。

成对的深度图像与对应的地面上的真实身体分部,注意其姿势、形状、着装和裁剪的多样性。

3.人体分部推断与关节位置估计

在本节给出我们的身体组件中间表示、描述差异性深度图像特征、回顾决策森林及其在身体组件识别中的应用,最后讨论怎样使用一个模式发现算法生成关节位置的估计。

3.1人体分部标记

本文的一个主要贡献是我们的身体组件中间表示。

我们定义了稠密覆盖身体的几个局部身体组件标签,如图2的颜色编码。

一些组件定义是用来直接定位感兴趣的特定骨架关节的,其他的是用来填补身体空白或者通过组合来预测其他关节的。

我们的中间表示将问题转化成一

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 电力水利

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1