基于骨骼数据的人体行为识别.doc

资源描述

基于骨骼数据的人体行为识别.doc

《基于骨骼数据的人体行为识别.doc》由会员分享，可在线阅读，更多相关《基于骨骼数据的人体行为识别.doc（6页珍藏版）》请在冰豆网上搜索。

基于骨骼数据的人体行为识别.doc

基于骨骼数据的人体行为识别

摘要

人体动作姿态识别是计算机视觉研究领域中最具挑战的研究方向，是当前的研究热点。

对人体动作姿态进行自动识别将带来一种全新的交互方式，通过身体语言即人体的姿态和动作来传达用户的意思，如在机场、工厂等喧闹的环境下，采用手势、动作姿态识别等人机交互技术能够提供比语音识别更加准确的信息输入。

总之，在智能监控、虚拟现实、感知用户接口以及基于内容的视频检索等领域，人体动作姿态的识别均具有广泛的应用前景。

该文首先简单介绍了人体动作姿态序列的分割，然后对人体动作姿态识别的方法进行了分类介绍，并对一些典型的算法的研究进展情况及其优缺点进行了重点介绍。

关键词：

人体动作姿态识别;人工智能;隐马尔可夫模型;动态贝叶斯网络;模板匹配

前言

人体姿态识别是计算机视觉的一个重要研究方向，它最终目的是输出人的整体或者局部肢体的结构参数，如人体轮廓、头部的位置与朝向、人体关节点的位置或者部位类别。

姿态识别的研究方法应该说，几乎涵盖了计算机视觉领域所有理论与技术，像模式识别、机器学习、人工智能、图像图形、统计学等。

到目前为止，已经有众多识别方法被提出，并且也取得了许多重要的阶段性的研究成果，但是以往的方法都是基于普通光学图像，比如常见的RGB图像，这类图像容易受光照、阴影等外界变化的影响，尤其在环境黑暗的情况下无法来识别人体姿态，并且由于人体关节自由度大，及人的体型、着装较大差异性，常导致姿态识别系统识别率低。

尽管有研究者利用多个摄像机获取采集的图像来获取人体深度信息以克服以上问题[1]，但是该类方法恢复的深度信息不是唯一的，而且计算量非常大，尤其是这种方法要求事先用人工对传感设备进行标定，而在选取场景中的标定物时，往往又会遇到实际环境操作困难的问题。

随着光电技术的快速发展，深度传感设备的成本逐渐降低，人们获取深图像的途径及方法也越来越多。

该方向的研究也逐渐成为计算机视觉领域的研究趋势。

具体原因包括：

一方面，深度传感设备不仅操作简单，并且极大简化了普通摄像机的标定过程；另一方面，得到的深度图像由于直接包含了人体的深度信息，能够有效的克服普通光学图像遇到的上述问题。

到目前为止，较有影响力的基于该类图像的人体姿态识别算法，应该是Shotton等人利用一种深度传感器Kinect来实时捕捉人体运动的算法，该算法虽然能够满足人们对识别系统实时性的要求，但其对硬件要求特别高，并且不适合低分辨率图像中的人体关节点提取，容易导致人体骨架扭曲。

下文将具体陈述人体运动分析的主要用途和前人在不同时期对这些难题的处理办法。

主题

基于计算机视觉的人体运动分析不仅在智能监控、人机交互、虚拟现实和基于内容的视频检索等方面有着广泛的应用前景，更是成为了未来研究的前瞻性方向之一。

Gavrila总结了它的一些主要应用领域[2,3,4]，下面据此对其典型应用做出进一步的介绍。

智能监控（SmartSurveillance）

所谓“智能监控”是指监控系统能够监视一定场景中人的活动，并对其行为行分析和识别，跟踪其中的可疑行为（例如在一些重要地点经常徘徊或者人流密集的场合下突发的人群拥挤等状况）从而采取相应的报警措施。

智能监控系统应用最多的场合来自于那些对安全要求较为敏感的场合，常见于银行、机场、车站、码头、超市、办公大楼、住宅小区、军事基地等，以实现对这些场所的智能监控。

高级人机交互（AdvancedHuman-ComputerInteraction）

人体的行为分析常被用来提供控制和指令。

通常来说，人们之间的信息交流主要靠语言，并结合适当的手势和面部表情等，因此视觉信息可以作为语音和自然语言理解的有效补充来完成更加智能的人机交互。

更进一步的人机交互是进行人的识别和行为理解，结合面部表情、身体姿势和手势等[5-8]的分析来与人进行相应的交流。

运动分析（MotionAnalysis）

基于计算机视觉的人体运动分析可以大量地应用在用于各种体育项目中，通过提取运动员的各项技术参数（如肢体的关节位置、摆动的速度和角速度等等），对这些参数信息进行分析，可以为运动员的训练提供较为全面的指导和建议，有助于提高运动员的水平，这对于体育运动的发展是极为有用的。

同时，它也被广泛地应用在医疗诊断方面：

目前的医学步态分析[9-11]就是通过为人体正常步态建模，开发生物反馈系统用来分析病人的步态，从而可以将其应用于临床矫形术等领域，用来诊断病人的腿部受伤情况或者畸形程度，而做出恰当的治疗；

虚拟现实（VirtualReality）

基于计算机视觉的人体运动分析在虚拟现实方面也应用的相当广泛：

目前电脑游戏的开发相当成熟，游戏中各种人物的形体、运动及它们之间行为交互设计的逼真性得益于对物理空间中人的运动分析，它包括人体模型的建立和运动姿势的恢复等一系列相关理论及技术的成熟应用；基于互联网交互式空间的虚拟网络聊天室的开发才刚刚起步，它通过文本交流同时可以使用二维图标来导航用户。

此外，人体运动识别在视频会议、人物动画、虚拟工作室等其他虚拟现实场合也有着相当广泛的应用。

在基于内容的视频检索方面，人体运动识别也有着重要的应用价值：

由于人往往是视频记录的主要对象，在基于内容的视频检索中，如何检索在大段视频中的特定的人体运动，也需要这方面技术的发展。

总之，对人体运动识别的研究及到计算机视觉、模式识别、视频图像处理等方面的理论和实际应用问题。

对人体的跟踪与运动分析将会促进这些领域在理论上产生新的方法，并且在诸多应用领域将会产生潜在的影响和价值。

综上所述，姿态识别具有重要的理论价值与广泛的应用前景，因此，它受到国内外许多学校重点实验室、研究所的关注[13、14]，除此之外，国际上一些著名会议和权威期刊也将其作为研究的主题之一，例如ICCV（InternationalConferenceonComputerVision）、CVPR（ComputerVisionandPatternRecognition）等国际会议，PAMI（IEEETransactionsonPatternAnalysisandMachineIntelligence）、CVIU（ComputerVisionandImageUnderstanding）等国际期刊。

为了进行人体运动识别，需要解决运动数据的、特征表示与提取（人体运动建模）、人体运动序列分割、动作分类等问题,主要的流程如图1所示

图1基于运动捕获数据的人体运动识别框架

特征提取与表示

到目前为止,已经有很多方法被设计用来表示人体运动或人体运动特征,按照特征的表示范围大致可以分为三大类:

基于底层运动捕获信息的时空特征,基于变换域的表示,以及描述性特征。

时空特征

时空特征主要为基于运动捕获系统捕获数据的直接或间接表示,例如直接釆用关节点的三维坐标,关节角度相对变化值等运动捕获信息,以及在这些底层信息之上的简单处理后的信息比如关节点的速度,角速度,朝向信息,骨豁夹角等。

关于几何特征的设计与描述主要有文献[15][16]的工作。

在他们的基础上,文献[17][18]加入时间信息,提出了基于三维时空特征的

运动描述。

基于变换域的表示

首先将运动捕获的底层信息进行数学变换,然后在变换域中进行运动的特征分析与描述。

在信号处理过程中,在变换域中能更好地体现在时域中不能体现的信号特性。

样条函数基、多项式函数基、傅立叶基、小波基等均可以用于运动描述子[19]。

文献[20]首先基于傅立叶基描述人体行走步态,然后分析人体行走步态提取人体行走运动的关键帧,进而用于运动匹配与识别。

文献[21]提出了一种基于加权主成分分析（WPCA,WeightedPrimaryComponentAnalysis）的方法用于实现运动捕捉数据的检索,通过计算姿态与姿态之间的距离作为相似度实现稳定高效的检索,并且分别使用合成数据和运动捕捉数据验证了该方法。

除了PCA方法之后,研究人员提出了许多子空间的方法,如ICA（IndependentComponentAnalysis）,FLA（FisherLinearAnalysis）等,这些方法都属于线性子空间降维方法。

描述性特征

基于时空特征、数学变换域特征等描述方法通常通过底层数值特征进行计算,动作序列中丰富的语义信息并没有得到充分的利用。

因此,研究者提出利用运动描述语言（motiondescriptionlanguage）[22],李等[23]提出的字库模型标记每一个运动姿态等来描述用户设计的运动特征。

序列分割

人体运动序列分割是指将连续的视频序列V分割n个独立的行为段,每个行为段中有且仅有一种有意义的行为式。

行为段之间的分割边界及行为段的数目n是该问题需要求解的变量。

现有的人体运动序列分割算法可分为有监督方法和无监督方法两类。

有监督方法采用手动方法分割视频序列,分割过程非常烦琐、耗时,且由于手动分割受到人的主观影响,分割结果往往不够准确。

无监督方法则能自动或半自动地分割行为序列,包括按照等长、有重叠的时间窗口进行分割。

前者比较简单,但准确率较低,其分割结果可能是一个不完整的行为模式或是多个行为模式的组合,这些误分割会导致后续的行为误识别。

为提高分割准确率,吴晓婕等人提出了由粗到细的分割思想图,在采用等长、有重叠的时间窗口进行粗分割的基础上,再结合segmental-DTW（dynamictimewarping）和图聚类方法进行细分割,此方法运算量较大，且精度较低。

为了进一步提高分割准确率，周峰等人[24]结合核函数化的k均值聚类与DTAK（DynamicTimeAlignmentKernel）[25]对运动序列进行分割，这种方法不仅有较高的分割精度，而且还能分割出每个运动包含的周期子运动。

动作识别方法

运动识别可以简单看成时变数据的分类问题,即将测试序列与预先标定的代表典型运动的参考序列进行匹配,且能够处理在相似的运动模式类别中空间和时间尺度上轻微的特征变化。

运动检索方法也可用于进行运动识别。

一般的思路是在已有的数据集中査找一个与未知类型的运动序列相似的运动序列,然后根据数据集中已知运动序列的类别标签来判断未知运动序列的类别标签。

但是直接基于数值计算相似度的方式难以对逻辑上相似的动作进行识别,比如,两次跳跃运动的高度、跨度可能会差别较大,如果直接从运动捕获的数值上进行计算则难以匹配,因此可以根据两个动作的逻辑上是否相似来进行匹配和判断分类。

基于概率统计的方法基于运动分类建立概率模型,对待识别的动作序列进行概率估计,然后基于概率值进行分类和识别。

在基于运动分类建立的概率模型中,将运动的一个姿势或者几个姿势定义为状态,状态与状态之间采用概率表示状态转移的可能性,这样,整个动作序列可以建模为一个状态转移的时间序列过程描述。

目前,广泛采用的概率模型有HMM（（HiddenMarkovModel）模型及其扩展模型[26],CRF（ConditionalRandomField）模型[27]与高斯动态过程模型。

在基于HMM的动作识别中,动作的种类被当作状态,而由视觉观测得到的特征向量作为观察值,通过一组监督训练数据可以学习得到HMM模型的状态转移概率矩阵和观测概率矩阵,最后利用该HMM模型求解时序数据所对应的状态,即进行动作分类。

夏等人[28]提出了基于HMM视角不变性的人体运动识别。

该算法通过以人体骨骼的hip关节点为原点建立局部坐标系，再把各关节点相对于坐标原点的欧拉角作为该姿态的特征，通过降维，训练HMM模型达到识别的目的。

但是,HMM模型有它不可回避的缺陷。

如要求在学习之前必须指定隐藏状态的数量,而对于不同类型不同长度的序列数据指定相同数量的状态显然是不合适的。

除了以上的方法之外,其它基于机器学习方法也用于运动识别。

文献[29]将AdaBoost算法应用到多分类的三维姿势识别。

文献[30]提出一个基于概率神经网络和可调节模糊聚类算法

展开阅读全文