基于视频序列的人体动作识别.docx

资源描述

基于视频序列的人体动作识别.docx

《基于视频序列的人体动作识别.docx》由会员分享，可在线阅读，更多相关《基于视频序列的人体动作识别.docx（36页珍藏版）》请在冰豆网上搜索。

基于视频序列的人体动作识别.docx

基于视频序列的人体动作识别

密级：

学校代码：

10075

分类号：

学号：

********

工学硕士学位论文

基于视频序列的人体动作识别

学位申请人：

刘涛

指导教师：

张欣教授

学位类别：

工学硕士

学科专业：

电路与系统

授予单位：

河北大学

答辩日期：

二○一三年六月

ClassifiedIndex:

CODE:

10075

U.D.C.:

NO:

20081194

ADissertationfortheDegreeofMaster

HumanActionRecognitionBasedonVideoSequences

Candidate：

LiuTao

Supervisor：

Prof.ZhangXin

AcademicDegreeAppliedfor：

MasterofEngineering

Specialty：

CircuitsandSystems

University：

HebeiUniversity

DateofOralExamination：

June,2013

河北大学

学位论文独创性声明

本人郑重声明：

所呈交的学位论文，是本人在导师指导下进行的研究工作及取得的研究成果。

尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写的研究成果，也不包含为获得河北大学或其他教育机构的学位或证书所使用过的材料。

与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了致谢。

作者签名：

　　日期：

年月日

学位论文使用授权声明

本人完全了解河北大学有关保留、使用学位论文的规定，即：

学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。

学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。

本学位论文属于

1、保密□，在年月日解密后适用本授权声明。

2、不保密□。

（请在以上相应方格内打“√”）

保护知识产权声明

本人为申请河北大学学位所提交的题目为（基于视频序列的人体动作识别）的学位论文，是我个人在导师（张欣）指导并与导师合作下取得的研究成果，研究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费资助下完成的。

本人完全了解并严格遵守中华人民共和国为保护知识产权所制定的各项法律、行政法规以及河北大学的相关规定。

本人声明如下：

本论文的成果归河北大学所有，未经征得指导教师和河北大学的书面同意和授权，本人保证不以任何形式公开和传播科研成果和科研工作内容。

如果违反本声明，本人愿意承担相应法律责任。

声明人：

　　　　日期：

年月日

作者签名：

　　日期：

年月日

导师签名：

　　　　　　日期：

年月

摘要

人体动作识别是当今机器视觉领域的研究热点，它涉及到图像处理、模式识别、人工智能等多个学科的相关知识。

基于视频的人体动作识别包括人体区域检测、动作及姿态分割以及用于进行动作识别的目标分析和行为理解等。

在分析总结该领域研究人员相关工作的基础上，本文针对俯卧撑运动的特点进行动作和姿态分割，并对其完整动作进行识别。

本文的主要研究内容如下：

1、本文针对目标动作的特点提出了一种基于动作变化率特征的动作及姿态分割方法。

首先获取图像中动作区域的轮廓信息，根据连续图像序列中轮廓信息的变化情况挖掘出动作的变化率，然后利用量化后的动作变化率界定动作及姿态的分割点，最后按照对动作识别的意义大小，将不同的姿态划分为关键姿态和非关键姿态。

由于关键姿态携带了进行动作识别的绝大部分信息，因而只利用关键姿态进行动作识别，这种方式有效地降低了计算复杂度，提高了实时性。

2、本文针对视频采集和处理过程中产生的偶然性误差提出了一种基于向量模的误差消除算法，用于消除数据序列中异常数据引起的误差，其基本原理是在原有数据序列的基础上利用多维向量的模构建一组新的数据序列。

首先采用某一数据节点及其相邻数据模拟多维向量各方向上的各个分向量，然后计算此多维向量的模并将其作为与当前数据节点对应的新数据序列中的节点。

3、本文在动作及姿态分割的基础上采用了基于棍状模型的动作识别方法，通过分别建立各关键姿态的人体模型并与实际动作人体进行比较的方式进行目标分类和动作识别。

结合大量的实验对以上方法和算法进行稳定性和准确性的验证，验证结果令人满意。

关键词俯卧撑动作分割姿态分割向量模模型匹配动作识别

Abstract

Humanactionrecognitionisahotresearchfieldofmachinevisiontoday,itcomestotheknowledgeofimageprocessing,patternrecognition,artificialintelligenceandotherdisciplines.Afteranalyzingandsummarizingtheworkoftheresearchersinthefield,wesegmentthemovementsandposturesofpush-upbasedonitscharacteristics,atlastweidentifythecompleteactionofpush-upwiththepreviousworks.

Themaincontentsareasfollows:

1.Inthispaper,contrarytothecharacteristicsofthetargetaction,weproposedagesturesegmentationmethodbasedonthecharacteristicsofthechangerateofaction.First,obtainthecontourinformationoftheoperationareaintheimage,diggingouttheoperationaccordingtothecontourinformationchangesinacontinuoussequenceofimages.Thendefinesthesplitpointofthemovementandtheposturewiththequantizedactionchangerate.Finallyinaccordancewiththesignificancefortheactionrecognition,thegestureisdividedintothecriticalgesturesandnon-criticalones.

2.Thispaperpresentsanalgorithmtoeliminateerrors,thisalgorithmisbasedonthemagnitudeofavector,anditisusedtoeliminatetheerrorscausedbytheabnormaldatainthedatasequence.Thebasicprincipleistobuildasetofvectorsusingseveraladjacentdata.

3.Thispaperusesastick-shapedmodelmethodforactionrecognition,createthemodelofthekeypostures,andcomparewiththeactualhumanbody,bythiswaythetargetclassificationandactionrecognition.Combinedwithalargenumberofexperiments,thestabilityandaccuracyoftheabovemethodsandalgorithmsisverified,andtheresultsaresatisfactory.

Keywords:

push-up,actionsegmentation,gesturesegmentation,normofvector,modelmatching,actionrecognition

第1章绪论

1.1人体动作识别

人类认识世界、接收信息的最主要途径是通过视觉，视觉不仅是指对外界光源的感知，也包括对信息的获取、处理和理解的多个过程。

已有的研究表明，人类大脑所接受信息中有80%以上都是来自于视觉。

由此可见，作为人类交流中信息传递的最重要方式，视觉在人类的生活和生产中都扮演着极为重要的角色。

近年来，随着影视、网络等媒体的高速发展和广泛普及，视频无疑已经成为人们获取信息的重要工具，自动采集和识别视频信息的需求也越来越多。

目前，基于视频序列的人体动作识别是一个非常活跃的研究领域，由于人体动作识别的最终目标是让计算机可以自动识别和理解人的行为，包括个人活动、人与人的交流、人与周围事物的交互行为等，而人体动作作为人体运动的构成元素或单元，是进行人体运动识别和分析的基础，因此在该领域内，许多研究人员非常关注对人体动作进行自动识别和分析。

针对人体动作所展开的识别工作可追溯到上世纪70年代心理学家Johansson对于运动感知所进行的一系列实验。

他通过设置人体的运动的关节点，将人体动作抽象为关节点的位置和变化。

实验表明：

通过实验中产生的关节点集合序列，就可以获得许多有意义运动信息，例如，可以辨别走路、跑步等运动形态。

在过去的二、三十年中，基于视频序列的人体动作识别一直受到研究人员的关注，付出了许多努力，提出了许多行之有效的研究方法，包括对视频序列中运动人体的检测、识别、跟踪以及对其动作进行理解和识别。

人体动作识别根据研究对象来分，可以分成针对整体运动的识别和针对身体局部动作展开的识别。

其中，整体运动包括两种，一是整体运动轨迹，二是全身所有动作部位共同组成的整体动作。

局部动作也可进一步划分成两类：

以人脸、唇、手势等为动作部位的小尺度运动和以手臂挥舞、腿部迈动等动作形式的较大尺度运动。

从研究内容来分，人体动作识别可以按照难易程度分为静态姿势识别和动态过程识别。

初期的动作识别是以静态姿势识别为主，通过将人体运动的动态过程转化成一组静态的姿态进行识别。

如今随着人体动作识别技术的不断发展，无论是从识别方法上，还是从计算机的处理能力上来看，都已经具备了识别人体动态过程的条件，这也是当前研究的重点。

1.2人体动作识别的应用领域

运动的连续性是视频的重要特性之一，也是形成视频数据处理的复杂性的主要因素。

随着视频采集设备（摄像机、实时监控设备等）的价格不断下降以及计算机性能的持续提高，使得视频序列的采集和视频信息的处理都变得更为容易，这也使得相关行业关于人体动作识别的需求越来越多，使人体动作识别和分析成为新的研究热点。

人体动作识别的目的在于，成功实现人体运动视频的采集，在此基础上通过分析计算得到人体动作的特征参数，自动识别和评价人体运动类型及运动状态。

对人体动作进行自动识别和分析将带来一种全新的交互方式，它在高级人机交互、体育运动分析、自动视频监控、基于内容的检索等方面具有广阔的应用前景[1]。

1）高级人机交互

人体动作识别的主要应用领域之一就是高级人机交互。

人类交流的方式分为两种，包括自然语言和人体语言，其中对人体语言的理解，包括手势、头部运动、肢体活动等身体动作。

在未来的智能化环境中，人与计算机或其它设备之间的交互将不再局限于键盘和鼠标，这种交互要求计算机通过视频采集设备收集人体语言的视频信息，并理解人体动作所表达的内容，从而达到人与机器顺利交互的目的。

利用人体语言进行交互的方式不容易受到环境噪声和距离的限制，能从中获取较多细节，对于在自然场景中进行人机之间的智能交流非常有用。

2）体育运动分析

人体动作识别是体育运动识别的核心部分，而体育运动分析也是人体动作识别的应用领域之一。

以往对于人体在体育运动及活动中的识别主要是通过人眼观察和运动经验进行判断和改进。

当前，越来越多的体育运动开始借助于智能的人体动作识别，这有助于对体育运动进行客观和量化的分析，统计运动数据，提供科学直观的辅助识别手段。

人体动作识别可以用于创建个性化的体育训练和分析系统，，加速数字化体育运动训练进程，甚至可以在转播体育比赛的过程中，为观众提供比赛评注和赛况讲解等实时信息。

步态识别作为人体运动的重要组成部分是目前被研究较多的运动形式之一[2][3]。

医学领域的步态识别可用于为诊断和治疗病患提供支持，正常步态与病患的步态的比较，可以作为诊断的依据。

步态作为一种生物的自然特征，在人与人之间具有差异性，目前已被用于远距离的身份验证，有望成为一种新式的简单有效的安全防控手段。

3）自动视频监控

人体动作识别和分析的另一个重要应用是自动视频监控。

自动视频监控系统不仅要求能够感知视频序列中的人体，而且要求能够识别并分析人的动作，即：

是否有人？

他在干什么？

步态识别是人体动作识别中的一个研究方向，它可以通过对视频中人走路的形态数据进行识别，从而实时对行为人进行访问控制，可以在一定程度上保障公共安全。

自动视频监控的过程一般包括运动目标识别、目标分类、目标跟踪和行为识别等几个部分。

通过这些步骤，计算机可以在不借助人工干预的情况下自动监视摄像头所在的场景，在出现异常时发出警报。

4）基于内容的检索

针对规模较大的视频数据库，我们需要对这些视频进行高效的管理与访问。

但是要使检索视频能够像检索文本一样，就要对视频数据作基于内容的检索。

通过对视频中的人体运动和动作信息进行识别和识别，正确标识不同类型的视频，帮助人们在视频数据库中快速找到目标片断，从而实现高效地管理和查询视频数据库，提高视频信息的使用效率。

人体动作识别在多个其它相关领域也有十分重要的应用。

例如，影视片、虚拟现实以及游戏中的动作制作需要使用人体动画技术，通过视频采集人体的动作信息，利用计算机对这些信息进行恢复和重建，然后驱动动画角色做出相似的动作，达到更为形象、逼真的效果。

此外，人体动作识别技术的发展还能够对于人体生理和心理学的研究产生一定的促进作用。

可见，如今人体动作识别已经渗透在人们日常生活的多个方面，它对于提高和改善人们的生活品质有重要的作用和意义，因此越来越多的研究人员都投入到了该课题的研究当中。

基于视频序列的人体动作识别是一项涉及多个学科的研究工作，与之相关的领域包括：

机器学习、图象处理、模式识别、计算机视觉等，而且它的研究成果可以应用到其他领域，能够对计算机视觉的整体研究工作产生广泛的推动作用。

1.3人体动作识别方法简述

1.3.1基于概率统计的方法

概率统计的方法基于这样的描述：

在任意时刻一个系统均可被描述为处于若干个独立状态中的某一种状态，系统每隔一定时间都会根据与连续状态的概率从而转换到下一个状态。

使用概率统计方法来进行动作分析是将动作内的不同姿势各自定义为一个状态或者是状态的集合，然后利用网络的方式将这些状态进行连接，使用概率来描述状态之间的转换情况，可以将一个动作看成是一次这些状态的遍历。

设输入点集合D={d1，d2，…，dt}表示可获取的动作特征数据，输出点集合O={o1，o2，…，ot}为可预测的输出状态，分析目的是获得一个状态集合O*，使得由该状态集合观测到D的概率P（O|D）最大，其数学表达式为：

O*=argmaxP（OID）

基于概率统计的方法将运动的微小变化在时间和空间上采用概率的方法建模，并且充分考虑到人体动作发生时的动态过程。

因此，基于概率统计的方法对于动作序列在时间和空间上的微小变化具有非常好的鲁棒性，目前已经成为主流的动作分析方法。

其中，隐马尔可夫模型（HMM）是最常用的概率图模型[4][5][6][7]。

1.3.2基于语法的方法

人体动作识别的目的是为了服务于智能化的机器理解。

即除了识别人体的动作种类并获取相关的动作信息之外，还需要分析系统或设备理解动作的意义或质量，然后采用更为高级的表达形式，最终完成对人体动作的分析和表达。

近些年来，基于语法的分析方法引起了许多研究人员的注意，并被越来越多地应用于人体运动识别和动作分析。

语义是以动作特征为基础而抽象出的高层含义，它可以跨越一些底层信息难以表达的细节，而对人体动作进行准确而详尽的细节表述，是描述动作信息的高级形式。

使用基于语法的方法来实现人体动作识别，可以很容易过渡到自然语言。

例如Ivanov和Bobick[8]对智能体的行为交互进行的检测和识别就采用了上下文无关的随机句法分析技术；Cho[9]等人以多个关节体运动的组合来表达人的行为和动作，应用统计语法推理自动识别人的行为动作[10,11]。

尽管如此，在人体动作识别和分析领域还很不成熟，处于刚刚起步的阶段，有待研究人员的进一步发展。

1.3.3基于模型的方法

许多识别和分析在根本上属于分类问题，而对于分类问题，最易理解、最直观的方法就是当前样本与预先准备好的静态模型进行比对，即基于模型的方法。

基于模型的方法的主要思想是将图像序列转换为一系列静态形状模型，然后将其在识别过程中和动作样本进行比较，依据相似程度来进行分类，文献[12][13]采用了这用方法。

主要方法有模型匹配（TemplateMatching）、动态规划（DynamicProgramming）和动态时空规整（DynamicTimeWarping）[14][15]。

1.4人体动作识别的难点和面临的挑战

目前，人体动作识别技术虽然已经有了一定的发展和成果，但仍然处于研究阶段，研究人员依然很难设计一套高性能的、完善的人体动作识别方案，还有许多问题有待解决，这些问题产生的主要原因在于：

1）人体结构的复杂性和非刚体的人体运动

人体是许多部位借助肉体和关节结合的复杂的有机体，一项运动往往包含若干个不同的动作或姿态。

人体运动属于非刚体运动，动作作为运动过程中的某个阶段，身体各个部位有不同的姿势以及运动方向，对于计算机处理来说，动作中就会包含复杂的运动特征。

除此之外，由于人与人之间所存在的身形体貌、运动习惯等差异，也会使不同的人在做相同的动作时表现出差异，这也会增加识别难度。

2）运动分割的准确性

运动由一连串不同的动作构成，许多动作之间并没有明显的界点，要进行显式分割非常困难。

并且，不同的动作在进行转换时还会有不规则连接姿态，这些连接姿态也不尽相同，同样对运动的分割造成困难。

因此，要利用计算机成功地处理人体的连续运动，一个不可忽略的关键因素就是提高运动分割的准确性。

3）视频序列与理想数据的差异

计算机要处理自然影像，首先要将其存储为视频序列，但由于受到多种因素的制约，这些视频不会是理想的运动数据。

造成这些状况的主要因素有：

运动人体的晃动、背景干扰、摄像机的抖动、视频的清晰度、光照条件的微弱变化、运动人体的阴影等。

因此，在人体动作识别中消除误差也是一个非常重要的环节。

4）算法的鲁棒性有待改进

尽管人体动作识别已经开始应用到现实生活中，但当前的应用都比较简单，对算法的鲁棒性要求不高，与人工识别和识别有着显著的差距。

如果要将该技术更多地应用于生活中，提高分析效果的准确性，朝着更为智能化、人性化的方向发展，就需要进一步提高系统的鲁棒性。

另外，动作分析还受限于其它方面的因素：

1）运动的分类和定义。

目前，对于不同的人体运动形式，国际国内都还没有一个明确的划分标准，运动、行为、行动、基元、动作、姿态等已有的运动层次界限模糊。

除此之外，一个具体动作由哪几个姿态构成，可以分成几个阶段，起始结束如何界定，这些内容都是研究人员按照经验和实验需求自行定义和划分。

2）数据来源。

在相同的标准下进行比较才有意义，同样，只有在相同数据平台上进行的研究实验才会有横向比较的意义，但是就各种人体运动来说，标准数据库还很少，甚至没有，这也加剧了对研究成果价值进行判定的难度。

1.5本文的研究意义及主要工作

1.5.1研究意义

在军事训练及体育运动中，人体动作的识别和分析应用相对较少，绝大多数情况下训练动作的观察和物理分析都是依靠人力解决。

这种模式存在以下劣势：

1）日常训练和体能考核都是人对人的模式，一对一的监督训练模式对人力造成一定的浪费，尤其是在军事体能训练中，有时甚至还会出现多人监督一人的情况。

2）在人力监督的情况下，训练中的动作标准难以统一，在监督标准相差较大的情况下，训练和考核的效果就会受到不利影响。

3）不能记录训练和考核的过程，不便于日后对训练和考核进行分析或指导。

随着视频处理技术的发展以及视频处理硬件设备成本的降低，在军事训练以及体育训练中使用基于视频的动作分析技术不仅有助于避免人力浪费、提高工作效率，还有利于建立规范的训练标准，提升训练效果。

当前国内军事科技化程度不断提高，数字化技术越来越多地投入到军事领域，并且日趋紧张的国际国内形势也对军事领域的方方面面提出了更高的要求。

提高军队的作战能力，除了要对日益重要的军事装备进行升级，更为关键的因素还在于人的军事素质，其中体能素质军人最基本的军事素质，也是其作战能力的基础。

本文着眼于这种态势，选择军事训练过程中的最基本体能动作俯卧撑作为研究对象，研究用视频记录体能训练动作并对其进行识别和分析的过程和方法。

1.5.2主要工作

人体动作识别是对运动序列中的人体动作进行识别和理解，本文进行识别的过程主要可以分为人体区域检测、特征提取、动作分割、动作识别。

其中，人体区域识别是从视频序列或图像序列中将人体区域检测出来；特征提取是从运动序列中确定并提取必要的动作信息；动作分割是根据所选择的动作特征将一个完整地动作进行分割，姿态分割是将动作具体化为姿态层次，然后将分割出来的姿态库按照重要程度进行分类，便于在后续的识别工作中根据其所含信息权重采取差异化处理，着重识别计算那些具有重要意义姿态，这种处理方式有助于提高自动分析的程度，降低分析的复杂度。

动作识别则是借助一定的识别方法在视频序列中对人体动作进行分类，最终确定动作的类别和质量。

此外，我们还对识别中出现的偶然性误差进行校正，采用向量的某个维度模拟误差的产生，并用向量差的方式消除误差。

围绕以上内容，本文按照以下章节进行组织：

第1章绪论

第2章人体区域检测

第3章动作特征提取

第4章俯卧撑运动的动作及姿态分割

第5章俯卧撑运动的动作识别

第6章总结与展望

第2章人体区域检测

视频序列中的人体区域检测是一个重要且十分困难的研究领域，在人体运动分析中，人体区域的识别与提取是后续跟踪识别和活动分析的基础。

要从图像序列中提取运动人体首先要进行运动目标的检测，运动目标检测是滤除图像中与运动对象无关的信息。

正确检测运动目标能极大地提高跟活动分析以及踪识别的正确率。

运动目标检测的方法主要可以分为三种：

第一种是时间差分法，利用时间序列图像间的差分来检测运动目标；第二种是背景减除法[16]，将图像序列中的单帧图像与参考背景模型相减来检测运动目标；最后一种是光流法[17][18]，是对图像的运动场进行估计，将相似的运动矢量合并，形成运动目标的检测。

2.1人体区域检测方法

展开阅读全文