湖南人文科技学院Word文件下载.docx

资源描述

湖南人文科技学院Word文件下载.docx

《湖南人文科技学院Word文件下载.docx》由会员分享，可在线阅读，更多相关《湖南人文科技学院Word文件下载.docx（11页珍藏版）》请在冰豆网上搜索。

湖南人文科技学院Word文件下载.docx

吴宇明

11428204

机械设计制造及其自动化

男

2011

陈雯雯

11416129

通信工程

女

邓思文

11416125

指导教师

成运

职称

教授

学科专业

计算机科学与技术

学生曾经参与科研的情况

参与指导老师科研课题的研究，主要负责资料的收集和实验测试。

指导教师承担科研课题情况

指导老师目前正主持承担湖南省自然科学基金重点项目1项，湖南省教育厅重点项目1项，娄底市科技计划重点项目1项。

主持完成湖南省自然科学基金项目1项，湖南省科技计划项目1项，湖南省教育厅青年项目1项。

项目研究和实验的目的、内容和要解决的主要问题

研究目的：

人体行为检测受光照、视角、多尺度以及遮挡等因素的影响，挑战性极大，是计算机视觉研究中的难点和热点问题。

目前的研究大多集中在像素域下的简单动作检测，实时性差。

由于H.264的编码效率比较高，所以应用非常广泛，目前安装的视频监控系统绝大多数都采用了H.264，在压缩域内仅通过熵解码就能提取出运动矢量和整数变换系数，计算复杂度远低于像素域下的算法，通过本课题的研究将达到以下目的：

（1）通过在H.264压缩域下的特征提取，提高人体行为检测的速度。

（2）通过将运动矢量转化为运动角度映射图，然后提取显著运动点，进一步减少计算量，提高人体行为检测速度。

研究内容：

（1）统一的视频测试序列和算法评价：

数据库的建立一直是静态图像目标识别领域研究的一个重要问题。

近几年来，目标检测与识别的研究领域已经从“玩具世界（toymodel）”发展到了复杂的真实场景中，这与大规模静态图像数据的建立有密切关系。

“巧妇难为无米之炊”，目前人体运动识别训练视频库，如KTHActionDataset，其规模已成为人体行为识别研究发展的瓶颈，再加上智能视觉监控、人机交互等实际应用领域的需求，迫切需要建立并标注一个数据库包括以下几种情况：

（a）多视角；

（b）遮挡与无遮挡的；

（c）简单背景的与复杂背景的；

（d）行人的各种各样的走路姿态、各种表情、各种款式和颜色的着装等；

（e）行人带附属物（如箱子、背包和帽子等）；

（f）光照变化。

（2）鲁棒的显著运动点检测子和特征描述子：

如何选择人体的运动特征来表达运动是人体行为检测的关键问题之一。

一般是尽可能选择较多的特征或者是在连续特征的典型匹配过程中引入人体运动模型的简化约束条件来减少、消除歧义性。

但如果特征选择过多、特征向量维数过大，则会增加计算的复杂度；

而特征过少，又可能不足以识别与理解人体行为，而引入人体运动模型的简化约束条件与一般的图像条件却又是不吻合的。

因此能否借鉴人类的学习、识别与理解机理，定义一个动态特征模型，首先提取有关行为的主要特征，当这些特征不足以完成识别与理解时，系统逐步提取候选的细节特征；

另一种更好的办法是使用行为的二维表达捕捉行为的视觉不变特征，那样对行为的理解不会引起歧义。

但是，如何选择视觉不变特征却又是一项很困难的任务。

此外，特征提取的不稳定性也为行为理解带来很大的困难，多模特征融合将为行为的识别提供一个很好的解决办法。

例如在遮挡的情况下，基于多摄像机的信息融合方法；

全局特征和局部特征的融合等。

对于运动特征描述来说，不同复杂程度的运动通常会采用不同的运动表达方法，即使是同一动作在不同的场合，由于快慢速度不一致等都会产生不同的时空关系。

如何表征这些细微的时空变化并没有一个很好的办法。

一个可行的办法是采用多尺度的方法来表征和分析运动。

要解决的主要问题：

（1）针对H.264压缩域下通过熵解码可获取运动矢量特征，关键是要设计一个基于运动矢量的运动显著点检测算子和基于运动显著点的运动特征描述子。

（2）通过局部运动特征可以有效地解决遮挡问题，在局部运动特征的基础上，关键是要基于时空码本，选择合适的人体行为动作描述，并设计相应的分类器和检测器。

国内外研究现状和发展动态

本课题的研究主要针对H.264压缩域下的人体行为检测展开，由于行为检测与识别二者有很多共性，因此，以下先对人体行为识别进行综述，然后介绍人体行为检测的研究现状，并详细比较行为识别与检测二者的异同点，最后综述H.264压缩域下的人体行为检测的相关工作。

1.人体行为识别

在2000年前后，涌现出一批与人体行为识别相关的系统，如Pfinder、SmartKiosk、Lehigh系统、CMU监控系统、KidRooms、W4、VSAM等。

2001年，自911恐怖袭击以来，欧美国家加大了对智能视频监控的投入力度，人体行为识别技术成为计算机视觉中的研究热点。

目前，随着计算机硬件系统的不断升级，人工智能和计算技术的继续发展，对于人体的视觉分析研究逐渐从研究单人运动向多人，从估计人的运动到分析人体的行为方向发展。

在人体行为识别方面有着深入研究的机构主要有但不局限于：

（1）法国INRIA实验室BillTriggs研究组；

（2）瑞士EPFL实验室PascalFua研究组；

（3）美国Brown大学计算机系MichaelJBlack研究组；

（4）加拿大多伦多大学计算机系C.Sminchisescu研究组。

国内中科院自动化所在步态识别、视觉监控方面取得了很好的研究成果，基于二维视频图像，其系统可以远距离对人的身份进行鉴定。

中科院的先进人机通信技术联合实验室的媒体分析组研究和开发了图像与视频等多媒体内容的分析、理解、过滤与监控技术，自2004年起，该课题组已在IEEETrans.onMultimedia,ImageandVisionComputing、PatternRecognitionLetters等国际期刊以及ACMMultimedia等一系列国际会议上发表论文50余篇。

浙江大学与微软视觉感知联合实验室针对目前动画获取的投资大、人体运动受到获取设备限制等问题，提出了一种基于视频的人体动画技术，开发了一个基于双摄像机的视频动画系统，该系统要在人体关节上贴标志点，类似于立体视觉的三维结构和运动获取。

北京大学视觉与听觉信息处理国家重点实验室、西安交通大学、清华大学、上海交通大学、南京大学等也在该领域做了许多研究工作。

Aggarwal、Gavarila、Hu和Mosellund等人对人体行为识别的方法都做过阐述，但他们都是简单地总结分析方法，没有对当前行为理解的研究现状做过系统分析。

下面，我们从行为理解的一般性处理框架出发，对目前人体行为理解的研究现状进行详细介绍。

特征选择与运动表征

基于外观形状特征方法是先利用人体几何结构、轮廓或姿态以及区域颜色等信息来估计运动目标每时刻的静止姿态，然后用这些静止姿态序列来描述人体运动。

外观形状特征容易获得且比较稳定，对纹理变化不敏感。

基于运动特征方法则没有利用人体结构的形状信息，直接从图像序列中提取出目标运动特性（如光流信息、运动方向、轨迹、位置、速度等）来表征运动状态。

但目前的计算机视觉方法很难准确地提取运动特征，所以，为了充分利用形状特征和运动特征各自的优势，研究人员采用两者的混合特征识别人的行为。

此外，时空特征是近年来行为理解研究中使用比较多的特征。

时空特征通过采用二维形状在一段时间内形成的时空立体或差分图像来描述行为，集合了形状和运动特征两者的优点。

由于时空特征考虑了运动信息，也有学者将其归类于运动特征。

人体运动表征是指从人的运动序列中提取合适的特征数据来描述人的运动状态，这是人行为识别中至关重要的一步。

依据所用的特征，运动表征方法可分成基于外观形状特征的和基于运动特征的。

基于外观形状特征的方法依据是否利用人体形状模型的先验知识，又可分成基于模型和基于外观特征（或基于视觉特征方法）两类。

基于模型方法的核心思想是首先建立描述空间中人体形状模型，然后利用目标的形态特征和关节位置等信息，将模型与输入图像序列在首帧匹配，在后续帧的跟踪过程中定义损失函数描述输入图像数据与模型之间的近似关系，并采用人体运动参数限制条件和最优策略如最小平方或随机采样策略如粒子滤波等方法最小化损失函数来求得当前的运动姿态。

常用的模型结构可以分为矩形框、棍棒形状、二维轮廓和3D立体模型。

基于外观方法并不试图恢复人体运动的结构模型，而是直接从图像中提取物体的二维空间信息，如高度、宽度、侧影轮廓和颜色等，并用这些特征直接或通过与已经训练好的模型进行匹配来获得对当前运动的描述。

在这类方法中，形状分析理论常用来描述运动目标的形状变化特征。

常用的形状分析方法有质心—边界距离、傅里叶描述符、形状上下文和统计形状分析等。

此外，目标形状变化的动态特性也为目标识别和动作分类提供了重要信息。

N.Vaswani等人提出用形状变化的动态特性来建模和分类动作。

Liu等人提出在傅里叶描述子的基础上建立自回归模型学习形状变化的动态信息。

基于统计形状理论，Veeraraghavan等人提出用自回归模型（AR）和平稳自回归模型（ARMA）学习形状变化的动态特性，并用模型之间的距离量测作为两个形状序列之间的相似性测量，取得了较好的分类效果。

基于外观特征方法不要求特定的模型，比较简单，能够适用于大量的环境条件下。

但外观特征方法由于没有模型先验信息限制，很难建立连续帧之间的特征对应关系，并且很难区别信号和噪声，一般对噪声敏感。

此外，外观特征受视角影响大，所以许多学者研究基于多视角环境中人的行为分析和识别。

基于运动特征的表征方法可以细分为：

a）基于预先确定区域（如腿、头）跟踪的运动轨迹分析方法。

其关键是运动匹配，思想是在一帧图像中提取出兴趣点或区域、典型特征，并且在随后图像帧中进行跟踪，多帧之间的这些特定点或区域位置匹配就会产生一条运动轨迹，然后对轨迹进行参数化处理，如将轨迹转换成水平、垂直方向的速度以及时空曲率等来描述运动特性；

b）基于非预先确定的目标区域运动分析方法。

其最典型的代表是光流法。

与运动轨迹不同的是，光流法是计算空间运动物体表面上像素点运动产生的瞬时速度场。

它通过计算图像序列中连续两帧亮度信息来得到，指的是图像亮度模式的表观运动（apparentmotion）。

时空特征不仅包含人动作姿态的空间信息（人体躯干和肢体的位置、方向等），而且还包含运动的动态信息（人体的全局运动和肢体的相对运动），从而避免了光流场计算可能遇到的问题（包括孔径、全局平滑性约束、奇异性等）和外观形状特征跟踪问题（自遮挡、重新初始化、外观改变、运动信息缺乏等）等。

所以近年来时空特征在行为识别中得到了大量的使用。

Bobick和Davis利用时空运动特征，提出了用运动历史图（MHIs）和运动能量图（MEIs）来描述运动。

其中运动历史图反映运动是怎么产生的，而运动能量图反映运动发生的位置。

文献则提出用迭代滤波和帧分组来描述运动信息。

用迭代滤波方法对视频序列中的每帧图像进行滤波处理得到一幅滤波图像，其反映当前帧的场景空间分布信息、相邻帧之间的时分关系以及短时间内的运动速度。

帧分组方法思想是单独分类视频切片中的每个滤波图像，然后用多数投票方法分类这些已标记的滤波图像的运动类型。

【小结】基于运动特征和外观形状特征表征的方法都有各自的缺点：

基于运动特征能够描述人的近似运动方向和轨迹等，但很难准确、稳定地捕捉目标运动特性；

另一方面，外观形状特征能够描述人的姿态信息，但由于没有运动信息，描述行为动作的能力有限。

所以研究人员通过采用融合两种特征的方法来对人行为进行建模和识别。

行为识别的分类方法

行为识别问题可以简单地看做是时变特征数据的分类问题，即将测试序列与预先标定的代表典型行为的参考序列进行匹配。

那么其关键问题是如何从学习样本中获取参考行为序列以及如何度量参考序列与测试序列之间的相似性

展开阅读全文