基于多摄像头的手势识别文档格式.docx

资源描述

基于多摄像头的手势识别文档格式.docx

《基于多摄像头的手势识别文档格式.docx》由会员分享，可在线阅读，更多相关《基于多摄像头的手势识别文档格式.docx（19页珍藏版）》请在冰豆网上搜索。

基于多摄像头的手势识别文档格式.docx

8Sense手势识别系统设计与实现15

8.2G-Sense系统框架与功能16

8.3G-Sense系统的详细设计17

1.研究背景

随着计算机硬件与软件技术的发展，人机交互技术由传统的鼠标键盘时代发展到了以语音输入、动作识别等技术为代表的自然交互时代n1。

特别是视觉计算技术的发展，使计算机获得了初步视觉感知的能力，能“看懂”用户的动作。

其中手势识别作为一种直观的、自然的输入方式，把人们从传统接触性的输入装置中解放出来，可以以一种更自然的方式与计算机交互，使计算机界面变得更加易‘引。

手势主要分为静态手势和动态手势两种，动态手势可以看作是连续的静态手势序列。

动态手势具有丰富和直观的表达能力，与静态手势结合在一起，能创造出更丰富的语义。

利用动态手势识别构建新型的交互界面，是新一代的人机交互界面对输入方式自然性的要求，可以弥补传统交互方式的不足。

基于视觉和手势识别研究正处于蓬勃发展的阶段，仍存着的许多值得研究的问题。

研究基于视觉的动态手势识别对于构建更加好友的人机交互界面很有意义。

本文研究的是基于多摄像头的动态手势识别方法，利用两个正交放置的摄像头来获取动态手势的三维运动信息，以支持三维动作的识别。

它是基于两个应用背景的应用研究：

其中一个是利用手势控制的照片浏览，另一个是三维动作感应的拳击小游戏。

作为一个应用研究，在研究的过程中需要解决手势检测、动态手势跟踪中的于脸遮挡、多摄像头协同工作和手势特征提取、动态手势识别等一系问题。

2.手势识别概述

2.1手势识别的概念

手势是姿势的一个子集，姿势这个概念没有精确的定义。

一般认为，手势概念经过人的于转化为的于势动作，观察者看到的是于势动作的图像雎1。

手势的产生过程如图2-1所示。

图2-1手势的产生过程

手势识别的过程则找一个从图像V到概念动作G的变换而，如图2-2所示。

图2-2手势识别的过程

2.2手势识别流程

手势识别流程包手势图像获取、手势分割、手势特征提取、手势识别四大部分嘲，如图2-3所示。

图2-3手势识别流程

3.手势建模

在手势识别框架中，手势模型是一个最基本的部分。

根据不同的应用背景，于势识别采用的模型会有不同，而对于不同的手势模型，采用的手势检测与跟踪算法、特征提取、识别技术也会有差别。

手势建模主要分为基于表观的手势模型与基于三维的于势模型。

基于表观的手势建模是一种二维建模，从二维平面观察得到的平面图像信息描述于的特征。

基于表观的手势模型主要包括基于颜色的模型与基于轮廓的模型两种。

基于颜色的手势模型是把手势图像看作像素颜色的集合，通过提取手部的颜色的特征来描述手势。

基于颜色的手势模型的常用特征是颜色直方图。

基于轮廓的手势模型是把手看作一个轮廓，通过提取手部图像中手的轮廓的几何特征来描述手势。

4.手势检测与跟踪

手势检测与跟踪是手势识别处理流程中最前端的处理部分，它处理从摄像头获取到手势图像（序列>

，从中检测和分割手势对象。

如果是动态手势识别，还要对手进行跟踪。

基于运动信息的方法：

基于运动信息的方法是假设在视频中只有手是运动物体。

其中一种方法是背景减法。

它要求背景静止不变，把视频中的每帧与背景相减，背景相同的部分变为零，不同的部分就认为是运动的物体，即手。

另一种方法是差帧法，通过当前帧与前一帧（前若干帧>

相减，检测出两帧之间的差异来确定手部运动的起始区域。

但是一般相邻帧之间的手势运动幅度不大，差帧法只能检测出运动的轮廓，一般要以比较低的帧采样率或者隔若干帧做减法才能正确检测与分割运动的手部。

5.手势特征提取

手势特征的提取是与手势模型密切相关的，不同的手势模型会有不同有于势

特征。

例如基于模型的手势模型有手的每个关节的状态特征，基于表观模型的手

势特征是轮廓特征、位置特征等。

静态手势识别和动态于势识别的特征也不同，静态手势的特征只是描述的手

的静态信息，例如轮廓、面积等。

动态手势特征是连续的静态特征序列。

5.1静态手势特征

常用的静态手势特征有轮廓、位置、面积、手指分布等。

手的轮廓特征可以连续的点来表示。

通过边缘检测算法，把图像区域的边缘检测出来，经过进行平滑和多边形拟合算法处理，得到多边形的顶点的序列。

在提取于的轮廓比较困难的情况下，或者为了提高计算效率，也可以通过计算轮廓的特征作为手势特征。

例如A．Wilkowski通过以手部图像的外包矩形的边为坐标轴进行投影计算得到轮廓的直方图作为手的轮廓的特征，如图5-1所示。

图5-1手的轮廓特征

手的位置特征是指手掌的质心位置，质心位置可以按公式5-1、公式5-2、公式5-3、公式5-4计算。

手的面积特征通过计算手的轮廓的多边形面积即可。

对于二维图像，质心是通过计算零阶距和x、Y的一阶距得到的。

假设二值化之后的图像为I（x，Y>

，质心（Xc，Yc>

的计算公式如下：

5-1

5-2

5-3

5-4

于指特征的提取是一个关键的技术。

经典的手指提取方法是利用手指距离手掌中心最远这个规律，把于的轮廓点的坐标转换成为以手掌中心位置为原点的极坐标系，然后分析轮廓曲线中的局部最大值（如图5-2所示>

，最后通过映射规则把点的位置映射为手指。

图5-2轮廓曲线到极坐标的转换

图5-3局部极值法定位手指

5.2动态手势特征

在动态于势中，因为于在空间和时间两个维度是都会发生变化，所以动态手势特征包含于的位置变化和于的形状变化。

手的位置变化可以通过计算手势的当前位置与上一个位置之间和位置偏移量得到。

假设手的运动前后位置为（>

和（>

，则可以计算出运动方向的角度，最后把进行量化得到对应的方向编码。

图：

5-3手势运动方向编码

通过计算于势运动轨迹相邻点之间位移，得到运动的方向编码，组成手势运动向量特征。

手的形状变化也是一种动态手势特征，这种特征可以简单地由一系列静态手势特征组成。

在有些于势识别研究中，同时考虑手的位置与形状两种变化，同时计算上面的两种特征。

6手势识别

6.1静态手势识别

静态手势识别的方法有很多，例如基于规则的方法、模板匹配的方法、基于机器学习的方法等。

基于规则的识别方法

基于规则的识别方法是最简单的一种识别方法。

它是手工地为手势之间建立关系，定义识别规则睁引。

对于输入的手势特征，按照这些规则判别即可。

基于规则的方法效率很高，缺点是这些规则需要预先硬编码在规则库中。

基于模板匹配的方法

基于模板匹配的方法是采集静态手势作为样本，提取特征作为模板特征库。

在识别时把输入的手势特征与模板库的模板进行匹配。

其中比较经典的使用弹性图匹配（ElasticGraphMatching>

方法。

在基于模板的识别方法中比较重要的是定义特征的距离函数。

距离函数需要根据特征的特点来选取的。

张国良、吴江琴、高文等人采用改进的Hausdorff距离来进行手势识别。

Hausdorff距离是用来度量两个集合之间的相似度，它的数学定义如下：

A和B是两个集合，元素个数分别是n和m。

其中表示元素a和b的距离。

基于机器学习的方法

静态手势识别中，基于机器学习的识别方法比较常用的是人工神经网络（ANN，ArtificialNeuralNetwork>

、支持向量机（SVM，SupportVectorMachine>

等。

在提取到于势特征之后，直接或者降维之后使用分类器进行分类。

基于机器学习的方法需要预先使用学习样本来训练分类器。

6.2动态手势识别

动态手势是具有时间和空间变化，手势特征量化编码之后成为时间上的符号序列。

目前有许多方法可以对时间序列数据进行分类。

直方图（Histogram>

图像处理领域最基本的直方图技术在某些情况下用于动态手势识别是非常有效的。

直方图能反映手势序列的整体特征。

虽然它丢失了序列的时间特征，但是在一些手势种类少而且运动轨迹区别明显的手势识别应用，不失为一种好选择，它的识别处理效率很高。

例如H．Jet和J．Kim使用直方图对于势运动方向向量进行统计，识别音乐指挥中的四种手势。

动态时间规整（DTlr，DynamicTimeWarping>

经典方法动态时间规整（DTW，DynamicTimeWarping>

在语音识别领域应用得很成功。

DTW本质上是一种动态规划算法。

手势识别与语音识别有许多相似

之处，也可以使用DTW算法进行动态手势识别。

有限状态机（FSM，FiniteStateMachine>

可以用于动态手势识别。

有限状态机非常适合处理有语言。

动态手势也是一种语言，在为它定义文法之后，有限状态机将是一个有力的处理工具。

例如P．YHong与M．Turk利用有限状态机实现了一个实时的动态手势识别系统瞳引。

隐马尔可夫模型（删，HiddenMarkovModel>

隐马尔可夫模型洲是从马尔可夫（Markov>

链的基础上发展的。

马尔可夫链是一个随机过程，而HMM是一个双重随机的过程，其中的状态转移和观察符号都是随机过程。

马尔可夫链中观察值与状态是一一对应的，HMM中状态转移与观察值不是对应的，不能直接观察到状态转移，因此称为隐马尔可犬模型。

HMM是一种概率统计模型，对序列的长短变化适应性比较好，适用于动态时间序列数据的识别。

HMM已经在语音识别领域取得了很大的成功，在手势识别也得到成功的应用。

在现有的动态手势识别研究中，HMM的应用最多。

HMM分为全连接型、左右型、带限制的左右型三类，如图2-4所示。

左右型与全连接形的区别是它在转移概率矩阵增加了一个约束，每个状态只能转移到自己或者它后面的状态。

带限制的左右型HMM是限制每个状态只能转移到自身或者它的下一个状态。

在语音识别和手势识别中，通常是使用带限制的左右型洲。

HMM的定义

HMM是一个三元组名=（>

。

（1>

状态的集合S={．．，>

，其中N为状态数，用仍表示t时刻的状态。

状态之间的转移是根据转移概率矩阵A决定的。

（2>

观察符号的集合O={．．．，>

，其中M是集中的符号数量。

每个状态输出O是根据观察概率矩阵B决定的。

（3>

状态转移概率分布矩阵A=，其中，表示从转移到的概率。

（4>

观察概率矩阵B=，，表示状态观察到的概率。

（5>

初始状态概率分布，，表示初始状态为的概率。

HMM从一个初始状态开始，每个状态根据观察概率矩阵，输出一个观察符号，然后根据状态转移矩阵，转移到新的状态。

一个具有N个状态数的HMM在一共有种不同的长度为T状态转移序列，它的状态空间很大的。

HMM具有较强的学习能力。

Forward评估算法

令=P（>

，1<

-t≤T，l≤i≤N表示在t时刻为止观察到的符号序，并且处于状态。

初始化：

t=T-1，T-2，…，1，1≤i≤N

递推：

-t<

T-1，1≤j≤N

终止：

1≤i≤N

7基于多摄像头的手势识别

先是手势词汇设计，介绍了在本文研究应用背景下的静态和动态手势设计。

然后是介绍一种基于采样的肤色模型参数初始化方法，通过对采集于部图像样本，自动初始化手部肤色模型、手部面积和脸部面积参数。

在手势跟踪部分，描述了本文提出的基于质心估计手脸遮挡下的手势跟踪方法。

在手势特征提取部分，使用

展开阅读全文