一套适用于智能家居环境的手势操作指令集和其识别方法专利稿20111.docx

资源描述

一套适用于智能家居环境的手势操作指令集和其识别方法专利稿20111.docx

《一套适用于智能家居环境的手势操作指令集和其识别方法专利稿20111.docx》由会员分享，可在线阅读，更多相关《一套适用于智能家居环境的手势操作指令集和其识别方法专利稿20111.docx（10页珍藏版）》请在冰豆网上搜索。

一套适用于智能家居环境的手势操作指令集和其识别方法专利稿20111.docx

一套适用于智能家居环境的手势操作指令集和其识别方法专利稿20111

一套适用于智能家居环境的手势操作指令集及其识别方法

摘要

本发明提供了一套适用于智能家居环境的手势操作指令集及其基于计算机视觉的识别方法。

指令集包括通用操作方法手势和快捷方式操作手势，在通用操作方式下提出了一种利用双目摄像头以人眼位置和手指指向判断待控设备的方法。

在视觉识别系统中有事先训练好的分类器以及静态手势模板和动态手势轨迹库，能够实时跟踪人脸及人手，及时对人手的指示行为作出识别。

本发明的多数操作行为不需要菜单辅助，手势设计符合人类对待控设备的自然认知，可以显著提升智能家居操控的趣味性和有效性。

技术领域

本发明涉及人机交互系统，尤其涉及一种基于计算机视觉适合操作智能家居手势指令集人机交互方法。

背景技术

随着社会的进步，科学技术的发展，人们对生活质量的追求越来越高。

由于智能家居系统可以为人们营造舒适便捷的生活环境，所以智能家居开始作为一种生活理念被越来越多人接受。

目前普遍盛行的智能家居控制系统属于第二代控制系统，此类控制系统在功能和操作上各自独立，相互之间不能进行通信和协作，比如可视化对讲系统、温度控制系统、智能灯具、智能窗帘等。

现在智能家居正从第二代控制系统向第三代控制系统转化。

第三代控制系统在第二代的基础上，尝试把这些功能单一的设备进行集成，以家庭服务器为核心进行一体化的统一控制。

这种控制一般通过按钮或遥控器实现，而这些交互方式并不符合人类自然的交流习惯。

现在追求人类和智能家居的自然交互成为研究热点，人类在日常生活中做出的自然指示成为一种好的选择。

目前存在的手势识别系统多针对单一机器，多为电脑，并且基于界面，这就要求必须要定制好合适的操作界面。

发明内容

本发明的目的在于，提供一种自然舒适，可用性高，有效性好的适用于智能家居中自动设备控制的手势识别操作方法。

该方法包括一套手势词汇及其识别检测方法。

本发明针对智能家居系统常用的智能家电和自动设备，包括电视机、空调、自动窗帘、灯具、音响等，设计一套手势操作动作，根据智能家居的控制特点，找出人类自然状态下操作智能设备的最佳动作。

这些动作的设计原则是：

简单性、易用性、

本发明的通用手势操作方法采用如下步骤：

（1）用户以手指指示待控设备，视觉识别系统判断设备，并映射；

（2）设备映射的同时，视觉识别系统进入命令模式；

（3）用户发出适用于该设备的手势，视觉识别系统检测出手势类型，并把手势编号发送给智能家居总控系统，由总控系统查询命令编号对应表执行相应操作。

上述步骤一中以手指指示判断待控设备的方法是采用双目立体视觉技术，通过多个摄像头采集同一场景，计算空间点在两幅图像中的视差，获得该点在世界坐标系中的三维坐标值。

在本发明中需要识别人眼以及食指尖两个点在世界坐标系中的三维坐标，根据人的指示习惯，以及在视觉系统中建好的房间内立体模型，在眼睛和食指尖的连线搜索设备。

上述步骤二中：

手指指示一方面确定带操作设备，另一方面是切换视觉识别系统运行模式。

视觉识别系统分为定位模式和手势识别模式两种模式。

视觉识别系统启动后，默认情况是一直处于定位模式下，在检测到用户发出指示手势时切换到命令识别模式，开始识别用户命令，当无用户操作命令时延时10秒后切换回定位模式。

为了防止噪声干扰，当连续检测到用户指示手势在7帧以上时才进行切换。

上述方法中模式切换动作包括：

手指指示、两次鼓掌，具体适用情景见表3。

上述步骤三中针对每种设备的操作方式设计了适合的操作手势，比如：

对于自动窗帘，我们设计了两个动作来进行打开和关闭的操作，打开：

手从左向右划动然后返回；关闭：

手从左向右划动然后返回。

这两个动作符合人类对窗帘的认知，操作自然，如果是使用快捷方式操作方法的话会达到非常优秀的操作感受。

其它设备及手势可参看表1

本发明中的快捷方式操作方法采用如下步骤：

（1）两次鼓掌进入命令识别模式；

（2）用户发出快捷方式操作手势，视觉识别系统检测出手势类型，并把手势编号发送给智能家居总控系统，由总控系统查询命令编号对应表执行相应操作。

上述步骤二中所述快捷方式操作手势，单一手势和单一设备的单一功能一一对应，所以不需要事先映射待控设备。

关于快捷方式操作手势可参看表2

上述方法中视觉系统对手势的检测步骤包括：

人脸区域的检测和跟踪、手区域的检测和跟踪、人眼的定位、食指尖的定位、手势识别和设备定位。

上述人脸区域的检测和跟踪步骤为：

通过Adaboost算法对人脸区域进行快速检测，以此作为Camshift的初始选择区域，从而实现自动人脸检测，对跟踪过程加入贪心预测，并加入Kalman预测的结果相对比。

在人脸检测过程中，需要通过训练大量的人类和非人脸样本建立分类器，在输入图像中分类出人脸图像。

上述手区域的检测步骤包括：

根据人脸肤色特征进行手势分割；手势轮廓提取；轮廓边缘拟合。

本发明中利用Camshift算法和手形遮罩相结合的手势别方法。

该方法能剔除手臂、人脸等大面积的肤色区域，快速有效地对视频中手所在的位置进行连续的识别和跟踪。

上述人眼的定位步骤包括：

在检测到的人脸区域中，眼睑和周围有很大的差值，眼睛是面部区域最复杂的区域，可以通过该特征定位眼睛区域。

上述指尖定位步骤包括：

首先对手区域的图像进行边缘检测和网格抽样处理；以抽样后的手轮廓的每个像素为中心，分别在逆时针和顺时针方向选取4个相邻的像素构成四对像素对；分别计算每对像素间的距离方差，平均距离方差最小且小于阈值的样本像素即为指尖区域；当检测到指尖区域后，以该区域的中点作为指尖坐标。

本发明的的视觉识别系统采用以下技术方案：

本发明采用多目视觉系统，在操控房间中设置多个摄像头、声音识别模块、光照感应模块，用来判断当前光照和采集人发出手势命令时所产生的图像和声音。

图像被传送至手势识别系统，手势识别系统识别出手势，计算出手势所指向的设备编号，把这两种信息通过家庭智能家居总线传送给智能家居总控器，由总控器发出相应控制命令。

（见图1）

上述方法中摄像头的布置：

本系统采用双目摄像立体视觉技术。

在房间内为了达到良好的识别效果一般要在三个位置设置双目摄像头：

房间互相垂直的墙壁和房顶，使得它们所采集的图像正交。

本发明的有益效果是：

本发明的最大有益效果是提出了一种无需设备（遥控器等）辅助的手势操作智能家居的方法，该方法通过手指向定位设备，自然手势发出控制命令，并把设备编号和命令编号传输给智能家居总控器，实现了在随时随地遥控智能家居的自然交互方式。

这种控制方式容易掌握，将显著的提升操作人的自然控制感。

附图说明

图1系统功能示意图

图2系统定位模式初始化流程图

图3单幅图像设备定位原理图

图4静态手势识别方法原理图

图5动态手势检测流程图

表1手势命令和设备执行操作对应表

表2快捷方式手势命令和设备功能对应表

表3模式切换手势列表

具体实施方式

本发明实施方式中，人脸的检测和跟踪首先使用Haar-like特征表示人脸，使用积分图实现特征数值的快速计算；使用Adaboost算法挑选一些最能代表人脸的矩形特征为弱分类器，按照加权选择的方式将弱分类器构造为一个强分类器；使用成千上万人脸图片和背景图片作为训练样本，提取可供使用的Haar特征数，然后通过机器学习算法挑选数千个有效地Haar特征来组成人脸检测器。

将若干强分类器串联组成一个级联结构的层叠分类器，将分类器转换为内部格式，用待测人脸和分类器比较实现人脸的检测和标注。

对于人脸的跟踪，则将贪心预测引入Camshift中，在检测人脸区域并标注后，通过边缘检测，建立该人脸区域的颜色直方图，并将此人脸区域作为Camshift的初始搜索区域，通过改变搜索区域质心位置进行跟踪。

跟踪过程中，视运动目标在相邻帧时间内时匀速运动，以线性预测运动目标在下一刻的位置，之后再通过前两帧对运动目标预测所产生的误差反馈，进一步对预测的误差进行补偿，达到精确预测运动目标的质心位置。

为了解决运动过程中目标丢失情况，主要通过Kalman滤波来实现，一旦产生了丢失跟踪目标的情况，就开启Kalman滤波，通过历史和当前运动信息实现下一时刻的预测。

如果出现超过5帧预测估计仍然没有找到目标的话，则重新加载人脸分类器。

本实施方式中，人眼定位算法采用基于五官特征的方法来定位人眼。

系统在检测到人脸的基础上，对人脸图像做平滑处理后，通过眼睛的复杂度来确定眼睛。

复杂度是指灰度变化的程度。

由于图像特征块大小不同，复杂度最大的并不能说明该区域为眼睛，因此引进平均复杂度。

定义为

上式中：

为图像特征块区域；

为中心像素值；

为中心像素

的8临域；

为8临域像素值；N为特征块区域的像素个数。

平均复杂度可以表示出特征块的灰度平均变化程度，而不受特征块大小的影响，因此可以通过计算每个特征块的平均复杂度来定位眼睛、平均复杂度最大的两个连通域为研究区域。

当确认为人眼区域后，并以该区域的中点作为人眼坐标。

本实施方式中，手检测算法采用肤色匹配的方法初步分割出手区域。

在检测出人脸的基础上，首先取人眼下方大小为20×20的矩形框作为人脸的样本肤色区域，计算该矩形框内400个像素的Y、Cb、Cr平均值。

以样本肤色区域内的Y、Cb、Cr平均值为中心，加减10分别作为上下阈值，和图像中的每个像素进行匹配。

满足本帧图像肤色模型的区域，即被判定为皮肤像素，当匹配完成后，可以初步分割出手区域。

根据已检测到的人类区域，可以去除人脸的干扰；根据人脸和脖子的几何位置关系，取人脸正下方，宽为人脸两倍、高度和人脸相同德矩形为脖子区域，可在人脸有偏转的情况下去除脖子的干扰。

由于手的面积远大于背景干扰区域面积，所以根据连通域面积大小可以判断是否为背景干扰，面积小于阈值的连通区域将被视为背景干扰而去除，从而检测出手区域。

本实施方式中，指尖定位算法是根据手轮廓的特征定位指尖区域。

系统首先利用梯度算子对手区域图像进行边缘检测，得到手的轮廓。

然后采用网格抽样对手轮廓进行处理，即原图像中一个10×10的区域只用一个像素点来表示。

以抽样后的手轮廓的每个样本像素为中心，分别在逆时针和顺时针方向选取4个相邻的像素，构成以样本像素为中心对称的四对像素对，分别计算每对像素间的距离方差，平均距离方差最小且小于阈值的样本像素即为指尖区域。

获得指尖区域后，以该区域的中点作为指尖坐标。

在本实施方式中计算得出人眼及食指尖的世界坐标点之后，计算其连线在世界坐标系中的方程，和存储好的设备坐标对比，坐标在连线靠近食指尖一侧的为待控设备。

动态手势的识别包括如下三个部分：

多目标跟踪，人体建模、轨迹判别和动态手势识别。

为了使系统具有更高的鲁棒性和识别能力，我们利用目标跟踪的方法为运动检测结构构件人体模型，并在该模型的基础上进行轨迹判别和动态手势识别，同时还利用判定和识别的结果作为反馈对人体模型进行修正。

对实时视频数据的运动检测可以在每一帧中得到一系列的运动对象，我们使用多目标跟踪的方法，为这些运动对象找到各自所对应的目标，并根据它们的轨迹为符合人体部位特征的有效目标建立人体模型。

在多目标的人体模型中，每一个有效目标都对应有自己的时空轨迹，无论是在时间轴或是在空间坐标系中，有效目标都具有连续性的特点，且不同目标分别具有各自不同的表现形式。

例如手目标表现出来的运动性相对头目标更为剧烈，而手目标和头目标之间的空间距离始终保持在某一区间；头目标的时空特征是常常会维持在同一高度而不常出现频繁的抖动，等等。

这些特征为我们构建多目标人体模型提供了依据。

在多目标人体模型中，我们选取符合特定轨迹特征的对象作为被识别的手目标，并对其轨迹进行识别，以判断是否产生控制指令。

在轨迹判别和动态手势识别的过程中，我们利用预先设定的轨迹库作为被比较对象，一旦目标轨迹符合预定轨迹库中特定轨迹的特征，则认为它们是同一轨迹，即可产生相应命令编号。

图1

图2

图3

图4

图5

表1

通用手势编号

手势描述

电视

空调

灯具

自动窗帘

伸出食指指向待控设

展开阅读全文