人机交互论文视线跟踪技术Word文件下载.docx

上传人:b****6 文档编号:18651221 上传时间:2022-12-30 格式:DOCX 页数:10 大小:240.64KB
下载 相关 举报
人机交互论文视线跟踪技术Word文件下载.docx_第1页
第1页 / 共10页
人机交互论文视线跟踪技术Word文件下载.docx_第2页
第2页 / 共10页
人机交互论文视线跟踪技术Word文件下载.docx_第3页
第3页 / 共10页
人机交互论文视线跟踪技术Word文件下载.docx_第4页
第4页 / 共10页
人机交互论文视线跟踪技术Word文件下载.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

人机交互论文视线跟踪技术Word文件下载.docx

《人机交互论文视线跟踪技术Word文件下载.docx》由会员分享,可在线阅读,更多相关《人机交互论文视线跟踪技术Word文件下载.docx(10页珍藏版)》请在冰豆网上搜索。

人机交互论文视线跟踪技术Word文件下载.docx

重点探讨了当前常用的基于视频的瞳孔-角膜高光向量法的原理和技术,并介绍了视线跟踪技术的研究方向和发展趋势。

最后对视线跟踪技术在人机交互、智能机器等领域的应用前景进行了介绍和展望。

关键词:

视线跟踪研究方向人机交互

1引言

随着对人机交互技术研究的不断深入,多通道的交互备受关注,人机界面更强调“以人为中心”的原则,使用户能运用各种感觉通道以最自然的方式和计算机交互。

现有的人机交互输入绝大多数通过鼠标、键盘等实现,这些输入需要视觉或听觉接收输出信息相配合。

此外,语音识别输入技术在逐渐成熟;

而对身体姿势的理解、触觉的输入输出等技术在智能虚拟现实环境中得到了较多的研究。

人们在观察外部世界时眼睛总是与其它人体活动自然协调地工作,并且眼动所需的认知负荷很低,人眼的注视包含着当前的任务状况以及人的内部状态等信息,因此眼注视是一种非常好的能使人机对话变得简便、自然的候选输入通道。

由于常见的上下文信息还隐藏于我们的视线中,视线反应了我们感兴趣的对象、目的和需求,具有输入输出双向性特点。

视线检测使得抽取对人机交互有用的信息成为可能,从而实现自然的、直觉的和有效的交互,因此,对视线跟踪技术及其在人机交互中应用的研究具有特殊的价值。

目前,视线跟踪技术和对视线所蕴含信息的理解还处在实验研究阶段。

2视线跟踪技术概述

视线追踪是利用机械、电子、光学等各种检测手段获取受试者当前“注视方向”的技术。

按照系统构成和采用的检测方法可以粗略划分为侵入式和非侵入式两种。

在人机交互和疾病诊断两个领域有着广泛的应用,如助残、虚拟现实、认知障碍诊断、车辆辅助驾驶、人因分析等。

用于诊断的视线追踪系统可以采用侵入式以达到更高的精度.用于交互的视线追踪系统除了对精度、鲁棒性、实时性的要求以外,需要最大程度地减少或消除对使用者的干扰。

随着数字化技术、计算机视觉、人工智能技术的迅速发展,基于眼睛视频分析(Videooculographic,VOG)的非侵入式视线追踪技术成为当前热点研究方向。

目前用户界面所使用的任何人机交互技术几乎都有视觉参与。

早期的视线跟踪技术首先应用于心理学研究(如阅读研究),后被用于人机交互。

眼动在人的视觉信息加工过程中,起着重要的作用。

它有三种主要形式:

跳动(Saccades),注视(Fixations)和平滑尾随跟踪(SmoothPursuit)。

在正常的视觉观察过程中,眼动表现为在被观察目标上一系列的停留及在这停留点之间的飞速跳动,这些停留一般至少持续100ms以上,称为注视。

绝大多数信息只有在注视时才能获得并进行加工。

注视点间的飞速跳跃称为眼跳动。

眼跳动是一种联合眼动(即双眼同时移动),其大小为1到40度视角,持续时间为30到120ms,最高运动速度为400-600度/秒。

3视线跟踪的基本原理

视线跟踪技术及装置有强迫式(intrusiveness)与非强迫式(non-intrusiveness)、穿戴式与非穿戴式接触式(如Eyeglass-mounted)与非接触式(Remote)之分;

其精度从0.1°

至1°

或2°

不等,制造成本也有巨大差异。

在价格、精度与方便性等因素之间作出权衡是一件困难的事情,例如视线跟踪精度与对用户的限制和干扰就是一对尖锐的矛盾。

有关视觉输入的人机界面研究主要涉及两个方面:

一是视线跟踪原理和技术的研究;

二是在使用这种交互方式后,人机界面的设计技术和原理的研究。

眼睛能平滑地追踪运动速度为1到30度/秒的目标,这种缓慢、联合追踪眼动通常称为平滑尾随跟踪。

平滑尾随跟踪必须有一个缓慢移动的目标,在没有目标的情况下,一般不能执行这种眼动。

在人机交互中,主要表现为跳动和注视两种形式。

视线追踪的基本工作原理是利用图象处理技术,使用能锁定眼睛的特殊摄象机。

通过摄入从人的眼角膜和瞳孔反射的红外线连续地记录视线变化,从而达到记录分析视线追踪过程的目的。

在人机交互中对视线追踪的基本要求是:

(1)要保证一定的精度,满足使用要求;

(2)对用户基本无干扰;

(3)定位校正简单;

(4)可作为计算机的标准外设。

4视线跟踪技术分析

一般而言,存在两种类型的眼睛运动跟踪技术:

第一种方法测量相对于头部的眼睛位置,第二种是测量空间中眼睛关注点。

人机交互系统主要关注的是交互场景中用户所关注的对象,这通常使用后一种测量方法。

4.1常见视线跟踪技术

最广泛使用的测量关注点是基于瞳孔-角膜反射向量的视线跟踪方法。

目前存在四大类的眼睛运动测量方法:

眼电图法,巩膜接触镜/搜寻线圈,POG法或VOG法和基于视频的结合角膜反射。

4.1.1眼电图法

眼电图法出现在70年代,曾被广泛应用,它使用电极测量眼窝附近皮肤的电压差来实现对眼睛运动的测量人的眼球存在着电压差,角膜表现为正极,眼底为负极,一般为1毫伏到数毫伏。

在眼睛附近皮肤贴上电极,当眼睛运动时,电极会产生不同信号,大约可以识别出3度的眼球水平转动和5度的眼球竖直转动。

眼电图法会产生不适的感觉,不适合长期使用和用于人机交互。

另外,仪器制造材料要求较高且需要稳定的照明条件和调节标定程序,而使用者的变化也可能造成信号的不稳定,比如,皮肤电阻会因为皮角质的不断分泌而改变。

4.1.2巩膜接触镜/搜寻线圈法

巩膜接触镜/搜寻线圈法是最精确的眼睛运动测量方法之一,它将一个机械的或者光学的元件连接到直接佩戴到眼睛的接触镜上。

早期的记录仪将熟石膏圈附加到角膜上,通过机械铰链连接到纪录笔上。

随着技术的发展,现代的接触镜通常附有安装杆。

接触镜的尺寸需要足够大,将角膜和巩膜同时覆盖,以免镜头滑动。

常用的附加装置有:

反射镜、搜寻线圈等。

其原理是通过测量由于眼睛的转动而决定的附加装置的方位来确定眼睛的方位。

使用反射镜可以将固定光束反射到不同方向,从而获得眼睛的运动状态。

使用搜寻线圈时在眼睛周围加上固定的磁场,当眼睛转动时会牵动搜寻线圈,使线圈中的磁通量发生变化而产生感生电动势,而依据电压的变化可以分析眼球的运动。

接触镜法是比较精确的眼睛运动测量方法,在5度的测量范围内可以精确到8-10分,但这是一个最具侵入性的方法,通常会滴入人工泪液以减轻这种不舒。

接触镜的双层构造会影响使用者的视力,不适合于测量注意点。

4.1.3照片图像法(POG)、视频图像法(VOG)

照片、视频图像法指测量眼睛的可区分特征的一类眼睛运动测量技术,这些特征包括瞳孔的外观形状,虹膜和巩膜的异色边缘,眼睛附近的光源的角膜反射等。

4.1.3.1角膜-巩膜异色边缘反射法

角膜-巩膜异色边缘反射法利用红外线光在角膜-巩膜边缘反射的差异来测量眼睛运动状况。

该方法以数个红外线LED以固定的角度照射在虹膜周围,经虹膜和巩膜反射的红外光被对应的红外光敏管接受;

由于深色虹膜的反射能力差,大部分光线被吸收,而白色巩膜部分的红外线几乎被完全反射;

眼睛转动的时候,光敏管接收到的红外线会随之变化,利用这些变化的红外线信号,可以检测眼球的运动。

4.1.3.2角膜反射法

角膜能反射落在它上面的光,当眼球运动时,光以变化的角度射到角膜,得到不同方向上的反光。

角膜表面形成的虚像因眼球旋转而移动,实时检测出图像的位置,经信号处理可得到眼动信号。

4.1.3.3双普金野象法

普金野图像是由眼睛的若干光学界面反射所形成的图像。

角膜前表面、晶状体后表面所反射的图像是第一和第四普金野图像。

双普金野方法使用红外光照射形成的第一和第四普金尔野反射,测量这两个反射的相对位置并分析图像数据,可以计算眼睛在相对于头部的朝向。

Generation-V眼睛跟踪器就是双普金野象视线跟踪器。

4.1.3.4基于视频结合瞳孔和角膜反射的方法

上面提及的技术适合于对眼睛运动的测量,但如果需要测量“注意点”,可以固定住头部以保持眼睛相对于头的相对位置不变,或者测量眼睛的多个特征来消除头部运动引起的歧义,比如角膜的高光反射和瞳孔的中心。

基于视频结合瞳孔和角膜反射的方法,是目前最广泛应用于测量关注点的方法。

角膜反射为瞳孔附近的小白点,它是角膜表面的反射高光,由于红外光源是相对于眼睛的固定位置放置的,眼球在眼眶里面转动的时候,角膜反射的位置是相对于眼睛是固定的。

而瞳孔中心的的位置随着眼睛的转动而转动,因此,根据角膜反射点坐标和瞳孔中心位置坐标构成的向量可以估算视线的方向。

4.2各种方法的比较

根据前面所述方法已经开发了多种类型的眼睛跟踪器,但每一种方法都有其优缺点(比如精度、采样率),毫无疑问,基于视频的角膜反射式的视线跟踪器最适合于图形或者交互的应用。

通过捕捉眼睛的红外视频图像,这些装置可以处理视频帧并输出眼睛的相对于被观察的屏幕的x和y坐标。

相比其他装置,基于视频的视线跟踪器是相对非侵入性的,相当地精确(30度视角达到大约1度的精度);

最重要的是和图形系统的集成相对困难较小。

基于图像的跟踪器主要限制于采样率,通常希望达到60Hz的帧率才能完美地跟踪眼睛的运动。

视觉追踪法

应用场合

技术特点

测量参照系

眼电图(EOG)

眼动力学

∙高宽带

∙精度低

∙对人干扰大

虹膜-巩膜边缘

眼动力学注视点

∙高带宽

∙垂直精度低

∙对人干扰大

∙头具误差大

头具

角膜反射

瞳孔-角膜反射向量

注视点

∙准确

∙头具误差小

∙对人无干扰

∙低宽带

头具或室内

双浦肯野象

∙眼动力学

∙网模图象稳定

∙注视点

∙高精度

室内

接触镜

∙微小的眼动

∙精度最高

∙不舒适

5视线跟踪技术在人机交互通道中的特点

人机交互通道中大部分具有一定形状的物体或现象,可以通过多种途径使用户产生真实感很强的视觉感知。

CRT显示器、大屏幕投影、多方位电子墙、立体眼镜、头盔显示器(HMD)等是VR系统中常见的显示设备。

不同的头盔显示器具有不同的显示技术,根据光学图像被提供的方式,头盔显示设备可分为投影式和直视式。

能增强视线跟踪真实感的立体显示技术,可以使用户的左、右眼看到有视差的两幅平面图像,并在大脑中将它们合成并产生立体视觉感知。

头盔显示器、立体眼镜是两种常见的立体显示设备。

目前,基于激光全息计算的立体显示技术、用激光束直接在视网膜上成像的显示技术正在研究之中。

从视线跟踪装置得到的原始数据必须经过进一步的处理才能用于人机交互。

数据处理的目的是从中滤除噪声(filternoise),识别定位(recognizefixations)及局部校准与补偿(compensateforcalibrationerrors)等,最重要的是提取出用于人机交互所必需的眼睛定位坐标。

但是由于眼动存在固有的抖动(jittermotion)以及眼睛眨动所造成的数据中断,即使在定位这段数据段内,仍然存在许多干扰信号,这导致提取有意(intentional)眼动数据的困难,解决此问题的办法之一是利用眼动的某种先验模型加以弥补。

将视线应用于人机交互必须克服的另一个固有的困难是避免所谓的“米达斯接触(MidasTouch)”问题。

如果鼠标器光标总是随着用户的视线移动,可能会引起他的厌烦,因为用户可能希望能随便看着什么而不必非“意味着”什么.在理想情况下,应当在用户希望发出控制时,界面及时地处理其视线输入,而在相反的情况下则忽略其视线的移动。

然而,这两种情况一般不可能区分。

目前,美国TexasA&

M大学使用装有红外发光二极管和光电管的眼镜,根据进入光电管的光的强弱来决定眼睛的位置。

ASL(AppliedScienceLab)也已有较成熟的视线追踪系统。

6视线跟踪方法的研究趋势

目前,视线跟踪设备的研究主要集中于非侵入性的方法,基于图像处理和模式识别的方法最常用的方法,而提高系统的鲁棒性、精确性和减少识别时间是努力的重点。

使用环境光照条件的变化、佩戴视线跟踪设备的方法、头部的移动等是造成鲁棒性差的主要原因。

为了增加在不同光照条件下瞳孔检测的鲁棒性,RaninerStiefelhagen采用了迭代的阈值方法。

QiangJi等开发了圈形的红外照明设备,利用暗瞳孔亮瞳孔技术,使得即使是佩戴墨镜,也能很好地识别眼睛瞳孔。

A.P_rez等开发的具有特殊形状的红外照明器,使得角膜是同时具有一个以上的高光点,大大增加了检测的鲁棒性。

通常,在进行医学或者实验研究时,可以使用腮托等视线用户头部的静止不动,但是在用于人机交互的时候,用户的头部通常是移动的。

为了减少这种移动带来测量误差,视线跟踪设备通常进行某种补偿。

A.P_re开发了具有双镜头的视线跟踪设备,在头部移动时,使用广角镜头捕捉这种移动,从而移动窄角镜头的来补偿头部的移动。

另外,Rowel等研制的立体视觉视线跟踪设备使用匹配好的双照相机跟踪视线方向,取得不错的效果。

7视线跟踪技术在人机交互领域中的应用及前景

随着计算机科学技术与产业的飞速发展,计算机日益进入普通用户的工作和生活中。

面对急剧增长的普通用户,人机交互的自然性愈来愈为系统设计所重视,计算机系统的设计必须力图使用户不需要专门的计算机技能,而只是利用自己的自然技能就能够使用计算机,虚拟现实正致力于这方面的研究。

另一方面,多媒体技术和网络技术的迅猛发展使计算机到用户的通讯带宽不断提高,而目前的人机交互由于受传统专业化的窄带宽输入界面的限制使得用户到计算机的通讯带宽仍停滞不前,严重阻碍了人向计算机的信息交流。

此外,传统人机交互的串行性和精确性在许多场合不必要地增加了用户的作业负荷,降低了交互效率,破坏了自然性。

为了赋予人机交互灵活性、健壮性、高带宽性和类似于人与人交互中的自然性,人机交互必须打破常规,走多通道的道路。

现在多通道界面的研究采用视线跟踪、语音识别、唇读和手势输入等新的交互技术,允许用户通过多个通道自然的并行和协作来进行人机交互,并可通过整合互补通道的模糊输入来捕捉用户交互意向。

多通道界面的特点和目标给设计带来了一些特殊问题,主要存在于三方面:

1.多通道整合。

互相独立地利用多个通道并不是真正意义上的多通道界面,并不能有效地提高人机交互的效率。

多通道交互需要从多个并行、协作和互补的通道的非精确输入获得用户想传达的任务信息,这就是整合问题——实现多通道的首要前提。

2.软件结构。

多通道协同操作使得软件结构必须具有支持强语义处理的能力,传统UIMS所采用的Seeheim模型在这方面有较大的局限性。

3.用户任务分析模型和界面描述方法。

这样的模型和方法必须适合多通道界面的特点。

从用户角度的而言,要能够表达用户利用多通道协作来完成交互任务时的特点,应能很好地分析和描述交互过程中人的活动,体现以人为中心的设计宗旨;

从系统角度而言,要能够处理多种交互手段的并行协作使用与系统处理的关系。

视线跟踪技术还处于起步阶段。

视线跟踪技术主要是解决眼睛运动特性的检测问题,目前主要的检测方法有接触镜法,电磁线圈法,红外光电反射法,红外电视法等。

其中红外电视法具有操作方便,对人无干扰,可移动,非接触等优点。

基于红外电视法的眼睛盯视人机交互技术是通过眼睛盯视激活对话框,从而实现对外部设备的控制。

阐述了眼睛盯视技术的原理和视线方向的判定方法,提出了对于使用过程中头部微小变化时视线方向的修正方法,降低了对使用者的使用要求。

眼睛盯视技术的应用领域对正常人来说,通过对鼠标和键盘操作,就能实现与计算机间的交互,但是对某些瘫痪病人或四肢麻痹,又不能说话的人来说,如此简单的任务却无法完成。

有关资料统计显示,全国至少有50万的人口存在不同程度的肢体瘫痪,生活不能自理。

那么如果他们能用眼睛来代替手操作,以后再加上机电控制技术情况就不一样了,就完全可以增加他们的独立能力,提高生活质量。

另外,通过眼睛盯视对外部设备进行控制可以实现多任务操作,比如在军事上,飞行员如果发现了目标,在手动操作应付不过来的时候,可以通过眼睛瞄准的同时,用眼睛来控制火控系统的发射,这样可以使飞行员既为驾驶员又为武器操纵员。

同时,在飞行加速度环境下,飞行员的头部和手部活动受到极大的限制,但眼睛却还可以自由转动!

这对于增加战斗力非常有意义。

随着研究工作的深入,这项技术必将服务于医学,军事及教育等各个方面。

8小结

总之,我们也应看到,尽管视线跟踪技术的应用存在着诱人的前景,但由于各方面技术的不成熟性,目前,还未达到实用化阶段。

成功的、有效益的演示性项目还很少。

在多通道用户界面基础上,要进行进一步的原型探索分析,必须对人机交互设备的性能加以改善,同时注意有关标准的建立,以便把视线跟踪技术更好地与现有技术结合起来。

9参考文献

[1]冯成志,沈模卫.视线跟踪技术及其在人机交互中的应用[J].浙江大学学报,2002,29(9):

225-232.

[2]机械工业出版社;

第1版(2011年6月1日)《视线追踪》

[3]BabcockJ,PelzJ.BuildingaLightweightEyetrackingHeadgear[A].Proc.ofEyeTrackingRsch.andAppl.(ETRA’04)[C].SanAntonio,TX,USA:

ACMPress,2004:

190-114.

[4]HartleyRichard,ZissermanAndrew.MultipleViewGeometryinComputerVision[M].Cambridge,UK:

CambridgeUniversityPress,2002.

[5]DuchowskiA,MedlinE,GramopadhyeA,etal.BinocularEyeTrackinginVRforVisualInspectionTraining[A].Proc.ofthe

ConferenceonVirtualRealitySoftwareandTechnology(VRST’01)[C].NewYork,NY,USA:

ACMPress,2001:

1-8.

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1