人工智能之人机交互.docx

资源描述

人工智能之人机交互.docx

《人工智能之人机交互.docx》由会员分享，可在线阅读，更多相关《人工智能之人机交互.docx（90页珍藏版）》请在冰豆网上搜索。

人工智能之人机交互.docx

人工智能之人机交互

2020—2021人工智能之人机交互

2020年6月

图1-1人机交互界面的发展2

图1-2WonderPainter示例7

图1-3全手型感应9

图2-1电阻式触摸屏结构示意图13

图2-2电容式触摸屏原理示意图14

图2-3红外触摸屏原理示意图14

图2-4表面声波式触摸屏原理示意图15

图2-5语音识别系统的主要模块16

图2-6语音合成方法19

图2-7指关节跟踪示意图25

图2-8基于眼动跟踪的人机交互研究框架28

图2-9不同注视位置触发示意图30

图2-10（a）单行程眼势；（b）多行程眼势31

图2-11用户在虚拟现实中使用QWERTY实体键盘进行输入32

图2-12（a）TipText；（b）BiTipText.36

图2-13VISAR键盘38

图2-14小型触摸表面39

图2-15（a）PizzaText；（b）RingText40

图3-1人机交互领域全球学者分布54

图3-2人机交互领域TOP5国家54

图3-3人机交互领域学者h-index分布55

图3-4人机交互领域中国学者分布55

图3-5中国与其他国家的合作论文数量情况56

图5-1人机交互技术趋势83

图5-2人机交互国家趋势84

图5-3人机交互机构趋势84

表1-1各种人机交互界面的特征比较4

表3-1近三年高产学者百人名单70

1概述篇

1.1人机交互的概念

人机交互（Human-ComputerInteraction,HCI），作为一个术语，首次使用是在由StuartK.Card，AllenNewell和ThomasP.Moran撰写的著作“ThePsychologyofHuman-ComputerInteraction”里[1]，它是一门研究系统与用户之间的交互关系的学问。

系统可以是各种各样的机器，也可以是计算机化的系统和软件。

人机交互界面通常是指用户可见的部分，用户通过人机交互界面与系统交流，并进行操作。

人机交互技术是计算机用户界面设计中的重要内容之一，它与认知学、人机工程学、心理学等学科领域有密切的联系。

目前关于人机交互的定义主要有三种：

一是ACM（AssociationforComputing

Machinery）的观点，它将人机交互定义为：

有关交互计算机系统设计、评估、实现以及与之相关内容的学科；二是伯明翰大学教授AlanDix的观点：

人机交互指的是研究人、计算机以及它们之间相互作用方式的学科，学习人机交互的目的是使计算机技术更好地为人类服务；三是宾夕法尼亚州立大学JohnM.Carroll的观点：

人机交互指的是有关可用性的学习和实践，是关于理解和构建用户乐于使用的软件和技术，并能在使用时发现产品有效性的学科。

无论是哪一种定义方式，人机交互所关注的首要问题都是人与计算机之间的关系问题。

人机交互技术的发展与国民经济发展有着直接的联系，它是使信息技术融入社会、深入群体，达到广泛应用的技术门槛。

任何一种新交互技术的诞生，都会带来其新的应用人群、新的应用领域，带来巨大的社会经济效益。

从企业的角度，改善人机交互能够提高员工的生产效率，学习人机交互能够降低产品的后续支持成本。

在个人的角度，可以帮助用户有效地降低错误发生的概率，避免由于错误引发的损失。

在现代和未来的社会里，只要有人利用通信、计算机等信息处理技术进行社会活动，人机交互都是永恒的主题，鉴于它对科技发展的重要性，人机交互是现代信息技术、人工智能技术研究的热门方向[2]。

1.2人机交互的发展历程

人机交互的发展历史，是从人适应计算机到计算机不断地适应人的发展史，交互的信息也由精确的输入输出信息变成非精确的输入输出信息。

随着网络的普及和无线通讯技术的发展，人们的需求不再局限于界面美学形式的创新，现在的用户更多的希望在使用多媒体终端时，有着更便捷、更符合他们的使用习惯，同时又有着比较美观的操作界面[3]。

在过去的几十年间，人机界面经历了从命令行界面到图形用户界面两个主要发展阶段的演变；近年来，人机界面的发展越来越强调交互的自然性，即用户的交互行为与其生理和认知的习惯相吻合，随之出现的主要的交互界面形式为触摸交互界面和三维交互界面[4]。

图1-1人机交互界面的发展

•命令行界面

基于命令行界面（Command-lineInterface,CLI），用户使用键盘按照一定的规则输入字符，以形成可供机器识别的命令和参数，并触发计算机进行执行。

其优点是由于键盘输入相对较高的准确率，以及几乎不需要冗余的操作，所以熟练的用户可以达到非常高的交互效率，同时，通过规则的设计，命令行界面也能支持丰富灵活的指令形式。

但是，命令行界面的缺点在于交互非常不直观，由于机

器命令与自然语言的构造规则往往相去甚远，所以用户需要记忆大量的指令，有时甚至需要具备计算机领域的专业知识和技能，才能达到较高的使用效率。

这对于新手用户而言大大提升了学习成本，也显著影响了普通用户使用命令行界面时的体验。

•图形用户界面

为了改进命令行界面的问题，人们提出了图形用户界面（GraphicalUserInterface,GUI），该界面将命令和数据以图形的方式展示给用户，用户通过所见即所得（WhatYouSeeIsWhatYouGet,WYSIWYG）的方式与显示的界面元素进行交互。

根据人机交互领域中的定义，图形用户界面一般包括窗口（Window）、图标（Icon）、菜单（Menu）和指针（Pointer）这四类主要的交互元素。

用户通过控制指针来对窗口、图标和菜单等显示元素进行指点（Pointing）操作，从而完成交互任务。

广义的图形用户界面泛指一切用图形表征程序命令和数据的界面系统，但在狭义上，图形用户界面一般指个人电脑（PC）上的二维WIMP界面。

此时，用户与界面交互的设备一般是键盘和鼠标。

图形用户界面的一大优势是摆脱了抽象的命令，通过利用人们与物理世界交互的经验来与计算机交互，从而显著降低了用户的学习和认知成本。

然而，由于图形用户界面的基本操作是指点，即用户需要使用指针来选择交互目标，因而其往往对用户指点操作的精度有较高的要求。

此外，由于鼠标设备所在的控制域（MotorSpace）与界面显现的显示域（VisualSpace）是分离的，因而用户需要对目标进行间接的交互操作（IndirectManipulation），从而更加增加了交互的难度。

•触摸交互界面

在触摸交互界面上（TouchUserInterface），用户通过手指在屏幕上直接操作显示的交互内容。

根据人机交互研究中的定义，触摸交互界面一般包括页面

（Page）、控件（Widget）、图标（Icon）和手势（Gesture）这四类主要的交互元素A用户通过触摸、长按、拖拽等方式直接操控手指接触的目标，或者通过绘制手势的方式触发交互指令。

目前，触摸界面主要存在于智能手机和可穿戴设备（如智能手表）等设备上。

触摸交互界面的优势是充分利用了人们触摸物理世

界中物体的经验，将间接的交互操作转化为直接的交互操作（Direct

Manipulation），从而在保留了一部分触觉反馈的同时，进一步降低了用户的学习和认知成本。

然而，触摸操作受困于著名的“胖手指问题”，即由于手指本身的柔软，以及手指点击时对于屏幕显示内容的遮挡，在触屏上点击时往往难以精确地控制落点的位置，输入信号的粒度远远低于交互元素的响应粒度。

同时，由于触摸交互界面的形态仍然为二维界面，所以这限制了一些与三维交互元素的交互操作。

•三维交互界面

三维交互界面（3DUserInterface）的出现进一步提升了人机界面的自然性。

在三维交互界面中，用户一般通过身体（如手部或身体关节）做出一些动作（如空中的指点行为，或者肢体的运动轨迹等），以与三维空间中的界面元素进行交互，计算机通过捕捉用户的动作并进行意图推理，以触发对应的交互功能。

目前，三维交互界面主要存在于体感交互、虚拟现实、增强现实等交互场景中。

三维交互界面的优势是进一步突破了二维交互界面的限制，将交互扩展到三维空间中。

因此，用户可以按照与物理世界中相同的交互方式，与虚拟的三维物体进行交互，从而进一步提升交互自然度，降低学习成本。

不过，三维交互的挑战在于由于完全缺乏触觉反馈，所以用户动作行为中的噪声相对较大，而且交互动作与身体的自然运动较难区分，因而输入信号的信噪比相对较低，较难进行交互意图的准确推理，限制了交互输入的准确度。

此外，由于相对于图形用户界面和触摸交互界面，动作交互的幅度一般较大，所以交互的效率也较低，同时更容易让用户感到疲劳。

表1-1各种人机交互界面的特征比较

交互界面

交互接口尺寸

触觉反馈

输入精度

交互效率

自然性

命令行界面

大

有

高

低

图形用户界面

大

有

中

触摸交互界面

小

部分

较低

较高

三维交互界面

大

无

低

高

表1-1汇总比较了几种交互界面的特点，可以看出，随着交互界面的演变，交互的自然性逐渐提高，但由于交互接口尺寸的限制和触觉等反馈信道的受限，导致了输入的精度和交互效率反而逐渐降低。

这种交互自然性和高效性之间的制约关系，成为了人机交互研究中的难题，如何在两者之间兼顾和平衡，是具有重要理论和实践意义的研究问题。

1.3专家AITIME《论道人机交互VS智能》

2019年，清华大学人工智能研究院长张钹院士、唐杰教授、李涓子教授等人联合发起“AITIME”sciencedebate，希望用辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

AITIME是一群关注人工智能发展，并有思想情怀的青年人创办的圈子。

AITIME旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造成为北京乃至全国知识分享的聚集地。

AITIME第七期《论道人机交互VS智能》中邀请到了清华大学计算机科学与技术系长聘教授史元春、中科院软件所研究员田丰、中科院计算所研究员陈益强、小小牛创意科技CEO曹翔等四位重量级嘉宾，论道人机交互的发展及未来，现将其探讨内容整理如下。

1.3.1人机交互的先驱学者

1979年，当年轻的乔布斯拜访施乐PARC研究中心时，他看到了施乐新发明的图形用户界面（GUI），相比当时的文本命令行界面，程序图标、窗口化、下拉菜单和绚丽的图像效果把乔布斯狠狠地震撼了。

“仿佛蒙在我眼睛上的纱布被揭开了一样”，《乔布斯传》中如此描述乔布斯当时的感受：

“我看到了计算机产业的未来”。

乔布斯回到苹果后，迅速将GUI移植到苹果产品上，随后上市的Macintosh取得了轰动效果。

今天我们习以为常的触摸屏或图形用户界面，在40年前尚是石破惊天的革命。

在计算机横空出世的这近半个多世纪里，有一些学者做出了巨大的、直接的贡献。

•VannevarBush（范内瓦·布什）

1945年，在电子计算机尚未“出世”时，范内瓦·布什就发表了题为“AsWeMayThink”的文章，形象描述了未来个人电脑，一种被称为MEMEX的机器，阐释了直接交互、超链接、网络存储等概念。

•J.C.RLicklider（约瑟夫·利克莱德）

1960年，约瑟夫·利克莱德提出“人机共生”的思想，并在布什的领导下通过美国国家科技计划大力支持了人机共生理念下的图形与可视化、虚拟对象操控、互联网络等研究项目，在他的主导下，个人电脑、互联网络的标志性关键技术在六七十年代逐次诞生了。

约瑟夫·利克莱德领导的交互式计算，不但研发了分式操作系统，而且直接地引导了图形技术。

•DouglasC.Engelbart（道格拉斯·恩格尔巴特）

恩格尔巴特在1963年设计出一款手掌大小、以轮子为基础的设备，此设备也就是鼠标的原型，1968年在旧金山的秋季联合计算机会议上，恩格尔巴特先后演示了鼠标、所见即所得的文字编辑器、超链接、文本图形混排等，还谈到了阿帕网（ARPANet，互联网的前身）以及科技进步的未来。

他是人机交互的先锋，开发了超文本系统、网络计算机，以及图形用户界面的先驱；并致力于倡导运用计算机和网络，来协同解决世界上日益增长的紧急而又复杂的问题。

他被冠为“鼠标之父”。

在VannevarBush、J.C.RLicklider、DouglasC.Engelbart等先驱的推动下，在语言学、心理学、计算机科学的共同参与下，计算机从没有用户界面，到有了图形用户界面，开创了个人电脑以及互联网络等惠及整个社会的新产业。

未来，在新的传感和多媒体技术的共同支持下，机器将可以通过感知和数据处理技术来理解我们，来理解周围的环境，实现更自然、更智能的人机交互。

1.3.2嘉宾分享案例

每位嘉宾就所做所见，讲述了人机交互正在或即将发生的场景，这些场景基本代表了人机交互最新、最前沿的研究方向。

•WonderPainter

WonderPainter，由北京小小牛创意科技研发，是一款融合了人工智能、机器学习和人机交互为一体的新型技术，可以将任何静态物体立即转换成动画。

图1-2WonderPainter示例

曹翔老师现场展示了WonderPainter工作的典型例子。

一张普通的纸，一支普通的笔，画下天马行空的图画，再由手机采集起来，瞬间就可以转化成三维的动画。

曹翔老师希望通过这项技术，打破普通人表达创意的门槛。

•输入技术和相关理论

自然人机交互具有输入非精确性等新型特征，同时EMG等新的输入通道为自然人机交互提供了研究机遇。

如何建立针对新型特征的运动模型，并利用生理等新型通道感知用户交互意图是人机交互研究的重点之一。

田丰老师就此介绍了自己的两项工作。

一是运动目标获取非确定性模型。

在运动的画面中，如何知道用户真正想点击的是哪一个模块，其基本思路是：

1）构建落点分布模型，揭示落点分布与目

标初始位置、大小间的关系；2）对目标获取错误率进行预测；3）增强移动目标获取成功率。

二是基于EMG的交互意图隐式感知技术。

想象一下，你拿起一支笔，或者喝了一口水，不等你给机器传达命令，它就通过你的肌肉电信号，感知到了你现在正在做什么。

这就是田丰目前在做的另一项研究。

该项工作的主要思路是：

1）提出一种通过肌电感知技术对日常手部动作及所接触物品属性进行感知的方法；

2）通过布置手臂上的传感器捕获手部活动时的EMG信号；3）提取能表征EMG

信号的均方根、AR系数等特征并通过机器学习方法识别物体。

•多模态协同感知

陈益强老师指出，普适计算时代，未来的人机交互模式应该是多模态的。

我们既可以用键盘、鼠标、语音进行机器操作，也可以用手势、表情、唇语进行操作。

围绕“多模态”设想，陈益强提到了自己的两项工作。

一是基于多模态感知理论的手语识别。

陈益强将面部识别、手势动作识别和手语识别相融合，来提高手语识别的精度，以期帮助残障人士和外界沟通。

二是基于多模态感知理论的人机交互方法，利用语音，视觉，可穿戴等等，使机器人获知用户当前复杂行为及情感状态。

陈益强提到：

“人机交互的终极目标，是达到人机之间的无缝互动，仿佛人和人在交互一样。

因此，机器要准确感知到人的当前动作、行为甚至情绪。

我们基于多模态手段，如语音、面部表情、可穿戴生理指标检测等，试图解决这个问题。

”

•自然用户意图的准确理解

在使用手机软键盘时，经常发生误触的问题，26个字母挤在狭窄的输入界面里，再配上胖乎乎的手指，点错的经历太多了。

这是触屏这种自然交互界面上典型的难题：

胖手指难题。

输入信号脱离了实体按键，通过触屏控制输入仍然可以达到精准的输入效果。

图1-3全手型感应

史元春教授的研究工作，提出了基于贝叶斯推理的自然用户意图理解框架，建模用户行为特征，在模糊的输入信号上推测用户的真实意图。

基于这项技术，史元春教授的团队已经研究实现了手机、平板、头盔、电视等一系列接口上的输入法，输入准确度大幅度提高，且几乎不需要视觉瞄准，进而还能支持盲人用户准确实现软键盘输入。

史教授正在研制的手机前置摄像头的操控行为。

通过感知到人手在界面上的操作变化，可以做出新的“输入法”。

比如手握手机的任意边框或位置，就可以输入信息、访问界面。

这些操作无需经过人眼确认，通过字体感知即可实现准确输入。

这些成果已见诸实际应用，如：

电容屏防误触技术部署在了华为MATE系列千万量级手机上，智能输入意图推理算法应用在搜狗和华为的输入法上，无障碍手机交互技术应用于手机淘宝和支付宝等。

史元春教授指出，要建立一套理解人的意图表达的计算框架，还要继续在理论和传感技术上做

嘉宾从人机交互的理论和方法、与人工智能的关系和未来技术发展趋势和挑战、人才培养等方面发表了自己的看法并进行了热烈的讨论。

•人机交互的理论和方法

Q1：

交互界面的构建有计算模型吗？

Q2：

如何定量评估界面设计的效果？

田丰认为交互界面的构建是有计算模型的，但针对自然人机交互，研究者做了“点”上的研究，还没有完全系统化。

史元春教授同意以上观点，并指出定量评估的方法虽有，但很不充分。

不过借助相应的传感技术，定量评估的原理和技术都在不断拓展，这从红外反射监测血流、血压参数、情绪变化等一系列应用上就可以看出。

曹翔补充道：

人机交互很难用计算机模型衡量，是因为人机交互的任务是多样的，且越来越娱乐化，这令交互效率很难界定。

我们越来越需要通过生理指标衡量人机交互的体验，这里面一定需要定量数据。

明确的任务性的工作相对容易建模，因为目的很清晰；体验性的、娱乐性的、沟通性的工作比较难用计算的方式建模，因为其中夹杂着大量非简单人机交互的内容，例如人与人之间的互动等。

•人机交互与人工智能的关系Q1：

在中文上，两者都有关于“人”的研究，有共同的研究内容和方法吗？

Q2：

两者研究成果的价值体现有何异同？

Q3：

智能人机交互主要指什么？

Q4：

人机交互研究对AI有贡献吗？

陈益强提出：

要做好智能人机交互，必须做到个性化。

人脑智能分为三个部分，中枢神经、小脑和大脑，这三部分体现了不同程度的智能，可对应人机交互中的不同智能应用程度。

比如神经智能，中枢神经控制下的膝跳反射或条件反射就可和键盘鼠标触屏技术等传统人机交互技术相对应，注重实时的感知与执行，实现敲一下键盘，屏幕就弹出一个字。

而像语音识别、手势识别这一部分新型人机交互，就类似于小脑智能部分，侧重于基于学习或预测的执行，过程包括了感知-学习-执行。

而智能人机交互的终极目标，需要在感知刺激的基础上不仅有学习，还应有知识推理，而后决策执行，这类似于大脑智能层次，到了这个部分，人机交互应该能做到带情感甚至带有价值判断的智能人机交互。

史元春教授认为，人机交互应该让机器更好的适应人，适应人的本性，适应人的操控能力、感知能力和认知能力。

从“人”的研究内容上来说，人机交互与人工智能有差异，但出发点是一致的，即“人机共生”。

目前看，人工智能的研究更多的体现在人的识别、语言的表达等数据密集型任务上的处理方法，人机交互的研究更偏重于对人的主动交互行为和感知能力的建模、传感和建立适应的接口技术，人机关系必定向着共生的方向发展，这些研究内容和方法会相互影响和适应，交叠的研究内容会越来越多。

“做人工智能最后要接触人机交互，做人机交互最后也要接触人工智能。

”

田丰提出了“人机交互和人工智能从交替沉浮到协同共进”的观点。

未来的

计算机将是一个智能体，人与智能计算机的交互，即是人机协同；而从人工智能的角度讲，自动驾驶、自动诊断也讲求人机协同，两者殊途同归。

人机交互想解决不确定性，就需学习人工智能的方法，两者互相支撑，协同并进。

曹翔补充：

机器在不断地取代人力，未来所有带“老”字的职业，都将被

AI取代，例如老司机、老中医等。

为什么呢？

因为AI最擅长数据和经验，完全依靠经验驱动的职业很可能被AI取代。

创造性的、沟通性的、娱乐性的工作，则是不可被AI取代的，这就体现出了人机交互的重要性。

陈益强不完全同意曹翔的观点，他指出：

“我认为带‘老’字的职业都不会被取代。

例如一台自然语言处理及知识推理能力极强的类似医疗诊断机器，它可以借助公开发表的文献（大数据）习得80%的经验，但剩余20%的疑难杂症（小数据）无法习得，这部分只能求助于‘老’医生。

”

•如何评论未来交互技术的发展

Q1：

最近出版的《科技之巅》总结了近十年全球百项突破性技术，包括IT、能源、生物医药、材料等共十章。

其中，人工智能与人机交互分列第一和第二章，

HCI主要集中在手势、语音交互和穿戴产品，可否对现在人机交互技术和未来交互技术的发展做评论？

Q2：

您最关心的HCI挑战是什么？

史元春教授讲道：

“未来计算机的形态会变化，甚至可能不存在了，但计算机技术会持续为我们服务，成为人机共生的一部分，交互接口、交互任务会有很大的变化，但会更自然，更智能。

”

陈益强指出，普适计算可以使手环、穿戴设备等计算机形式化于无形，就像看不见摸不着的空气一样。

例如穿戴设备可以附着在衣服、鞋子里，实现人机共生。

最后在材料、计算技术的进步下，真正实现对人类自然行为的意图理解，助力解决人口老龄化、阿尔茨海默病早期预警等。

曹翔最关心的是，如何通过机器、技术放大个人的创造力，从而帮助个人在社会和工作中立足。

“我们五感的潜力，不只局限于物理世界的刺激。

随着技术的进一步发展，我们可以挖掘更多的感官体验力，创造全新的体验。

”

田丰老师更关注如何通过人机交互的研究推动相关产业的发展，产生主流的影响。

例如电子白板对中国教育信息化的推动，人工智能对帕金森、脑卒中、阿尔茨海默、痴呆等做辅助诊断等。

值得一提的是，田丰带领团队研发的笔式电子教学系统获得了国家科技进步二等奖，并与协和医院共同取得了国家卫健委颁发的医疗健康人工智能应用落地30最佳案例的荣誉。

•人机交互的人才发展路径Q1：

工业界需要什么样的交互人才？

Q2：

学校如何培养人机交互人才？

Q3：

如何判断自己适不适合做人机交互？

史元春教授提到：

“我们培养的人才应该能够发现交互难题，并且能通过科学的方法来解决这个问题”。

曹翔赞同史元春教授的观点，并补充道：

“交互设计师、用户研究员等对口培养的专业，不难找工作；难找工作的是把人机交互作为一个研究领域去学习的学生，因为现有的一个萝卜一个坑的职业体系，并不太适合跨学科的人才，但创业特别需要这样的”。

如何判断自己适不适合做人机交互？

曹翔提醒道，跟“风口”很不靠谱，兴趣才是首要的。

2技术篇

本篇基于用户与系统之间进行交流操作所主要使用的触摸、手势、语音和视觉等自然感官的顺序来进行相关技术介绍。

具体包括触控交互、声控交互、动作交互、眼动交互、虚拟现实输入、多模式交互以及智能交互等人机交互技术。

2.1触控交互

显示器从仅向用户输出可视信息到成为一种交互界面装置主要是归因于触控功能与显示器的一体化模式，尤其是在移动装置上的使用。

从1965年第一份电容触摸屏报告诞生至今[5]，经过近几十年的发展，触控式交互技术已经成功应用于全球主流消费品，触控式交互技术能让人们通过触摸就能直接与屏幕内容互动，让人们不用或进行很少的训练就能有更为便捷的使用体验。

有很多不同的技术能够实现触控式交互，下面我们简要介绍电容、电阻、光学和声学交互技术[6]。

•电阻式触控技术

电阻触摸屏通过压力感应原理来实现对屏幕进行操作和控制。

当手指触摸屏幕

展开阅读全文