中国工程院院士赵沁平虚拟现实技术研究进展.docx

资源描述

中国工程院院士赵沁平虚拟现实技术研究进展.docx

《中国工程院院士赵沁平虚拟现实技术研究进展.docx》由会员分享，可在线阅读，更多相关《中国工程院院士赵沁平虚拟现实技术研究进展.docx（7页珍藏版）》请在冰豆网上搜索。

中国工程院院士赵沁平虚拟现实技术研究进展.docx

中国工程院院士赵沁平虚拟现实技术研究进展

虚拟现实技术研究进展赵沁平周彬李甲陈小武虚拟现实技术与系统国家重点实验室（北京航空航天大学）；北京航空航天大学计算机学院，北京100191

引用格式：

赵沁平,周彬,李甲,等．虚拟现实技术研究进展[J].科技导报,2016,34（14）:

71-75;doi:

10.3981/j.issn.1000-7857.2016.14.008

摘要:

分析了虚拟现实VR的发展过程、基本特点和主要应用，从VR设备、VR内容、VR交互3个方面概述了VR当前的主要研究目标和研究成果，探讨了VR进一步研究的技术方向。

关键词:

虚拟现实；VR硬件；VR内容；VR交互

虚拟现实（virtualreality，VR）是以计算机技术为核心，生成与一定范围真实环境在视、听、触感等方面近似的数字化环境。

它是人类在探索自然、认识自然过程中创造产生、逐步形成的一种用于认识自然、模拟自然，进而更好地适应和利用自然的科学方法和技术[1]。

用户借助必要的装备与其进行交互，可获得如临其境的感受和体验。

VR涉及心理学、控制学、计算机图形学、计算机图像处理、计算机视觉、数据库设计、实时分布系统、电子学和多媒体等多个学科，具有较强的学科综合性和交叉性，已成为科学技术探索过程中除理论研究、科学实验之外的第3种手段。

由于VR的综合性和不可替代性，世界各国均重视VR技术的战略研究。

美国工程院2008年公布了经评选产生的21世纪人类在工程技术领域所面临的14个重大挑战性问题，其中2个重要问题与VR技术密切相关。

英国2006年12月发布了“2015—2020年8个新兴科学技术集群的战略报告”，其中6个涉及VR的研究内容。

日本政府2007年5月发布了“创新2025”长期战略报告，其中第5方面指出了VR对未来的重要性。

澳大利亚政府投入11亿澳元的“超级科学计划”涵盖了3大优先领域的科研基础设施建设，其中信息通信技术领域的主要发展方向涉及VR研究。

中国2006年颁布的《国家中长期科技规划纲要（2006—2020）》也将VR列为信息领域优先支持的3个方向之一。

一、VR发展过程、基本特点及主要应用

1.1VR产生与发展现状VR从产生萌芽，到形成思想，再到独立发展，先后经历了以下主要阶段。

第一阶段集中在20世纪50—60年代，主要代表包括1956年MortonHeileg开发的摩托车模拟器Sensorama、1965年IvanSutherland提出的终极显示（ultimatedisplay）概念[2]等。

由于受计算机技术本身发展的限制，这一阶段VR技术发展不是很快，处于思想、概念和技术的酝酿形成阶段。

第二阶段发源于20世纪80年代，主要代表包括1983年美国DARPA（DefenseAdvancedResearchProjectsAgency）的SIMNET计划、2002年NVIDIA和ATI等公司推出图形处理器GPU单元等。

该阶段VR进入快速发展期，VR主要研究内容及基本特征初步明朗，在军事演练、航空航天、复杂设备研制等重要应用领域产生了典型应用。

中国科研人员自20世纪90年代开始对VR进行研究，其中有一批重点实验室长期开展基础研究，如北京航空航天大学虚拟现实技术与系统国家重点实验室、浙江大学计算机辅助设计与图形学国家重点实验室、北京理工大学光电学院研究团队、中国科学院计算技术研究所、清华大学、中国科学技术大学及中国人民大学等。

“十二五”期间，科技部设置了虚拟现实与数字媒体主题，科技部和国家自然科学基金从VR显示、VR内容感知、VR内容智能处理、VR内容生成、VR内容呈现、VR交互等方面，部署了多项国家重点基础研究发展计划（973计划）项目、国家高新技术研究发展计划（863计划）项目和重大项目。

目前，计算机技术得到了高速发展，互联网、移动终端等改变了人类生活、工作的方式，VR正处于第三阶段前期。

该阶段的标志性事件是2014年OculusRift头盔显示器的研制以及Facebook以20亿美元收购Oculus。

这一阶段VR研究和应用向高端和民用两个方向拓展，特别是在民用领域得到极大发展，VR技术开始普及化和商业化。

为促进VR“产、学、研、用”等协同发展，2015年12月成立了中国虚拟现实与可视化产业技术创新战略联盟。

自2016年起，江西南昌、山东青岛、福建福州等政府部门，均开始筹备VR产业基地。

VR研发热潮正在兴起，2016年更被称为“VR元年”。

1.2VR的基本特点VR典型的特征被概括为“3I”，即沉浸感（immersion）、交互性（interaction）和构想性（imagination）。

其中沉浸感是指虚拟环境“欺骗”人体视觉、听觉、嗅觉、味觉、触觉等多种感官，给参与者带来临场感；交互性是指在虚拟环境中提供参与者适人性化的人机操作界面和自然反馈；构想性是指通过沉浸感和交互性，使参与者随着环境状态和交互行为的变化而对未来产生构想，增强创想能力。

近年来，随着大数据和互联网等研究和应用的兴起，利用对图像、视频、行业大数据的分析和学习以高效建模成为热点，提升虚拟环境的自适应性日益受到关注，智能化（intelligence）成为新时期VR研究与应用的重要特征。

1.3VR的主要应用VR从产生之初就受到许多行业的高度关注，特别是需要消耗大量人、财、物以及具有危险性的应用领域。

例如，在军事、航空航天等领域研制了分布式虚拟战场环境和哈勃望远镜的维修训练系统等，并取得令人瞩目的成功。

除上述领域外，VR被广泛应用于公共安全、工业设计、医学、规划、交通和文化教育等行业和部门[3]，开发了多种类型的应用系统，产生了巨大的经济和社会效益。

互联网在不断的发展过程中，与电子政务、电子商务、行业信息化深度融合，产生了“互联网”，在促进应用发展的同时，对自身技术也产生了需求。

与“互联网”一样，VR也是各行业都可以采用并助力自身发展的一项重要技术，“VRX（应用领域）”成为一种新的发展趋势，VR进入了“时代”。

目前VR技术也在融入互联网，形成“互联网VR”的模式。

二、VR主要技术方向

2.1VR硬件VR硬件包括显示设备、力触觉交互设备、专用芯片等。

VR显示设备直接影响了用户对于虚拟环境的感受。

目前主要的VR显示设备有头盔显示器、3D立体眼镜、真三维显示、全息和环幕等。

头盔显示器（head-mounteddisplay，HMD）是VR中最典型的显示设备[4]。

一般而言，HMD上均安装有头部运动跟踪装置。

用户佩戴上HMD后，在其头部运动时，HMD可以计算出对应于用户当前姿态的虚拟对象的位姿并将其显示在HMD的屏幕上。

HMD的近期典型代表包括：

1）谷歌于2014年6月推出的纸壳式眼镜Cardboard。

这类设备内部没有计算平台和显示屏，使用时可将智能手机放入镜片后的托盘中，通过一对凸透镜将手机画面传送至双眼以提供三维观看效果，并通过手机内置螺旋仪检测头部转动以改变显示内容。

此类设备成本低但效果一般。

2）三星和OculusVR于2014年9月联手设计的GearVR。

该类产品的内容输出和算法平台还是智能手机，但产品本身也内置了动作传感器，可以更精确地感知头部转动，因而比VR眼镜的沉浸感更强。

3）OculusRift和HTCVive等设备将电脑作为主要的VR内容运行和计算平台，可以实现六自由度的运动交互，沉浸体验大幅度提升，SonyProjectMorpheus则是以索尼PlayStation为运行和计算平台。

4）一体机头盔是传统的VR显示设备，集成了显示、计算、存储、交互等所有模块，其性能高，但体积大，价格偏高，典型代表是微软的HoloLens。

VR力触觉交互设备能够使参与者在虚拟环境中实现触觉和力感等视觉、听觉之外的感觉，目前的研究还处于初级阶段。

东京大学研制出一种能像人类皮肤一样，感测出施加在表面上的力的大小和方向的新型传感器，据此可以开发出具有接近人类力觉的机器人手。

2009年芬兰的Linjama等、2010年美国迪斯尼研究中心的Bau等、2012年NOKIA实验室与剑桥大学等，分别利用静电力反馈研制出E-Sense、TeslaTouch、ET等表面触觉反馈系统，能在触摸显示屏幕表面实现触觉纹理的再现。

2013年美国西北大学的Colgate等研制了便携触觉再现终端TPaDFire，在配备6500mA·h的电池情况下可连续工作超过5h[5]。

此外，VR芯片平台已经成为国际著名芯片厂商的抢占热点。

例如，AMD的图形芯片部门RadeonTechnologiesGroup于2015年9月推出虚拟现实解决方案LiquidVR，它包含数据锁定、异步着色引擎、多GPU异步渲染等新功能，能够以更低的延迟实现更优质的画面，以提升VR沉浸体验。

NVIDIA于2015年11月发布了两款虚拟现实开发工具，包括面向游戏开发人员的GameworksVR和面向设计人员的DesignWorksVR。

这些工具可以加快立体渲染性能。

高通于2015年12月发布了首款64位四核CPUSnapdragon820，其内部集成了新一代GPUAdreno530，能够实时呈现立体摄像机拍摄的高清视频，可以促进头盔显示器等VR设备沉浸感体验的进一步提升。

2.2VR内容VR需要处理的数字化内容类型众多，按照不同处理阶段，可以划分为获取、理解、建模、呈现4个方面。

2.2.1获取VR内容的几何属性获取主要通过光学和立体视觉的方法。

近期典型的光学方式是TOF（time-of-flight），其原理是依靠主动光照射到采集对象上，按照返回光线的先后顺序来测量对象的深度信息。

该方法采集到的三维数据精度低，但是设备轻便、便宜。

立体视差法是被动式方法的代表，根据三角测量原理，利用对应点的视差可以计算视野范围内的立体信息。

这种方法模拟人的视觉方式，以2部位于不同位置的相机对同一目标拍摄2幅图像，得到一组“像对”。

对于目标上的一个采样点，根据它在2幅图像中的像点和相机位置，计算它们的交会点坐标，就是采样点的空间坐标。

立体视觉方法在无明显纹理或者重复性纹理的场景下，由于很难找到“像对”，具有较大的技术难度。

在表面属性获取主要通过不同光照和视点条件的图像获取物体表面属性，例如美国麻省理工大学和哥伦比亚大学的4Dcamera。

它将场景的光线和物体进行分离，这样捕获的物体就是一个“裸物体”，不受捕获时的光线影响。

目前主要研究难点和热点在于动态物体或半透明物的表面属性获取[6]。

在人体运动捕捉方面，较为成熟的技术多基于电动机械、电磁和特殊光学标志等，其中基于标志的系统（如ViconMX等）得到了普遍的应用，能获取精确的运动数据，但价格昂贵。

近年来随着廉价数字摄像机、低成本体感传感器的普及，基于视频及少量传感器的无标志人体运动捕捉越来越成为研究热点。

2.2.2分析图像视频在人类所涉及的数据信息中所占比例越来越大，如何进行图像视频的语义分析与利用是重要的前沿问题。

目前的研究主要包括视觉认知计算模型、特征的提取与表示、特征的融合与处理、特征与语义的关联等。

但是，底层描述与高层语义之间不是简单的对应关系，具有语义的中高层特征至关重要，“语义鸿沟”依然是当前的研究难点。

语音分析识别技术是让机器把语音转变为相应的文本或命令的技术，而且不同语种之间的语音-语音翻译将成为研究热点。

在文本语义分析利用方面，分词、检索等已经达到可用，翻译、问答需求大，通用、高质量的自然语言处理系统仍然是长期目标。

随着深度学习、增强学习、自主学习、群智学习等方法技术的发展，这些技术往往与人类大脑在结构和机理等方面具有相似性。

基于这些技术，近年来对文本、图像、视频、音频、三维模型等素材的分析与理解取得了较大进步，例如无监督条件下图像视频的语义分割与理解[7]、基于深度学习的三维模型部件级语义分割与理解[8]等，特别是在物体识别等部分领域已经达到甚至超过了人类的表现。

随着计算机对图像、音频、视频等素材的分析能力的提升，根据用户的个性化需求，自动大规模建模生产在视、听、力、触、体、味等方面与真实世界类似的VR内容，已经不再是天方夜谭。

2.2.3建模VR内容的几何外形构建技术已较为成熟，数据驱动的三维构建与生成已经成为当前的研究热点，例如特征结构保持的三维模型编辑传播[9]、图像数据驱动的人体服装与室内三维场景演化生成[10,11]等。

光场构建在动态环境和半透明物体等方面仍需要大量的进一步研究[12,13]。

伴随着多核CPU和GPGPU的发展，基于物理的自动化模拟正朝着更大规模、更多细节的实时模拟方面发展，已成为交互式VR技术的重要研究方向。

角色肢体动作智能化生成、人脸动态表情识别与构建、虚拟角色智能行为等智能化建模技术，涉及自动控制、人工智能、生物力学、解剖学等交叉学科，得到了国内外的广泛关注与研究[14]。

目前VR主要集中在虚拟环境与对象的固定拓扑几何建模和动力学物理建模。

如何建立其可变拓扑几何模型和更为全面的物理模型，甚至建立可自我演化、具备一定“生命力”的智能模型，使得VR系统不仅在视觉上有更全面的逼真表达，而且在功能和环境/事件的动态演化、活体对象行为的智能化方面也有较为逼真的体现，是未来VR技术必须解决的关键问题。

此外，现实世界包含了复杂、动态、多源、海量的数据。

如何高效采集这些数据并对其进行自动化分析、实时建模，使VR系统能真实表达瞬息万变的现实世界，与现实世界“同步”发展，是一个智能化建模问题，也是未来VR需要解决的另外一个关键问题。

2.2.4呈现随着三维信息数据量的不断增加，海量数据的逼真实时绘制技术成为重要研究方向，外存模型的组织与处理、并行绘制和GPU计算等成为研究的关注点。

在普适硬件平台上展示超大规模复杂场景，特别是对具有逼真效果的场景、多种内容融合等仍是研究难点。

此外，增强现实（augmentedreality，AR）是将计算机产生的虚拟对象融合到用户所观察的真实环境中，以拓展和增强用户对周围世界的感知能力[15]。

与VR相比，AR与真实世界的联系并未切断，交互方式更加自然。

事实上，将现实物理世界和虚拟世界实时合并混合，形成新的能够实时互动的可视环境，统称为混合现实（mixedreality，MR）。

AR是MR一种典型代表。

三维跟踪定位[16]是实现AR的主要技术保证，尤其是高精度、无标志物跟踪定位更是研究中的难点。

英国牛津大学采用SLAM技术结合并行运算实现了小范围未知场景下的实时跟踪定位；剑桥大学利用惯性传感器与视觉测量相融合的技术实现了户外场景（校园范围）的实时无标识跟踪定位；美国斯坦福大学利用GPS进行初始定位，结合图像快速检索技术，在手机上初步实现了户外增强现实导航功能；奥地利GrazeUniversityofTechnology用FAST算子代替SIFT特征提取算子，同时改进Ferns识别分类算法中树簇的大小，在手机上实现了10帧/s左右的无标识跟踪定位。

2.3VR交互VR交互重点研究符合人类习惯的交互技术，以提高人对复杂信息的认知能力。

传统人机交互主要通过鼠标、键盘及操纵杆等设备实现。

多通道交互方式是以用户为中心，采用视觉、语音、姿势、表情等多通道，实现高效的人机交互。

智能语音交互技术包括语音识别、语音合成和语义理解。

语音识别技术将用户输入的语音转化为相应的文本或命令，语音合成技术将文本转换成机器合成的语音，语义理解技术从语音识别输出的文本中获取语义信息从而理解用户的意图。

2011年，微软研究院通过引入深度神经网络，使得在特定语料库上的语音识别准确率得到了大幅提高，性能改善30%左右。

近年来，基于数据库的语音合成方法成为研究热点，该方法的语音基元来自一个预先录下的庞大的语音数据库，合成语句的清晰度和自然度均有较大程度提高。

体感交互利用深度相机等对用户手和身体的运动进行跟踪，完成自然的人机交互。

利用体感交互技术，人们可以很直接地使用肢体动作与周边装置或环境互动。

2010年索尼推出新一代体感设备PlayStationMove，该设备不仅会辨识上下左右的动作，还会感应手腕的角度变化，无论是运动般的快速活动还是用笔绘画般纤细的动作都能重现。

同年，微软也发表了全新体感设备Kinect，该设备同时使用激光和可见光摄像头来获取人体影像信息，捕捉人体3D全身影像，不受任何灯光环境限制，无需使用任何体感手柄，便可达到体感的效果[17]。

2014年5月，美国Leap公司推出了一套体感运动控制系统LeapMotion，该系统可以追踪多个物体并识别手势，能够追踪到几毫米范围的动作，例如用户写字或画画等精准动作。

脑机接口技术的主要研究途径是通过在人脑（或动物脑）与外部设备间建立直接连接通道，使人直接通过脑来表达想法或操纵设备。

脑机接口系统一般包括信号采集与记录、数据处理、外设与接口等部分。

其中，信号采集与记录部分利用电极采集使用者的脑电信号，并对信号进行放大和滤波；数据处理部分利用特征提取、特征选择分类等，对脑电信号进行分类识别；外设与接口部分通过控制接口将逻辑控制信号转换成语义控制信号，通过设备控制器将语义控制信号转换成设备控制信号，通过显示装置产生执行思维任务的指示。

目前绝大部分脑机接口研究仍处于实验室研究阶段，还有许多需要解决的问题。

眼动跟踪技术主要用于测量用户注视点或视线方向，可以作为一种替代鼠标和键盘的新型交互方式，例如Dasher眼控打字系统等。

2013年初，韩国三星公司推出了基于这种思想的新型GalaxyS4智能手机，新增基于眼凝视追踪功能的眼控滚动功能，主要应用于网页浏览和电子书阅读等。

三、VR主要发展趋势

新一代VR在建模与绘制方法、交互方式和系统构建方法等方面都提出了更高的需求。

为了满足这些需求，近年来VR研究也取得了快速发展，表现出了一些新的特点和发展趋势。

有关学者对这些特点进行总结，归纳为以下7个方面。

1）人机交互的适人化。

构建适人化的和谐虚拟环境是VR的目标。

实际上，头盔等设备虽然能够增强沉浸感，但在实际应用中效果并不好，并未达到沉浸交互的目的。

采用人最为自然的视觉、听觉、触觉、自然语言等作为交互方式，会很好地提高VR的交互性。

2）计算平台的普适化。

随着计算机技术的发展，计算已经无处不在，计算平台也发展为多种类型，从高端的大型机、桌面PC，发展到低端的各种手持式计算设备。

在VR系统中加入这类设备并结合无线网络，能较好地满足实际使用中便携和移动的要求。

3）虚实场景的融合化。

VR将现实环境的要素进行抽象，通过逼真绘制方法进行表现，但毕竟无法完全还原真实世界，因此将真实世界与虚拟世界有效融合具有研究和实际意义，AR就是这样一种技术。

AR作为VR的一个重要分支，不仅继承了VR的特点，而且其对真实场景的增强效果，在某些应用领域逐渐显示出比VR更明显的优势。

4）场景数据的规模化。

数据的规模化是大型VR应用的显著特点。

通常而言，VR系统数据的规模化包括两方面的含义，一方面是分布式VR系统中节点和实体数量的规模化，另一方面是建模与绘制过程中场景几何数据的规模化。

规模化的数据即使在高端计算平台上也是需要研究的问题，而且智能化分析与处理也日益成为关注的问题。

5）环境信息的综合化。

传统的VR系统对自然环境的建模往往仅考虑地形几何数据，对大气、电磁等环境信息采用简化方式处理。

为了更真实表现环境效果，需要考虑不同类型的数据，如地理、大气、海洋、空间电磁、生化等，并用不同的表现方式进行表现。

6）传输协议的标准化。

在构建分布式VR系统的过程中，网络协议是研究与应用的一项重要内容。

已有的对应国际标准均是基于专用的网络环境，所制定的传输协议也都是基于专用网络环境和资源预先分配这两大前提。

随着在Internet上VR应用的开展，基于公网的标准化工作将得到更深入的研究和普及。

7）领域模型的集成化。

分布式VR系统中各节点的软件需要根据具体的应用需求来研制，软件开发与维护工作量大。

随着虚拟样机、体系模拟等的发展，需要快速根据应用的变化对各个分系统进行定制。

因此，需要研究VR系统的节点软件设计开发技术，使之能够满足快速适应应用的需要，同时减少开发与维护的工作量。

四、结论

经过近60年的发展，VR的基本概念和基本实现方法已经初步形成，并取得了很多较好的应用成果，但要真正实现一个高度逼真、自然可交互、可进行大众化推广应用的VR系统，仍面临很多基本的理论与技术挑战。

目前VR领域的重要技术问题包括：

VR环境的智能程度较低；用户可交互可操作的功能有限；虚拟和真实世界的融合繁琐低效；对象演化模式缺乏生命力；虚拟环境呈现的整体沉浸感不足。

此外，目前VR内容比较稀缺，形式较为单一，难以满足行业领域对VR内容大众化、个性化生产的迫切需求。

因此，一方面需要加强研制具有较高智能化程度的生产工具，另一方面需要加强培养VR专业人才。

参考文献（References）

[1]ZhaoQP.10Scientificproblemsinvirtualreality[J].CommunicationsoftheACM,2011,54

（2）:

116-118.[2]SutherlandEI.Theultimatedisplay[C]//ProceedingsoftheInternationalFederationofInformationProcessingCongress.NewYork:

IFIP,1965,65

（2）:

506-508.[3]SteedA,FristonS,LopezMM,etal.An'IntheWild'experimentonpresenceandembodimentusingconsumervirtualrealityequipment[J].IEEETransactionsonVisualizationandComputerGraphics,2016,22（4）:

1406-1414.[4]HoskinsonR,NaugleE.AMobilehead-mounteddisplayforactionsports[C]//ProceedingsofThirdFTRAInternationalConferenceonMobile,Ubiquitous,andIntelligentComputing（MUSIC）.Vancouver,BC:

IEEE,2012:

1-4.[5]MarchukDN,ColgateJE,PeshkinM.FrictionMeasurementsonalargeareaTPaD[C]//ProceedingsofIEEEHapticsSymposium.Waltham:

IEEE,2010:

317-320.[6]DamghanianM,OlssonR,Sj?

str?

mM.PerformanceanalysisinLytrocamera:

Empiricalandmodelbasedapproachestoassessrefocusingquality[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing（ICASSP）.Florence:

IEEE,2014:

559-563.[7]ZhangY,ChenXW,LiJ,etal.Semanticobjectsegmentationviadetectioninweaklylabeledvideo[C]//ProceedingsofIEEEConferenceonC

展开阅读全文