光学创新20苹果AR深度分析报告Word格式.docx

资源描述

光学创新20苹果AR深度分析报告Word格式.docx

《光学创新20苹果AR深度分析报告Word格式.docx》由会员分享，可在线阅读，更多相关《光学创新20苹果AR深度分析报告Word格式.docx（37页珍藏版）》请在冰豆网上搜索。

光学创新20苹果AR深度分析报告Word格式.docx

如何理解3D成像？

人机交互历来是消费电子创新的重点区域，始终向更加高效、更低学习成本、更加自然的方向演进。

盘点消费电子前进道路上的里程碑，我们发现，真正被用户认可并买单，引发需求端换机热潮的标志性创新，总是集中在人机交互领域，并围绕输入输出体验的提升而展开：

电容触控、Retina屏、大尺寸屏幕、3D玻璃、指纹识别、快充、3DTouch、OLED、双摄……背后的逻辑在于，人机交互是最容易为消费者感知，也是最直接决定用户体验的环节；

而产品内部（如芯片、PCB、被动元件等）虽然同样重要，却不易被消费者感知。

可以看到，从早期的打孔纸带，到图形界面，触屏，再到语音识别，人脸识别，自然的方向在演进。

而当前人机交互整体仍停留在二维时代，事实上已落后于硬件性能的飞升，新一轮以AI、AR、人脸识别技术为核心的，由2D迈向3D的交互世代升级是大势所趋。

而3D成像则是开启3D交互的钥匙。

3D交互必然基于影像信息，作为影像信息的唯一入口，摄像头本身兼具娱乐和交互双重属性。

3D成像恰恰激活了摄像头的交互属性：

在3D成像之前，手机摄像头发展的主线都围绕拍照功能，对交互似乎有所忽略，仅仅停留在扫二维码等初级应用层次。

而3D成像则解锁了光学的交互属性：

2D包含的信息有限，VR/AR、手势识别等下一代交互都需要三维信息输入；

3D成像赋予手机获取三维图像信息的能力，从而能够对接这些高级场景，带动交互向三维世代升级。

因此，3D成像意味着“拍照”到“入口”的拐点来临，开启光学入口信息新浪潮。

图3：

3D成像激活了摄像头的交互属性

可见，3D成像不只是为了拍照，更关键的是要获取深度信息，重建真实世界以服务于后续的交互动作。

如果只是要把照片拍好，那双摄已经可以基本满足要求；

而如果要借助光学去人机交互，3D成像则必不可少。

可以说，正是交互的需求催生了3D成像。

如同曾经的触控将人机交互由一维拓展到二维平面，3D成像带来的是二维到三维的又一次升级，是新一轮交互大革命。

3D成像如何“上机”

3D成像并非新鲜技术，此前在微软Kinect等体感设备中已相当成熟。

然而将3D成像搭载在手机却并不容易，关键在于体积做小，算法化简。

3D成像目前有三种主流解决方案：

n结构光：

结构光使用提前设计好的具有特殊结构的图案（比如离散光斑、条纹光、编码结构光等），将图案投影到空间物体表面上，用另外一个相机观察在三维物理表面成像的畸变情况，进行图像匹配比较并计算出深度信息。

结构光对物体拍摄两次即可实现3D距离的探测，其他计算过程都由本地处理器完成，延时非常短，测量速度快，同时经过多年的技术发展，模组体积已经较小。

结构光最早被应用于微软的明星产品Kinect上，迄今已有8年，可谓是经过了时间验证的成熟方案。

nTOF：

TOF（TimeofFlight）的测距原理是通过给目标连续发送光脉冲，用传感器接收从物体返回的光，通过探测光脉冲的飞行（往返）时间来得到目标物距离。

TOF由照射单元、光学透镜（镜片+窄带滤光片）、TOF传感器、控制单元和计算单元构成，原理与结构光殊途同归，都是属于主动光探测方案。

TOF的优势在于远距离探测，不易受到环境光线的干扰，但是TOF芯片每一个像元要对入射光往返相机与物体之间的相位分别纪录，

传感器结构比普通图像传感器更复杂，单个像素要大得多，成本和体积更大。

双目视觉技术：

该技术方案通过两个RGB摄像头模仿人的双眼，通过标定后的双摄像头得到同步曝光图像，然后计算获取的二维图像像素点的第三维深度信息。

代表厂商是在手势识别领域的领先者LeapMotion。

图4：

结构光方案示意图

图5：

TOF方案示意图

双目方案算法实现非常复杂，寻找像间对应关系时需要特征提取、特征匹配等一系列复杂的算法，同时光照变化、光线明暗等外在因素的影响会对算法提出更大的挑战。

相比于双目的被动方案，基于主动光探测的结构光/TOF具有算法简单，响应速度快，识别距离范围大等优势，因而更加契合交互场景的要求。

而就TOF与结构光之间对比而言，结构光在便携性、成本、成像速度与延时方面占据优势，将率先借苹果新机登陆前置镜头；

而TOF抗干扰性更好，探测距离远，未来将在后置镜头大展拳脚，对接长距应用场景。

表2：

3D成像3种路径对比

引爆深度交互新浪潮，3D成像补齐AR输入最短板

AR（AugmentedReality，增强现实）是一种实时计算摄影机影像位置及角度，在真实世界的基础上叠加虚拟图像的技术，目的是在屏幕上把虚拟世界套在现实世界之上并进行互动，充分体现了“虚实结合”的思想。

增强现实系统具有三个主要特征：

虚实结合、实时交互、注册跟踪。

虚实结合要求AR系统对虚拟与现实信息准确融合并完美呈现；

实时交互指借助交互接口设备，以自然的方式对AR环境进行实时影响，与VR系统中的交互设备可以互通使用；

而注册跟踪是AR技术的灵魂，注册指AR系统需要建立虚拟空间坐标系与真实空间坐标系的转换关系，使得虚拟物体能够合并到真实世界的正确位置上，伴随着观察者位置的变化，系统要实时捕捉观察者的视角重建坐标系关系，也就是跟踪的过程。

图6：

增强现实系统结构及核心技术

其中，注册跟踪技术是AR的核心技术。

将虚拟物体显示在现实世界准确位置的定位过程称为注册，按照观察者的当前视场重新建立坐标系并将虚拟物体显示到正确位置的过程称为跟踪。

注册跟踪的目的是判断用户所处的位置并确定添加虚拟内容在摄像机坐标下的位置。

比如说，在AR辅助导航中如果想把导航箭头“贴在”路面上，就一定要知道路面相对于自身的位置，进而将“箭头”进行三维变换使之与真实的路面合二为一。

当然，前提是需要利用物体检测识别技术从二维图像中寻找符合路面特征的物体。

随着计算能力的提升，注册技术从早期将已知的二维marker放置在空间中进行位置标定，演进到在陌生环境中依靠视觉算法实现自身定位并重建环境地图。

目前跟踪定位技术的主流路径是SLAM（即时定位与地图构建）。

SLAM根据摄像头、惯性传感器捕获的视觉/运动信息，在计算自身位置的同时构建关于空间的全局地图。

受制于计算量，AR中应用的主要是基于稀疏点的视觉SLAM，其步骤包括图像捕获-特征点提取-与全局地图比对-位姿计算-地图更新。

伴随用户在空间中的运动，可以观察到一些相同特征点在不同时间点的三维坐标，根据坐标逆变换原理计算用户在空间所处位置、运动轨迹，并将这些特征点作为空间场景的结构化信息存储起来成为全局地图，随着用户的移动范围扩大，全局地图包含的场景信息愈发丰富，最终成为用户对环境的全面感知。

辅以机器学习技术，将不仅能够判断前方有障碍物，还能够识别出它是一面墙亦或一张桌子。

在增强现实中，虚拟物体与空间场景中的坐标成一一映射关系，SLAM得出的位置信息帮助我们判断图像渲染的视角，对空间场景的理解使得影像投射符合物理规律（例如全局地图显示前方有大量障碍物，一个虚拟的地球仪不应出现在障碍物内部）。

表3：

主流注册跟踪技术

图7：

基于稀疏特征的视觉SLAM与HoloLens采用的SLAM计算流程

3D成像所获取的深度信息对SLAM必不可少。

SLAM从二维图片到三维空间的映射需要深度信息，所有基于SLAM的AR专用硬件或解决方案都搭载了3D成像。

微软发布的HoloLens头显配备了四台摄像头，可以实时计算空间深度图，进而通过其拥有的KinectFusion专利技术（本质上是基于Kinect深度图的SLAM技术）实现精准的位置定位与跟踪；

联想与谷歌联合开发的Phab2Pro手机，基于Tango的SLAM技术，该手机配备的深度摄像头和动作追踪摄像头能够对现实空间进行三维建模，为各类AR体验奠定了硬件基础。

MagicLeap同样借助基于视觉的稀疏点SLAM解决定位与环境感知问题，因此也必然会搭载3D成像。

可以说，3D成像正是AR不可或缺的输入方式。

而在轻量级的移动AR领域，此前3D成像没有跟上。

以往的2D摄像头由于不能获取深度信息，无法达到对环境的精准理解，导致大部分移动端的应用都功能简单，与浸入式体验要求相去甚远。

3D成像技术大规模导入手机之后，移动端输入上的短板将被补齐，为新一轮的移动AR浪潮奠定了先决条件。

从双摄到3D成像，苹果率先开启光学交互新蓝海

苹果是人机交互的专家，在光学方面尤其不会落后。

苹果深谙交互创新对下游的意义，光学一直是其重要的卖点。

从iPhone3G到iPhone7P，沿着“像素升级—拍照性能提升—双摄”的路径，配置持续提升。

而本次的十周年纪念机iPhoneX再进一步，在前置镜头组导入3D成像，由“双摄”迈向“四摄”，正式开启3D交互的大革命！

表4：

苹果历年机型光学配置变化

众所周知，交互从1D向2D的跨越正是由苹果引领，多点触控电容屏彻底终结了按键机。

为什么这次又是苹果？

n苹果有用生物识别代替指纹识别、导入全面屏的迫切需求。

从新版MacbookPro取消USB、HDMI、电源接口，到iPhone7摒弃3.5MM耳机接口，“机身一体化”是苹果持之以恒的追求。

iPhoneX用人脸识别（FaceID）替代指纹识别（TouchID），使苹果得以取消Home键引入全面屏，符合“机身一体化”的理念，也大大增强了消费者的触控体验。

同时，人工智能时代来临，3D成像支持下的生物识别更加安全，伴随深度信息的测量也可解锁更多的功能和玩法，使手机更加有趣。

n距离传感器历经10年迭代，苹果对测距模块的应用已炉火纯青。

3D成像重要的一步就是距离探测，而苹果从初代iPhone开始就有前置距离传感器的设计，用于判断面部与屏幕的距离。

iPhone7中更是导入了意法半导体的TOF传感器，由激光发射器和点阵接收器构成收发模块，为后续TOF/结构光相机的导入积累了宝贵的测距模块使用经验。

n苹果在3D成像积累雄厚，占尽先机。

苹果在3D成像的积累最为雄厚，从2011年开始不断外延并购，拿下了多家优质标的。

尤其是2013年，微软收购结构光方案领头羊PrimeSense失败，苹果趁机将后者收入囊中，一举抢占先机，实现了结构光的技术封锁。

在眼下生物识别、AR技术快速迭代，新一轮交互革命呼之欲出之际，手机大规模导入3D成像已是水到渠成，只待春日一雷，这一雷必然是技术最完善的苹果！

图8：

iPhoneX的前置镜头组

我们认为，苹果正式导入3D成像，在iPhone加持之下，以苹果的示范效应叠加3D成像所能带来的颠覆性体验，三星、国产手机大厂的跟进意愿无须怀疑。

类比上一轮iPhone4掀起的触控浪潮，本轮2D变3D也绝不是此前的智能机微创新可比，而是信息入口的大革命。

而3D成像大规模导入手机，将一举为移动端AR的崛起奠定先决条件。

又是苹果！

开启AR黄金时代

上一轮AR热不及预期令市场印象深刻，我们认为根本原因并非是AR本身不吸引人，而是落地的路径出现了根本性错误。

无论是资本还是产业，在上一轮都聚焦在了专业级的AR终端，而忽略了轻量级的移动AR。

在目前的硬件水平和用户基础背景下，专业级AR终端很难跨越市场鸿沟。

本轮苹果引领的移动AR则恰恰相反。

移动AR普及门槛低，去年的Poké

monGo已验证了移动端的爆发力。

拥有最完善生态的苹果携硬件+平台+应用+用户高调入场重塑AR赛道和方向，势必引领AR新浪潮，安卓阵营全速跟进，开启AR黄金时代。

苹果入场势必引领全球AR新浪潮。

苹果示范后，AR将沿着由轻到重的路径，分3轮波次加速渗透：

首先，以通用的智能机为搭载平台，由苹果引领移动浪潮快速打开市场，融合生态加速完成全球用户教育和渗透；

其后，在用户和应用积累一定规模后，出现与智能机捆绑使用的眼镜、头显等专用显示设备，智能机负责信息输入与处理，显示设备负责三维呈现，彻底打通输入和输出，AR体验基本完善；

最终，待技术和生态完全成熟后过渡到类似HoloLens的集输入输出计算于一体的终极形态。

届时，一体式设备将与移动端AR形成高低搭配，泛化为下一代计算平台。

为什么上一轮AR热没能达到预期

继2015年开始的VR热潮之后，去年AR概念的火爆也令市场印象深刻：

从MagicLeap获得阿里7.935亿美元C轮融资，到Meta和Lumus分获5000万美元和1500万美元的B轮，再到风靡全球的Poké

monGo，市场对AR形成了非常高的预期。

然而资本盛宴之下，AR市场的活性却没能同步提升。

一度被寄予厚望的专业级AR终端出货量寥寥，轻量级AR也没有涌现第二个Poké

monGo，AR距普通消费者依然相当遥远，市场对AR前景如何、能否落地、如何落地都充满困惑。

2017年1季度全球VR/AR的风险投资额仅有2亿美元，相比去年同期暴跌80%，融资遭遇滑铁卢，AR热度迅速冷却。

图9：

VR/AR领域风险投资额（百万美元）

图10：

AR进入大众消费市场的5个条件

那么为什么上一轮AR热潮没能达到预期？

我们认为估值泡沫破裂的背后，主要原因在于没能打开消费级市场。

对于AR来说，要进入大众消费市场需要解决5大痛点：

（1）硬件性能；

（2）移动性；

（3）丰富的大众化应用；

（4）为大众所接受的价格；

（5）续航能力。

上一轮不论是资本还是产业，都聚焦在专业级的AR终端上，对轻量级的移动AR似乎有所忽略。

而从这5大痛点来考量，专业级AR终端目前却很难跨越市场鸿沟：

n一方面，专业级AR终端的优势在于其强劲的硬件性能，能支撑更强大的AR体验。

但受制于技术成熟度不足，关键瓶颈尚未全部扫清，如“聚散冲突”、视角问题、计算能力等，现有的产品仍不能达到消费者所预期的“虚实完美结合”效果，因此，专业级AR终端花重金堆叠的硬件没能充分发挥。

n另一方面，在移动性（重量和体积大，必须有wifi）、应用生态（缺乏平台支持，仅有800多款VR/AR应用）、价格（售价昂贵）和续航（仅2h-3h）上，专业级AR终端则有天然的劣势。

消费者花高价买回来的设备，使用却存在诸多限制（应用、地点、使用时长），真正在用的只有喜欢尝鲜的科技发烧友，普通消费者不会为此支付溢价。

可见，专业级AR本身并不成熟且普及门槛很高，上一轮热潮更多是资本催熟。

面对当前的硬件条件和用户积累，需要长时间迭代才能打开市场。

专业级AR在消费级市场可谓举步维艰：

最受资本关注的MagicLeap技术不成熟，始终不能推出正式的产品；

Meta2作为一款需要连接电脑的AR头盔，线缆极大地限制了使用场景，今年出货量预计不会超过1万部；

眼镜类产品如国内一体式眼镜0Glass售价近2万元，发售至今未销量超过1000台，GoogleGlass去年销量也仅有4万台；

而当前市面上体验最强大的微软HoloLens一体式头显，重量大，视野窄，续航短，因此不能长时间使用，同时近3000美元的售价也相当昂贵，主要面向B端用户，去年销量也不过3万台。

总而言之，专业级AR当前很难起量，出货量尚不及VR，没有涌现出任何一款标杆级设备。

图11：

2016年VR/AR设备出货量（万台）

表5：

主流专业级AR设备对比

与此同时，轻量级的移动AR此前未被重视，3D成像硬件配套没有跟上，类AR应用体验粗糙，无法聚集规模用户群。

Poké

monGo首次让消费者在手机上获得了类似AR的体验。

然而Poké

monGo从严格意义上来说，还不是真正的AR技术，仅仅利用了2D摄像头+图像识别，实现了虚拟与现实的结合，真正的AR技术应该在此基础上，支持虚拟与现实的交互。

而上一轮3D成像硬件不完善：

苹果尚未入场；

谷歌没有硬件掌控能力，与Tango项目合作的安卓手机太少。

缺乏硬件支持的“类AR”应用大多只能实现简单的平面和边界的识别，产品体验粗糙，不足以吸引用户，移动端用户群因此也没有形成。

图12：

任天堂开发的Poké

monGo游戏

我们认为，AR要大规模普及，必须具备智能手机量级（亿级）的出货量。

所以打开市场要先从轻量级的移动端开始，利用当下已有的智能终端快速普及AR，把生态应用先丰富起来，加速大众对AR的认识，带动硬件创新及技术升级；

而生态初步完善、技术成熟后消费者会逐步转向体验更强大的专业级AR设备，完成消费升级。

任何新技术在预期形成之后、大规模落地之前，都会经历调整期，上一轮AR没能落地的根源在于方向没有走对，产业和资本忽视了移动端的布局，而AR本身作为虚实结合、虚实交互的新一代交互方式，前景不必担忧。

我们仍然看好AR与其他行业的融合将催生出超越移动终端的生活助手，并最终泛化为下一代移动计算平台。

一鸣惊人，苹果引领AR生态新浪潮

相较于微软的HoloLens和谷歌的GoogleGlass，苹果此前在AR领域显得颇为低调。

但事实上，苹果从未放松对AR的布局，在资本市场上尤为活跃。

从2011年开始苹果先后收购了多家优质标的，软硬件悉数囊括。

尤其是2013年拿下的3D结构光鼻祖PrimeSense和2015年拿下的移动AR著名创业公司德国Metaio，支撑起了苹果当前的3D成像技术和移动AR平台。

可以说经过多年精心布局，苹果在AR特别是移动端AR方面的技术储备已经相当雄厚。

表6：

苹果在AR领域的相关收购

收购PrimeSense占据3D成像制高点，锁定解决方案及供应链苹果的3D成像解决方案源于对PrimeSense的收购。

作为苹果历史上最重要的收购之一，PrimeSense成立于2005年，相当于3D成像领域的英特尔。

在被苹果收购前，PrimeSense的芯片方案几乎被用在市场上所有的明星产品上，可谓业内当之无愧的开山鼻祖。

PrimeSense主打的LightCode方案兼具成本和体积优势，因此能率先被导入前置镜头组中。

PrimeSense主打LightCode方案，LightCode仍是结构光的一种，但与传统结构光方案不同的是，光源打出去的并不是一套周期性变化的二维图像编码，而是对红外光源进行控制，投射出具有三维纵深的“立体编码”，这种光源称为激光散斑，即照射到粗糙物体或穿透毛玻璃后形成的随机衍射斑点，因此深度计算的方式有所不同。

LightCode方案的优势非常明显：

一方面它不需要特制的感光芯片，普通的CMOS即可，大大降低了成本；

另一方面它不通过空间几何关系求解，测量精度只和标定时取的参考面密度有关，因此不用像一般的结构光那样为了提高精度而将基线（光源与镜头光心的距离）拉宽，有利于体积小型化。

LightCode成本和体积的双重优势，使之成为目前最契合前置镜头组的方案。

而PrimeSense宣布2015年后停止对外技术授权，那么独家拥有此技术的苹果也就自然而然再次占据先机，得以率先在交互性强的前置镜头导入3D成像。

图13：

PrimeSense的LightCode技术方案

苹果拿下PrimeSense，无疑占据了3D成像行业制高点，并借此把控了整个行业的稀缺技术资源，迫使对手不得不另辟蹊径寻找替代方案。

PrimeSense是苹果构筑技术壁垒最核心的环节，除此之外，3D成像其他核心零组件如VCSEL、DOE等领域的龙头大厂也都是苹果供应商，优质供应链悉数被苹果锁定。

可见，在3D成像方面，不论是技术储备还是供应链，苹果都遥遥领先。

收购Metaio构成AR研发团队中坚

苹果的AR团队成立于7年前，团队负责人曾担任过Meta公司的顾问。

2015年收购有“AR鼻祖”之称的德国公司Metaio之后，更是将Metaio公司100多人的研发团队从慕尼黑搬到了硅谷，并构成了苹果当前AR团队的中坚力量，研发队伍可谓人才济济。

Metaio于2003年成立于德国慕尼黑，专注于AR与计算机视觉增强解决方案，2005年发布了第一款终端AR应用KPS&

Click&

Design，让用户可以把虚拟的家具放到自家的客厅中。

此后，公司陆续发布了包括MetaioSDK、MetaioCreator在内的多款AR应用，成为AR引擎界的领军企业，多项技术被应用于汽车、零售等各个行业。

对比于其他公司的重力感应和虚实结合，Metaio的AR技术更强调实时性，且能在不同光线和多重环境下使用，感应更强且叠加更加真实。

2015年5月，公司被苹果收购。

Metaio的技术以及人才奠定了苹果日后的ARKit平台。

积极储备硬件技术，为后续可能的专业级设备夯实基础苹果虽然没能像微软、谷歌那样推出专业级AR设备，但却并未放松对专业硬件技术的探索。

从苹果申请的AR相关专利来看，对显示屏、波导镜片、头显等AR所需的硬件技术都有所储备。

这些技术储备为后续可能推出的专业级AR终端夯实了基础，埋下了苹果进军专业AR设备的伏笔。

表7：

苹果在AR领域的相关专利

一鸣惊人，苹果多年的技术沉淀今年终于开花结果！

首先，在今年的WWDC大会上，苹果同步发布了本地的AI框架CoreML和通用AR平台ARKit：

AR的信息处理环节需要大量的机器学习算法，因此若能在移动端上实现AI框架，将极大提升AR处理能力。

CoreML包括神经网络（深度、循环以及卷积网络），同时也支持线性模型和树集成，图像识别速度比谷歌Pixel快6倍。

CoreML提供大量API，显著加快iPhone、iPad和AppleWatch上AI任务执行的速度，对AR的意义相当重大。

有了CoreML配套，通用平台ARKit也就顺理成章。

与谷歌的AR平台“ProjectTango”和VR平台“DayDream”相比，ARKit不需配套专门的硬件，传统的单双摄像头iPhone和iPad借助ARKit也可呈现一定的AR效果，伴随着iOS11发布后，理论上可应用于任何的iPhone和iPad；

ARKit的受众更多，平台规模优势显著。

图14：

苹果在WWDC上演示的ARKit

随后，经过WWDC大会的预热，苹果在13日凌晨的发布会上重磅推出了搭载3D成像的iPhoneX，一举补上了移动AR的最大短板。

叠加AI性能强劲的A11处理器，苹果向外界宣示了其以移动端为突破口打进AR市场的决心。

苹果高调入场势必引领AR新浪潮，重塑AR赛道和方向。

我们判断AR将从移动端开始大规模落地，并逐步向专业级设备渗透，进而激活整个AR行业。

图15：

iPhoneX上的AR游戏

那么为什么我们看好本轮由苹果引领的、以移动端为核心的AR新浪潮？

移动AR普及门槛低，爆发动能强劲

移动AR的爆发力可以从当初Poké

monGo的火爆形成

展开阅读全文