语音交互产业链分析报告.docx

资源描述

语音交互产业链分析报告.docx

《语音交互产业链分析报告.docx》由会员分享，可在线阅读，更多相关《语音交互产业链分析报告.docx（18页珍藏版）》请在冰豆网上搜索。

语音交互产业链分析报告.docx

语音交互产业链分析报告

（此文档为word格式，可任意修改编辑！

）

正文目录

1、概述：

语音交互产业加速发展，新一代搜索核心蓄势待发4

2、创业之星：

ROOBO，做机器人中的Android6

2.1、从布丁机器人开始，积累完整技术体系7

2.2、ROOBOInside，做机器人中的Android7

3、A股：

近两周人工智能指数上涨3.16%10

4、融资并购：

三星2亿美元收购VivLabs12

4.1、基础层：

AI垂直媒体机器之心获Pre-A轮融资12

4.2、技术层：

达闼科技获1亿美元A轮投资13

4.3、应用层：

三星2亿美元收购VivLabs13

5、行业动态：

人工智能首次写入政府工作报告15

5.1、基础层：

GPU应用至深度学习的方案正快速成熟15

5.2、技术层：

科技巨头正推动AI技术的边际改进16

5.3、应用层：

京东用AI实现商品自动补货和定价推荐17

5.4、其他：

人工智能首次写入政府工作报告18

6、风险提示19

图目录

图1：

一个典型的语音交互过程5

图2：

语音交互平台将成为下一代搜索核心6

图3：

布丁机器人7

图4：

ROOBO机器人系统构成8

图5：

开发者各取所需9

图6：

ROOBO合作的多种形态机器人9

图7：

近两周人工智能板块指数上涨3.16%10

表目录

表1：

光大计算机人工智能标的估值及涨跌幅一览11

表2：

光大计算机人工智能标的双周公告梳理12

1、概述：

语音交互产业加速发展，新一代搜索核心蓄势待发

Vinci人工智能耳机完成数千万元A轮融资

Vinci智能头机是由中国创业团队VINCI打造的全球第一只智能头机产品，是针对年轻时尚族群体在户外的听觉穿戴式智能设备。

Vinci智能头机与传统的耳机不同，它让耳机成为独立计算设备，可独立播放音乐，同时它还是语音交互操控设备。

值得一提的是，它还能把云端的音乐推荐服务和场景感知结合在一起，根据个性、心率、场景的不同推荐精准的音乐。

三星电子收购人工智能公司VivLabs：

出价2亿美元以上

三星电子在提交的监管文件中透露，公司已出价2389亿韩元（约合2.1155

亿美元）收购人工智能公司VivLabs。

VivLabs由Siri的联合创始人戴格·吉特劳斯创立，开发有虚拟语音助手Viv，Viv的主要使命是连接第三方，以便能够形成完整的第三方生态系统。

收购完成后，Viv依然会继续独立于其母公司运营，并计划在2017年下半年将Viv引入三星手机。

中文智能交互系统三角兽科技获5000万元A轮融资

三角兽科技致力于打造一套独一无二的中文智能交互系统，一个基于自然语言处理技术、语义理解和自主学习等核心技术的系统级平台。

这将使广大B端公司快速低成本地获得智能交互的能力，使B端公司的用户获得更加智能的交互体验。

获创业工场数百万投资，医语通借语音电子病历切入医疗人工智能

医语通提供医疗垂直领域录入的软硬件一体解决方案，基于医疗人工智能技术和大数据分析进行持续探索，实现智能语音交互的知识问答和病历查询，进行健康风险预测和患者分群分析。

医语通允许医生多场景实时录入病历，无论是在门诊、病房还是手术休息室，通过麦克风口述病历内容，实时将语音转换为文字，并记录到电子病历系统中。

亚马逊计划发布全新的Alexa设备，可以打电话

亚马逊计划今年推出一个或多个新的Alexa设备，将允许人们通过语音助手发起电话或对讲。

另亚马逊内部已经在讨论是否为这些Alexa设备配备摄像机。

《华尔街日报》曾报道，亚马逊和谷歌正在考虑为他们的语音助手增加拨号和接收语音通话的功能。

简评：

语音交互产业加速发展，新一代搜索核心蓄势待发

语音交互产业链是贯穿上述事件的背后主线。

整个语音交互产业链分为前端

接收声源的麦克风和麦克风阵列等硬件产品；中间的语音识别，将语音转为文字；语义理解，将文字转为机器能够理解的二进制数据，进而驱动后端应用实现。

随着后端应用积累，生态逐渐建立，处于中间核心位置的语音助手将有望成为新一代的搜索核心。

从产业发展态势来看，各项技术达到可用门槛，生态逐步建立中，各类应用加速落地，语音交互时代来临。

图1：

一个典型的语音交互过程

语音交互产业链雏形显现。

语音交互包含这样一个链条:

（1）形态多样的硬件，例如家电、汽车、机器人、穿戴设备等。

（2）前端声音拾取，包括麦克风阵列等声学元器件，并可以进一步拓展为由声学模组组成的综合解决方案。

（3）智能语音技术，语音交互的核心技术环节，包括语音识别、语义理解、语音合成等。

（4）语音云平台/操作系统，占据信息汇聚交融的高地，前端与入口衔接，后端整合内容及服务。

（5）后端应用/服务，为用户提供各种内容、功能性服务。

语音交互产业崛起，科大讯飞具备核心价值。

语音是最自然最方便的交互方式，整个链条从前端声学到中间的语音识别、合成及语义理解都达到了可用的门槛，同时以亚马逊Echo为代表的交互产品表现亮眼，市场加速发展。

据VoiceLabs预计2017年语音交互设备的出货量将达到2450万台，相比2015年增长超过10倍，市场规模将超过200亿美元。

随着语音交互的普及，核心的语音交互平台将成为下一代的搜索核心，价值巨大。

科大讯飞是国内技术最为领先，布局最早，整个语音交互产业链布局最完整的企业，拥有绝对的领先优势和核心价值。

图2：

语音交互平台将成为下一代搜索核心

2、创业之星：

ROOBO，做机器人中的Android

ROOBO成立于2014年，是面向全球的智能硬件孵化与发行平台，同时也致力于打造行业领先的人工智能及机器人操作系统（ROOBOAI+OS）。

2015年底完成由科大讯飞领投的1亿美元A轮融资，目前估值25亿人民币。

第一款机器人产品是布丁儿童机器人，每周的活跃用户增长率为19.7%。

2016年9月，ROOBO在北京召开了一场名为“重新定义机器人”的产品及战略发布会。

在这场发布会上，ROOBO发布了诸多机器人新品，如DOMGY智能宠物机器人，J2商用服务机器人等，以及主打的ROOBO人工智能机器人系统。

团队：

目前大概300人，分别在北京、深圳、苏州等城市，整个团队技术人员占比70%左右。

技术团队主要包括系统、前端、硬件、AI技术等。

系统和前端团队主要来自360、小米等，硬件团队主要来自华为、OPPO等，AI大部分来自XX。

定位：

希望做一家机器人系统技术和方案提供商，整个机器人系统可以灵活拆散，也可以组装在一起，支持大小公司的软硬件需求。

技术：

通用语音国内用的是讯飞的技术，国外是和Nuance合作，离线语音交互是内部研发，图像方面包括室内人脸和物体识别都是团队自己的技术。

盈利模式：

现阶段主要是硬件产品销售、技术授权和系统模块输出，未来系统平台上还会衍生更多增值服务。

2.1、从布丁机器人开始，积累完整技术体系

儿童陪伴型机器人：

布丁机器人。

（1）语音方面，布丁机器人采用科大讯飞语音识别技术，并配备双麦克风，可以实现一定程度的降噪和远场拾音。

（2）对话方面，布丁机器人通过多种网络渠道构建丰富语料库，可以实现人与机器人之间的的趣味对话和问答。

（3）图像方面，布丁使用了720P安防级摄像头，一方面实时监控室内动态，另一方面可以进行面部识别和自动拍照。

图3：

布丁机器人

2.2、ROOBOInside，做机器人中的Android

提炼共性需求，输出解决方案。

团队在做硬件的过程中，积累了麦克风阵列、远场拾音、图形图像等相关技术经验，根据做布丁机器人的经验，提炼出最低限制的“模块”、率先开放的模块和逐步开放的模块。

并最终把必要的服务和通用的服务提炼出来，形成开放输出的解决方案。

ROOBO系统，为机器人开发者搭台。

就像智能手机的IOS和安卓，ROOBO想做的是一个类似安卓系统的ROOBOInside。

它主要包括三层，最下面是包含听觉、视觉、运动控制等在内的硬件模组，中间是操作系统，最上面是AI云。

系统主要输出三大能力——语音识别、图像识别、语义理解，最后由AI云对接互联网服务和功能，如在线信息、娱乐、教育等。

这样一整套方案可以让拥有产品思路和定义而没有技术的团队，快速完成机器人的落地，同时还能将众多机器人聚合到ROOBO的系统平台上，形成一个产品和服务生态。

图4：

ROOBO机器人系统构成

开放的ROOBO，开发者各取所需。

在具体的人工智能机器人系统架构上，ROOBO分成了五层，包括硬件模组、软件平台、交互系统、AIBOT、服务平台。

这些部分，ROOBO分别面向硬件开发者、应用开发者和服务提供商开放。

开发者们可以选择自己所需要的部分，利用该系统的不同能力完善自己的机器人产品。

比如，在硬件模组方面，对话机器人的开发者可以选用ROOBO提供的国内第一颗量产的语音识别芯片CI1006。

ROOBO未来计划打造一个类似APPstore的平台，供所有APP进入，并接入很多服务，例如打车、叫外卖、买电影票等等。

图5：

开发者各取所需

国内首颗量产的语音识别芯片。

CI1006是一颗基于Asic架构的DNN语音识别芯片，也是国内第一颗商业化量产的人工智能芯片。

芯片可以支持5米的远讲，支持语音端点的自动检测，支持语音唤醒以及本地大词汇量的语音识别。

这颗人工智能芯片能够为智能机器人补上“大脑”及音视频传感终端，采用本地的神经网络数据处理能够降低产品对于网络的依赖，提升机器人响应及控制速度，实现更优的产品效果。

应用于多形态硬件。

这套系统不仅可以用于机器人，还能通过降维，用于飞行器、VR一体机等其他智能硬件设备。

由于机器人相对复杂，因此整个系统采用模块化设计，可以二次开发，十分灵活，比如人体定位和追踪模块可以输出给飞行器，语音交互和控制可以输出给VR一体机等。

当前，ROOBO已经合作了几十家智能硬件厂商，其中包括家庭陪伴机器人、商用服务机器人、宠物机器人、飞行器、VR一体机等。

除了提供技术和解决方案，ROOBO还希望在机器人系统上搭建增值服务平台，连接各种各样的B端商家和C端用户。

图6：

ROOBO合作的多种形态机器人

3、A股：

近两周人工智能指数上涨3.16%

近两周人工智能板块指数上涨3.16%。

同期沪深300指数上涨0.19%，创业板指数上涨2.41%，计算机指数上涨3.66%。

与沪深300指数相比相对收益2.97%，与创业板指数相比相对收益0.75%，与计算机指数相比相对收益-0.50%。

图7：

近两周人工智能板块指数上涨3.16%

个股方面，近两周全志科技（10.82%）、远方光电（8.07%）、思创医惠（7.02%）涨幅居前；川大智胜（-0.94%）、同花顺（-0.41%）、汉王科技（-0.37%）跌幅居前。

表1：

光大计算机人工智能标的估值及涨跌幅一览

表2：

光大计算机人工智能标的双周公告梳理

4、融资并购：

三星2亿美元收购VivLabs

4.1、基础层：

AI垂直媒体机器之心获Pre-A轮融资

AI垂直媒体机器之心获今日头条领投的Pre-A轮融资

机器之心成立于2015年4月，是一家关注人工智能产业的科技媒体。

公司

致力于为人工智能从业者及爱好者提供有价值的信息及学习知识，通过输出与人工智能学术结合紧密的高质量内容服务于对应人群。

除媒体业务之外，机器之心也提供包括投融资对接、产业上下游需求匹配、人才招聘和国际合作等在内的产业服务。

目前，机器之心在各平台拥有共计50万用户，微信端日均PV达到5万，活跃用户约6万人。

4.2、技术层：

达闼科技获1亿美元A轮投资

云端智能机器人运营商达闼科技获得1亿美元A轮投资

达闼科技成立于2015年初,是全球首家云端智能机器人运营商,专注于实现云端智能机器人运营级别的安全云计算网络、大型混合人工智能机器学习平台、以及安全智能终端和机器人控制器技术研究。

人工智能既需要一个强劲的云端大脑，又需要稳定且安全的网络，而达闼科技所做的事情就是成为一个“人工智能的平台”，将终端机器人与云端的人工智能通过一个低延时、稳定、安全的网络连接起来。

汽车驾驶辅助技术提供商纵目科技完成1亿元B轮融资

纵目科技成立于2013年1月，是汽车驾驶辅助技术（ADAS）软硬件方案提供

商。

纵目科技提供最具竞争力的环视ADAS市场，在同一硬件平台上集成3D全景泊车，车道偏离预警，盲点检测和移动物体检测等多种ADAS功能，与国内外多家前装汽车厂家和一级供应商达成合作开发和供货关系。

速感科技完成数百万美元A轮融资，专注人工智能视觉领域

速感科技是一家以机器视觉为核心的人工智能创业公司。

公司成立于2014年7月，经过2年多的发展，已经形成清晰稳定的业务形态。

目前主要产品为软、硬件一体化视觉解决方案——ULBrain集成芯片式视觉传感器、Inbox工业级导航定位控制器及Xbot机器人硬件控制平台。

4.3、应用层：

三星2亿美元收购VivLabs

三星电子收购人工智能公司VivLabs：

出价2亿美元以上

三星电子在提交的监管文件中透露，公司已出价2389亿韩元（约合2.1155亿美元）收购人工智能公司VivLabs。

VivLabs由Siri的联合创始人戴格·吉特劳斯创立，开发有虚拟语音助手Viv，Viv的主要使命是连接第三方，以便能够形成完整的第三方生态系统。

收购完成后，Viv依然会继续独立于其母公司运营，并计划在2017年下半年将Viv引入三星手机。

人工智能创业公司Clinc完成630万美元A轮融资

位于密歇根的人工智能创业公司Clinc宣布完成A轮630万美元的融资。

其旗下针对银行平台开发的语音控制助理Finie可以模仿人类同银行用户自然交谈，而不需要以预先定义的模板或分层语音菜单来实现。

这笔资金将用于扩招人员和进行产品迭代。

英国计算机视觉初创企业DigitalBridge获得70万英镑种子轮融资

DigitalBridge成立于2012年，总部位于英国曼彻斯特，是一家将现实场景转换为数字模型的计算机视觉平台，装饰零售商可以对房间环境进行拍照，DigitalBridge将自动对房间的墙壁、地板、天花板等事物进行识别。

之后，消费者能够看到新壁纸、地板、装饰以及家具，并能够想象到这些饰品按在自己房间的样子。

美国机器学习软件初创公司Predikto获得400万美元A轮融资

Predikto成立于2012年，总部位于美国亚特兰大，是一家机器学习软件初

创公司。

Predikto软件致力于通过分析传感器实时数据、过去的维修记录和先前的故障数据，在设备故障发生之前提醒设备制造商、铁路部门、航空公司以及船运公司。

电竞大数据智能平台浮冬数据完成千万级别Pre-A轮融资

浮冬数据2016年6月在新加坡成立，是一家电竞大数据智能平台，提供专业、深度的数据服务。

浮冬首先切入的是俱乐部，游戏是Dota，在通过自己的系统后台分析超过10亿场比赛后建立了一个职业数据体系，来为选手做定制化的训练计划和战术安排。

印度人工智能招聘服务平台Belong获得1000万美元B轮融资

Belong成立于2014年，总部位于印度班加罗尔，是一家采用人工智能技术

的招聘平台，帮助企业发现以及定位适合其岗位的人才，通过个性化互动吸引应聘者，并加速招聘周期。

目前，思科、亚马逊、UHG、Tesco、RelianceJio以及ThoughtWorks等行业巨头均在使用Belong的解决方案。

丹麦招聘服务初创企业Relink获得100万美元种子轮融资

Relink创办于2013年3月，总部位于丹麦哥本哈根，是一家招聘服务初创企业。

Relink的产品是一款基于机器学习算法的API，帮助企业筛选求职者，并为求职者推荐合适的工作机会。

目前，Relink的技术建立在2000万求职者简历的基础上，为企业提供更明智的决策。

5、行业动态：

人工智能首次写入政府工作报告

5.1、基础层：

GPU应用至深度学习的方案正快速成熟

Google云计算平台支持云端GPU加速服务

Google云计算平台推出了支持云端GPU加速服务的公开测试版，第一款支

持的GPU型号是NVIDIA的TeslaK80，使Google云平台的性能获得了巨大提升。

如果用户的深度学习算法需要额外的计算资源，其最多可以在自定义的Google云计端虚拟机上连接将8个GPU。

英伟达正式发布GeForceGTX1080Ti：

性能提升35%

英伟达发布的GeForceGTX1080Ti拥有120亿个晶体管，3584个CUDA（统一计算设备架构）核心，这让它步入目前英伟达最强显卡之列。

同时在发布会上，英伟达宣称这一高性能GPU可以从1.6GHz超频至2GHz，这意味着它的频率超过了目前的TitanX的速度。

英伟达宣称GTX1080Ti的性能相对普通GTX1080的提升为35%，这使得它成为了史上性能提升最大的Ti标志显卡。

XX将高性能计算引入深度学习：

大规模提升模型训练速度

神经网络在过去几年中规模不断扩大，训练需要大量的数据和计算资源。

为了提供所需的计算能力，可以使用高性能计算中常见的技术将模型扩展到几十个GPU，但该技术在深度学习中未被充分利用。

XX硅谷人工智能实验室宣布将RingAllreduce算法引进深度学习领域，能减少不同GPU之间的通信时间，从而允许将更多时间用在有用计算上，并以库和TensorFlow软件补丁的形式推出RingAllreduce的工程化实现。

斯坦福大学实现高性能低功耗人工突触，可用于神经网络计算

斯坦福研究人员打造出一种新的有机人工突触，模仿了大脑突触从通过其中的信号中进行学习的方式，更好地支持计算机再现人类大脑信息处理方式。

较之传统计算方式，这种方式要节能得多，传统方法通常分别处理信息然后再将这些信息存储到存储器中。

这款突触潜在地能够成为一台更接近大脑的计算机的一部分，它特别有利于处理视觉、听觉信号的计算，比如，声控接口以及自动驾驶汽车。

5.2、技术层：

科技巨头正推动AI技术的边际改进

微软和剑桥大学开发具有人工智能的编程软件DeepCoder

BusinessInsider报道，微软和剑桥大学正开发具有人工智能的编程软件DeepCoder，它可以从把其他应用的代码拿过来给自己用。

微软首先训练一个神经网络来检测程序的性质，然后将该神经网络的预测输出代入到编程社区的高级搜索工具中。

之后运用这种神经网络的DeepCoder可以通过现有软件获取的代码拼接在一起写出新程序。

此外，DeepCoder使用机器学习来清理源代码数据库，并对它们按照有用性进行排序。

XX提出DeepVoice：

实时的神经语音合成系统

3月1日，XX研究院在官网上正式推出了DeepVoice：

实时语音合成神经网络系统。

本系统完全依赖深度神经网络搭建而成，最大的优势在于能够满足实时转换的要求。

在以前，音频合成的速度往往非常慢，需要花费数分钟到数小时不等的时间才能转换几秒的内容，而现在，XX研究院已经能实现实时合成，在同样的CPU与GPU上，系统比起谷歌DeepMind在去年9月发布的原始音频波形深度生成模型WaveNet要快上400倍。

XX新论文提出Gram-CTC：

单系统语音转录达到最高水平

XX硅谷AI实验室刘海容、李先刚等人发表论文提出了一种新的语音识别模型Gram-CTC，将语音识别的速度和准确率大大提高。

据研究人员介绍，这一新方法可以显著减少模型训练与推理时间。

在相同任务中，新模型的表现在单一模型对比中超过了微软等公司的研究。

Facebook新论文介绍相似性搜索新突破：

在GPU上实现十亿规模

相似性搜索的规模和速度一直是研究者努力想要克服的难题。

近日，Facebook人工智能研究团队在arXiv发布的新论文《Billion-scalesimilaritysearchwithGPUs》宣称在这一问题上取得了重大进展，在GPU上实现了十亿规模级的相似性搜索。

该团队已经将相关实现的代码进行了开源。

10亿图片仅需17.7微秒：

Facebook开源图像搜索工具Faiss

FacebookAI实验室最新开源了一个用于有效的相似性搜索和稠密矢量聚类

的库，名为Faiss，在10亿图像数据集上的一次查询仅需17.7微秒，比此前的方法准确度略高，而且快8.5倍。

Faiss是用C++编写的，带有Python/numpy的完整安装包，其中最有用的一些算法是在GPU上实现的。

谷歌开源PythonFire：

可自动生成命令行接口

PythonFire使用检索将任何Python对象（无论是类、对象、字典、函数，

甚至是整个模块）转化为命令行接口，并输出标注标签和文档，并且指令行界面会随着编码的变化保持实时更新。

在谷歌大脑，工程师们使用由Fire构建的实验管理工具，该工具能够和Python或Bash同等程度地管理实验。

FPGA2017最佳论文出炉：

深鉴科技ESE语音识别引擎获奖

FPGA芯片领域顶级会议FPGA2017于2月24日在加州结束。

在本次大会上，斯坦福大学在读PhD、深鉴科技联合创始人韩松等作者的论文获得了大会最佳论文奖。

该项工作聚焦于使用LSTM进行语音识别的场景，结合深度压缩、专用编译器以及ESE专用处理器架构，在中端的FPGA上即可取得比PascalTitanXGPU高3倍的性能，并将功耗降低3.5倍。

本文所描述的ESE语音识别引擎，也是深鉴科技RNN处理器产品的原型。

AI学会“脑补”：

神经网络实现自动图像补全

自动图像补全是计算机视觉和图形领域几十年来的研究热点和难点。

在神经

网络的帮助下，来自伯克利、Adobe等研究人员利用组合优化和类似风格转移的方法，突破以往技术局限，成功实现了超逼真的“从0到1”图像生成。

代码已在Github开源。

5.3、应用层：

京东用AI实现商品自动补货和定价推荐

京东智慧供应链发布，将用人工智能实现商品自动补货和定价推荐

京东Y事业部对外发布了“Y-SMARTSC”京东智慧供应链战略，围绕数据

挖掘、人工智能、流程再造和技术驱动四个源动力，形成覆盖“商品、价格、计划、库存、协同”五大领域的智慧供应链解决方案。

到2017年底，预计自动化商品补货在核心品类中将覆盖80%以上的采购场景；日常的非促销价格调整80%以上可以由系统自动处理；同时，将有百家企业接入开放的京东智慧供应链系统。

人工智能被用于检测婴儿自闭症的最早期征兆

目前医生仍很难诊断出1岁以下的儿童是否患有自闭症。

一般而言，自闭症在儿童成长到2到3岁才表现出典型的行为特征及其他症状。

而现在由于人工智能的高精度预测能力，这种情况可能会发生改变。

美国国家卫生研究院资助的一项新研究指出，全新的人工智能方法可以在婴儿12个月大时，预测他会不会在2岁时被诊断为自闭症。

5.4、其他：

人工智能首次写入政府工作报告

人工智能首次被写入政府工作报告

3月5日，十二届全国人大五次会议在京开幕，国务院总理李克强在作政府工作报告时表示，要“全面实施战略性新兴产业发展规划，加快新材料、人

工智能、集成电路、生物制药、第五代移动通信等技术研发和转化”，这也是“人工智能”这一表述首次出现在政府工作报告中。

中国工程院院刊：

人工智能2.0时代序幕开启

中国工程院院刊信息与电子工程学部分刊《信息与电子工程前沿（英文）》

出版了“Artificia

展开阅读全文