智能音箱行业深度分析报告.docx
《智能音箱行业深度分析报告.docx》由会员分享,可在线阅读,更多相关《智能音箱行业深度分析报告.docx(42页珍藏版)》请在冰豆网上搜索。
智能音箱行业深度分析报告
(此文档为word格式,可任意修改编辑!
)
正文目录
图目录
表目录
一、人工智能跃迁2.0阶段,智能音箱催熟语音AI新入口
(一)市场面语音类产品热度提升,政策面AI被密集提及
1、语音类AI产品突破市场,用户体验良好带动销量大增
近日,来自AppleInsider、KGI等多处消息显示苹果公司正在筹划推出智能音箱类产品,其中或将植入Siri语音助手,并有望在WWDC苹果大会上发布。
全球消费者电子龙头公司的加入,让语音类人工智能(ArtificialIntelligence,AI)产品再次吸引了业界和消费者的浓厚兴趣。
一方面,人工智能受多个有影响力影响力的事件推动早已成为关注点。
2016年谷歌AlphaGo大比分战胜人类围棋高手李世石,2017年初腾讯围棋机器人绝艺在UEC杯世界计算机围棋大赛等比赛中战绩突出,近期XX小度机器人在《最强大脑》节目里击败人类顶尖选手。
这些事件表明AI技术发展越来越成熟,特别是深度学习技术不断实现突破。
另一方面,从产品化角度看,语音类AI产品最为接近实用,性能表现能够基本满足用户需求。
最有代表性的是Amazon在2014年11月发布的Echo智能音箱,以及在后期陆续发布入门级智能音箱EchoDot和便携式蓝牙智能音箱EchoTap。
消费者可通过内置语音助手Alexa进行智能设备控制、多媒体操作、信息获取、日程提醒等服务,Echo还可提供第三方接口以实现功能扩展。
根据CIRP和RBCCapitalMarket等公司的估计,截止到2017年2月,Echo系列产品累计销售量接近1000万台,销售额达到8~10亿美元。
客户体验方面,Echo系列产品一改早期AI产品“尝鲜胜过实用”的表现,收获了良好的用户口碑。
其官网已积累了5万余条用户评论,评分达4.4星。
销量激增和口碑优秀的背后折射出Echo这一类语音交互类产品正迅速从早期用户的小众圈子进入大众市场。
受此影响,Google、京东等也陆续推出GoogleHome、叮咚音箱等类似产品。
若苹果推出智能音箱,则将成为另一个重要玩家。
美国调查公司VoiceLabs在2017年初发布的《2017年语音报告》预测2017年将有2450万台以语音为主要交互方式的智能硬件产品发货,市场总量将达到3300万台,市场规模超过200亿美元。
图1-1:
GoogleHome音箱
图1-2:
Amazon借助Echo音箱构建智能生态
2、两会首提人工智能,科技规划紧随其后
5日国务院总理李克强在政府工作报告中首次提到要加快人工智能等技术研发和转化,做大做强产业集群。
实际上,最近一年来政府对人工智能的关注明显提升,相关政策的推进也有所加快:
2016年7月,国务院在《“十三五”国家科技创新规划》中提出重点发展新一代信息技术,对人工智能和智能交互做出重点规划;2017年2月15日,科技部表示在“科技创新2030—重大项目”中新增“人工智能2.0”项目,并已进入实施方案的最终论证阶段;11日,科技部部长万钢还在表示,科技部正和相关方面共同起草促进中国人工智能创新发展规划,此规划旨在推动人工智能在经济建设、社会民生、环保事业、国家安全等方面应用。
我们认为,政府工作报告首次提及AI,表明其已升级为国家战略,相关规划的具体设计和配套政策的落地也将助力AI产业深化发展。
国家陆续出台的多项政策在政策面对人工智能产业的发展起到积极的助推和引导作用。
表1-1:
近期国内对人工智能产业的部分政策
我们认为,人工智能领域受益于深度学习等技术的推动近年来发展迅速,尤其是率先在语音、图像等领域获得了长足发展。
因此,语音交互类产品已具备较高的成熟度和较好的用户体验,在整个AI领域受到政策鼓励的良好环境下,语音类人工智能的商用化逐渐获得市场认可,规模有望进一步扩大。
(二)AI2.0概念成型,语音入口地位显现
1、AI2.0时代来临
目前多个研究认为,人工智能已基本发展到2.0阶段,应用领域深入到机器人、安防、金融、医疗、家居等多个垂直行业。
总的来说,AI2.0的基本含义是指人工智能在内部新算法模型和高性能硬件发展的支持下,应对外部信息环境及社会需求的快速变动,从单个技术解决单一场景的“1.0”阶段跨越到不同产业融合式发展的新阶段。
表1-2:
部分研究对AI2.0的定义
AI1.0向2.0转型升级具有五大表现特征:
(1)学习驱动方式升级:
从传统知识表达方式、单纯大数据驱动方式,转向大数据驱动和知识指导相结合的方式,可自动进行机器学习,其应用范围更加广泛;
(2)数据处理方式升级:
从分类型处理多媒体数据(如视觉、听觉、文字等),迈向跨媒体认知、学习和推理的新水平;
(3)计算形态升级:
从直接追求“智能机器”和高水平的人机协同融合,走向渐进型混合增强智能的新计算形态;
(4)平台生成方式升级:
从聚焦研究“个体智能”,走向基于互联网络的群体智能,形成在网上激发组织群体智能的技术与平台;
(5)研究理念升级:
从机器人主导,转向更加广阔的智能自主系统,从而促进改造各种机械、装备和产品,走上泛智能化之路。
2、语音成为AI2.0产业新入口
我们定义“语音AI”如下:
智能系统通过机器感知技术实现声音采集、语音识别、语义理解等信息处理,利用自然语言理解等技术来进行分析,从而实现人机对话、智能判析和决策的一整套计算过程。
语音AI需要将声学、语音识别、语义、搜索、内容等多种领域技术相融合,以实现自然的人机交互。
比照互联网、移动互联网的技术层次可以对AI2.0系统进行分析:
(1)底层技术:
互联网时期承载信息的技术是网页,网页之间依靠超链接和图形交互等方式进行内容的组织;移动互联网时代的内容则在各个应用(App)内,数据由应用运营商提供和组织。
而在AI2.0系统中,底层是借助机器学习、深度学习等技术,对来源于众多智能设备的大数据进行训练、处理,以模型的形式进行组织。
(2)上层应用:
互联网时代的应用以网站形式呈现,移动互联网时代则主要是App(具体分为原生App和WebApp两大类)。
而在AI2.0系统中,应用则具化为机器人、智能穿戴设备、智能家居等智能设备和基于这些设备之上的服务。
(3)连接两者的入口:
互联网时代网站众多,人们获取信息典型的入口是搜索引擎;移动互联网时代要么通过应用市场获取App,要么通过重点App获取内容,要么通过二维码等新形态的入口进行信息访问。
而在AI2.0系统中,受到智能终端的物理形态限制,传统的用户界面和围绕鼠标、键盘、触摸屏等的交互方式不再适用,而更直观自然、易于学习的语音交互则成为新系统的重要入口。
因此,语音AI将会是AI2.0生态的入口级技术,占据其核心地位。
图1-3:
AI2.0相较于移动互联网的层次类比
语音作为入口方式已经在诸多AI产品形态中存在。
(1)在智能家电家居方面:
2017年中国家电及消费电子博览会(AWE)“语音的交互与控制”主题中,思必驰、海知智能、云知声等语音方案商以及海尔、美的等家电企业发布以语音交互为核心的智能家居解决方案;
(2)在可穿戴设备方面:
出门问问推出的中文智能手表操作系统Ticwear和中文全交互智能手表Ticwatch、谷歌推出的GoogleGlassX智能眼镜等均具备基于语音的操作与交互能力;(3)在机器人方面:
语音作为人机交互最为自然的沟通方式,在机器人应用上也非常广泛,例如NAO等实体机器人具备面部探测与识别、语音合成、自动语音识别等高级功能。
图1-4:
2017年AWE叮咚音箱等产品展示
图1-5:
Ticwatch语音交互界面
我们认为,语音能够发展成为AI2.0的入口主要基于以下原因:
(1)智能手机的语音助手产品为用户提供了体验语音交互的基础,Siri、小冰、GoogleNow等终端产品普遍提供的语音助手将语音交互引入日常生活,帮助用户接触到这样一种新技术。
(2)机器学习的优化使得语音输入准确度不断提高,机器学习可以大规模地利用数据来生成可以理解语音和自然语言的模型,并在继续提升。
例如在2016年11月23日发布会上,科大讯飞表示其语音输入识别成功率达到了97%。
(3)语音对硬件支撑要求较低,语音是绝大多数交互方式中能耗低、效率高、表达方式直接的一种途径,易于在不同智能平台上搭建。
(4)科技企业均希望在AI2.0时代占据入口,积极布局语音AI产业,苹果、Google、微软、XX、Amazon、Facebook、科大讯飞等公司在语音领域都存在丰富的产品和大量的研发投入。
综合以上,我们认为由于语音AI成为AI2.0领域新入口,深入了解和分析语音AI的技术发展现状和未来趋势、行业竞争格局和主要解决方案等将对该领域的投资布局起到重要作用。
二、支撑技术日趋成熟,产品服务创新有迹可循
语音AI技术包括三个要素:
算法、计算能力和数据。
(1)算法方面,按照“机器感知—人机理解—智能判断”这一典型语音AI作业流程划分,涉及的基础支撑技术主要包含语音识别、声纹识别、自然语言处理、深度学习等;
(2)计算能力方面,主要涉及用于计算加速的GPU芯片和提升语音预处理效果的麦克风阵列等硬件;(3)数据方面,则和业务相关,主要分为通用型(如人机对话等)和专用型(如工作任务、特定信息查询、操作指令等)等。
我们将对算法层面的支撑技术展开详细讨论,并对硬件支持进行简单介绍,数据处理问题将在后续报告中深入讨论。
图2-1:
语音AI算法层面支撑技术分类
(一)语音识别技术高度成熟,传统科技公司优势明显
语音识别(AutomaticSpeechRecognition,ASR)是将人类的声音信号转化为文字或者指令的过程,是大多数语音交互的第一道门槛,只有首先听对用户说的话才能进行后续的理解和决策。
一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。
而在具体实现上,一般的需要先准备特征模型库,在识别时对采集到的语音信号提取待检测特征,然后将得到的语音特征参数与模型库进行比对。
由声音模式匹配模块对该段语音进行识别,从而识别出语音内容。
图2-2:
语音识别系统流程
早在1952年AT&T实验室研制出第一个特定人语音增强系统Audry,可识别十个英文数字系统。
ASR技术历经60多年的发展历史,不断的技术积累为语音交互奠定了良好基础。
表2-1:
语音识别技术发展历史
2016年以来,语音识别领域取得多个实质性突破(如下表),识别精度得到大幅提升,产品普适性也明显改善。
其中,对非特定人语音的识别精度进展可观。
以科大讯飞为例,其ASR产品识别率提升至97%,已经能够满足通常应用的要求。
此外,随着大规模集成电路技术的发展,语音识别专用芯片已达到批量化生产的水平,在速度、功耗等方面有利于相关产品的普及。
表2-2:
2016年以来语音识别获得多项突破
从市场格局来看,传统的科技公司占据ASR市场绝对份额:
2015年,全球市场中Nuance、谷歌、苹果、微软占据绝对市场份额,国内市场中科大讯飞和XX占据约73%的份额。
图2-3:
2015年全球语音识别市场份额
图2-4:
2015年国内智能语音识别市场份额
我们认为,未来ASR技术的突破方向是结合特定应用领域进行拓展。
目前成熟的底层ASR方案识别准确度已经超过95%,后续提升的边际成本越来越高。
因此,随着时间推移,国内外底层技术差距有望缩小。
而由于初创公司的投入与效果的提升远不成正比,我们认为未来的ASR的发展方向是特定领域内技术向产品的转化,尤其是结合行业应用和大量训练资源进行应用层的拓展。
行业内巨头凭借多领域布局或将继续占据先发优势。
(二)声纹识别助力身份认证,安防与移动支付场景成看点
1、VPR技术原理、应用和实现路径
声纹识别技术(VoiceprintRecognition,VPR)是通过语音信号提取发声人的身份的相关特征,并通过这些特征进行模式匹配,从而识别出发声人身份的技术。
声纹是一种承载语音频谱的音频信息,不同生物个体的发音器官均有其特殊性,发出的语音、语调等信号是有区别的,因此声纹识别技术可以实现身份信息的识别,并在现实生活中得到广泛应用。
声纹识别作为生物识别技术的一种,受益于消费者电子技术创新的发展趋势。
生物识别技术进入消费者电子产品的标志事件是2013年iPhone5S采用指纹识别技术。
随后,虹膜、人脸、声纹等其他的生物识别技术也开始获得长足的发展。
表2-3:
五种生物识别模式对比
VPR技术原理:
VPR的实现是先对收到的语音信息提取特征做预处理,然后进行语音训练和语音识别两个阶段处理。
语音训练是对提取出的语音信息特征进行学习训练,创建全面的声纹信息模板或语音信息库。
识别部分则是根据信息模板或信息库对语音特征进行模式匹配计算,由此判断该语音是否为已知模板或语音库中的特征信息,从而得出识别结果。
图2-5:
声纹识别系统原理图
VPR技术主要使用动态检测的方法。
动态检测的方法是在静态检测的原理方法之上增加语音激活检测(VoiceActivityDetect,VAD)、降噪、去混响等算法。
VAD的目的是检测人声开始与结束的时间点,将对应音频截取出来以供分析,避免无效的录音部分带来的额外时间开销;降噪和去混响是排除环境干扰,进一步提高识别正确率。
图2-6:
声纹识别常用算法
声纹识别的使用过程也相应分为注册和测试识别两个环节。
(1)声纹注册:
对用户的语言信息进行端点检测、去噪、提取声纹特征,即进行声纹注册,由此得到一个用户的声纹模型。
一般需要用户朗读特定文字短语,文字的选择对后续测试的可靠性有一定影响,注册文字最好包含不同音素信息。
(2)识别测试:
对说话人的语音信息进行端点检测、去噪、提取特征点后进行声纹模型匹配,从而进行身份识别,判断用户身份。
声纹识别还可以分为闭集和开集两种情况。
前者是判断说话者和现有数据库中谁的声音最接近(“是谁的声音”),后者是判断说话者是否为某一个特定用户(“是不是某人的声音”)。
图2-7:
VPR判断阶段
图2-8:
VPR确认阶段
2、安全控制应用广泛,移动支付成看点
VPR在政府、铁路、电力、安全等特殊部门中依然具有较好的实用价值。
根据美国联邦调查局对近2000例与声纹相关的案件进行的统计,利用声纹作为证据时只有0.31%的错误率。
同样声纹鉴别已是国内公安部的证据鉴定标准之一,这说明某些环境下声纹可以用来作为有效的身份鉴别方式。
产业界一些领先企业开始在移动支付领域采用“声纹+人脸识别”的融合方式开展产品化工作。
2015年,支付宝和XX钱包相继上线声纹支付功能。
科大讯飞依托声纹识别和人脸识别技术构建了统一生物认证系统,并联合中国银联、徽商银行共同推出“声纹+人脸”融合认证个人转账应用。
声纹识别一个重要的的优点是可以将语音操作和身份认证融合在同一个环节中,即用户发出语音指令即可同时进行声纹识别和语义理解,因此我们预计未来配合人脸识别的声纹认证服务将更多涌现。
图2-9:
支付宝声纹支付演示
图2-10:
科大讯飞等联合推出的“声纹+人脸”支付产品
(三)自然语言处理仍存技术难点,机器翻译或为突破口
1、自然语言处理是语音AI的重要核心
自然语言处理(NaturalLanguageProcessing,NLP)是一门融语言学、计算机科学、数学于一体的科学。
NLP可分为自然语言理解和自然语言生成。
前者是计算机能理解自然语言文本的意义,后者是计算机能以自然语言文本来表达给定的意思。
NLP是语音AI领域中的核心部分,但当前面临的技术挑战难度较大,基于统计技术的传统方法并未完全解决语言理解的难点。
人机对话是NLP技术最为典型的应用之一。
人机对话系统的基本结构包括三个部分:
语言理解、语言生成和对话管理。
语言理解和生成分别是指理解用户的语言输入和产生系统的语言输出。
这两部分直接影响对话系统的性能,成为NLP中其他应用不可缺少的部分。
对话管理则可用于区分对话系统和问答系统,是指从语言理解部分获取输入信息,维护对话过程中的系统内部状态(如上下文、指代词等),并基于状态生成对话策略,为产生对话言语提供依据。
对话管理的评价指标主要是要控制对话流程的自然程度和用户体验。
图2-11:
对话管理流程
2、机器翻译技术发展迅速,互联网公司占主导优势
NLP领域一个较成熟的方向是机器翻译(MachineTranslation)。
一种方案是采用神经机器翻译模型,是一种通用的计算装置,适合处理“序列到序列”的问题。
所谓“序列”是指机器翻译中源语言的句子和对应的目标语言的对应关系。
机器翻译的发展主要经历以下四个阶段,如下图所示。
图2-12:
机器翻译发展历程
影响机器翻译水平的方面中双语语料库的构建很关键。
大型互联网公司在这一领域积累深厚,已占据主导优势。
例如科大讯飞在2016年底的年度发布会上演示的讯飞听见系统在实时转写的同时,能同步翻译成英语、日语、韩语、维语等。
除了机器翻译应用,在新的消费者电子产品上NLP主流应用以智能语音助手为主,如IBMWatson、苹果Siri、GoogleAssistant、微软小冰和小娜、XX度秘等。
人们对此已经比较熟悉,不再过多论述。
目前,由于技术成熟度有限,NLP应用整体上还处于一个早期阶段,只能理解一些简单的句子,满足用户初级的沟通与交互需求。
(四)深度学习多点提升语音AI性能,数据将成发展关键
深度学习(DeepLearning,DL)本质是训练深层结构模型的方法。
DL是通过多层人工神经网络来对数据之间的复杂关系进行建模的算法。
其特点在于随着网络层数的提高和训练难度加大,利用少量有标签样本和大量无标签样本依然可以进行有效学习。
卷积神经网络(ConvolutionalNeuralNetwork,CNN)是流行的深度学习方案,其层级发展越来越深,业界已经从最初的8层发展到152层的技术方案。
深度学习不只可以处理语音领域,但是对语音AI的发展成熟起到重要的助推作用。
图2-13:
单层人工神经网络
图2-14:
多层(深度)人工神经网络
DL依靠其模型强大的拟合能力、高密度的计算能力、海量的训练数据获得良好的效果,渗透到许多领域。
其对语音AI的影响主要体现在ASR性能提升、VPR训练、NLP语义表示和运算等方面。
1、DL可显著提升ASR系统性能
2006年Hinton提出深度置信网络,掀起深度学习的热潮,而后与他的学生将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别数据库TIMIT(即德州仪器、麻省理工学院和斯坦福研究院合作构建的声学-音素连续语音语料库)上获得成功。
从2010年开始,微软的俞栋、邓力等学者首先尝试将DL引入到语音识别,DL逐渐成为该领域的主流研究方向。
随着深度学习的兴起,使用时间长达近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(深度神经网络)所替代,模型精度获得长足发展,带来ASR建模单元、模型结构、建模流程等维度的改善。
图2-15:
XXASR技术算法模型迭代
图2-16:
ASR建模三种层次的演进
在DL的支持下,语音识别的准确率和通用性的本质就在于数据量多少、算法的优劣和计算力的高低。
数据量取决于搜索量和使用量的规模,算法的优劣取决于顶级人才的作用,计算力的水平高低取决于专业硬件的发展水平。
2、DL开始延伸到VPR、NLP领域,数据成为关键因素
深度学习也开始被引入到VPR领域,但和ASR不同的是VPR技术方案中传统算法和模型还占有较大的比重。
DL在实时VPR中的重大突破难关是数据。
深度学习是基于数据驱动的模型,需要庞大的基于真实场景的数据,并对数据的精确标注有较高要求。
例如,在建立声纹识别训练库时,至少要保证性别比例分布为50%±5%,并包含有不同年龄段、不同地域、不同口音、不同职业的训练样本。
数据本身成为DL在突破声纹识别的关键因素。
DL对NLP的合成语义到关注、记忆和问答均会有重大促进作用。
NLP中可以人为将概念和语句编码为向量,并且可以使用大量的向量作为记忆元素,算法的首要任务则是记住由这些向量构成的状态,神经网络学习中的深层网络在往下运算的过程中会在每个决策点确定此前哪个记忆状态是最相关的,通过搜索能找到问题的最佳答案,DL最终实现用文字回答问题。
(五)基础芯片硬件、麦克风阵列:
提供计算和远场支持
1、芯片,由通用到专用的发展
简单的看,AI对计算能力的需求就是对计算硬件的需求。
随着数据量的扩大、云计算与深度学习的发展深入,硬件方面的计算能力随之不断升级换代。
GPU、FPGA以及定制ASIC等对人工智能的推动作用明显。
CPU、GPU、FPGA和ASIC对比分析:
CPU(CentralProcessingUnit,中央处理器)作为通用处理器,兼顾计算和控制,70%的晶体管用于构建Cache(高速缓冲存储器)和一部分控制单元,用于处理复杂逻辑和提高指令的执行效率,所以导致计算通用性强,可以处理的计算复杂度高,但计算性能一般。
直接提高CPU计算性能方向主要为:
增加CPU核数、提高CPU频率、修改CPU架构增加计算单元FMA(fusedmultiply-add)个数。
图2-17:
三种芯片的内部架构
GPU(GraphicProcessingUnit,图形处理器)主要擅长做类似图像处理的并行计算,图形处理计算的特征表现为对缺少相关性的数据进行高密度的计算,GPU提供大量的计算单元(多达几千个计算单元)和大量的高速内存,可以同时对很多像素进行并行处理。
相对于CPU由专为顺序串行处理而优化的几个核心组成,GPU则拥有一个由数以千计的更小、更高效的核心(专为同时处理多重任务而设计)组成的大规模并行计算架构。
FPGA(Field-ProgrammableGateArray,现场可编程门阵列)作为一种高性能、低功耗的可编程芯片,可根据客户定制来做针对性的算法设计。
由于FPGA的算法是定制的,所以没有CPU和GPU的取指令和指令译码过程,数据流直接根据定制的算法进行固定操作,计算单元在每个时钟周期上都可以执行,所以可以充分发挥浮点计算能力,计算效率高于CPU和GPU。
ASIC(ApplicationSpecificIntegratedCircuits,专用集成电路)是指应特定用户要求或特定电子系统的需要而设计、制造的专用集成电路,最大特点是计算能力和效率都可以根据算法需要进行定制。
ASIC与通用芯片相比,具有体积小、功耗低、计算性能高、计算效率高等优点,而最大的缺点就是由于算法是固定的,一旦算法改变将会无法使用。
表2-4:
FPGA与ASIC对比
近期国内企业在语音芯片理论研究和应用研发方面值得关注。
芯片理论方面,深鉴科技使用长短期记忆网络(LongShort-TermMemory,LSTM)进行语音识别的场景,结合深度压缩、专用编译器以及ESE(EfficientSpeechRecognition)专用处理器架构,在中等的FPGA上实现高性能低功耗的效果。
应用研发方面,浪潮集团分别与英特尔和英伟达成立联合并行计算实验室,合作开发优化基于MIC和GPU的并行应用。
北京智能管家科技有限公司(ROOBO)推出基于ASIC架构的DNN语音识别智能芯片CI1006,在自产的机器人系统上得到运用。
2、麦克风阵列实现远场智能语音
语音交互产品的发展提升了多环境下语音采集的要求。
麦克风阵列就是主要解决远距离和复杂场景下语音采集与识别的问题。
麦克风阵列技术包括语音增强和声源定位,其在视频会议、智能机器人、助听器、智能家电、通信、智能玩具、车载等领域均有很好的应用。
图2-18:
语