智能语音产业分析报告Word文件下载.docx

资源描述

智能语音产业分析报告Word文件下载.docx

《智能语音产业分析报告Word文件下载.docx》由会员分享，可在线阅读，更多相关《智能语音产业分析报告Word文件下载.docx（18页珍藏版）》请在冰豆网上搜索。

智能语音产业分析报告Word文件下载.docx

1、市场规模快速扩大，且国内增速显著超过全球12

2、各要素齐发力，推动智能语音形成完整产业链12

3、算法红利逐渐消失，一家独大转向多方竞争14

4、融合场景、借力硬件提升语音技术实用和稳定性17

四、智能语音的应用前景19

1、巨头抢滩虚拟语音助手，并逐渐切入场景应用19

2、消费级产品应用场景21

（1）智能语音+车载21

（2）智能语音+家居22

（3）智能语音+可穿戴设备23

3、专业级行业应用场景24

（1）智能语音+医疗25

（2）智能语音+教育26

（3）智能语音+客服26

五、主要风险27

1、语义理解以及复杂环境下语音技术可能不达预期27

2、智能语音的商业落地进度可能不及预期28

3、国内外智能语音技术参与方之间的竞争激烈28

近日苹果在开发者大会推出HomePod，正式宣告杀入智能音箱市场，尽管宣传上更多强调音乐和音质，但不排除未来争夺智能家居入口的可能。

而Amazon自2014年11月推出智能音箱Echo至今不过两年半，已实现千万级销量，Alexa也成为连接众多应用的连接中枢。

国内以科大讯飞为首的智能语音公司也从技术到产品应上用取得一系列进展。

本篇报告主要从交互入口问题着手，并简要梳理了智能语音技术的发展历史、产业链以及行业应用现状。

智能音箱只是台面上的狂欢，本质还在用户、数据和服务。

①国内外科技巨头纷纷入局智能音箱，但音箱只是可选载体之一，目的只是借此形成入口、输出服务，同时掌握语音交互背后的用户与数据。

②对用户而言，在应用与智能终端种类繁多的年代，能以更自然的方式、通过单一入口精准地获取服务，在需求满足和服务体验上都能获得不错的观感。

③从人类信息获取及表达的构成看，交互入口的演变是从习惯到本能的革命，融合语音和肢体动作的交互方式或许更可能成为下一个时代的主宰，但语音显然会是必不可少的一环。

算法红利逐渐消失，融合场景、借力硬件不断提升实用和稳定性。

①技术驱动，场景应用并借助数据形成正反馈，三者成为当前智能语音行业的主要壁垒。

②数据和算力的提升、深度学习算法的引入，以及巨头对于算法与便于开发者模块化设计的机器学习框架开源，使得智能语音技术及应用水平提升的同时也逐渐降低了算法部署实施门槛。

③对于具体场景、尤其是涉及噪音、远场、方言、口音等复杂环境下的智能语音应用，其门槛依然存在。

看好在技术积累基础上融合实际场景，并借力硬件共同提升语音技术实用性与稳定性。

巨头抢滩语音助手，并逐渐深入布局消费级产品与行业应用。

①物联网智能设备的发展一直受到统一标准的约束，巨头纷纷以智能虚拟助手作为切入口，打造开放平台、以开源形式吸引开发者构建应用开发生态。

②语音、语义等相关技术的可用性逐渐提高，带来虚拟数字助手市场的扩张。

从应用方向和场景来看，主要用于消费级产品和专业级行业应用，前者包括车载、家居以及可穿戴设备等偏终端产品，后者则包括在医疗、教育以及智能客服等领域的具体应用。

谈入口太早，但不可或缺

1、智能音箱是台面上的狂欢，本质还在用户、数据和服务

自2014年11月Amazon推出收款基于语音交互的智能音箱Echo以来，2015年科大讯飞发布智能音箱叮咚，2016年谷歌发布智能音箱GoogleHome，而进入2017年以后更是密集，5月联想发布智能音箱，Amazon发布带触屏的EchoShow，微软联手音频设备制造商哈曼〃卡顿合作打造Invoke，6月苹果发布HomePod。

同时国内BAT等互联网巨头也纷纷有意入局。

智能音箱本身不是目的，争夺的是背后的用户、数据以及服务入口。

①其实基于语音交互技术的入口产品可以是音箱、电视等家居产品，甚至可以是室内可及的智能设备，之所以选择音箱作为突破口，只不过看重这样一款在初期能承担除交互之外其他功能的载体。

②对于用户而言，需要的是能够将众多繁杂的应用和接口进行封装的工具，不再需要自己主动到每一个具体应用上获取服务，而是借助语音交互统一的入口提供。

③对于巨头公司而言，目的在于借此获得移动互联网之后一个能够获取用户数据并持续提供服务的入口。

单就智能音箱而言，交互体验和连接的服务是影响用户选择的重要因素。

①抛开智能音箱的设定，其本质是一款基于语音进行人机交互的智能硬件，在算法层面涉及到降噪、远场识别、唤醒与打断

以及多轮会话、语义分析等自然语言理解技术，硬件层面主要涉及到进行声音采集的麦克风阵列技术以及声音播放时扬声器处理。

软硬件的协同配合方能使得人机交互更为自然。

②如果说播放音乐是传统音箱的主要功能，那么对于智能音箱而言，这已经几乎成为附带选项，互相之间拼的不是、或者说不只是音质问题，更多是人机交互的体验，以及交互背后所能支撑和兼容的服务数量与质量。

无论是对接线上的互联网服务，还是线下智能家居系列产品，若无法形成产品、应用以及数据的生态闭环，则智能音箱的入口目标就难以达成。

国内智能音箱的惨淡销量还与消费习惯相关，用户培育需要时间。

①与AmazonEcho千万量级销量相比，国内科大讯飞与京东联合发布的叮咚音箱销量似乎逊色不止一筹。

除了在技术和应用层面可能存在的差异之外，各自根植的土壤环境也有着先天的差异。

②若去掉“智能”的概念，智能音箱首先是个音箱，与欧美超过85%的家庭音箱普及率相比，国内甚至不足20%，在对音乐以及音箱设备的需求观念上的差异导致音箱对欧美人群或许是“生活刚需”，而对国内用户或许目前还只是少部分人的爱好。

③正如前文所述，音箱只是恰好成为载体之一，最核心的依然是物联网时代智能终端的人机交互入口。

2、信息获取与表达决定语音交互成为阶段性不可或缺的一环

互联网PC时代人机交互主要依赖鼠标和键盘，移动互联网时代触摸屏交互成为标配，那么人工智能时代的交互会由哪种方式主宰？

基于语音控制的智能音箱还是智能电视？

这些或许有可能成为智能家居入口，但即便AmazonEcho已然达到千万级销量及超过1万项技能点，似乎也不足以成为人工智能时代交互入口的产品担当。

从信息获取以及表达的角度来看，交互入口的演变必然是从习惯到本能的革命。

①从信息获取来看，研究表明，人的各种感觉器官从外界获取信息来源=视觉60%+听觉20%+触觉15%+味觉3%+嗅觉2%，其中视觉、听觉及触觉累计高达95%，基于此或许就不难理解为何无论是互联网时代的PC还是移动互联网时代的智能机，不仅无法离开键鼠套装和触摸传感器，而且还无法离开那块或大或小的显示屏。

②从信息表达来看，1967年美国著名心理学家、传播学家艾伯特〃梅拉比安等人经过大量实验，提出人类在沟通中全部的表达信息=肢体语言信息55%+声音信息38%+语言信息7%，或许这也能在一定程度上解释为何各家智能音箱先后登场却依然未能挑起入口大梁。

③我们认为，从键鼠输入的抽象符号到触摸屏直接的滑动与按压，这已经在一定程度上靠近了人类习惯，而未来的交互方式将更为接近人的本能。

语音或许是人机交互的阶段性成果，基于语音的人机交互或许会成为某个特定场景的入口，但语音与肢体动作的融合或许更可能担当得起一个时代的交互入口，至于更为遥远的未来，或许会有类似脑电波等其他方式。

二、智能语音相关技术及发展历史

智能语音主要研究人机之间语音信息的处理和反馈问题，从表现形式来看，即研究如何通过语音实现人机交互，相关支撑技术主要可划分为基础语音技术、智能化技术以及大数据技术。

语音识别准确率在引入深度学习之后得到快速提升。

语音目标在于使机器最终能够将识别语音中的内容、说话人、语种等信息。

在技术思路经历了基于标准模板匹配和基于统计模型（HMM）两个阶段；

2010年开始由微软的俞栋、邓力等与Hinton合作，在语音识别领域引入深度学习替换传统的特征提取，随着深度学习的引入以及在此基础上派生的各类模型的组合，语音识别准确率大幅提升。

2017年3月IBM通过长短时记忆、WaveNet语言模型和三个强声学模型的组合，在Switchboard数据集上电话语音识别错误率降低到5.5%，无论是对比微软2016年测试结果给出的人类速记员5.9%错误率还是此次IBM给出的人类5.1%，机器都已经极为接近人类水平。

语音合成已有200多年悠久历史，表现力尚有待继续提升。

在计算机技术出现之前主要模仿人体发声原理制作相应硬件，计算机技术出现后音质、音色和自然度都有提升。

随着技术演进，语音合成的复杂度、自然度和音质都已取得不错的成绩，目前研究重点在于提高合成音的表现力，如语气和情感等。

声纹识别目前也正向着深度学习方向发展，但不管是用传统算法还是深度学习，都需要事先建立声纹库。

①声纹识别主要根据语音波形反馈的说话人生理和行为特征，自动识别说话人身份，在安全性上可与指纹、掌形和虹膜等生物识别技术相媲美，目前已经用于公安和司法系统证据鉴定中的身份鉴别，以及银行支付过程的身份认证。

②声纹识别和语音识别结合，能通过识别内容防止录音假冒，和情绪识别结合，则可以感知识别对象是否处于受胁迫状态。

③声纹识别需要相应的声纹库，且至少要保证合理的性别、年龄段、地域、口音、职业分布。

测试样本应该涵盖文本内容是否相关、采集设备、传输信道、环境噪音、录音回放、声音模仿、时间跨度、采样时长、健康状况和情感因素等主要影响因素，因而声纹数据库成为声纹识别技术突破的重要门槛。

目前最全的是公安部的声纹鉴别库。

自然语言理解目前尚处于浅层语义分析阶段，大致包含词法分析、句法分析、语义分析这三个既递进又相互包含的层面。

目前机器对句子的理解还只能做到语义角色标注层面，即标出句中的句子成分和主被动关系等，属于浅层语义分析技术。

未来要让机器更好地理解人类语言，并实现自然交互，还有待深度学习等机器学习方法的进步。

多轮对话主要建立在语音识别、合成以及自然语言理解等技术基础之上，自然度和准确度有待提高。

①多轮对话系统一般分为任务型和闲聊型，任务型是协助用户完成具体的某项事情，如：

设置闹钟、查天气等；

而闲聊型是实现人机的情感聊天互动，如陪护型机器人。

多轮对话相比单轮对话方式提高了用户交互的自然度和准确度。

②对话管理是实现多轮对话系统的核心，功能分为对话状态追踪（DST）和对话决策（DialogPolicy），前者作用是更新对话状态，记录到目前为止用户所有的聊天记录和系统行为，后者依据DST对话状态产生系统行为，即决定下一步反馈或调用等行为。

三、智能语音产业发展现状

1、市场规模快速扩大，且国内增速显著超过全球

在移动互联网、大数据、云计算、深度学习等技术的发展推动下，智能语音技术渐趋成熟，行业发展进入场景应用布局阶段。

移动互联网、智能家居、汽车、医疗、教育等领域的应用带动智能语音产业规模持续快速增长。

2015年全球智能语音市场规模达62.1亿美元，同比增长34.2%。

中国智能语音产业市场规模也逐步扩大，2015年40.3亿元产业规模约占全球市场份额10%，且增速显著高于全球市场，预计至2017年份额占比将提升到14%。

2、各要素齐发力，推动智能语音形成完整产业链

借用我们前序报告中提出的人工智能商业化应用“人机料法环”模型，智能语音产业在人才储备、计算设施、数据积累、技术算法以及应用场景等五要素共同推动下已形成较为完整的产业链。

从产业链角度，智能语音行业可分为四个部分。

①基础研究机构：

语音合成、语音识别、声纹识别等基础技术的研发和技术输出；

②语音语义数据提供商：

为算法研究或技术输出机构提供语音、语义数据库以及定制化

展开阅读全文