智能语音产业分析报告Word文件下载.docx-资源下载

智能语音产业分析报告Word文件下载.docx

1、1、市场规模快速扩大，且国内增速显著超过全球 122、各要素齐发力，推动智能语音形成完整产业链 123、算法红利逐渐消失，一家独大转向多方竞争 144、融合场景、借力硬件提升语音技术实用和稳定性 17四、智能语音的应用前景 191、巨头抢滩虚拟语音助手，并逐渐切入场景应用 192、消费级产品应用场景 21（1）智能语音+车载 21（2）智能语音+家居 22（3）智能语音+可穿戴设备 233、专业级行业应用场景 24（1）智能语音+医疗 25（2）智能语音+教育 26（3）智能语音+客服 26五、主要风险 271、语义理解以及复杂环境下语音技术可能不达预期 272、智能语音的商业落地进度可能不及

2、预期 283、国内外智能语音技术参与方之间的竞争激烈 28近日苹果在开发者大会推出HomePod，正式宣告杀入智能音箱市场，尽管宣传上更多强调音乐和音质，但不排除未来争夺智能家居入口的可能。而Amazon 自2014 年11 月推出智能音箱Echo 至今不过两年半，已实现千万级销量，Alexa也成为连接众多应用的连接中枢。国内以科大讯飞为首的智能语音公司也从技术到产品应上用取得一系列进展。本篇报告主要从交互入口问题着手，并简要梳理了智能语音技术的发展历史、产业链以及行业应用现状。智能音箱只是台面上的狂欢，本质还在用户、数据和服务。国内外科技巨头纷纷入局智能音箱，但音箱只是可选载体之一，目的只是

3、借此形成入口、输出服务，同时掌握语音交互背后的用户与数据。对用户而言，在应用与智能终端种类繁多的年代，能以更自然的方式、通过单一入口精准地获取服务，在需求满足和服务体验上都能获得不错的观感。从人类信息获取及表达的构成看，交互入口的演变是从习惯到本能的革命，融合语音和肢体动作的交互方式或许更可能成为下一个时代的主宰，但语音显然会是必不可少的一环。算法红利逐渐消失，融合场景、借力硬件不断提升实用和稳定性。技术驱动，场景应用并借助数据形成正反馈，三者成为当前智能语音行业的主要壁垒。数据和算力的提升、深度学习算法的引入，以及巨头对于算法与便于开发者模块化设计的机器学习框架开源，使得智能语音技术及应用水

4、平提升的同时也逐渐降低了算法部署实施门槛。对于具体场景、尤其是涉及噪音、远场、方言、口音等复杂环境下的智能语音应用，其门槛依然存在。看好在技术积累基础上融合实际场景，并借力硬件共同提升语音技术实用性与稳定性。巨头抢滩语音助手，并逐渐深入布局消费级产品与行业应用。物联网智能设备的发展一直受到统一标准的约束，巨头纷纷以智能虚拟助手作为切入口，打造开放平台、以开源形式吸引开发者构建应用开发生态。语音、语义等相关技术的可用性逐渐提高，带来虚拟数字助手市场的扩张。从应用方向和场景来看，主要用于消费级产品和专业级行业应用，前者包括车载、家居以及可穿戴设备等偏终端产品，后者则包括在医疗、教育以及智能客服等领

5、域的具体应用。谈入口太早，但不可或缺1、智能音箱是台面上的狂欢，本质还在用户、数据和服务自2014 年11 月Amazon 推出收款基于语音交互的智能音箱Echo 以来，2015 年科大讯飞发布智能音箱叮咚，2016 年谷歌发布智能音箱Google Home，而进入2017 年以后更是密集，5 月联想发布智能音箱，Amazon 发布带触屏的Echo Show，微软联手音频设备制造商哈曼卡顿合作打造Invoke，6 月苹果发布HomePod。同时国内BAT 等互联网巨头也纷纷有意入局。智能音箱本身不是目的，争夺的是背后的用户、数据以及服务入口。其实基于语音交互技术的入口产品可以是音箱、电视等家居

6、产品，甚至可以是室内可及的智能设备，之所以选择音箱作为突破口，只不过看重这样一款在初期能承担除交互之外其他功能的载体。对于用户而言，需要的是能够将众多繁杂的应用和接口进行封装的工具，不再需要自己主动到每一个具体应用上获取服务，而是借助语音交互统一的入口提供。对于巨头公司而言，目的在于借此获得移动互联网之后一个能够获取用户数据并持续提供服务的入口。单就智能音箱而言，交互体验和连接的服务是影响用户选择的重要因素。抛开智能音箱的设定，其本质是一款基于语音进行人机交互的智能硬件，在算法层面涉及到降噪、远场识别、唤醒与打断以及多轮会话、语义分析等自然语言理解技术，硬件层面主要涉及到进行声音采集的麦克风阵

7、列技术以及声音播放时扬声器处理。软硬件的协同配合方能使得人机交互更为自然。如果说播放音乐是传统音箱的主要功能，那么对于智能音箱而言，这已经几乎成为附带选项，互相之间拼的不是、或者说不只是音质问题，更多是人机交互的体验，以及交互背后所能支撑和兼容的服务数量与质量。无论是对接线上的互联网服务，还是线下智能家居系列产品，若无法形成产品、应用以及数据的生态闭环，则智能音箱的入口目标就难以达成。国内智能音箱的惨淡销量还与消费习惯相关，用户培育需要时间。与Amazon Echo 千万量级销量相比，国内科大讯飞与京东联合发布的叮咚音箱销量似乎逊色不止一筹。除了在技术和应用层面可能存在的差异之外，各自根植的土

8、壤环境也有着先天的差异。若去掉“智能”的概念，智能音箱首先是个音箱，与欧美超过85%的家庭音箱普及率相比，国内甚至不足20%，在对音乐以及音箱设备的需求观念上的差异导致音箱对欧美人群或许是“生活刚需”，而对国内用户或许目前还只是少部分人的爱好。正如前文所述，音箱只是恰好成为载体之一，最核心的依然是物联网时代智能终端的人机交互入口。2、信息获取与表达决定语音交互成为阶段性不可或缺的一环互联网PC 时代人机交互主要依赖鼠标和键盘，移动互联网时代触摸屏交互成为标配，那么人工智能时代的交互会由哪种方式主宰？基于语音控制的智能音箱还是智能电视？这些或许有可能成为智能家居入口，但即便Amazon Echo

9、已然达到千万级销量及超过1 万项技能点，似乎也不足以成为人工智能时代交互入口的产品担当。从信息获取以及表达的角度来看，交互入口的演变必然是从习惯到本能的革命。从信息获取来看，研究表明，人的各种感觉器官从外界获取信息来源=视觉60%+听觉20%+触觉15%+味觉3%+嗅觉2%，其中视觉、听觉及触觉累计高达95%，基于此或许就不难理解为何无论是互联网时代的PC 还是移动互联网时代的智能机，不仅无法离开键鼠套装和触摸传感器，而且还无法离开那块或大或小的显示屏。从信息表达来看，1967 年美国著名心理学家、传播学家艾伯特梅拉比安等人经过大量实验，提出人类在沟通中全部的表达信息=肢体语言信息55%+声

10、音信息38%+语言信息7%，或许这也能在一定程度上解释为何各家智能音箱先后登场却依然未能挑起入口大梁。我们认为，从键鼠输入的抽象符号到触摸屏直接的滑动与按压，这已经在一定程度上靠近了人类习惯，而未来的交互方式将更为接近人的本能。语音或许是人机交互的阶段性成果，基于语音的人机交互或许会成为某个特定场景的入口，但语音与肢体动作的融合或许更可能担当得起一个时代的交互入口，至于更为遥远的未来，或许会有类似脑电波等其他方式。二、智能语音相关技术及发展历史智能语音主要研究人机之间语音信息的处理和反馈问题，从表现形式来看，即研究如何通过语音实现人机交互，相关支撑技术主要可划分为基础语音技术、智能化技术以及大

11、数据技术。语音识别准确率在引入深度学习之后得到快速提升。语音目标在于使机器最终能够将识别语音中的内容、说话人、语种等信息。在技术思路经历了基于标准模板匹配和基于统计模型（HMM）两个阶段；2010 年开始由微软的俞栋、邓力等与Hinton 合作，在语音识别领域引入深度学习替换传统的特征提取，随着深度学习的引入以及在此基础上派生的各类模型的组合，语音识别准确率大幅提升。2017 年3 月IBM 通过长短时记忆、WaveNet 语言模型和三个强声学模型的组合，在Switchboard数据集上电话语音识别错误率降低到5.5%，无论是对比微软2016 年测试结果给出的人类速记员5.9%错误率还是此次I

12、BM 给出的人类5.1%，机器都已经极为接近人类水平。语音合成已有200 多年悠久历史，表现力尚有待继续提升。在计算机技术出现之前主要模仿人体发声原理制作相应硬件，计算机技术出现后音质、音色和自然度都有提升。随着技术演进，语音合成的复杂度、自然度和音质都已取得不错的成绩，目前研究重点在于提高合成音的表现力，如语气和情感等。声纹识别目前也正向着深度学习方向发展，但不管是用传统算法还是深度学习，都需要事先建立声纹库。声纹识别主要根据语音波形反馈的说话人生理和行为特征，自动识别说话人身份，在安全性上可与指纹、掌形和虹膜等生物识别技术相媲美，目前已经用于公安和司法系统证据鉴定中的身份鉴别，以及银行支付

13、过程的身份认证。声纹识别和语音识别结合，能通过识别内容防止录音假冒，和情绪识别结合，则可以感知识别对象是否处于受胁迫状态。声纹识别需要相应的声纹库，且至少要保证合理的性别、年龄段、地域、口音、职业分布。测试样本应该涵盖文本内容是否相关、采集设备、传输信道、环境噪音、录音回放、声音模仿、时间跨度、采样时长、健康状况和情感因素等主要影响因素，因而声纹数据库成为声纹识别技术突破的重要门槛。目前最全的是公安部的声纹鉴别库。自然语言理解目前尚处于浅层语义分析阶段，大致包含词法分析、句法分析、语义分析这三个既递进又相互包含的层面。目前机器对句子的理解还只能做到语义角色标注层面，即标出句中的句子成分和主被动

14、关系等，属于浅层语义分析技术。未来要让机器更好地理解人类语言，并实现自然交互，还有待深度学习等机器学习方法的进步。多轮对话主要建立在语音识别、合成以及自然语言理解等技术基础之上，自然度和准确度有待提高。多轮对话系统一般分为任务型和闲聊型，任务型是协助用户完成具体的某项事情，如：设置闹钟、查天气等；而闲聊型是实现人机的情感聊天互动，如陪护型机器人。多轮对话相比单轮对话方式提高了用户交互的自然度和准确度。对话管理是实现多轮对话系统的核心，功能分为对话状态追踪（DST）和对话决策（Dialog Policy），前者作用是更新对话状态，记录到目前为止用户所有的聊天记录和系统行为，后者依据DST 对话状

15、态产生系统行为，即决定下一步反馈或调用等行为。三、智能语音产业发展现状1、市场规模快速扩大，且国内增速显著超过全球在移动互联网、大数据、云计算、深度学习等技术的发展推动下，智能语音技术渐趋成熟，行业发展进入场景应用布局阶段。移动互联网、智能家居、汽车、医疗、教育等领域的应用带动智能语音产业规模持续快速增长。2015 年全球智能语音市场规模达62.1 亿美元，同比增长34.2%。中国智能语音产业市场规模也逐步扩大，2015 年40.3 亿元产业规模约占全球市场份额10%，且增速显著高于全球市场，预计至2017 年份额占比将提升到14%。2、各要素齐发力，推动智能语音形成完整产业链借用我们前序报告中提出的人工智能商业化应用“人机料法环”模型，智能语音产业在人才储备、计算设施、数据积累、技术算法以及应用场景等五要素共同推动下已形成较为完整的产业链。从产业链角度，智能语音行业可分为四个部分。基础研究机构：语音合成、语音识别、声纹识别等基础技术的研发和技术输出；语音语义数据提供商：为算法研究或技术输出机构提供语音、语义数据库以及定制化

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？