深度解读智能音箱技术360度解剖智能音箱的耳朵.docx

上传人:b****6 文档编号:2986903 上传时间:2022-11-16 格式:DOCX 页数:9 大小:102.13KB
下载 相关 举报
深度解读智能音箱技术360度解剖智能音箱的耳朵.docx_第1页
第1页 / 共9页
深度解读智能音箱技术360度解剖智能音箱的耳朵.docx_第2页
第2页 / 共9页
深度解读智能音箱技术360度解剖智能音箱的耳朵.docx_第3页
第3页 / 共9页
深度解读智能音箱技术360度解剖智能音箱的耳朵.docx_第4页
第4页 / 共9页
深度解读智能音箱技术360度解剖智能音箱的耳朵.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

深度解读智能音箱技术360度解剖智能音箱的耳朵.docx

《深度解读智能音箱技术360度解剖智能音箱的耳朵.docx》由会员分享,可在线阅读,更多相关《深度解读智能音箱技术360度解剖智能音箱的耳朵.docx(9页珍藏版)》请在冰豆网上搜索。

深度解读智能音箱技术360度解剖智能音箱的耳朵.docx

深度解读智能音箱技术360度解剖智能音箱的耳朵

深度解读智能音箱技术:

360度解剖智能音箱的耳朵

 

 

————————————————————————————————作者:

————————————————————————————————日期:

 

深度解读智能音箱技术:

360度解剖智能音箱的"耳朵"

 

智能音箱产业系列报道导读:

最近数月,智能行业第一媒体智东西已深入智能音箱产业链,围绕智能语音交互入口之争和智能音箱之热,连发数篇深度报道,该系列还将覆盖业内数十家关键公司、核心操盘手和热点话题,本文为系列报道之一。

 

如果没有“它”,所有的人工智能设备都是“聋子”,所有的智能音箱都是智障音箱;如果没有它,背后的人工智能技术牛X到天都没用!

它是智能设备的“耳朵”——麦克风阵列。

“Alexa”,当你对着亚马逊Echo呼唤时,它用顶部的蓝色光环应声相应,“今天天气怎么样”,它就会“听懂”你的意图,用柔和的声音告诉你天气状况。

而“听懂”或者“听清”的第一步在于准确的获取用户的声音(即拾音),否则无论云端的虚拟助手多么智能,也是无头苍蝇。

麦克风阵列是语音交互的第一步,在智能音箱落地中有关键作用,不仅传统的芯片公司,语音技术巨头和有深厚技术背景的初创公司纷纷加入这一领域。

同时,随着智能音箱的火热以及语音交互的盛行,麦克风阵列技术开始走向前台,“XX产品用的是谁家的麦克风阵列”也成为行业中热议的话题;这时我们很有必要看清“麦克风阵列”产品技术的过去现在和产业链现状,也是本文作为智东西智能音箱产业系列报道的主要目的。

那么我们经常提及的麦克风阵列究竟是什么?

它有哪些类别及作用?

哪些玩家参与其中?

市场上各家智能音箱使用的麦克风阵列又有什么不同?

一、麦克风阵列:

拾音

简单来讲,麦克风阵列是由2个及以上麦克风按一定规则排列组成,在特定空间对声音进行获取和处理的录音系统,它是远讲语音(超过1米以上)设备的一个关键部分。

(注:

本文所讨论的为远讲语音设备中的消费级麦克风阵列)

麦克风阵列的功能就是拾音。

在远讲语音设备中,麦克风阵列通过声源定位、波束形成、噪声抑制、回声消除等远讲算法,有效拾取声音,从而保证具体场景中语音的识别率。

具体来讲,以智能音箱为例,在家庭场景中会存在各种噪声等,麦克风阵列的作用就是“众里寻他千XX”,在众多干扰噪声中寻找到你,但只是找到还不够,还需要抑制噪声、消除自身发出声音的影响,并增强你的声音,从而确保在云端进行有效识别,并满足你的任务指令。

而拾音又分为远场拾音(1米外)和近场拾音(20cm内)。

比如,以Siri为代表的智能手机就是近场拾音,采用的是单麦克风,可在近距离、低噪声的情况下拾取符合语音识别需求的声音。

但是一旦将智能手机放在有噪声的较远的距离,Siri的识别率就会直线下降,单麦克风的局限就凸显了出来。

而这正是远场拾音和近场拾音的区别,也凸显了麦克风阵列的重要性。

不仅如此,由于噪声、混响等因素的存在,远场拾音还要与远讲语音识别算法相匹配,才能真正做到“听清”。

二、麦克风阵列中的关键技术

在远场拾音中,麦克风阵列可以提供前端信号处理,拾取有效的语音信号输送到云端进行识别。

这其中就几项关键的技术:

声源定位、波束形成、噪声抑制、回声消除、语音增强。

1、声源定位

声源定位的任务就是在具体场景中,甚至从噪音中找到发出声音的“你”,以便后续的波束形成。

它是基于麦克风阵列对目标信号(声源)的位置探测,确定在特定空间中说话者的位置关系。

尤其是在移动场景中,实时的声源定位就显得重要。

2、波束形成

波束形成是对麦克风阵列中各个麦克风输出的声音进行信号处理,从而形成空间指向性。

这种方法会抑制目标声音以外的声音干扰,不仅抑制噪声也包括其他方向的人声。

以叮咚音箱的AIUI模式为例,开启了一定时间的多伦对话后,它会优先默认第一个说话者作为它拾音的主方向,从而抑制其他方向的声音,来保证和一个对话者的交互。

这也意味着,当前技术下,智能音箱不可能同时和多人进行交互。

3、噪声抑制

你在卧室中开着电视,是很难唤醒在你床上睡觉的iPhone中的Siri的,这就是它不具备噪声抑制的能力。

但你可以唤醒理你较远的智能音箱,这正是噪声抑制的作用。

简单来讲,噪声抑制就是在目标信号和干扰噪声中,保留目标声音,削弱周围的噪声,从而保证获取的目标声音信号相对清晰,再结合云端相匹配的语音识别算法,实现有效识别理解。

4、抗混响

混响就是声源发出后,在空间中经过多次物体(墙壁)的反射和吸收,若干声波混合在一起所形成的现象,它会影响语音信号的处理,声源定位的精度以及语音识别效果。

通过远讲算法消除混响是远讲语音设备在拾音环节的关键一环。

5、回声抵消

回声抵消简单来讲,就是不让语音设备自己发出的声音干扰到拾音过程。

比如在智能音箱播放音乐时,你唤醒设备并下达命令,这时麦克风阵列同时采集你发出的声音和正在播放的音乐的声音,而回声抵消就是要去掉其中音乐的声音并保留人的声音,以供云端进行语音识别。

6、语音增强

在家居环境中,存在着背景噪音、回声、混响等噪音干扰,这些噪音相互叠加严重影响语音识别效果。

除了降低各种噪声外,还可以从语音增强进行改善。

远距离拾音的另一个问题就是获取的语音信号较弱,需要通过麦克风阵列进行噪声分离,提取目标信号,并增强语音信号的能量,从而提升语音识别效果。

三、消费级麦克风阵列的里程碑事件

早在20世纪七八十年代,麦克风阵列已经被应用到语音信号处理中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。

近年来随着语音交互成为趋势,麦克风阵列逐渐进入消费市场领域,日趋火热。

在麦克风阵列领域拥有丰富经验的先声互联创始人付强曾谈到,麦克风阵列在消费级领域出现有几个里程碑事件:

第一个里程碑事件是微软在2010年6月份正式推出的Kinect,它是Xbox360游戏主机的体感周边设备,内置了红外线摄像头、传感器、麦克风阵列,可通过对用户身体动作的变化和发出指令来操作游戏。

Kinect曾累计销量2900万部,但近几年逐渐推出了人们的视野。

第二个是三星在2012年推出的全球首款具有远讲语音能力的智能电视,该电视使用麦克风阵列,科胜讯的语音芯片,支持语音操控,并带动了国内的智能电视潮。

第三个里程碑事件就是亚马逊Echo智能音箱在2014年底的推出,其采用6+1麦克风阵列,支持5米远讲语音操控。

Echo不但是第一款真正意义上的智能音箱设备,还是消费级麦克风阵列应用的里程碑事件,并带火了当下国内这波智能音箱浪潮。

其中,三星的第一款智能电视和亚马逊的Echo智能音箱都用了4年时间去打磨,才有了今天的技术成熟。

而反观国内的智能音箱浪潮,我们还缺少这种对技术的长线投入和对产品的耐心打磨。

四、麦克风阵列的代表性玩家

随着国内智能音箱以及语音交互的火热,在麦克风阵列以及远讲算法领域诞生了一波方案提供商,其中能够提供麦克风阵列的硬件方案,又能够提供前端算法的厂商并不太多,智东西选出了具有代表性的几家方案厂商。

1、科大讯飞——国内语音龙头

科大讯飞是国内一家老牌智能语音公司,其有一个专门的团队在研究麦克风阵列技术。

目前在讯飞开放平台上,提供二麦线性阵列、四麦线性阵列和六麦环形阵列。

中兴、海康威视、美的、高德、优必选、狗尾草等都是其客户。

叮咚音箱就是由京东和科大讯飞联合成立的灵隆科技推出的,其中科大讯飞提供语音语义等技术支持。

叮咚音箱A1是国内第一款真正意义上的智能音箱,于2015年8月正式推出,它采用7+1麦克风阵列,豪恩声学提供的ECM麦克风,并采用科胜讯CX20810-11Z音频芯片。

在结构上不同于其他智能音箱置于顶部,而是位于主控电路板下面,并采用中空结构,麦克风向外侧倾斜拾音,颇具创意。

(叮咚音箱A1的7+1环形麦克风阵列,黑色为麦克风)

2、科胜讯——国际语音方案巨头

科胜讯成立于1999年,曾是全球最大的独立通讯芯片提供商,后来几经波折被新思科技收购。

在语音交互领域,它主要提供语音芯片和麦克风阵列技术,其方案最大优势在于降噪和语音增强算法,技术打磨也更加成熟。

难怪科胜讯总裁SaleelAwsare会说,其双麦克风就可以实现友商5-8麦克风的解决方案的效果。

亚马逊、XX、阿里巴巴、腾讯、哈曼、科大讯飞、出门问问、云知声等都是其客户或合作伙伴。

据了解科胜讯为AlexaVoiceService(AVS)量身定做了AudioSmart语音处理开发套件出货量已超过3000万套,涵盖智能音箱、智能家居、智能电视、机器人等多个品类。

出门问问刚刚发布的智能音箱也采用科胜讯的方案,此外,苹果HomePod也可能采用了科胜讯AudioSmart开发套件。

3、先声互联——阵列研究先行者

先声互联是一家成立于2016年的创业公司,主要提供麦克风阵列以及前端信号处理技术。

其创始人付强曾在中科院声学所有10余年的声学研究,在语音信号处理领域有20余年的积淀。

先声互联目前主要提供两麦、四麦、六麦等解决方案,在抗混响、回声消除、语音增强等方面表现不俗。

先声互联是XX的合作伙伴,其多麦克风硬件开发套件也应用在XXDuerOS平台中。

目前,物灵的luka阅读养成机器人、极米科技的LightankW100、数字家圆的亲见H2等产品都采用了先声互联的远讲算法以及麦克风拾音模组。

此外,先声互联也正在和腾讯、联想、小米等公司就某些智能硬件产品展开合作。

4、思必驰——成熟方案输出商

思必驰成立于2007年,是一家面向B端客户的语音语义技术提供商。

其副总裁雷国雄告诉智东西,思必驰从2012年就开始研究麦克风阵列技术,并配备一个专门的团队研究语音信号处理,结合思必驰的语音进行优化。

目前思必驰提供单麦、两麦、四麦、六麦等解决方案,经过5、6年时间的积累,在性能和稳定性上均表现不错。

近期阿里推出的天猫精灵X1就是采用思必驰的环形6麦克风阵列,模拟麦克风则来自敏芯微电子,天猫精灵在降噪、回声消除等拾音方面均有不错表现。

此外,联想、小米、美的、360、DOSS等都是其客户。

5、声智科技——新起之秀

声智科技也成立于2016年,提供麦克风阵列以及远讲算法,目前其推出了单麦、两麦、四麦、六麦、八麦的阵列解决方案,也有不错的表现。

有趣的是其创始人陈孝良也来自中科院声学所。

近期刚刚发布的小米AI音箱,就采用了声智科技的环形6麦克风阵列和唤醒技术方案。

声智科技也是XX的合作伙伴,推出了基于DuerOS的语音解决方案。

此外,腾讯、阿里巴巴、奇虎360、华为、海尔等都是其客户。

五、麦克风阵列:

两路分化

目前智能音箱中的麦克风阵列呈现两路分化,主要包括环形和线性。

亚马逊Echo、叮咚音箱、天猫精灵、小米AI音箱等技术路线相似,都使用6(+1)、7(+1)个麦克风的环形阵列,而GoogleHome、出门问问的问问音箱则采用了2麦克风的线性阵列。

(亚马逊Echo的6+1环形麦克风阵列,金色为麦克风)

为何各家使用的麦克风数目不一,真的是数目越多越好吗?

先声互联付强曾从技术的角度谈到,事实并非如此。

目前麦克风阵列语音增强大致可分为两种技术路线:

一种是以亚马逊Echo为代表的经典波束形成路线,它对麦克风的数目以及阵列拓扑结构(排列位置)依赖较大,通过使用较多的麦克风以及特定结构,从而使得波束的空间区分性更强,保证声源定位和拾音效果。

另外一种就是以科胜讯为代表的路线,该路线更加依赖语音增强算法,而对麦克风阵列数量和阵列拓扑结构依赖较小,通过通过自适应降噪、降低混响、语音分离等技术,从而靠少量麦克风获得良好的拾音效果。

有趣的是,刚刚在8月24日发布的出门问问的智能音箱采用的就是科胜讯的2麦克风阵列,从其测试结果来看,远场拾音唤醒能力并不输于竞品。

(黄色方框为GoogleHome2麦线性阵列)

关于阵列麦克风数目的选择,思必驰副总裁雷雄国则从产品层面谈到

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1