语音识别技术调研报告修改版.docx

上传人:b****6 文档编号:4590335 上传时间:2022-12-07 格式:DOCX 页数:26 大小:47.69KB
下载 相关 举报
语音识别技术调研报告修改版.docx_第1页
第1页 / 共26页
语音识别技术调研报告修改版.docx_第2页
第2页 / 共26页
语音识别技术调研报告修改版.docx_第3页
第3页 / 共26页
语音识别技术调研报告修改版.docx_第4页
第4页 / 共26页
语音识别技术调研报告修改版.docx_第5页
第5页 / 共26页
点击查看更多>>
下载资源
资源描述

语音识别技术调研报告修改版.docx

《语音识别技术调研报告修改版.docx》由会员分享,可在线阅读,更多相关《语音识别技术调研报告修改版.docx(26页珍藏版)》请在冰豆网上搜索。

语音识别技术调研报告修改版.docx

语音识别技术调研报告修改版

第一篇:

语音识别技术调研报告

语音识别技术的原理和应用

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

在语音识别的特征提取过程中,主要有语音信息量大,语音的模糊性,重音、音调、音量和音速的变化,环境噪声和干扰等难点。

导致语音识别在互联网和传媒行业一直没有得到广泛的应用。

但是近几年来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,硬件的性能的提升和算法的改进,语音识别技术得到突飞猛进的发展。

例如音频指纹技术和音频二维码技术等。

下面本文具体讨论这两种技术。

音频二维码音频二维码技术

二维码技术经过多年的发展,已成为大家耳熟能详的名词了。

二维码取代传统的键盘树盘输入技术的部分功能,成为互联网行业的第二大入口方式。

但是普通的二维码技术只是将文本信息进行加码和解码。

这导致二维码只能传输普通的文本信息。

如果将音频技术和二维码的概念相结合,利用声音实现终端之间的近距离信息传输,那么毫无疑问音频信息将成为互联网行业的第三大入口方式。

音频二维码技术采用仿生学技术,利用声音实现文件的快速传输。

采用跨平台的技术,实现手机、电脑、智能机顶盒等智能设备间的图片、文字、链接的传输。

音频二维码技术能在一定程度上取代图像二维码、近磁场传输和蓝牙等技术。

2012年底蛐蛐儿创始人朱连兴开发了一套音频二维码的引擎,名字叫蛐蛐儿SDK。

在朱连兴推出了蛐蛐儿SDK之后,音频二维码的开发也变的比以前更加快速和简单。

蛐蛐儿通过声音传输的不是文件,而是在发送端生成一个四位的二进制数。

这四位二进制数是待发送文件的ID。

发送端向接收端发送的其实只是上述生成的ID。

发送端在向客户端发送ID的同时向云端发送ID和数据。

在接收端接收到ID后,通过该ID向云端获取对应的数据。

音频二维码应用

音频二维码的应用非常广泛。

音频二维码通过声音传递信息。

广播和电视也通过声音传递信息。

如果结合音频二维码技术和广播电视技术,将使二者相得益彰。

音频二维码可以使广播电视用户不再是单一的受众,也是参与者。

通过音频二维码可以让用户的手机等终端设备接入电视屏幕或者广播。

用户在欣赏电视节目或者收听广播节目的同时,也可以通过手持终端参与节目互动环节。

这会在给用户带来更好体验的同时,拉动广播电视行业的收视率和收听率。

例如在非诚勿扰的节目播放结束时,孟非不需要说那么长的一串话让观众知道如何来报名参加非诚勿扰,只需要说“欢迎在听到嘀声后报名参加非诚勿扰”就可以了。

观众的终端在听到嘀声后解析相应的内容,获取到报名所需要的电话号码和电子邮箱。

观众可以任选一种进行报名。

这样观众再也不需要拿笔和纸去记录这些信息了。

观众在观看好享购频道的时候,在一个节目结束的时候插入一个声音。

观众的手机在听到这个声音后自动解析购买此商品的号码,用户按拨号键就可以直接购买自己想要的商品。

使用了音频二维码技术,用户便从对着电视屏幕记录购买号码中解脱出来了。

不像电视技术同时通过声音和画面来传递信息,广播技术只能通过声音来传递信息。

所以在广播行业中,尤其需要其它的手段让听众接收信息。

在这个需求下,音频二维码技术变得尤为重要。

通过音频二维码技术,广播和电视可以向用户推送广告,例如团购消息、好享购商品信息以及商场打折券等等;可以向用户推送增值服务,例如天气预报、银行还款等等;可以向用户发起投票活动;还可以允许用户分享这些内容到各大社交论坛,吸引物联网用户的眼球。

缺点

蛐蛐儿SDK采用的是人耳可以听到的四千到一万伏的频段。

这导致非常容易被周围环境中的噪声干扰。

经过测试,该SDK在咖啡店和火锅店等公共场所中,在两米以内的传输率能达到百分之百,距离越远,传输率越低。

蛐蛐儿SDK采用的是人耳听觉范围内的音频,这对于广播电视行业来说是个缺点。

因为在原本纯内容的声音信息中加入了其它的对人耳来说无用的声音,可能会让观众无法接受。

这个问题可以通过采用超声波或者次声波来代替可听波来解决。

但是如果采用超声波,会显著增加功耗,并且不能绕过障碍物。

在电视前站一个人将把所有信息拒之门外。

并且某些频率的次声波对人体产生的危害非常大。

所以确定音频的频率是一个非常重要的研究。

音频指纹音频指纹技术

音频指纹技术是一种通用音频处理技术。

它能根据音频对象的特征准确识别该对象的信息。

音频指纹是音频对象简短的摘要。

音频指纹技术在音频对象和指纹之间建立一种映射关系。

通过这种机制,不需要通过比较较大的音频对象本身,而是通过比较相关的指纹,就可以确定音频之间知觉平等的关系。

音频技术的研究起步较早,现在已发展的非常成熟。

音频指纹的研究主要有两个方向。

一是基于水印嵌入的指纹方法。

周鸿飞提出了一种基于混沌和系数均指统计特性的音频指纹方案。

首先使用用户信息生成混沌映射初值,然后应用混沌方法把混沌映射初值生成用户指纹,再根据小波系数统计恒定特性将指纹嵌入到每帧中。

这种方法具有一定的鲁棒性,但是需要嵌入多余的数据。

另一种是基于内容的指纹方法。

HaitsmaJ.提出了一种鲁棒的音频哈希指纹方法,对相邻2帧提取频域能量的差异作为哈希指纹。

音频指纹应用

音频指纹起步较早,应用也非常广泛。

目前应用最广的领域是音乐播放软件中。

根据音乐的旋律能够准确识别歌名歌手等信息。

飞利浦公司研制了一款手机软件。

只要把手机贴近正在播放歌曲的收音机,不出三秒钟的时间就能记下这首歌曲的音频指纹。

然后手机可以通过该音频指纹去音频指纹数据库寻找匹配的歌曲。

酷我音乐也采用了这种技术实现了类似的功能。

音频指纹也可以应用到电视媒体中。

例如可以使用音频指纹对电视广告进行检测。

商业公司可以检测电视台的广告是否按合同规定播出。

媒体研究机构和广告策略公司可以统计广告的信息,对其进行整理和数据挖掘。

音频指纹还可以用于版权控制。

版权所有者可以对广播和电视进行音频指纹采集,然后根据音频指纹对比音视频数据库,找到该音视频,进而挖掘传播者是否具有该音视频的版权。

音频指纹也可以用于向电视和广播用户的终端推送服务,增加与用户的互动。

例如用户的手机接收到特定的音频指纹后就打开web浏览器,转到一个URL。

该URL可以是与用户互动的投票系统,也可以是广告,或者是一些增值服务。

音频指纹同样也可以用于物联网行业。

当用户上传或者下载音频的时候,首先传递该音频的指纹。

如果发现已存在该音频,将直接完成此次下载任务。

达到秒级的用户体验。

总结

随着技术的迭代更新,语音识别技术也会越来越完善和先进。

其应用背景非常广泛,其商机也无限大。

可以预测在近五到十年内,语音识别系统的应用将更加广泛。

各种各样的语音识别系统产品将出现在市场上。

人们也将调整自己的说话方式以适应各种各样的识别系统。

第二篇:

语音信号处理与识别

信号系统课程设计报告

欧阳光亮

2012029020025

语音信号处理与识别

目的:

理解时域和频域尺度变换基本概念,掌握信号时频域分析方法,正确理解采样定理,准确理解滤波器的概念。

内容:

(1)使用Matlab中wavrecord命令录制一段3秒的语音信号,使用wavplay命令播放,录制命令和播放命令中的采样频率设置成相同和不同两种情况,对观察到的现象进行分析并结合课本中的知识对该现象进行解释;

(2)使用不同的采样频率录制一段3秒的语音信号,画出信号的时域波形和频谱;找到语音信号的主要频谱成分所在的带宽;观察并分析不同采样频率对波形和频谱的影响;寻找声音信号不出现明显失真的最低采样频率;(3)录制一段男生的语音信号和一段女生的语音信号,对两段音频信号进行混合,设计滤波器将混合的语音信号分开成单独的男声和女声信号,如果分离效果不好,对原因进行解释。

Matlab命令:

wavrecord,wavplay,wavwrite,wavread,save,load,fft,fftshift,filter,plot,subplot,figure.过程:

(1)相同:

fs1=16000;

%取样频率fs2=16000;

%播放频率duration=5;

%录音时间

fprintf('Pressanykeytostart%gsecondsofrecording...\n',duration);

pause;

fprintf('Recording...\n');

y=wavrecord(duration*fs1,fs1);

%duration*fs是总的采样点数

fprintf('Finishedrecording.\n');

fprintf('Pressanykeytoplaytherecording...\n');

pause;

wavplay(y,fs2);wavwrite(y,fs1,'E:

\matlab\record3.wav

不同:

fs1=16000;

%取样频率fs2=8000;

%播放频率duration=5;

%录音时间

fprintf('Pressanykeytostart%gsecondsofrecording...\n',duration);

pause;

fprintf('Recording...\n');

y=wavrecord(duration*fs1,fs1);

%duration*fs是总的采样点数

fprintf('Finishedrecording.\n');

fprintf('Pressanykeytoplaytherecording...\n');

pause;

wavplay(y,fs2);wavwrite(y,fs1,'E:

\matlab\record3.wav');现象:

第二次播放时,声音明显失真。

理由:

采样频率和播放频率不一样时声音信号会失真。

(2)

fs1=16000;

%取样频率fs2=16000;

%播放频率duration=5;

%录音时间

fprintf('Pressanykeytostart%gsecondsofrecording...\n',duration);

pause;

fprintf('Recording...\n');

y=wavrecord(duration*fs1,fs1);

%duration*fs是总的采样点数

fprintf('Finishedrecording.\n');

fprintf('Pressanykeytoplaytherecording...\n');

pause;

wavplay(y,fs2);wavwrite(y,fs1,'E:

\matlab\record3.wav');

wav=wavread('E:

\matlab\record3.wav');Fs=16000;n=length(wav);f=(0:

n-1)*16000/n;mag=abs(fft(wav));subplot(2,1,1);plot(wav);subplot(2,1,2);plot(f,mag)

采样频率为1600010.5y/幅度0-0.5-101234x/t采样频率为16000567x1084600500400y/幅度300200100002000400060008000x/f10000120001400016000

fs1=8000;

%取样频率fs2=8000;

%播放频率duration=5;

%录音时间

fprintf('Pressanykeytostart%gsecondsofrecording...\n',duration);

pause;

fprintf('Recording...\n');

y=wavrecord(duration*fs1,fs1);

%duration*fs是总的采样点数

fprintf('Finishedrecording.\n');

fprintf('Pressanykeytoplaytherecording...\n');

pause;wavplay(y,fs2);wavwrite(y,fs1,'E:

\matlab\record3.wav');

wav=wavread('E:

\matlab\record3.wav');Fs=8000;n=length(wav);f=(0:

n-1)*16000/n;mag=abs(fft(wav));subplot(2,1,1);plot(wav);subplot(2,1,2);plot(f,mag)wavplay(wav,8000)

采样频率为8000hz10.5y/幅度0-0.5-100.511.52x/s采样频率为8000hz2.533.5x1044250200150100500y/幅度02000400060008000x/hz10000120001400016000

由图可知:

语音信号的主要频谱成分所在的带宽为(0—1200hz),带宽为1200hz。

当采样频率较小时,频谱图上显示带宽较大,波形较稀松。

最低采样频率应为,声音信号的最高频率的两倍,由图可知为2400hz。

(3)女声:

wav1=wavread('E:

\matlab\record1.wav');wav2=wavread('E:

\matlab\record2.wav');wav=wav1+wav2;fp1=800;fp2=1500;fp=[fp1,fp2];fr1=650;fr2=1900;fr=[fr1,fr2];Fs=16000;ap=1;as=40;[n,fn]=buttord(fp/(Fs/2),fr/(Fs/2),ap,as,'z');[b,a]=butter(n,fn);Y1=filter(b,a,wav);Y=fft(Y1);mag=abs(Y);n=length(wav);f=(0:

n-1)*16000/n;subplot(3,1,1);mag1=abs(fft(wav));plot(f,mag1)subplot(3,1,2);plot(f,mag);subplot(3,1,3);plot(Y1);wavplay(Y1,16000)

混合400300y/幅度200100002000400060008000x/频率女声10000120001400016000400300y/幅度200100002000400060008000f/hz100001200014000160000.20.1y/幅度0-0.1-0.201234x/t567x1084

男声:

wav1=wavread('E:

\matlab\record1.wav');wav2=wavread('E:

\matlab\record2.wav');wav=wav1+wav2;fp1=200;fp2=600;fp=[fp1,fp2];fr1=100;fr2=1000;fr=[fr1,fr2];Fs=16000;ap=3;as=40;[n,fn]=buttord(fp/(Fs/2),fr/(Fs/2),ap,as,'z');[b,a]=butter(n,fn);Y1=filter(b,a,wav);Y=fft(Y1);mag=abs(Y);n=length(wav);f=(0:

n-1)*16000/n;subplot(3,1,1);mag1=abs(fft(wav));plot(f,mag1)subplot(3,1,2);plot(f,mag);subplot(3,1,3);plot(Y1);wavplay(Y1,16000)

混合频谱图200150y/幅度10050001000200030004000x/hz男声频谱图500060007000800040y/幅度2002000400060008000x/hz男声时域图100001200014000160000.040.02y/幅度0-0.02-0.0401234x/s567x1084

分离效果不佳,原因:

男女声频率有很多重叠的地方。

第三篇:

智能语音识别机器人文献翻译

改进型智能机器人的语音识别方法

2、语音识别概述

最近,由于其重大的理论意义和实用价值,语音识别已经受到越来越多的关注。

到现在为止,多数的语音识别是基于传统的线性系统理论,例如隐马尔可夫模型和动态时间规整技术。

随着语音识别的深度研究,研究者发现,语音信号是一个复杂的非线性过程,如果语音识别研究想要获得突破,那么就必须引进非线性系统理论方法。

最近,随着非线性系统理论的发展,如人工神经网络,混沌与分形,可能应用这些理论到语音识别中。

因此,本文的研究是在神经网络和混沌与分形理论的基础上介绍了语音识别的过程。

语音识别可以划分为独立发声式和非独立发声式两种。

非独立发声式是指发音模式是由单个人来进行训练,其对训练人命令的识别速度很快,但它对与其他人的指令识别速度很慢,或者不能识别。

独立发声式是指其发音模式是由不同年龄,不同性别,不同地域的人来进行训练,它能识别一个群体的指令。

一般地,由于用户不需要操作训练,独立发声式系统得到了更广泛的应用。

所以,在独立发声式系统中,从语音信号中提取语音特征是语音识别系统的一个基本问题。

语音识别包括训练和识别,我们可以把它看做一种模式化的识别任务。

通常地,语音信号可以看作为一段通过隐马尔可夫模型来表征的时间序列。

通过这些特征提取,语音信号被转化为特征向量并把它作为一种意见,在训练程序中,这些意见将反馈到HMM的模型参数估计中。

这些参数包括意见和他们响应状态所对应的概率密度函数,状态间的转移概率,等等。

经过参数估计以后,这个已训练模式就可以应用到识别任务当中。

输入信号将会被确认为造成词,其精确度是可以评估的。

整个过程如图一所示。

图1语音识别系统的模块图

3、理论与方法

从语音信号中进行独立扬声器的特征提取是语音识别系统中的一个基本问题。

解决这个问题的最流行方法是应用线性预测倒谱系数和Mel频率倒谱系数。

这两种方法都是基于一种假设的线形程序,该假设认为说话者所拥有的语音特性是由于声道共振造成的。

这些信号特征构成了语音信号最基本的光谱结构。

然而,在语音信号中,这些非线形信息不容易被当前的特征提取逻辑方法所提取,所以我们使用分型维数来测量非线形语音扰动。

本文利用传统的LPCC和非线性多尺度分形维数特征提取研究并实现语音识别系统。

3.1线性预测倒谱系数

线性预测系数是一个我们在做语音的线形预分析时得到的参数,它是关于毗邻语音样本间特征联系的参数。

线形预分析正式基于以下几个概念建立起来的,即一个语音样本可以通过一些以前的样本的线形组合来快速地估计,根据真实语音样本在确切的分析框架(短时间内的)和预测样本之间的差别的最小平方原则,最后会确认出唯一的一组预测系数。

LPC可以用来估计语音信号的倒谱。

在语音信号的短时倒谱分析中,这是一种特殊的处理方法。

信道模型的系统函数可以通过如下的线形预分析来得到:

其中p代表线形预测命令,

,(k=1,2,„„,p)代表预测参数,脉冲响应用

那么

(1)式可以扩展为

(2)式:

h(n)来表示,假设h(n)的倒谱是

(1)带入

(2),两边同时

(2)变成(3)。

就获得了方程(4):

那么可以通过

来获得。

(5)中计算的倒谱系数叫做LPCC,n代表LPCC命令。

在我们采集LPCC参数以前,我们应该对语音信号进行预加重,帧处理,加工和终端窗口检测等,所以,中文命令字“前进”的端点检测如图2所示,接下来,断点检测后的中文命令字“前进”语音波形和LPCC的参数波形如图3所示。

图2中文命令字“前进”的端点检测

图3断点检测后的中文命令字“前进”语音波形和LPCC的参数波形

3.2语音分形维数计算

分形维数是一个与分形的规模与数量相关的定值,也是对自我的结构相似性的测量。

分形分维测量是[6-7]。

从测量的角度来看,分形维数从整数扩展到了分数,打破了一般集拓扑学方面被整数分形维数的限制,分数大多是在欧几里得几何尺寸的延伸。

有许多关于分形维数的定义,例如相似维度,豪斯多夫维度,信息维度,相关维度,容积维度,计盒维度等等,其中,豪斯多夫维度是最古老同时也是最重要的,它的定义如【3】所示:

其中,表示需要多少个单位来覆盖子集F.

端点检测后,中文命令词“向前”的语音波形和分形维数波形如图4所示。

图4端点检测后,中文命令词“向前”的语音波形和分形维数波形

3.3改进的特征提取方法

考虑到LPCC语音信号和分形维数在表达上各自的优点,我们把它们二者混合到信号的特取中,即分形维数表表征语音时间波形图的自相似性,周期性,随机性,同时,LPCC特性在高语音质量和高识别速度上做得很好。

由于人工神经网络的非线性,自适应性,强大的自学能力这些明显的优点,它的优良分类和输入输出响应能力都使它非常适合解决语音识别问题。

由于人工神经网络的输入码的数量是固定的,因此,现在是进行正规化的特征参数输入到前神经网络[9],在我们的实验中,LPCC和每个样本的分形维数需要分别地通过时间规整化的网络,LPCC是一个4帧数据(LPCC1,LPCC2,LPCC3,LPCC4,每个参数都是14维的),分形维数被模范化为12维数据,(FD1,FD2,„FD12,每一个参数都是一维),以便于每个样本的特征向量有4*14+12*1=68-D维,该命令就是前56个维数是LPCC,剩下的12个维数是分形维数。

因而,这样的一个特征向量可以表征语音信号的线形和非线性特征。

自动语音识别的结构和特征

自动语音识别是一项尖端技术,它允许一台计算机,甚至是一台手持掌上电脑(迈尔斯,2000)来识别那些需要朗读或者任何录音设备发音的词汇。

自动语音识别技术的最终目的是让那些不论词汇量,背景噪音,说话者变音的人直白地说出的单词能够达到100%的准确率(CSLU,2002)。

然而,大多数的自动语音识别工程师都承认这样一个现状,即对于一个大的语音词汇单位,当前的准确度水平仍然低于90%。

举一个例子,Dragon'sNaturallySpeaking或者IBM公司,阐述了取决于口音,背景噪音,说话方式的基线识别的准确性仅仅为60%至80%(Ehsani&Knodt,1998)。

更多的能超越以上两个的昂贵的系统有Subarashii(Bernstein,etal.,1999),EduSpeak(Franco,etal.,2001),Phonepass(Hinks,2001),ISLEProject(Menzel,etal.,2001)andRAD(CSLU,2003)。

语音识别的准确性将有望改善。

在自动语音识别产品中的几种语音识别方式中,隐马尔可夫模型(HMM)被认为是最主要的算法,并且被证明在处理大词汇语音时是最高效的(Ehsani&Knodt,1998)。

详细说明隐马尔可夫模型如何工作超出了本文的范围,但可以在任何关于语言处理的文章中找到。

其中最好的是Jurafsky&Martin(2000)andHosom,Cole,andFanty(2003)。

简而言之,隐马尔可夫模型计算输

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 英语

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1