噪音环境下的语音识别系统的研究.docx

资源描述

噪音环境下的语音识别系统的研究.docx

《噪音环境下的语音识别系统的研究.docx》由会员分享，可在线阅读，更多相关《噪音环境下的语音识别系统的研究.docx（35页珍藏版）》请在冰豆网上搜索。

噪音环境下的语音识别系统的研究.docx

噪音环境下的语音识别系统的研究

摘要

语音增强是一个涉及面很广的研究课题，它不仅涉及信号检测、波形估计等传统信号处理理论，而且还与语音特性、人耳感知特性和噪声特性密切相关。

因此在语音特性、人耳感知特性及噪声特性的情况下常用语音增强法有：

噪声对消法、谱减法、维纳滤波法、卡尔曼滤波法、FIR自适应滤波法、基于神经网络的语音增强、基于听觉感知的语音增强、基于小波变换的语音增强方法、自相关法等。

本文主要从以下三种算法进行分析：

谱减法是处理宽带噪声较为传统和有效的方法，利用带噪语音的功率谱估值减去噪声的功率谱估值实现语音去噪；维纳滤波法是在最小均方准则下实现对语音信号估计的一种滤波器。

对于带噪语音信

号,确定滤波器的冲击响应,使得带噪语音信号经过该滤波器后得到最接近于“纯净”的语音信号。

小波变换法应用小波阈值去噪的方法，分析了常用的软、硬阈

值函数对语音增强的效果；仿真结果表明小波法效果较明显，而谱减法易产生“音乐噪声”，Wiener滤波增强后的残留噪声类似于白噪声，而不是音乐噪声。

关键词：

语音增强谱减法小波阈值去噪维纳滤波法

Researchonspeechrecognitionsystemundernoisy

environment

Abstract

Speechenhancementisabroadtopic,itnotonlyrelatestosignaldetection,WaveformEstimationandothertraditionalsignalprocessingtheory,butalsoiscloselyrelatedtothespeechcharacteristics,thehumanearandthenoisecharacteristics.Therefore,combinedwiththespeechcharacteristicsandtheperceptualpropertiesofhumanearandthenoisecharacteristics.Therefore,incommonwithspeechspeechcharacteristics,humanperceptualcharacteristicsandnoisecharacteristicsofthecaseenhancementmethod:

Noisecancellation、Spectralsubtraction、Wienerfilteringmethod、Calmanfilter、FIRadaptivefilteringmethod、SpeechenhancementbasedonNeuralNetwork、Speechenhancementbasedonauditoryperception、AspeechenhancementmethodbasedonWaveletTransform、TheautocorrelationmethodEtc.Thisarticlemainlycarriesontheanalysisfromthefollowingthreealgorithms:

Spectralsubtractionmethodistraditionalandeffectivebroadbandnoise,Usethenoisyspeechpowerspectrumestimationsubtractthenoisepowerspectrumestimationimplementationofspeechdenoising.Wienerfilteringmethodisakindoffilterthespeechsignalestimationintheleastmeansquarecriterionimplementation.Forthespeechsignalwithnoise,Determinethefilter'simpulseresponse,Thenoisyspeechsignalthroughthefiltertoobtainthespeechsignalisclosesttothe"pure".Methodofwavelettransformusingwaveletthresholddenoising,Analysisofthecommonlyusedsoft

threshold、effectofhardthresholdfunctionforspeechenhancement;Thesimulationresultsshowthatthewaveletmethodhasobviouseffect,andthespectralsubtractionmethodiseasytoproduce"musicnoise",Wienerfilterenhancementresidualnoiseissimilartowhitenoise,notthemusicnoise.

Keywords:

SpeechenhancementSpectralsubtractionWaveletthresholddenoisingWienerfilteringmethod

第一章绪论

1.1引言

随着社会的不断进步和科技的飞速发展，计算机对人们的帮助越来越大，成

为了人们不可缺少的好助手，但是一直以来人们都是通过键盘、鼠标等和它进行

通信，这限制了人与计算机之间的交流，更限制了消费人群。

为了能让多数人甚

至是残疾人都能使用计算机，让计算机能听懂人的语言，理解人们的意图，人们

开始了对语音识别的研究。

语音识别是语音学与数字信号处理技术相结合的一门交叉学科，它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。

1.2语音识别的发展历史和研究现状

1.2.1国外语音识别的发展状况

国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。

20世纪60年代，日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题，开发了一系

列的时问归正方法，明显地改善了识别性能。

与此同时，苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题，这是动态时间弯折算法

DTW（dymmictimewarping）的基础，也是其连续词识别算法的初级版．

20世纪70年代，人工智能技术走入语音识别的研究中来．人们对语音识别的研究也取得了突破性进展．线性预测编码技术也被扩展应用到语音识别中，DTw也基本成熟。

20世纪80年代，语音识别研究的一个重要进展，就是识别算法从模式匹配技术转向基于统计模型的技术，更多地追求从整体统计的角度来建立最佳的语音识别系统。

隐马尔可夫模型（hiddenMarkovmodel，删）技术就是其中一个典型技术。

删的研究使大词汇量连续语音识别系统的开发成为可能。

20世纪90年代，人工神经网络（artificialneuralnetwork，ANN）也被应用到语

音识别的研究中，并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展，此时，语音识别技术进一步成

熟，并走向实用。

许多发达国家，如美国、日本、韩国，已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。

当今，基于HMM和ANN相结合的方法得到了广泛的重视。

而一些模式识别、

机器学习方面的新技术也被应用到语音识别过程中，如支持向量机（supportvectormachine，SVM）技术、进化算法（evolutionarycomputation）技术等。

1.2.2国内语音识别的发展状况

20世纪50年代我国就有人尝试用电子管电路进行元音识别，到70年代才由中科院声学所开始进行计算机语音识别的研究．80年代开始，很多学者和单位参与到语音识别的研究中来，也开展了从最初的特定人、小词汇量孤立词识别，到非特定人、大词汇量连续语音识别的研究工作．80年代末，以汉语全音节识别作为主攻方向的研究已经取得了相当大的进展，一些汉语语音输入系统已经

向实用化迈进。

90年代j四达技术开发中心和哈尔滨工业大学合作推出了具有自然语言理解能力的新产品．在国家“863”计划的支持下，清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的研究．经

过60多年的发展，语音识别技术已经得到了很大发展，对于语音识别的研究也达到了相当高的水平，并在实验室环境下能达到很好的识别效果。

但是，在实

际应用中，噪声以及各种因素的影响，使语音识别系统的性能大幅度下降，很难达到让人满意的效果。

因此，对噪声环境下的语音识别的研究有着异常重要的理论价值和现实意义．

1.3语音识别的分类

语音识别存在不同的分类方法：

（1）按词汇量大小分。

每个语音识别系统都有一个词汇表，系统能识别词汇表中所包含的词条。

通常按词汇量可分为小词汇量、中词汇量和大词汇量，一般小词汇量包括10～100个词；中词汇量大约包括100～500个词条；大词汇量则至少包含500个以上的词条。

（2）按发音方式分。

语音识别可以分为孤立词识别、连续词识别、连续语音识

别以及关键词检出等。

孤立词识别，是机器只识别一个个孤立的音节、词或者短

语等；连续语音识别，是机器识别连续自然的书面朗读形式的语音；在连续词识

别中，发音方式介于孤立词和连续语音之间，它表面上看起来象连续语音发音，

但能明显感受到音与音之间的停顿；关键词检出，通常用于说话人以类似自由交

谈方式的发音，在这种发音方式下，只需要进行其中的关键词识别．

（3）按说话人分．可分为特定说话人和非特定说话人两种。

前者只能识别固定某个人的声音，而后者是机器能识别出任意人的发音。

（4）从语音识别的方法分．有模式匹配法、随机模型法和概率语法分析法。

模式匹配法是将测试语音与参考模板的参数一一进行比较和匹配，判决的依据是失真测度最小准则；随机模型法是一种使用隐马尔可夫模型来对似然函数进行估计和判决，从而得到相应的识别结果的方法；概率语法分析法适用于大范围的连续语音识别，它可以利用连续语音中的语法约束知识来对似然函数进行估计和判决．

1.4噪声对语音识别的影响

随着科技的发展，人们对语音识别的研究越来越深入，在理论上达到了很成熟的阶段，也开始步入实用化阶段。

以mM的ViaVoice为代表，其对连续语的

识别率可以达到95％以上．但是所有识别系统对噪声都是极为敏感的，在噪声环境下，识别性能会大幅度下降州．例如，在一个典型的孤立词识别系统中，用纯净语音训练，识别效果会达到100％，但在以100公里每小时的速度行驶的小车上，其识别率将下降70％左右；一个

展开阅读全文