劳动能力鉴定十级标准语音识别抗噪音能力有待加强.docx

资源描述

劳动能力鉴定十级标准语音识别抗噪音能力有待加强.docx

《劳动能力鉴定十级标准语音识别抗噪音能力有待加强.docx》由会员分享，可在线阅读，更多相关《劳动能力鉴定十级标准语音识别抗噪音能力有待加强.docx（11页珍藏版）》请在冰豆网上搜索。

劳动能力鉴定十级标准语音识别抗噪音能力有待加强.docx

劳动能力鉴定十级标准语音识别抗噪音能力有待加强

语音识别已经成为一个面向多种应用、满足多种需求的庞大体系，这种技术的广泛应用推动了语音识别评测的诞生，而评测反过来又推动了语音识别技术的进步。

语音识别是指用计算机对人的语音信号进行分析处理，从而得到其对应文字的过程。

其最终目的就是实现一种自然的人机交互方式，使机器能听懂人的语言，辨明话音的内容，将人的语音正确地转化为对应的文本，或者根据语义做出相应的动作。

常见的应用系统有语音输入系统、语音控制系统、智能对话查询系统等。

而语音识别评测是指针对语音识别的某项应用，创建评测语料库，提出评测指标和对应算法，用评测语料训练和测试各参评系统，并对其识别结果进行比较和分析的过程。

实际上，从1987年起，美国国家标准技术局就开始组织对各大学和公司研发的语音识别系统进行评测。

十几年间，根据技术的现状，组织了多次不同任务的评测，促进了领域内的竞争和交流，对语音识别技术的进步和发展起到了巨大的引领和推动作用。

当前，国际上知名的语音识别评测主要有:

美国NIST（国家标准技术局）评测、欧洲TC-STAR评测和中国的863评测。

美国NIST评测是开展历史最久、项目设置最全也最负盛名的评测，近20年来，每年都针对语音识别方向的热点技术组织国际性评测，涉及的语言有英语、汉语普通话和阿拉伯语，涉及的任务有孤立词识别、关键词识别和大词汇量连续语音识别，涉及的语音包括了朗读语音、自然语音、对话语音、广播语音、会议语音等各种常见的语音类别。

TC-STAR语音识别评测是欧盟TC-STAR项目的一部分。

该项目主要针对语音到语音的机器自动翻译。

其语音识别评测任务为连续语音识别，针对英语、西班牙语和汉语普通话，处理的语音为会议发言（英语、西班牙语）或新闻广播（汉语）。

863语音识别评测是类似NIST评测的综合性评测，语言以汉语为主，任务和通道多样，根据语音识别技术的现状和发展趋势不断调整。

语音识别的主要技术

近年来，由于大规模语料库的支持，基于统计的语音识别方法逐渐发展成熟，取得了较好的识别结果，成为当前语音识别技术的主流。

基于隐马尔可夫模型（HMM）的统计语音识别在各个通道，各种任务的语音识别中得到了广泛应用。

图1所示为当前大多数语音识别系统采用的框架和流程。

原始语音经前端处理后，从中提取出若干维的特征向量用于识别。

识别时，声学模型和语言模型共同作用，得到使某一概率最大的字串作为识别结果。

前端处理是指在特征提取之前，先对原始语音进行处理，部分消除噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征。

最常用的前端处理有端点检测和语音增强。

端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。

经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。

语音增强的主要任务就是消除环境噪声对语音的影响。

目前通用的方法是采用维纳滤波，该方法在噪声较大的情况下效果好于其他滤波器。

在特征提取阶段，一般是把语音信号切分成几十毫秒的帧，对每一帧提取一个特征向量。

但这样会丢失帧与帧之间的联接信息，无法反映帧之间的变化过程，因此，还应该加上向量的一阶差分和二阶差分（相当于连续函数中的一阶导数和二阶导数）共同构成特征。

如上文所述，目前主流的语音识别系统大多基于统计模式识别原理，其基础是由声学模型和语言模型共同构成的统计模型。

声学模型是识别系统的底层模型，其目标是通过模型度量，寻找语音特征向量序列对应的发音。

当前常用的声学模型是隐马尔可夫模型（HMM）。

HMM模型可以看成一个双重随机过程，一个马尔可夫链的各个状态可以产生出各种输出。

这种机制较合理地模仿了人类语言活动的过程，对孤立词和连续语音识别来说都是较理想的声学模型。

语言模型的作用是通过提供字或词之间的上下文信息和语义信息。

对于大词汇量连续语音识别，语言模型是必不可少的关键模块之一。

目前比较成熟的方法是统计语言模型，当前的主流方法是N元文法（N-gram），其主要思想是根据已知前（N-1）个字或词，预测第N个字或词出现的概率。

由于训练语料的限制，目前主要采用三元语法。

训练统计模型

对于统计模型，要想使得它能够识别语音，必须对模型进行训练。

所谓训练，是指对大量的训练语料进行统计和处理，计算和调整模型的参数，使模型对未训练过的数据也能达到理想的识别结果。

语音识别系统的训练主要包括声学模型的训练和语言模型的训练。

对于广泛采用的HMM声学模型，其训练主要是获取HMM中的状态转移概率、各状态的输出概率分布等参数。

常用的方法是基于最大似然估计原理的迭代算法（如Baum-Welch算法）。

对于基于三元文法的语言模型，其训练主要是从大量的文本中计算三元组的概率。

当模型训练好以后，就可以进行识别了。

语音识别算法的主要思路是在侯选的词串中搜索使声学模型和语言模型的概率乘积最大的词串。

因此，识别过程也常称作搜索（Search）或解码（Decoding）。

当前常用的搜索算法是Viterbi算法，其本质是一种动态规划方法。

当前的语音识别系统大都是说话人无关（SpeakerIndependent）系统，即事先并不知道要识别的语音的说话人特征。

但是，对于某个说话人，如果能够适当学习他（她）的发音特点，调整模型参数，显然会使得识别效果更好。

这就是说话人自适应的主要原理。

所谓说话人自适应，是指对大训练集上得到的模型参数进行调整，使之对当前说话人产生更好地识别效果。

可以说，说话人自适应实际上是希望通过少量数据的增强训练（即所谓的自适应过程），使非特定人系统接近特定人系统的性能。

常用的说话人自适应方法主要有两种:

最大后验概率（MAP）方法和最大似然线性回归（MLLR）方法。

MPA算法采用基于最大后验概率准则，具有理论上的最优性，因此在小词表的语音识别任务中具有相当好的性能。

其缺点是对大词汇量的任务自适应速度缓慢，无法满足应用的要求。

因此，当前的大词汇量连续语音识别系统大多采用MLLR方法，或将MAP与MLLR结合。

从评测结果来看，如果有充分的时间调整说话人自适应模型，连续语音识别中的字错误率可以下降1至4个百分点。

从几年来各参评系统采用的主要技术来看，当前语音识别系统中的技术严重趋同。

几乎所有的参评系统都采用上述框架和基本模块，区别主要在于模块内部的细化程度，或者把某模块中的几种技术做些组合。

例如，采用不同的前端处理方法，对男女声和有无噪声的语音分类处理，以及同时采用多种声学特征和不同的搜索策略构造多个识别子系统，最后对各子系统的识别结果做一种类似投票的表决（ROVER技术），得到最终识别结果。

由于863语音识别评测并不限制训练数据的使用，各单位可以使用自备的所有数据。

因此，从评测结果及各单位的研讨中可以看到，训练数据的数量和质量对系统的性能有很大的影响。

为了使评测更公平，xx年的评测中提供了一定量的统一训练集，但规模还较小。

在以后的评测中，将考虑提供大量的训练集，希望能够避免因训练数据不同而造成的性能差异。

863计划中语音识别评测

从xx年起，中国科学院计算技术研究所连续三年承办863计划中文信息处理与智能人机接口技术评测，语音识别评测始终是其中的一个主要分项。

三年间，863语音识别评测受到了国内外语音识别研究者的关注，参加单位数逐年递增，成为国内语音识别领域最高级别的交流平台，在国际上也具备了相当的影响力。

xx年和xx年度语音识别评测采用现场评测方式，即各参评系统的运行在评测现场同时进行。

这种组织形式比较严格，一旦参评系统运行出现故障将无法继续。

而且，要求所有参评单位必须到场，其成本也较高。

为了避免这些问题，xx年的863评测采用目前国际通用的网上评测的方法，即在网上发布数据，各参评单位在自己的运行环境上运行参评系统后将识别结果通过网络提交给评测单位。

863语音识别评测最大的特色在于测试数据的选取。

文本语料的选取采用从大规模原始语料库中筛选的方法，充分考虑到了对各种韵律学特征（音节、二音子、三音子、音连关系等）、语法特征（句型和句法结构等）和各种领域、各种文体（散文、小说、实事新闻等）的覆盖。

录音时不是采用实验室加噪声，而是在完全真实的场景中录制数据，并且充分考虑到了说话人、信噪比等因素的覆盖，在实验的基础上提出了真实环境中信噪比的分布模型，并在此模型的指导下录制数据。

这种以实验和理论为依据、以算法为支撑，控制各种语音属性，从而最大限度地拟合真实应用的数据采集方法，在国际上也是很有特色的。

目前国际上的同类评测，录音场景多为实验室，对各种影响因素一般只做宽泛的覆盖，几乎没有按理论模型控制的方法。

863语音识别评测的另一个特点是对结果做了充分的统计分析。

目前的国际评测一般除给出相应的指标外，还会做一些统计分析，而之前的国内评测却很少这么做。

从xx年开始，863语音识别评测也开始对结果进行统计分析，而在xx年的评测中，更是采用专业统计学方法，采用实验设计、假设检验、回归分析、方差分析、协方差分析等一系方法对结果及影响结果的因素进行了深入分析，对各评测单位认清自己系统的优势和缺点，进一步改进起到了很大作用。

另外，在电话连续语音关键词识别评测中，在xx年尝试了以语义槽为单位的基于语法关键词识别任务和评测指标，在xx年首次使用了两个说话人一起录制的自然对话语音，更加符合真实应用的特点，这在国际同类评测中都是没有的。

从评测结果看语音识别技术现状

863语音识别评测，包括PC、电话、嵌入式设备三个语音通道，涉及听写机、对话查询、命令词识别等多种任务，基本上涵盖了当前语音识别的主要研究和应用方向。

而参评的又大都是国内长期进行该项研究、有较高水平的单位和系统，因此，无论是采用的方法还是识别的效果，本次评测都可以真实反映出guo内语音识别技术的现状。

这里结合xx年的评测，对评测结果进行分析。

之所以选择xx年的评测结果，是因为它的评测分项最全，几乎覆盖了语音识别的各种应用。

1.识别结果的评价

评测的主要目标就是通过对识别结果的评价、分析了解参评系统的性能的和语音技术的现状。

因此，制订有效的、能够真实反映出系统性能的评价指标也是很重要的研究任务。

对于大词汇量连续语音识别来说，国际上通用的指标是文字错误率（对于英语，文字指单词;对于汉语，文字指字，下同）。

其基本思想为采用动态规划算法将标准答案与识别结果对齐，以得到“正确文字数”、“替换文字数”、“插入文字数”、“删除文字数”四项参数，然后计算文字错误率。

错误文字数＝替换＋插入＋删除文字数

文字错误率＝错误文字数/原文答案文字数

下面给出一个例子:

LAB:

新增四百万千瓦时的强大电流输入云南的电网

REC:

新增四百花钱忙时的枪打电流于树绿云南电网

CCCCNNNCCNNCCINNCCDCC

其中，LAB是标准答案，REC是识别结果，上面的格式是根据距离最小对齐的结果，第三行标记了各类文字，C表示正确文字，N表示替换文字，I表示插入文字，D表示删除文字。

xx年863语音识别评测中的电话连续语音识别评测分项采用的主要指标是语义槽识别正确率，即用语料文本解析得到的标准答案和识别结果相比较，完全匹配的槽认为是识别正确的，定义槽识别正确率为:

槽识别正确率＝正确识别的槽的个数/标准答案中槽的总数

对于嵌入式设备命令词识别，由于是孤立词识别，因此采用命令词识别正确率即可:

命令词识别正确率＝正确识别的命令词数/命令词总数

2.识别系统性能

对各系统给出的识别结果计算上述指标，得到对各系统识别性能的评价。

表1给出了每个分项中识别效果最好的系统的指标，以及前三名系统的平均指标。

为了统一，将电话连续语音识别中的槽识别正确率和嵌入式设备命令词识别中的命令词识别正确率统称为正确率。

对桌面（这里指PC，以下同）连续语音识别，采用文字正确率，定义为（目前研究者对文字正确率定义稍有不同，本文中一律以下面的定义为准）:

文字正确率＝1－文字错误率

表中的最高正确率基本可以代表该分项的最高水平，前三名的正确率均值可以一定程度上反映该分项的平均水平，而前三名正确率的方差可以反映该分项中各系统的性能差异程度。

从表中可以看到，桌面连续语音识别分项中，汉语的识别效果远远好于英语（文字正确率最多相差20个百分点）。

其原因显然在于国内对汉语语音识别的研究比英语多而且深入。

另外，英语训练语料的相对缺乏，也是一个重要原因。

在采用了语法限制的语义槽识别任务和槽识别正确率作为评测指标后，电话连续语音的槽识别正确率较低。

事实上，由于电话语音的录制环境为办公室环境，其噪音比桌面语音要小得多，所以正确率较低的原因主要在于对语法的处理和槽识别正确率较低。

嵌入式设备命令词识别的正确率与桌面语音字正确率大致相当。

一方面，连续语音识别要比孤立词识别困难，另一方面，嵌入式设备的语音通道和计算资源都比PC差得多，从结果可以看出，这两方面的因素基本抵消。

从各分项前三名的正确率方差可以看出，汉语桌面连续语音识别和嵌入式设备命令词分项中各系统的性能差异较小，而英语桌面连续语音识别，特别是一倍实时任务中各系统性能差异较大。

这是因为当前语音识别的研究重点在于前者，研究者较多，研究也比较深入，而英语的识别相对来说研究者较少。

3.影响系统识别性能的因素

从上面的识别结果评价可以看出，对真实噪音环境下录制的语音数据，当前的语音识别系统识别正确率偏低，还很难达到实用。

从语音识别产生以来，噪音一直是影响识别效果的主要因素。

为了分析噪音对识别的影响，将评测数据按信噪比（SNR）分段，从参评系统选取三个，分别计算其在各段内的识别正确率，可以看出，识别正确率基本上随着SNR的增大而提高，SNR在20dB以上的数据正确率比SNR在5～10dB的数据高近30个百分点。

对桌面连续语音识别的其他分项和嵌入式命令词识别的结果分析也得到类似的结果。

对于电话连续语音识别来说，由于录制环境是办公室真实环境，因此噪音并不是影响性能的主要因素。

电话连续语音识别分为5个子领域，每个子领域各有一套语法。

评测句子由语法生成的有效成分在前后加上任意长的填充词（filler）构成，如语法生成的句子为“从__到中关村怎么坐公交车”，而实际录制的句子是“你好，请问从__到中关村怎么坐公交车，可以查到吗？

”，其中的“你好，请问”和“可以查到吗”就是filler。

由分析可以发现，不同领域内的槽识别正确率相差很大。

这主要有两个原因，一是不同领域的语法复杂度不同，二是不同领域内有filler的句子所占比例不同。

为了进一步衡量filler对识别的影响，选取三个识别系统，将有filler的句子和没有filler的句子分别计算识别率，统计结果如图2所示。

从图中可以看出，filler对识别的影响是相当大的，无filler的句子比有filler的句子识别正确率可以高几十个百分点。

从上面的介绍可以看到，国内语音识别研究发展迅速，识别性能日益提高，但在对真实环境下录制的数据，特别是信噪比较低的情况下，识别性能还无法达到实用要求。

对于桌面连续语音和嵌入式设备上的孤立词识别，对噪音的鲁棒性不高是系统面临的主要问题。

对于电话查询系统来说，对语义的解析和无关语句的处理还存在一定困难。

另外，对非朗读的自然语音，如对话、会议内容的识别，对电视广播节目内容的识别或检索近年来吸引了越来越多研究者的注意，国外的一些评测机构也组织了这方面的评测，863语音识别评测也在考虑增加相应的项目。

总之，863语音识别评测将继续针对这些任务，针对噪音、方言、自然语音等关键问题构建评测语料库，开展评测，提供结果分析，组织讨论交流，以促进语音识别技术的发展。

（:

中国科学院计算技术研究所）

内容仅供参考

展开阅读全文