中文语音识别通用技术标准.docx

资源描述

中文语音识别通用技术标准.docx

《中文语音识别通用技术标准.docx》由会员分享，可在线阅读，更多相关《中文语音识别通用技术标准.docx（52页珍藏版）》请在冰豆网上搜索。

中文语音识别通用技术标准.docx

中文语音识别通用技术标准

《中文语音识别通用技术标准》

中华人民共和国国家标准

GB/T×××××—××××

××××-××-××发布

××××-××-××实施

中文语音识别系统通用技术规范

GeneralspecificationforChinesespeechrecognitionsystem

国家质量监督检验检疫总局发布

前言.III

1范围.1

2规范性引用文件.1

3术语和定义.1

4语音识别系统分类及表述.3

4.1基于用途的分类.3

4.2基于词汇量的分类.3

4.3基于所能识别的说话人群的分类.3

4.4基于系统工作模式的分类.4

4.5语音识别系统的应用环境.4

4.6语音识别系统应用背景环境.5

4.7语音识别系统表述规范.5

5语音识别系统性能指标.5

5.1概述.5

5.2识别性能分类指标.5

5.3响应时间指标.6

5.4系统分类指标要求.6

6语音输入和识别输出.7

6.1语音识别输入准则.7

6.2语音识别输出准则.7

7语音识别系统性能测试方法.7

7.1概述.7

7.2测试语料设计.8

7.3测试语音录制.8

7.4基于语音识别标准库的测试方法.8

7.5基于现场口呼的测试方法.8

7.6测试报告内容.9

8语音识别标准库及规范.9

8.1概述.9

8.2语音识别标准库语音特性的描述.9

8.3语音识别标准库的标注.9

8.4语音识别标准库的来源.10

8.5语音识别标准库的数据转换.10

附　录　A（资料性附录）听写系统有关符号读法.1

附　录　B（资料性附录）语音识别用无调汉语拼音表.1

参考文献.2

前言

请注意本标准的某些内容有可能涉及专利。

本标准的发布机构不应承担识别这些专利的责任。

本标准的附录A、附录B是资料性附录。

本标准由中华人民共和国信息产业部提出。

本标准由全国信息技术标准化技术委员会归口。

本标准由中国电子技术标准化研究所、中国科学院自动化研究所、清华大学、中国社会科学院语言研究所起草。

本标准主要起草人：

徐波、孙甲松、李爱军、徐明星、黄泰翼、鲍怀翘、尹波、吴志刚。

中文语音识别系统通用技术规范

1范围

本标准规定了中文语音识别系统的基本术语、分类、技术指标、测试方法、输入/输出以及中文语音识别标准库等。

本标准适用于各种计算机、网络和终端设备配置的中文语音识别系统。

本标准的制定和实施主要用于指导中文语音识别系统的研制、应用和测试。

2规范性引用文件

下列文件中的条款通过本标准的引用而成为本标准的条款。

凡是注日期的引用文件，其随后所有的修改单（不包括勘误的内容）或修订版均不适用于本标准，然而，鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。

凡是不注日期的引用文件，其最新版本适用于本标准。

GB18030-2000信息技术信息交换用汉字编码字符集基本集的扩充

3术语和定义

下列术语和定义适用于本标准。

3.1

语音识别　speechrecognition

将人类的声音信号转化为文字或者指令的过程。

3.2

语音识别系统　speechrecognitionsystem

具有语音识别功能的开发工具、软件、装置或应用。

3.3

词汇表　vocabularylist

语音识别系统所包含和处理的所有词汇。

3.4

激活词汇　activeword

语音识别系统在某个时间点能同时识别的所有词汇。

3.5

发音　utterance

用户输入的一个语音单位，可以是词、短语或句子。

发音单元之间需有有意、明显停顿。

3.6

孤立字语音　isolatedwordspeech

以字为发音单元，字与字之间需有有意、明显停顿的语音。

3.7

连接词语音　connectedwordspeech

以词为发音单元，词与词之间需有有意、明显停顿的语音。

3.8

连续语音　continuousspeech

词与词之间无需刻意停顿的自然发音语音。

注：

包括朗读语音和自然语音。

3.9

汉语通用语　Mandarinanditsdialectvariation

普通话以及普通话的地方变体。

注：

为中国人跨地区交流时最常见之普通话。

3.10

同构语音数据　isomorphicspeechdata

除说话人不同外，其它语音属性相同或基本相同的语音数据集合。

3.11

语音识别工作模式　workingmodeforspeechrecognition

语音识别系统对说话方式、内容以及句型等的限制。

3.12

标准配置　standardconfiguration

正常运行语音识别所需要的基本计算机配置。

注：

如CPU、内存、网络、麦克风、A/D精度要求等,由生产厂家给出。

3.13

系统自适应　speakeradaption

语音识别系统通过用户发音完成对识别模型参数修改的自适应过程。

3.14

用户自适应　useradaption

用户熟悉应用系统、了解自动语音识别系统特性的学习过程。

3.15

删除错误　deletionerror

用户所发语音在语音识别结果中没有出现的错误。

3.16

插入错误　insertionerror

用户没有发的语音在识别结果中出现的错误。

3.17

替换错误　substitutionerror

用户所发语音被识别成其它语音的语音识别错误。

3.18

被测系统　systemfortesting

参加评估的语音识别系统。

3.19

测试系统　testingsystem

对被测系统进行评估的系统和体系。

3.20

副语言学　paralinguisticfeature

言语中非音段的语音特征以及种种非语音信号。

注：

这些行为被充分用来对总的交际效应作出贡献。

4语音识别系统分类及表述

语音识别系统可以基于不同的用途、不同的词汇量、所能适应的不同人群、不同的工作模式、不同的应用平台进行分类。

基本分类可以融合，例如某个系统可以是“基于PC平台的超大词汇量特定人群书面语识别系统”。

4.1基于用途的分类

语音识别系统从用途上可以分为：

文字输入类、声音检测识别类和对话类三类系统。

4.1.1文字输入类

以文字录入为主要目的，要求把语音转化成文字的系统。

注：

如听写机系统。

4.1.2声音检测识别类

主要以检测连续或者孤立语流中的特定命令或者关键词为主要目的的系统。

注：

如命令控制、声控玩具、关键词识别系统等。

4.1.3口语对话类

主要采用语音方式进行信息获取为目的的系统。

注：

如股票查询系统、电话订票系统、地理信息查询等。

4.2基于词汇量的分类

语音识别系统的词汇量按照最大激活词汇量标定。

语音识别系统从所能处理的词汇量来分类，可以分为小词汇量、中小词汇量、中词汇量、中大词汇量、大词汇量、超大词汇量等六种。

4.2.1小词汇量

系统所能识别的词汇量小于127的系统。

4.2.2中小词汇量

系统所能识别的词汇量在128～1023之间的系统。

4.2.3中词汇量

系统所能识别的词汇量介于1024～4095的系统。

4.2.4中大词汇量

系统所能识别的词汇量介于4096～16383之间的系统。

4.2.5大词汇量

系统所能识别的词汇量介于16384～65535的系统。

4.2.6超大词汇量

系统所能识别的词汇量大于65536的系统。

4.3基于所能识别的说话人群的分类

语音识别从所能识别的说话人群来区分，可以分为特定人、特定人群和非特定人识别。

4.3.1特定人识别

需要经过专门学习（训练）并建立该发音人专用模型的系统。

4.3.2特定人群识别

系统只能识别具有某种发音特性的人群的识别系统。

注：

如标准普通话，成年人的标准普通话，儿童口音的标准普通话，上海口音的普通话等。

4.3.3非特定人识别

面向一般用户通用语的识别系统，对说话人语音或口音没有专门限制，不需要使用者进行训练的系统。

4.4基于系统工作模式的分类

语音识别系统从其工作模式来分，可以分为孤立字识别、连接词识别、书面语有限语音识别、口语有限语音识别、书面语无限语音识别、口语无限语音识别以及关键词检测等七种。

4.4.1孤立字语音识别

语音识别系统能识别单个字，系统所需要识别的发音的每个音节前后都应有明显的发音停顿。

4.4.2连接词语音识别

语音识别系统能识别单个词或短语发音，系统所需要识别的发音单位（词或短语）前后都应有明显的发音停顿。

4.4.3有限朗读语语音识别

语音识别系统能识别在词汇、语法、语义以及语用等受到限制的书面语连续语音。

4.4.4有限口语语音识别

语音识别系统能识别在词汇、语法、语义以及语用等受到限制的口语化语音。

4.4.5无限朗读语语音识别

语音识别系统能识别以朗读方式进行的没有特别语言限制的连续语音。

注：

如听写机系统。

4.4.6无限口语语音识别

语音识别系统能识别口语化的没有特别语言限制的连续语音。

4.4.7关键词检测

语音识别系统能从口语连续语流中找到系统所定义的词汇或短语。

4.5语音识别系统的应用环境

应用环境包括语音识别系统的具体平台以及所需要的标准配置。

语音识别从应用平台来看，有PC平台、电话平台、嵌入式平台以及分布式平台等。

4.5.1PC平台

语音通过麦克风、PC上的声卡等输入设备完成语音采样并在PC上完成识别的系统。

4.5.2电话平台

语音通过电话通道、声卡和传输并在相应的服务端完成识别的系统。

4.5.3嵌入式平台

识别系统是嵌入在某个信息终端产品上（如HPC、PDA、手机和信息家电等），通过特定设备输入语音并完成识别的系统。

4.5.4分布式平台

语音识别特征提取在前端嵌入式设备上完成，语音识别其它计算在后台系统和计算机上完成的系统。

4.6语音识别系统使用背景环境

使用背景环境以信噪比来衡量，信噪比定义为：

SNR=10lg（Ps/Pn）

式中Ps定义为信号的功率；

Pn定义为噪声的功率。

4.7语音识别系统表述规范

各类语音识别系统应按4.1～4.6所述的用途分类、词汇量规模、所适用的说话人群、工作模式、应用环境以及应用背景环境，在系统说明书以及提供测试时分别加以详细说明：

a）语音识别系统应说明该系统的用途分类，不同类型的系统在性能和指标上有不同的分类要求。

b）语音识别系统应提供系统所能处理的词汇量和词汇清单；在词汇和词汇量不能精确给定的条件下（如有些系统完全由用户定义词汇），系统应按4.2给出系统所能处理的词汇量等级。

c）语音识别系统应按4.3给出其所能识别的说话人人群的具体限制及适用范围。

对发音人普通话的标准程度的要求，可参照汉语普通话水平等级进行定义。

d）语音识别系统应按4.4给出系统的工作模式；对于有限语音识别，系统应给出有限语音的详细说明。

e）每种平台具有独特的语音识别器所要处理的语音特性：

不同平台上麦克风与话者的距离限制，麦克风性能要求，支持的A/D转换精度和采样率等。

语音识别系统应按照4.5所涉及的内容描述其具体的应用环境。

f）语音识别系统应按4.6给出能正常工作的信噪比范围及在此范围内每隔5dB的性能变化曲线。

5语音识别系统性能指标

5.1概述

语音识别系统的性能评价按照系统的用途分类建立测试标准，多种用途的需求分别满足多种指标的要求。

这些要求只同系统的用途有关，而同系统的其它限制（如词汇量、工作模式、应用条件等）无关，但系统给出的具体指标应明确在何种条件下成立。

5.2识别性能分类指标

语音识别系统采用分类测试的原则，定义相应的分类指标。

5.2.1文字输入类语音识别系统性能指标定义

该类应用用户主要关心最后输入的效率，因而应同时考虑系统插入、删除和替换等错误。

设正确文本字数为N，识别结果文本字数为M，按照识别结果文本与正确文本根据“最小代价匹配”原则运用动态规划算法，得到正确识别字数Mc、删除错误字数D、插入错误字数I和替换错误字数S，则有：

N=Mc+S+D；

M=Mc+S+I；

定义以下性能指标：

字匹配率：

Mcr＝（Mc/N）*100%

替代错误率：

Ser＝（S/N）*100%

插入错误率：

Ier＝（I/N）*100%

删除错误率：

Der＝（D/N）*100%

字错误率：

WER＝（（S+I+D）/N）*100%

字准确率：

WCR＝（（Mc-I）/N）*100%＝100%-WER

以WER或WCR度量系统性能指标。

5.2.2声音检测识别类语音识别系统性能指标定义

该类型系统应兼顾动作的可靠性问题，指标定义如下：

假设关键词表的词汇量为KW（个），检测语音长度为HR（小时），出现关键词N（次），C为每小时每个关键词最大容忍的误报个数（一般取10），系统报出关键词M（个），其中，正确FD（个），错误FA（个），FD+FA=M。

则：

漏报个数：

FR=N-FD

误报率：

Far=（FA/（KW*HR*C））*100%

漏报率：

Frr=（FR/N）*100%

检出率：

Fdr=（FD/N）*100%

DET曲线：

以Far为横轴，Frr为纵轴画出的曲线

ROC曲线：

以Far为横轴，Fdr为纵轴画出的曲线

等错率EER：

DET曲线上Far=Frr时，Far或Frr的值

质量因数FOM：

ROC曲线上Far=0%,10%,20%,……,100%时，Fdr的算术平均值

一般以EER或FOM值度量系统性能指标。

5.2.3对话类语音识别系统性能指标定义

该类系统性能定义为：

N=系统完成一个信息查询并获取到正确信息所需的平均语轮数；

对话效率=（1/N）*100%；

对话正确响应率=系统对信息咨询过程每次语音输入的平均正确响应率。

5.3响应时间指标

系统的响应时间统一采用实时系数概念。

在系统的标准配置条件下，假设发音从Ts开始，发音结束时间为Te,识别结束时间为Tr,则实时系数定义为：

实时系数=（Tr-Ts）/（Te-Ts）

5.4系统分类指标要求

按照4.7表述要求给出语音识别系统的技术指标，具体测试条件选项如第7章所述。

在15dB使用背景环境下，不同用途的系统的技术指标应达到如下要求：

a）文字输入类系统：

字准确率应大于或等于85%。

b）声音检测识别类系统：

等错误率小于或等于30%。

c）口语对话类系统：

对话效率大于或等于40%；对话正确响应率应大于或等于75%。

所有系统的实时系数应小于或等于1.5。

6语音输入和识别输出

6.1语音识别输入准则

语音识别输入准则应为：

a）发音单元之间的间隔不超过2s；发音单元的持续时间不应小于0.2s；停顿时间超过2s，认为一次语音输入结束。

b）汉语语音识别系统应支持汉语通用语，从信息社会发展角度支持推广普通话。

c）语音识别系统对于大于0.2s的语音在SNR大于15dB的背景环境条件下能做出灵敏的反应。

d）对于文本中的非汉字字符包括数字、电话号码、标点符号，其可参照附录A所定义的方法朗读。

6.2语音识别输出准则

语音识别输出准则应为：

a）文字类输出的语音识别结果为汉字内码、系统所定义的符号，其输出应满足GB18030-2000。

b）声音检测识别类语音识别输出结果可以是命令词、关键词或预定义代码（Pre-definedID）。

c）对于声音检测识别类以及对话类识别系统，应给出系统对识别的可信度衡量，可信度范围为从0～100的整数。

d）声音检测识别类以及对话类系统输出应是或应能转换为语音合成系统可以识别的符号，以用于人机语音合成。

7语音识别系统性能测试方法

7.1概述

为保证语音识别系统测试的可重复性，测试应尽量采用基于语音识别标准库的测试方法。

无法采用基于语音识别标准库测试的，可采用基于现场口呼的测试方法。

测试语料的设计与语音库的录制应保证与实际使用场景的一致性，测试的结果以满足规范的测试报告形式给出。

7.2测试语料设计

测试语料应从词汇量覆盖、测试点覆盖以及领域覆盖等加以设计。

测试集文本上分成若干组，每组

可以由若干人发音组成。

设计要求如下：

a）对于小词汇量每组测试集应包含所有词汇。

b）对于中小词汇量每组测试集的合集应覆盖系统的所有词汇量。

c）对于中大词汇量以上的测试集，每组测试集词汇的合集应考虑尽可能多地覆盖系统的词汇量。

d）无限连续语音识别应从不同领域、不同时期的语料中随机选择，同时考虑发音现象的覆盖性。

e）有限语言的语音识别应充分考虑句型、词汇、语义等的覆盖性。

7.3测试语音录制

测试语音录制要求如下：

a）说话人的选择应在符合系统对说话人限制的条件下，尽可能选择具有代表性和统计分布规律的发音人，特别是考虑不同口音、不同年龄、不同语速、不同教育背景、不同说话韵律等因素。

b）无论是特定人还是非特定人的语音识别系统，其测试的发音人至少为30个人以上。

每人发音测试语料中的一组或多组语料；不同发音人尽量采用不同语料组。

c）对于非特定人系统，特别应强调对含有一定口音的汉语语音适应能力和汉语声调问题。

d）测试语音的录制应与系统说明中的平台、采样率、输入通道等保持相对一致或接近；录音过程至少包括录音、标注和确认三个步骤，保证测试数据库的正确性。

7.4基于语音识别标准库的测试方法

基于语音识别标准库测试指采用录制的语音数据[lds1]对被测系统进行直接或间接的测试。

方法说明如下：

a）直接测试指利用被测系统带有的应用程序输入/输出接口，直接利用语音识别标准库中的语音文件进行测试。

b）间接测试指测试系统利用高保真回放设备把语音识别标准库中的语音通过双方认可的方式输出到被测系统中。

被测系统应至少提供两种测试方法中的一个接口。

7.5基于现场口呼的测试方法

现场口呼测试基本情况同测试语音的录制。

a）需要有两个以上识别结果记录者，记录被测系统对当前发音的输出结果；记录表应包括发音人、记录人、操作人、监督人、发音内容、语音识别结果等内容。

b）全部发音者测试结束后，统一按照性能标准进行指标评估。

评估至少有两个人以上参与。

c）对于识别结果能以文件形式给出的，被测系统按照发音人还应给出文件形式的输出结果，以便自动评测。

7.6测试报告内容

测试后应提交标准测试报告。

报告应由以下几部分构成：

a）按照第4章规定的所有内容对被测系统的完整描述。

b）按照第8章描述的测试数据的语音属性；测试词汇以及测试说话人的选择及确定情况。

c）按照第5章定义的每个人识别各项指标以及平均识别指标。

d）测试过程的情况纪录，采用的测试方法及运行过程的流畅性。

e）被测系统的配置情况。

8语音识别标准库及规范

8.1概述

语音识别标准库分为训练库、评估库以及测试库三种。

训练库主要提供给语音识别研究和开发者训练相关声学模型；评估库用于提供给研究和开发者进行系统的自我验收和评估；测试库用于测试中心评估有关系统。

训练库和评估库由评测机构定期向社会公布，并提供相应的存储介质；测试库则由评估机构管理。

评估库与测试库应是同构语音数据。

8.2语音识别标准库语音特性的描述

语音识别标准库除语音数据的文件载体外，还应提供关于语音库本身与语音数据的完整描述。

需要描述的特性至少包括：

a）语音库所用语料的语体：

对话语篇语音库、独白语篇语音库等。

b）语音库话语的自然程度：

1）朗读语音语料库：

指有计划的、按照文字朗读的语音库，内容可以是：

音节、词和短语、句子、对话语篇或独白语篇；

2）自然口语语音语料库：

随意即兴式的自然口语音库，内容可以是对话语篇或独白语篇。

c）信号的频宽特性：

如0～4k的电话语音库等。

d）录音特性：

录音时间，录音地点，录音通道，噪声环境等；其中：

1）录音时间用“X年X月X日”表示；

2）录音通道包括PC、电话、嵌入等；

3）麦克风指标包括类型、名称、灵敏度以及阻抗，低频、高频截止频率。

e）说话人特性：

姓名，性别，籍贯，成长地，文化程度，年龄，口音的方言区。

f）数据特性：

采样频率，采样精度，通道数目，通道噪声等。

8.3语音识别标准库的标注

语音识别标准库的标注包括基本标注和扩展标注。

所有语音识别标准库都应包含基本标注。

基本标注包括：

a）汉字与音节标注：

即语音信息的汉字表述和相应的音节表述。

这些信息既可提供给识别系统使用，也能为语言学研究提供素材。

b）口语到文字转写工作的要点是口音和副语言学现象等的准确转写。

文字标注应标明基本文字信息以及副语言学现象，基本标注中的副语言学现象可用通用副语言学符号表示。

c）音节标注采用标准普通话音节标注（参见附录B）,音节标注应为有调标注。

声调标注中0表示轻声，1表示阴平，2表示阳平，3表示上声，4表示去声。

8.4语音识别标准库的来源

语音识别标准库实行开放式管理，各种数据可以通用或专用协议方式加入标准库。

a）本标准实施后由国家投资的新的语音库，应符合本标准的各项要求，经评测机构验收合格后成为语音识别标准库。

b）已有语音库和非国家投资的语音库，经数据自我检验，保证信息完整后可提出申请；由评测机构对数据进行认定和验收后成为语音识别标准库。

标准语音库应定期通过网络等手段予以公布和发布。

8.5语音识别标准库的数据转换

为提高语音识别标准库的利用效率，可依据有关国家标准和算法进行不同采样率、不同声学通道、不同麦克风以及不同采样精度数据库格式的转换。

这些算法涉及滤波算法、通道模拟、采样率转换以及其它模拟场景的仿真。

仿真目标环境（如电话通道等）应符合国家有关的通道标准。

转换应提供有关技术资料，转化后的语音库由专家委员会组织鉴定后成为语音识别标准库。

详细技术资料以及算法应同转化后的数据库一起公布。

附　录　A

（资料性附录）

听写系统有关符号读法

A.1数字的读法和输出转换

A.1.1数字序列的读法和输出转换

数字序列在标准书写格式上为数目不限的单个数字（0、1、2、3、4、5、6、7、8、9；零、一、二、三、四、五、六、七、八、九）排列构成的数。

其标准读法为由左至右依次读出各个数字。

例如：

123456的读法为：

一二三四五六。

对于语音识别系统而言，遵循数字序列标准读法的语音输入，产生数字序列标准书写格式的识别输出。

识别结果中单个数字采用何种形式（小写数字、大写数字），由具体应用规定。

A.1.2整数的读法和输出转换

数学上，整数有其标准的书写格式和读法。

例如：

整数1024（大写：

一千零二十四），其标准读法为：

一千零二十四。

对于语音识别系统而言，遵循整数标准读法的语音输入，产生整数标准书写格式的识别输出。

识别结果以何种形式（小写、大写）表示，由具体应用规定。

A.1.3小数的读法和输出转换

数学上，小数有其标准的书写格式和读法。

例如：

小数12.38（大写：

十二点三八），其标准读法为：

十二点三,八。

对于语音识别系统而言，

展开阅读全文