在线语音听写与识别的系统设计与实现.docx-资源下载

在线语音听写与识别的系统设计与实现.docx

1、在线语音听写与识别的系统设计与实现在线语音听写与识别的系统设计与实现摘要：在21世纪的今天，随着科学技术的逐渐进步，人类交流沟通的水平也迈向新的时代。计算机为代表的机器逐渐进入人类的日常生活中就是最明显的标志。计算机和人类的生活已经息息相关了。语音技术逐渐走入人民群众的视野，不管是日常的语音识别还是语音合成都渗透进大家的生活中，语音交互日益成为趋势。我们将了解语音技术的发展过程，以及该项目的一个开发背景。了解我们为什么要去研究语音识别，它的意义在哪里？全方位的对语音识别进行了解。最后通过讯飞开放API进行功能的实现。关键词：语音技术；开发背景；识别；合成Abstract: In twenty

2、-first Century,With the gradual progress of science and technology,The level of human communication and communication is also heading for a new era. Computers are the most obvious symbol of the gradual entry of machines into human daily life. Computers are closely related to human life.Voice technol

3、ogy has gradually entered the vision of the people,Whether its daily speech recognition or phonetic Chengdu infiltrate into your life,Voice interaction is increasingly becoming a trend.We will understand the development of speech technology,And a development background of the project.Understand why

4、we have to study speech recognition,Where is the meaning of it?An omni-directional understanding of speech recognition.Finally, the realization of the function of the Xunfei open APIKey words: Speech technology; Development background; Distinguish; Synthesis1 绪论1.1 课题背景视觉和听觉是人类的重要沟通手段。一个接收图像信息，一个接收声

5、音信息。而在声音信息中，语音又是最常规的交流形式。随着科学技术的逐渐进步，人类交流沟通的水平也迈向新的时代。计算机为代表的机器逐渐进入人类的日常生活中就是最明显的标志。计算机和人类的生活已经息息相关了。那么让人与计算机的沟通更加方便、快捷就具有了一定的重要意义。如今，计算机技术的更新速度太快，层出不穷的新技术新工具以及人与机器的交互方式也日新月异。但是目前来看，人们对机器的交流方式远不如人与人采用语言交流来的便利。人们希望能出现简单便捷的操作方式。由此可以看出，人机交互技术的未来方向必将是语音识别.首先拉开研究序幕的事来自于贝尔实验室（AT&T BELL）的科学家们。经过若干年的探索与研究之后

6、，他们发表了世界上的第一个语音识别系统Audry系统。虽然Audry系统的识别能力十分局限，仅仅适用于实验范围内的是个数字内容的英文单词，但是它也确实是人们对声学、语言学探索之后的第一个真正意义上的识别作品。卡内基梅隆大学成功的在1988年推出了语音研发Sphinx系统。此前，50年代的语音识别还是局限在孤立字和特定人的范畴。但Sphinx系统的出现打破了这个局限，它把非特定人、大词汇量和连续语音这三大特性成功的集成一起，在实验数据范围内对连续语音进行识别的准确率能达到94.7%。这一系列数据都彰显着语音交互技术的发展更加的深入1。而语音交互技术进入热潮的节点则是正在2011年10月美国app

7、le公司发布了一款带有“Siri”语音助手功能的iphone4s手机，之后一款Echo的音箱得到了热卖，让亚马逊赚得盆满钵满则是标志语音技术发展具有一个多么大的前景。我国在语音识别方面的研究工作的展开时间同国际相比稍有落后，但研究成果依然丰富，尤其在汉语的语音识别领域较为突出。早期中科院声学所利用频谱分析、模板匹配等方法，孤立词的语音识别系统也是中科院全力主持开发的。而后，第一个汉语语音人机对话系统识别准确率达到90%以上的就是中科院的自动化所研制的。在现目前，中国各大公司主流平台都在这一块取得了显著的成果2。1.2 研究目的及意义伴随互联网技术发展的今天，语音交互技术进入飞速的发展期，渐渐都

8、渗透进了大众的生活，人们可以在手机上进行语音搜索、语音导航、语音输入。这些都代替了传统的人工交互，奠定了语音识别技术在人机交互研究发展中不可忽视的地位。通过此次课题，通过开放的API来实现语音识别和合成的功能，来了解目前国内的一个语音交互技术达到了一个什么样的程度，对于语音识别的正确率有一个了解，从而判断能否广泛的应用于终端。1.3 研究内容主要分析研究讯飞的开放API文件，以及如何调用这个API。多多的了解目前语音交互在市场上的一个应用。了解各大公司目前语音识别技术的成熟程度。1.4 可行性分析1.4.1 目标和方案的可行性语音交互在现在这个时代是逐渐被重用，人们需要在日常生活中广泛运用，比

9、如开车时的语音导航、文字的语音输入。这些都大大方便了人们的日常生活。1.4.2 技术方面的可行性现如今XX、讯飞等国内语音交互技术已经十分的成熟，我们只需要调用他的API就可以实现功能。开发环境是在前端上，所以只需要js和CSS技术就能实现，然后把数据发送给后端，处理后再传回前端就行。1.4.3 经济方面的可行性XX与讯飞都有免费的接口，所以成本很低，没有任何的开销。1.5 本章小结本章对语音交互技术的“前世”与“今生”都进行了一个很好的介绍，了解语音交互技术是什么以及语音交互技术的发展现状。并论述了本论文的研究内容。简单的介绍了语音交互系统至今的一个发展过程还有就是语音交互系统在当下的一个应

10、用环境。2 相关工作进展2.1 语音识别相关知识2.1.1 语音的特性语音最明显的两个特性分别是：时变性、非平稳性。其中受诸多因素的影响而使语音在形成的过程中产生变化就是“时变性”，如声道、气流、气压等等。这是语音信号随时间变化的根本原因；“非平稳性”是由“时变性”衍生出来的特性，一般用于说明语音信号的整体特性，这一特性决定了语音信号不能被直接处理，所以，需要将语音信号以帧为单位来进行处理。通常，把10ms-30ms时长内的一段语音信号定义为一帧3。2.1.2 语音识别的基本步骤语音识别基本上都是要包含以下这四个步骤的：1）语音信号的预处理；2）对处理后的数据做端点检测；3）对检测出的语音段提

11、取特征参数；4）利用提取出的特征序列与模板库做匹配。预处理是要对输入的信号做一些简单的处理工作，方便后续操作，包括分帧加窗等等，其中语音识别中的第一个重要环节就是端点检测，它的目的是要找到包含真实有效语音段的语音信号，这一步骤如果检测失败，那后续的操作也就没有什么意义了。检测出真实的语音段落后，提取随时间变化的特征参数，这个过程一般有若干的参数可供选择，并不唯一。最后，就要利用得到的特征序列与模板库中的特征序列进行一一匹配，选定最佳的匹配结果为最终的识别结果。当然声学模型与特征序列之间进行匹配，这也是很常见的匹配方法4。因此，基本流程图一般如图2-1所示：图2-1 语音识别的基本流程2.1.3

12、预处理预处理的前期处理模块中包含了预加重、信号数字化以及加窗分帧。每一个环节都是重要环节，它们在每一个环节所起到的作用都是能够产生至关重要的影响；加窗分帧对信号进行分段处理，而预加重和信号数字化则是对信号进行滤波、分帧和A/D变化。2.1.4 端点检测有效信号的开始和结束要靠什么来确定呢？那就是端点检测了，它通过处理办法去除无效的没有意义的信号段，然后简化模块复杂度，大部分的匹配识别运算量得到了减少，整个系统的效率也就得到了提高。首先，在采集到的语音样本中排除无效的语音信号时间段，排除掉之后，从中提取有效的语音信号上传给系统，所以系统的计算量就可以大大减少。它是通过端点检测出信号的开始和结

13、束然后确定各个段落，其具有两大明显优点：1、排除了无效的语音段，让后续模块只识别有效的模块，减低了系统的计算量，提高了系统的识别效率2、把语音识别中很重要的噪音干扰还有无声段排除了，识别的精度得到了提升，如果端点检测不正确，那么就肯定会导致不准确的语音识别，所以端点检测有着对后期处理至关重要的作用。2.1.5 特征参数提取特征参数提取就是对原始语音信号运用一定的数字信号处理技术进行适当处理从中抽取能反映语音本质的特征参数，形成特征矢量序列。特征参数提取是语音识别中关键的一环，提取到好的特征参数既方便了计算也能够很好的体现语音的特征，这对于系统的实现十分的重要，下面进行详细介绍：1、时域参数：短

14、时平均过零率以及常用短时平均能量，这就是时域参数，同时还有常用在汉字声调区别和清浊音分类的基音周期（pitch）；2、频域参数：频率参数主要有短时频谱、三个共振峰以及倒谱2.1.6 模板匹配语音识别中最后一个环节是模板匹配，这个环节需要判断提取的特征参数与语音模板的特征参数相似性。一般的常用方法有动态时间弯曲算法、基于隐马尔克夫模型的方法以及基于人工神经网络的方法2.2 语音合成相关知识2.2.1 基本概念语音合成：让智能设备有了嘴巴，将任意的文本合成为自然语言，然后模拟出人类的语音，再开口说出文本内容。通过语音学规则、语义学规则以及词汇规则来提高语音合成的清晰度与自然度。首先要进行文本转换，

15、就是把输入的文本信息通过相应的规则变为音韵序列，然后转换为声音波形。从中可以看出，文本信息与声音信息的转换可以分为两个阶段。第一阶段，文本变成声音，这一部分涉及面比较广，除开其中的字音转换、分词等处理技术还要使用韵律的生成规则。第二部分，语音波形的生成，语音流的清晰与自然，要依靠使用语义学、语音学等语言学规则算法。所以，语音合成系统对于语言学也是有很深的涉及的5。2.2.2 语音合成的方法语言合成技术的关键就是通过规则使文本信息能够变成声音信息，。而其中参数合成法与波形拼接法是目前能够满足实际应用的语音合成技术，这是多年的研究所得。两波形拼接法和参数合成的实现原理和基本思想如下。1、基于波形拼

16、接的语音合成技术何谓波形拼接？首先将合成语音的核心储存到语音库，然后按照文本合成的要求进行合成，再从语音库中把合成语音的核心读取出来进行波形的拼接和处理。最后合成到所需要的语音，这就是波形拼接。而目前波形拼接法有两种实现的形式。第一个是波形编码的合成，跟语音编码中波形编解码十分的类似，具体就是把需要合成的语音的波形进行编码压缩，之后再在合成的时候解码组合输出。第二个是波形编辑合成，波形编辑技术是通过在语音库中选择语音的合成单元的波形，然后波形编辑之后再输出。但是波形拼接合成法只是目前一种十分简单的语音合成技术，所以目前大多数只用来合成有限词汇的语音段。2、基于参数合成的语音合成系统目前来看参数

17、合成法是比较复杂的一种方法，首先就是要进行“训练”，也就是录用大量能够涵盖人发音过程中的所有读音。通过预处理得来的语音参数使用HMM对参数进行建模，在融合为一个全面的音库。而在发音的过程中，要根据需要发什么音再从音库中选择对应的声学参数，然后根据算法合成语音。那么再来详细介绍一下参数合成法的优缺点6。优点：语音库数据规模一般比较小，而且标注的精度要求也相对降低，自然度高。缺点：目前参数合成技术的算法比较复杂参数也很多，合成时大量占用CPU的资源。不仅合成的音质差并且还有一种合成器的风格。2.3 本章小结本章着重的介绍了语音合成和语音识别的相关状况，并且给出了语音识别基本步骤的框架和语音合成目前

18、使用的技术。根据框架中的步骤重点普及了语音数据的预处理，语音端点检测的主流算法及相关原理，真实语音段的特征参数选取和基本的提取步骤，还有利用特征参数进行模板匹配时的相关算法与算法原理7。还讲解了语音合成技术的实现流程和基本含义，详细介绍了参数合成法与波形拼接法是目前语音合成技术所主要使用的方法。3 基于XX、讯飞开放API的语音识别与合成的研究3.1 基于讯飞开放API的语音识别与合成的研究3.1.1 讯飞HTML5 API 介绍基于HTML5标准实现的“网页语言”的语音接口目前支持语音合成、云端听写。它采用了WEBSOCKET的通信协议，其后端又是基于NODEJS的开放框架。通过JAVASC

19、RIPT来实现云和端。这个API封装了音量检测、音频压缩、WAV、MP3、端点检测等模块，支持语音合成、语音识别的实时回调8。浏览器支持情况如表3-1所示表3-1 浏览器支持情况浏览器类型听写业务合成业务FirefoxPC支持/Android支持/IOS不支持支持Safari待开放支持ChromePC支持/Android支持/IOS不支持支持IE 9+支持支持Android默认待开放支持UC浏览器PC支持/Android不支持/IOS不支持支持360浏览器PC支持/Android不支持/IOS不支持支持微信浏览器待开放支持3.1.1 讯飞语音识别介绍3.1.1.1 听写开发接口说明IFIyIa

20、tSession 接口函数原型Function IFlyIatSession(cfg) 功能主要是调用其他的听写接口，将“语音听写会话”进行初始化。参数params inJSON格式，会话时传入的参数的建立，其能设置的参数及其取值范围如表 3-2 所示。表3-2 听写会话参数列表参数参数说明取值范围url连接的服务器地址默认值：compress音频压缩算法speexreconnection客户端是否支持断开重连默认值为true（客户端支持断开重连）reconnectionDelay连接断开提示取值范围（0999999）speex_pathspeex.jx文件本地路径无Vad_pathva

21、d.js文件本地路径无Recorder_pathrecorderWorker.js文件本地路径无说明创建听写会话接口。此接口在程序中只调用一次用法/* * 初始化 Session 会话* url 连接的服务器地址（可选）* reconnection 客户端是否支持断开重连* reconnectionDelay 重连支持的延迟时间*/var session = new IFlyIatSession(url : :80/, reconnection : true,reconnectionDelay : 30000);Start接口函数原型Function start(params, func

22、tion(volume), function(err, result), function(message),function(data) 功能“开始语音识别”接口，通过传入识别参数，进行麦克风录音，获得对应的识别结果和音量回调。参数1. params in识别参数，为 JSON 格式，可以设置的参数及其取值范围如表 3-3 所示表3-3 听写业务可设置参数列表参数参数说明取值范围ptt标点符号添加值为1，返回结果含标点符号；值为0，返回结果不含标点符号。rst识别结果格式值为plain，直接返回识别结果；值为json，返回JSON格式结果。rse结果编码格式gb2312utf8Unicod

23、eent引擎类型，不同类型的引擎提供不同的功能。sms16k 16K采样率中文sms8k 8K采样率中文sms-en16k 16K采样率英文sms-en8 8K采样率英文writeAudio是否从外部写入录音数据true 从外部写入录音数据；false 内部实现录音 2. function(volume) out返回音量的函数，第一个回调函数 3. function(err, result) out结果回调的接口，第二个回调函数。4. function(message) out点明录音停止与启动的函数，第三个回调函数5. function(data) out实时返回的音频数据，第四个回调函数

24、用法/* 可设置的参数及含义请参考HTML5 API 可设置参数列表*/var ssb_param = grammar_list : null, params : aue=speex-wb;-1, usr = mkchen, ssm = 1, sub = iat,net_type = wifi, ent =sms16k, rst = plain, auf = audio/L16;rate=16000, vad_enable = 1, vad_timeout =5000, vad_speech_tail = 500, compress = igzip, caller.appid = 502878

25、29, timestamp = +date.toLocaleTimeString() + , expires = 10000, signature : TEST SIGNATURE;session.start(iat, ssb_param , function (volume)if(volume 0)w.waveChange(volume);if(volume 320)window.setTimeout(writeAudioData, 20);var data = byteArray.subarray(0, 320);byteArray = byteArray.subarray(320, by

26、teArray.length);/* 写入音频数据 */writeAudio(data, 2);Cancel接口函数原型Function cancel() 功能“取消会话”接口，取消本次识别会话用法/* 结束录音并取消本次识别会话 */session.cancel();3.1.1.2 合成开发接口说明IFLYTtsSession接口函数原型Function IFlyTtsSession (cfg) 功能初始化，用于调用其它合成接口。参数1. params in可以设置的参数及其取值范围如下表 3-4 所示。表3-4 合成会话参数列表参数参数说明取值范围url连接的服务器地址默认值：rec

27、onnection客户端是否支持断开重连默认值为true（客户端支持断开重连）reconnectionDelay连接断开提示取值范围（0999999）说明本接口为创建合成会话接口。接口在应用程序中只调用一次用法/* * 初始化 Session 会话* url 连接的服务器地址（可选）* reconnection 客户端是否支持断开重连* reconnectionDelay 重连支持的延迟时间*/var session = new IFlyTtsSession(url : :80/, reconnection : true,reconnectionDelay : 30000)Start接口

28、函数原型Function start( params, content, function(err, obj), function(message) ) 功能依据合成参数与文本然后得到对应的合成音频。参数1. params in合成参数，为 JSON 格式，可以设置的参数及其取值范围见表3-5合成业务参数列表所示表3-5 合成业务可设置参数列表参数参数说明取值范围gat是否以音频链接形式返回，若不设置该参数API会根据系统和浏览器支持情况自行选择是否返回mp3播放链接。mp3（返回mp3音频播放链接）wav（返回wav音频播放链接）ven合成发音人Xiaoyan（青年女声，普通话）Xiaoyu（青年男声，普通话）Catherine（英文女声）Henry（英文男声）Vixy（小燕，普通话）Vixm（小梅，粤语）Vixl（小莉，台湾普通话）Vixr（小

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？