语音控制音乐播放器.docx

资源描述

语音控制音乐播放器.docx

《语音控制音乐播放器.docx》由会员分享，可在线阅读，更多相关《语音控制音乐播放器.docx（32页珍藏版）》请在冰豆网上搜索。

语音控制音乐播放器.docx

语音控制音乐播放器

语音控制音乐播放器的设计

摘要

电子信息技术已经深入应用到各行各业的产品中，包括工业控制设备，通讯设施以及各种消费类电子产品。

在这个领域，伴随着人工智能和计算机技术的发展，人类的电子设备将会朝着智能化方向高歌猛进，其中，语音遥控将会起着不可估量的作用，语音控制也将会取代传统的键盘输入控制，不仅节约了成本，而且也减少了传输线间的串扰，提高了产品的友好操作性和智能化水平。

本课题是研究语音控制的音乐播放器，以证明语音智能控制的理论和实施的可行性,为以后将语音智能控制广泛应用于人类日常生活、生产和无人危险作业提供理论和实践依据。

本设计采用凌阳科技生产的SPCE061A单片机，运用其语音信号识别与处理功能达到控制播放器的功能，拥有两种控制模式：

语音控制和键盘控制，语音控制模式能够识别“播放”、“暂停”、“停止”、“上一首”、“下一首”五种语音指令；键盘控制模式能够通过按键操作控制播放器的开关机和播放情况。

设计通过仿真，达到了语音键盘双模控制的目标。

关键词：

语音识别；SPCE061A；语音控制；音乐播放器

TheDesignofVoiceControlMusicPlayer

ABSTRACT

Electronicinformationtechnologyhasfurtherappliedtoallwalksoflifeproducts,includingindustrialcontrolequipment,communicationfacilitiesandavarietyofconsumerelectronicsproducts.Inthisarea,alongwiththedevelopmentofartificialintelligenceandcomputertechnology,electronicequipment,humanintelligencewillbemovinginthedirectionoftriumph,inwhichvoicewillbeplayinganinvaluableroleremotecontrol,voicecontrolwillalsoreplacethetraditionalkeyboardinputcontrol,notonlycostsavingsbutalsoreducescrosstalkbetweentransmissionlinesandimproveproductinteroperabilityandintelligentleveloffriendship.

Thistopicistostudythevoice-controlledmusicplayer,toprovethetheoryofintelligentcontrolandvoicefeasibilityofimplementation,forfuturevoiceiswidelyusedinintelligentcontroldailylife,production,andnodangerousoperationstoprovidetheoreticalandpracticalbasis.ThisdesignusesSunplusproductionSPCE061AMCU,usingitsvoicerecognitionandsignalprocessingfunctionstocontrolplayerfunctions,withtwocontrolmodes:

voicecontrolandkeyboardcontrol,voicecontrolmodetoidentifythe"Play","Pause","Stop,""theone","nextsong"fivevoicecommands;keyboardcontrolmodeoperationcanbecontrolledthroughkeyplayersswitchmachineandplaysituations.Designthroughsimulation,dual-modecontroltoachievethegoalofvoicekeyboard.

Keywords：

VoiceRecognition;SPCE061A；VoiceControl;MusicPlayer

第一章绪论1

1.1课题简介1

1.2研究背景1

1.3国内外发展状况2

第二章语音识别技术理论4

2.1语音识别概述4

2.1.1基本概念4

2.1.2语音识别的分类4

2.1.3语音识别的主要方法5

2.1.4语音识别的难点与对策5

2.2语音信号的识别系统组成6

2.3语音信号分析概述7

第三章播放器系统的硬件设计9

3.1系统设计9

3.2主要电路设计10

3.2.1单片机主电路10

3.2.2电源电路11

3.2.3音频电路11

3.2.3开机指示灯电路和键盘控制电路12

第四章SPCE061A单片机介绍14

4.1SPCE061A单片机的结构14

4.1.1总述14

4.1.2SPCE061A内部结构14

4.1.3SPCE061A特性参数15

4.2SPCE061A的主要功能模块15

4.2.1看门狗模块15

4.2.2低电压检测/低电压复位16

4.2.3单片机的并行I/O接口16

4.2.4时间基准信号16

4.2.5定时器/计数器17

4.2.6中断系统17

4.2.7SPCE061A的ADC18

4.2.7SPCE061A的DAC18

4.2.8SIO同步串行接口18

4.3凌阳音频19

4.3.1凌阳音频压缩算法的编码标准19

4.3.2压缩分类20

4.3.3凌阳常用的音频形式和压缩算法20

4.3.4凌阳语音的播放、录制、合成和辨识20

第五章播放器的软件设计22

5.1集成开发环境IDE概述22

5.1.1IDE的概念及其发展22

5.1.2凌阳μ

nSPIDE23

5.2主要程序设计24

5.2.1训练命令程序24

5.2.2主程序25

5.2.3中断程序27

结论30

参考文献31

附录33

致谢34

第一章绪论

1.1课题简介

随着人工智能和计算机技术的发展,语音遥控将在人们的日常生活和生产领域起着不可估量的作用,语音控制音乐播放器是通过语音识别技术，完成一定的动作，这是语音智能控制在日常生活应用的一个实例。

通过此设计可以证明语音智能控制的理论和实施的可行性,为以后将语音智能控制广泛应用于人类日常生活、生产和无人危险作业提供理论和实践依据。

本课题采用凌阳SPCE061A单片机，该单片机具有强大的DSP功能，对于复杂的音频信号具有完善的语音处理能力，同时还具备语音识别模块和语音放音模块，只需要外接一个功放即可播放语音信号了。

通过本设计希望能够达到以下基本要求：

（1）通过语音命令对音乐播放器进行控制，可以识别5条命令

（2）两种控制模式

（3）音乐播放器的语音存储

1.2研究背景

科学技术发展至今，实现了人可以通过机电系统和计算机智能系统从事劳动生产、工业控制、科学探索和方便日常生活。

长期以来，这些机电系统和智能系统与人之间的信息交流主要依靠各种形式的键盘、按键等实现的，机电系统和智能系统通过显示器等反映运行状态。

目前，人机交流基本上属于数字领域的“手动操作”方式人机对话，它把人与系统通过中间介质限制在近距离面对面的空间里，所交换的信号是数字量或者数字量的转化形式。

这种“手动操作”人机对话模式限制了人与计算机系统和机电系统交流的灵活性。

为了提高工业系统、计算机系统和家电系统智能化水平，在人机对话方面就是寻求最好的信息交换手段。

语言是人类最主要和最基本的交流方式，在日常生活中，人们通过它互相传递信息。

而且语言也是信息载体中承担信息量最大的信号，具有很高的智能水平，使智能系统能听、能看、能说、能感觉是未来人机交互的发展方向，其中语音为未来最被看好的人机交互方式，语音比起其它的交互方式有更多的优势，语音作为人机对话的手段使人机对话转化为人人对话，可以填补人机对话的空白。

语音操作控制模式具有应用的便捷性和一致性，使人机界面自然化，现在还处在起步阶段，但这一技术必将给各类智能系统和人类生产生活带来巨大变化。

目前的各项电子技术的革新为语音技术的发展提供了充分条件，首先是半导体技术的发展使得原来在巨型机上才能运行的语音系统现在完全可以在微机上实现，其次是软件技术的不断演进，语音技术的一些核心算法，例如噪声消除、声学模型和语言模型建立、语音特征提取、搜索算法和自适应算法都得到长足发展。

软硬件的不断演化和有效结合为语音技术的发展、应用提供了良好的契机。

人们预计，在未来的10年内，语音控制技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子等各个领域。

传统的音乐播放器都是手动按键式的操作模式，这种形式的操作不仅容易加速硬件设施的老化，而且对于手脚不便利的用户就大为不便，因为需要直接接触操作，所以在时间和空间上都会有一些延迟。

本课题基于这些因素，将播放器改进为语音控制型的，不仅减少了硬件资源，而且操作相当人性化，用户只需要张口就可以对播放器进行“播放”、“上一首”等操作，对于手脚不便甚至盲人用户都带来巨大福音。

1.3国内外发展状况

语音控制是语音识别技术在控制领域的应用，因此，语音识别技术的研究与发展就决定了语音控制的研究与发展。

语音识别的研究工作大约开始于50年代，标志就是AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统-Audry系统。

60年代，计算机的应用推动了语音识别的发展。

这一时期的重要成果是提出了用动态规划（DP）方法来解决语音识别中不等长的对正问题。

70年代，语音识别领域取得了突破。

线性预测编码技术（LPC）的引入，使语音识别的特征提取产生了一次飞跃。

动态时间规整技术（DTW）基本成熟，提出了矢量量化（VQ）和隐马尔可夫模型（HMM）理论。

实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

80年代，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络（ANN）在语音识别中的成功应用。

HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化，从而为更多研究者了解和认识。

进入90年代，随着多媒体时代的来临，迫切要求语音识别系统从实验室走向实用。

许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。

IBM公司于1997年开发出汉语Via、bice语音识别系统，次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统Via、roiee，98。

它带有一个32，000词的基本词汇表，可以扩展到65，000词，还包括办公常用词条，具有“纠错机制”，其平均识别率可以达到95%。

该系统对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音识别系统。

SPeechworks公司是世界领先的电话自动语音识别系统（ASR）解决方案的提供者，代表产品为Speechworks6。

利用该产品，用户可以通过电话用自然语言与系统进行交互，进行旅游预约、股票交易、银行服务、订票服务、宾馆服务和寻呼服务等，由于系统是自动的，无需服务人员的介入。

目前市场上出现了语音识别电话、语音识别记事本等产品，如美国vPTC公司的VoieeO玛耐zer和法国的Parrot等。

我国语音识别研究工作始于二十世纪80年代初，一直紧跟国际水平，国家也很重视，并把大词汇量语音识别的研究列入“863”计划，由中科院声学所、自动化所及北京大学等单位研究开发，取得了高水平的科研成果，如中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统，其字准确率或系统响应率可达90%以上。

鉴于中国未来庞大的市场，国外也非常重视汉语语音识别的研究。

美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者，研究成果已达到相当高水平。

目前，语音控制技术应用的最广泛的就是在家电方面的应用。

如日本Sony公司声控汽车音响，美国JVC公司KD-LXSO型声控盒（车用），美国InVoca全方位声音遥控器，意大利Delonghi微波炉等都是能用语音命令去执行各种功能。

松下电器产业于2001年12月开始上市配备具有语音识别功能的36英寸电视机-“内置AV硬盘的Bs数码高清晰度电视机”。

该产品的昵称为“数码T”。

该产品中配备了麦克风遥控器，可用语言指令输入指示。

用户可以通过语音报出电视台名或者频道号码，便可很容易地选择BS数码广播或地面波模拟广播的具体电视台。

在使用过去的遥控器时，当搜索节目信息以及预约录像等时需要通过菜单画面逐步进行操作，而在语音操作时则可以省略中间阶层的操作。

语音控制不仅应用于家电，在通讯、自动控制、家居自动化等方面都有着越来越广泛的应用。

第二章语音识别技术理论

2.1语音识别概述

2.1.1基本概念

语音识别是机器通过识别和理解把语音信号转变为相应的文本文件或命令的高技术。

作为专门的研究领域，语音识别又是一门交叉学科，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。

语音识别是人机接口的一项重要内容，也是世界语音信号处理中非常重要的应用技术。

语音识别的目的是机器“听懂”人类的语音，这也是机器智能化的一个重要方面。

让机器识别语音的困难在某种程度上就像一个外语不好的人听外国人讲话一样，它和不同的说话人、不同的说话速度、不同的说话内容、以及不同的环境条件有关。

语音信号本身的特点造成了语音识别的困难。

这些特点包括多变性，动态性，瞬时性和连续性等。

2.1.2语音识别的分类

语音识别按不同的角度有下面几种能够分类方法。

1．以识别单位分

语音识别以识别单位分，有孤立词（识别的单词之间有停顿）识别、音素识别、音节识别、孤立句识别、连接词识别、连续语音识别（识别的单词之间没有停顿）和语音理解等。

2．以识别规模分语音识别以识别规模分，有小词汇（10～50个）、中词汇（50～200个）、大词汇（200个以上）等孤立词识别。

3．以服务对象分

语音识别以服务对象分，有特定说话人、多说话人（有限的说话人）和与说话人无关（无限的说话人，无论是谁的声音都能识别）3种。

特定说话人的语音识别比较简单，能得到较高的识别率。

后两种为非特定说话人识别系统，这种识别系统的通用性好、应用面广，但难度也较大，不容易得到较高的识别率。

而与说话人无关的识别系统的实用化将会有很高的经济价值和深远的社会意义。

4．以识别的方法分

语音识别以识别的方法分，有模板匹配法、随机模型法和概率语义分析法。

这三种方法都属于统计模式识别法。

除了这三种外，其他识别方法还包括人工神经网络语音识别、应用模型数学的语音识别及句法语音识别等。

目前，语音识别的研究重点已经转移到大词汇量、非特定人、连续语音上来并且取得了一些突破。

典型的做法是：

以HMM为统一框架，构筑识别系统模型。

每个识别单位至少建立一套HMM结构和参数。

大词汇量、非特定人的连续语音识别系统可以用于人机直接对话、语音打字机以及两种语言之间的直接通信等一系列重要场合。

2.1.3语音识别的主要方法

语音识别是国际上的热点领域，人们尝试了很多种语音识别的方法。

一般来说，语音识别的方法有三种：

有模板匹配法、统计模型法和概率语义分析法。

早期的语音识别系统大多采用模板匹配法，它多应用于特定人、小词汇量和孤立词的识别系统中。

这种系统利用训练的语音数据产生模板库，然后直接将根据输入语音得到的特征矢量与模板库中的模板进行比较，选择出区别最小的模板作为输入语音输出。

随着应用需求的增长，识别词汇量逐渐增多，识别对象也从孤立词向连续语音转变。

此时，由于已经很难对自然的连续语音进行分割，语音单元间的协同发音现象也十分普遍，因此基于模板匹配结构的识别系统不再使用。

同时大词汇量的词汇表存储、搜索也需要极大的存储空间和计算资源，因此语音识别的研究从模板匹配技术向基于统计模型的识别技术转变。

统计模型法中应用最广泛的是隐马尔可夫模型（HiddenMarkovModel）和人工神经网络模型。

HMM的出现，使自然语言识别系统取得了实质性突破。

HMM方法现已成为识别的主流技术，目前大多数词汇量、连续语音的非特定语音识别系统，都是基于HMM的模型。

HMM是针对语音信号的时间序列结构，建立起的统计模型，可被看作是一个数学上的双重随机过程：

一个是用具有有限状态数的Markov链，来模拟语音信号统计特性变化的、隐含的随机过程；另一个是与Markov链的每一状态相关联的、观测序列的随机过程。

前者通过后者表现出来，但前者的具体参数（如状态数）是不可观测的。

人工神经网络的方法是80年代末期提出的一种新的语音识别方法。

人工神经网络本质上是一个自适应非线性动力学系统，模拟人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，在结构和算法上都显示出实力，为语音识别提供了一个新的途径。

2.1.4语音识别的难点与对策

尽管语音识别的研究已有半个世纪了，但现有的语音识别系统仍存在许多困难，还远远达不到实用化的要求，主要表现在：

鲁棒性：

目前的语音识别系统对环境条件的依赖性强，要求保持测试条件和训练条件一致，否则系统性能会严重下降。

噪声问题：

现有的语音识别系统大多只能工作在安静的环境下，一旦在噪声环境下工作，讲话人产生情绪或心理上的变化，可能会产生发音失真、发音速度和音调改变等现象。

常用的抑制噪声的方法，可以概括为四个方面：

谱减法、环境规整技术、不修正语音信号而是修正识别器模型使之适合噪声、建立噪声模型。

语音识别基元的选择：

如何根据存储空间和搜索速度的要求，选择合适的识别单元，如词、音节、音素。

一般来讲，要识别的词汇量越多，所用的基元应越小越好。

端点检测：

研究表明，即使在安静的环境下，语音识别系统一半以上的识别错误，来自端点检测器。

提高端点检测技术的关键在于寻找稳定的语音参数。

韵律信息的利用：

韵律信息指的是说话之中的重音、语调等超音段信息。

实验表明，人可以从说话的韵律中获取很多重要信息。

但目前的语音识别系统却忽略了韵律信息。

因此，如何在语音识别中结合韵律信息还有待进一步研究。

2.2语音信号的识别系统组成

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统的实现过程如图2.1所示。

图2.1语音识别系统实现过程

Fig.2.1Realizationofspeechrecognitionsystem

预处理：

包括预加重、反混叠滤波、模/数转换、自动增益控制等处理过程，用以去除声门激励、口鼻辐射、高于1/2采样频率的高频和噪声信号的影响，实现语音信号的数字化。

在语音识别中，预处理还包括在声学参数分析之前，正确选择识别基元等问题。

特征提取：

对经过预处理的语音信号，要对其进行特征提取，即特征参数分析。

该过程就是从原始语音信号中抽取出能够反映语音本质的特征参数，形成特征矢量序列。

识别参数的选择有很多种，要视系统的具体要求来定。

参数中所包含的信息越多，分析或提取的复杂度也越大。

可供选择的识别参数包括：

平均过零率、短时平均幅度、短时平均能量、基音周期、短时频谱（有10～30个通道滤波器组的平均谱、DFT频谱、模仿人耳听觉频谱特性的MEL谱等）、共振峰（频率、带宽、幅度）、倒谱、线性预测系数、PARCOR参数（偏自相关系数）、声道的形状函数（用于求取说话人的个性特征）、随机模型（隐马尔可夫模型）的概率函数、矢量量化的矢量，以及音长、音调、声调等超音段信息函数。

语音库：

即声学参数模板，是用训练和聚类的方法，综合一人或多人多次重复的语音参数，经过长时间的训练而聚类得到。

模式匹配：

语音识别的核心。

将输入语音的特征参数同训练得到的语音模式库进行比较分析从而得到初步的识别结果。

常用的方法有：

动态时间规整法、有限状态矢量量化法、HMM模型法等。

判决：

语音识别的最后一步，也是系统识别效果的最终表现。

对属于由信号计算而得到的测度，根据若干准则及专家知识，判决选出可能结果中最好的结果，由识别系统输出。

2.3语音信号分析概述

通过对于语音信号发声过程的研究以及观察记录的各种语音波形，便可知道语音信号的频谱分量主要集中在300～3400Hz的范围内，如图2.2所示为“确信”语音信号的波形图。

图2.2“确信”语音波形图

Fig.2.2"Confident"voicewaveform

语音信号的另一个重要特点是它的“短时性”。

在某些短时段中它呈现出随机噪声的特征，另一些短时段则呈现出周期信号的特征，其它时段则为两者的混合。

简而言之，语音信号的特征是随时间而变化的，只有在一短段时间间隔中，语音信号才保持相对稳定一致的特征。

这短段时间一般可取为5--50ms，因此对于语音信号的分析和处理必须建立在“短时”的基础上。

根据语音信号的特征，我们可以认为在一小段时间内语音信号近似不变。

于是可以把语音信号分成一些短段（或称为分析帧）来进行处理。

这些短段（或帧）具有固定的特征。

短段间经常有一定的重叠，组合成一段语音。

这种方法称为“短时”处理方法。

这种短时处理方法可以表示为：

语音信号的分析是语音通信、语音合成、语音识别、说话人识别和语音增强等语音信号处理的前提和基础。

只有将语音信号分析描述成其本质的特征参数，才有可能利用这些参数进行高效的语音通信，建立语音库，构造识别模板或知识库。

根据所分析的参数不同，语音信号可分为时域、频域、倒谱域等方法，其中频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络等。

按照语音学的观点，可将语音分析分为模型分析法和非模型分析法两种，其中模型分析法是指依据语音产生的数学模型来分析和提取表征这些模型的特征参数，共振峰模型分析、声管模型（即线性预测模型）就属于这种分析方法。

而不进行模型化分析的其它方法都是属于非模型分析法，包括时域分析法、频域分析法及同态分析法等。

第三章播放器系统的硬件设计

3.1系统设计

要设计语音控制音乐播放器，主要有两个模块，一是音频输入，实现语音信号的识别；二是音频输出，实现播放功能。

根据这一思路，主要有两种方案可供选择：

1．方案一

采用普通的MCU，如89C51等较为低端的MCU控制芯片设计本系统，其框图如图3.1：

音频输入

根据上面的框图可以很清楚地看到，这个结构需要单片机是最简单的，不需要单片机具有内置ADC,DAC等功能，对于编程来说就相对简单得多了。

不过本方案的缺点是电路设计过于复杂，电子元器件较多的情况下，并且器件之间的干扰会比较严重，做PCB要考虑的EMC会比较复杂。

这不是一个好的设计方案。

2．方案二

运用凌阳SCE061A单片机，现在提出如下系统方案，如图3.2所示：

音频输入

凌阳SPCE061A单片机出色的DSP功能，同时61单片机也自带7通道10位普通ADC（IO

展开阅读全文