声音采集与回放.docx-资源下载

声音采集与回放.docx

1、声音采集与回放引言随着嵌入式系统开发技术的快速发展及其在各个领域的广泛应用，人们对电子产品的小型化和智能化要求越来越高，作为高新技术之一的单片机以其体积小、功能强、价格低、使用灵活等特点，显示出其明显的优势和广泛的应用前景。在人们不断增长的物质与文化的需要下，电子产品在大众的生活，学习以及工作中的地位显的举足重轻。电子产品不断的更新换代，消费者对电子产品的要求也越来越高，因此对电子产品的技术以及开发速度也带来不断的挑战。计算机的诞生，给人类带来历史性的飞跃。在现代的各种电子设计技术中，单片机技术已经作为主流的电子开发技术之一，所谓单片机(Single Chip Microcomputer)，是

2、指在一块芯片中集成有中央处理器(CPU)、存储器(RAM 和 ROM)、基本 I/O 接口以及定时器/计数器等部件，并具有独立指令系统的智能器件，即在一块芯片上实现一台微型计算机的基本功能。如果是简单控制对象，只需利用单片机作为控制核心，不需另外增加外部设备就能完成。对于较复杂的系统，只需对单片机进行适当扩展即可，十分方便。归纳起来，单片机及应用系统有以下特点：(1)单片机具有独立的指令系统，可以将我们的设计思想充分体现出来(2)系统配置以满足控制对象的要求为出发点，使得系统具有较高的性能价格比。 (3)应用系统通常将程序驻留在片内(外)ROM 中，抗干扰能力强，可靠性高，使用方便。 (4)由

3、于系统规模较小，其本身不具有自我开发能力，一般需借助专用的开发工具进行系统开发和调试，而实际应用系统简单实用，成本低，效益好。 (5)应用系统所用存储器芯片可选用 EPROM、E2PROM、OTP 芯片或利用掩膜形式生产，便于批量开发和应用。许多单片机(如 80C51 系列)的开发芯片和扩展应用芯片相互配套，降低了系统成本。 (6)由于系统小巧玲珑，控制功能强、体积小，便于嵌入被控设备之内，大大推动了产品的智能化。如数控机床、机器人、智能仪器仪表、洗衣机、电冰箱、电视机等都是典型的机电一体化设备和产品。单片机技术已成为现代电子技术应用领域十分重要的技术之一，是电子技术应用领域工程技术人员必备的

4、知识和技能，它能够使您设计的产品更具智能化和先进性。电子设计自动化的出现，不仅为电子系统的设计带来了一场革命性的变化，从某种角度来说也成为其发展的必然。大学生是时代发展的主要支柱，承担着社会进步，社会建设的重要角色。努力学习科学文化知识，开发新技术，是时代赋予当代大学生的任务。1 方案设计与论证1.1 毕业设计的设计任务此次设计老师给我的要求是研究和实现数字存储式录音系统，通过自学掌握单片机程序设计调试、编辑、编译和下载设计文件，用C语言和汇编语言，利用EDA技术搭建实用硬件系统的方法，选择合适的单片机实现录音机系统，系统具有以下基本功能：留言录音、自动应答、连续放音；要求每项操作过程中使用

5、指示灯。经过多次查找资料，最后确定实现方案：利用凌阳单片机SPCE061A单片机设计一个数字存储式录音系统。系统以单片机为核心，扩展外围存储器HM628128LLP SRAM以存储语音数据，要求系统复位之后播放一段音乐，然后进入录音模式，录音后回放的音质较好，录音时间超过30秒以上。整个录音系统由按键进行控制，具有录制，停止，播放的功能，并且通过指示灯显示当前录音系统处于何种的工作状态。1.2 设计方案方案一： SPCE061A有8路可复用10位ADC通道，其中一路通道(MIC_In)用于语音输入，模拟信号经过自动增益控制器和放大器放大后进行A/D转换。SPCE061A 的A/D转换范围是整个

6、单片机系统的输入范围，即最大的模拟信号输入电压范围：0VAVdd。非法的A/D模拟信号(超过VDD+0.3 V/低于VSS0.3 V)将影响转换电路的工作范围，从而降低ADC的性能。方案一使用SPCE061A单片机自带的MicIN输入，利用单片机芯片内部的AGC自动增益控制器和放大器，从而节省了外围的音频输入电路及相应的音频滤波电路，使系统的硬件电路大大简化。软件实现方面就是利用凌阳SACM库提供的DVR函数进行录放，DVR函数具有良好的API用户接口，只要了解各个函数的功能和参数即可，录音放音过程实现简单。录音资料存放到外挂的存储器HM628128LLP SRAM中。播放时，从HM62812

7、8 SRAM中读取语音数据，通过SPCE061A自带的DAC进行播放。原理框图如图1.1：图1.1 MIcIN输入原理框图方案二：使用SPCE061A单片机自带的MicIN输入，不使用凌阳SACM库提供的DVR函数，直接将ADC的结果进行数字滤波，然后存放到外挂的存储器HM628128中，播放时从外围存储器HM628128中读取数据，直接送到SPCE061A自带的DAC进行播放。这个方案的硬件和方案一相似，只要求外围存储器容量要大，因为语音数据没有经过压缩，而是直接存储到存储器中。两者的区别在软件方面。本方案的原理框图也如方案一所示。方案三： SPCE061A有8路可复用10位ADC通道，

8、其余7路通道(Line_In)和IOA06 管脚复用，可以直接通过引线(IOA06)输入，用于将输入的模拟信号(如电压信号) 转换为数字信号。由于Line_In通道和IOA06共用管脚，建议用户选择其他的IO管脚（非IOA06），以避免由于非法IO信号造成电压不稳(超过VDDIO+0.7V/低于VSSIO-0.7V)而降低ADC的性能。方案三使用SPCE061A单片机自带的LineIN输入，要求外置音频输入通道放大器，将ADC的结果进行数字滤波，然后存放到凌阳存储器SPR4096中，播放时从SPR4096中读取数据，经过外置的输出音频放大器直接送到SPCE061A自带的DAC进行播放。本方案的

9、原理框图如图1.2：图1.2 LineIN输入原理框图1.3 方案选择方案比较：因为SPCE061A的MicIN通道内置了带AGC的放大电路，而LineIN通道需要在芯片外围搭建这部分电路，使得方案三的硬件比方案一和方案二多，而且带AGC的放大电路也不是很好调的，所以，方案一和方案二比方案三更容易实现，效果也更好。方案一和方案二比较，方案一利用凌阳SACM库提供的DVR函数进行录放，只要了解了DVR函数的功能，参数，和调用方法，这就很容易实现，效果也好。而方案二在软件方面要编写数字滤波程序，加大了设计任务的复杂性和繁重性。综上所述，方案一最优，方案二次之，方案三最差。从节省系统的成本，选择合

10、适的实现难度以及构建系统的时间紧迫性方面综合考虑，本录音系统最终选择方案一。2 录音系统的音频信号处理2.1 音频信号处理基础2.1.1 音频的概述（特点，分类）我们所说的音频是指频率在20 Hz20 kHz的声音信号，分为：波形声音、语音和音乐三种，其中波形声音就是自然界中所有的声音，是声音数字化的基础。语音也可以表示为波形声音，但波形声音表示不出语言、语音学的内涵。语音是对讲话声音的一次抽象。是语言的载体，是人类社会特有的一种信息系统，是社会交际工具的符号。音乐与语音相比更规范一些，是符号化了的声音。但音乐不能对所有的声音进行符号化。乐谱是符号化声音的符号组，表示比单个符号更复杂的声音信

11、息内容。 2.1.2 数字音频的采样和量化将模拟的（连续的）声音波形数字元化（离散化），以便利数字计算机进行处理的过程，主要包括采样和量化两个方面。数字音频的质量取决于：采样频率和量化位数这两个重要参数。此外，声道的数目、相应的音频设备也是影响音频质量的原因。 2.1.3 音频格式的介绍音频文件通常分为两类：声音文件和MIDI文件 *声音文件：指的是通过声音录入设备录制的原始声音，直接记录了真实声音的二进制采样数据，通常文件较大； *MIDI文件：它是一种音乐演奏指令序列，相当于乐谱，可以利用声音输出设备或与计算机相连的电子乐器进行演奏，由于不包含声音数据，其文件尺寸较小。（1）声音文

12、件的格式 WAVE文件*.WAV WAVE文件使用三个参数来表示声音，它们是：采样位数、采样频率和声道数。在计算机中采样位数一般有8位和16位两种，而采样频率一般有11025Hz（11KHz），22050Hz（22KHz）、44100Hz（44KHz）三种。我们以单声道为例，则一般WAVE文件的比特率可达到88K704Kbps。具体介绍如下： *WAVE格式是Microsoft公司开发的一种声音文件格式，它符合RIFF（Resource Interchange File Format）文件规范； *用于保存Windows平台的音频信息资源，被Windows平台及其应用程序所广泛支持。 *WAV

13、E格式支持MSADPCM、CCITT A Law、CCITT Law和其它压缩算法，支持多种音频位数、采样频率和声道，是PC机上最为流行的声音文件格式。 *但其文件尺寸较大，多用于存储简短的声音片段。 AIFF文件AIF/AIFF *AIFF是音频交换文件格式（Audio Interchange File Format）的英文缩写，是苹果计算机公司开发的一种声音文件格式； *被Macintosh平台及其应用程序所支持，Netscape Navigator浏览器中的LiveAudio也支持AIFF格式，SGI及其它专业音频软件包同样支持这种格式。 *AIFF支持ACE2、ACE8、MAC3和MA

14、C6压缩，支持16位44.1Kz立体声。 Audio文件*.Audio *Audio文件是Sun Microsystems公司推出的一种经过压缩的数字声音格式，是Internet中常用的声音文件格式； *Netscape Navigator浏览器中的LiveAudio也支持Audio格式的声音文件。 MPEG文件*.MP1/*.MP2/*.MP3 *MPEG是运动图像专家组（Moving Picture Experts Group）的英文缩写，代表MPEG标准中的音频部分，即MPEG音频层（MPEG Audio Layer）； *MPEG音频文件的压缩是一种有损压缩，根据压缩质量和编码复杂程度

15、的不同可分为三层（MPEG Audio Layer1/2/3）,分别对应MP1、MP2和MP3这三种声音文件； *MPEG音频编码具有很高的压缩率，MP1和MP2的压缩率分别为4：1和6：18：1，而MP3的压缩率则高达10：112：1，也就是说一分钟CD音质的音乐，未经压缩需要10MB存储空间，而经过MP3压缩编码后只有1MB左右，同时其音质基本保持不失真，因此，目前使用最多的是MP3文件格式。 RealAudio文件*.RA/*.RM/*.RAM *RealAudio文件是RealNerworks公司开发的一种新型流式音频（Streaming Audio）文件格式； *它包含在RealMe

16、dia中，主要用于在低速的广域网上实时传输音频信息； *网络连接速率不同，客户端所获得的声音质量也不尽相同：对于28.8Kbps的连接，可以达到广播级的声音质量；如果拥有ISDN或更快的线路连接，则可获得CD音质的声音。（2）MIDI文件*.MID/*.RMI MIDI是乐器数字接口（Musical Instrument Digital Interface）的英文缩写，是数字音乐/电子合成乐器的统一国际标准；它定义了计算机音乐程序、合成器及其它电子设备交换音乐信号的方式，还规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议，可用于为不同乐器创建数字声音，可以模拟大提琴、

17、小提琴、钢琴等常见乐器；在MIDI文件中，只包含产生某种声音的指令，这些指令包括使用什么MIDI设备的音色、声音的强弱、声音持续多长时间等，计算机将这些指令发送给声卡，声卡按照指令将声音合成出来，MIDI在重放时可以有不同的效果，这取决于音乐合成器的质量；相对于保存真实采样资料的声音文件，MIDI文件显得更加紧凑，其文件尺寸通常比声音文件小得多。2.1.4 语音压缩编码基础语音压缩编码中的数据量是指：数据量=(采样频率量化位数)/8(字节数) 声道数目。压缩编码的目的：通过对资料的压缩，达到高效率存储和转换资料的结果，即在保证一定声音质量的条件下，以最小的资料率来表达和传送声音信息。

18、压缩编码的必要性：实际应用中，未经压缩编码的音频资料量很大，进行传输或存储是不现实的。所以要通过对信号趋势的预测和冗余信息处理，进行资料的压缩，这样就可以使我们用较少的资源建立更多的信息。举个例子，没有压缩过的CD品质的资料，一分钟的内容需要11MB的内存容量来存储。如果将原始资料进行压缩处理，在确保声音品质不失真的前提下，将数据压缩一半，5.5MB就可以完全还原效果。而在实际操作中，可以依需要来选择合适的算法。常见的几种音频压缩编码：（1）波形编码：将时间域信号直接变换为数字代码，力图使重建语音波形保持原语音信号的波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样，然后

19、将幅度样本分层量化，并用代码表示。译码是其反过程，将收到的数字序列经过译码和滤波恢复成模拟信号。如：脉冲编码调制(Pulse Code Modulation，PCM)、差分脉冲编码调制（DPCM）、增量调制(DM)以及它们的各种改进型，如自适应差分脉冲编码调制（ADPCM）、自适应增量调制（ADM）、自适应传输编码（Adaptive Transfer Coding，ATC）和子带编码（SBC）等都属于波形编码技术。波形编码特点：高话音质量、高码率，适于高保真音乐及语音。（2）参数编码：参数编码又称为声源编码，是将信源信号在频率域或其它正交变换域提取特征参数，并将其变换成数字代码进行传输。

20、译码为其反过程，将收到的数字序列经变换恢复特征参量，再根据特征参量重建语音信号。具体说，参数编码是通过对语音信号特征参数的提取和编码，力图使重建语音信号具有尽可能高的准确性，但重建信号的波形同原语音信号的波形可能会有相当大的差别。如：线性预测编码（LPC）及其它各种改进型都属于参数编码。该编码比特率可压缩到2Kbit/s-4.8Kbit/s，甚至更低，但语音质量只能达到中等，特别是自然度较低。参数编码特点：压缩比大，计算量大，音质不高，廉价！（3）混合编码：混合编码使用参数编码技术和波形编码技术，计算机的发展为语音编码技术的研究提供了强有力的工具，大规模、超大规模集成电路的出现，则为语音

21、编码的实现提供了基础。80年代以来，语音编码技术有了实质性的进展，产生了新一代的编码算法，这就是混合编码。它将波形编码和参数编码组合起来，克服了原有波形编码和参数编码的弱点，结合各自的长处，力图保持波形编码的高质量和参数编码的低速率。如：多脉冲激励线性预测编码（MPLPC），规划脉冲激励线性预测编码（KPELPC），码本激励线性预测编码（CELP）等都是属于混合编码技术。其数据率和音质介于参数和波形编码之间。总之，音频压缩技术之趋势有两个： (1)降低资料率，提高压缩比，用于廉价、低保真场合（如：电话）。 (2)追求高保真度，复杂的压缩技术（如：CD）。按照实现的功能来分，语音合成可分两个

22、档次： (1) 有限词汇的计算机语音输出 (2) 基于语音合成技术的文字语音转换（TTS：Text-to-Speech）按照人类语言功能的不同层次，语音合成可分为三个层次： (1) 从文字到语音的合成（Text-to-Speech） (2) 从概念到语音的合成（Concept-to-Speech） (3) 从意向到语音的合成（Intention-to-Speech） 2.2 凌阳音频简介2.2.1 凌阳音频压缩算法的编码标准表2.1是不同音频质量等级的编码技术标准（频响）：表2.1 音频质量压缩标准信号类型频率范围（Hz）采样率（K Hz）量化精度（位）电话话音 200 - 34

23、00 8 8 宽带音频（AM） 50 - 7000 16 16 调频广播（FM） 20 15 K 37.8 16 高质量音频（CD） 20 20 K 44.1 16凌阳音频压缩算法处理的语音信号的范围是200Hz3.4KHz的电话话音。 2.2.2 压缩分类压缩分无损压缩和有损压缩。无损压缩一般指：磁盘文件，压缩比低：2:14:1。而有损压缩则是指：音视频文件，压缩比可高达100:1。凌阳音频压缩算法根据不同的压缩比分为以下几种(具体可参见语音压缩工具一节内容)： SACM-A2000：压缩比为8:，8:1.25，8:1.5 SACM-S480：压缩比为80:3，80:4.5 SAC

24、M-S240：压缩比为80:1.5 按音质排序：A2000S480S240 2.2.3 凌阳常用的音频形式和压缩算法（1）波形编码：sub-band即SACM-A2000 特点：高质量、高码率，适于高保真语音音乐。（2）参数编码：声码器（vocoder）模型表达，抽取参数与激励信号进行编码。如：SACM-S240。特点：压缩比大，计算量大，音质不高，廉价！（3）混合编码：CELP即SACM-S480 特点：综合参数和波形编码之优点。除此之外,还具有FM音乐合成方式即SACM-MS01。 2.2.4 凌阳语音的播放、录制、合成和辨识凌阳的SPCE061A是16位单片机，具有DSP功

25、能，有很强的信息处理能力，最高时钟频率可达到49MHz，具备运算速度高的优势等等，这些都无疑为语音的播放、录放、合成及辨识提供了条件。凌阳压缩算法中SACM_A2000、SACM_S480、SACM_S240主要是用来放音，可用于语音提示，而DVR则用来录放音。对于音乐合成MS01，该算法较繁琐，而且需要具备音乐理论、配器法及和声学知识，所以对于特别爱好者可以到我们的网站去了解相关内容，这里只给出它的API函数介绍及程序代码的范例，仅供参考。对于语音辨识主要有以下两种：（1）特定发音人识别SD（Speaker Dependent）：是指语音样板由单个人训练，也只能识别训练人的语音命令，而

26、他人的命令识别率较低或几乎不能识别。（2）非特定发音人识别SI（Speaker Independent）：是指语音样板由不同年龄、不同性别、不同口音的人进行训练，可以识别一群人的命令。 3 硬件电路设计3.1 凌阳61板电路原理3.1.1 凌阳61板硬件框图及主要说明下图是61板系统的系统框图：图3.1 凌阳61板结构图下表对系统各部分作简要的介绍：表3.1 凌阳61板的框图说明POWER 5V或者3V供电电路PLL锁相环外部电路Power-电源指示灯Sleep-睡眠指示灯 RESET复位电路 K4复位按键 PROBE在线调试器串行5PIN接口 S5EZ-PROBE和PROBE切换开关J

27、12,J3耳机插孔和两PIN喇叭插针J11下载线的5PIN接口 DAC一路音频输出电路，采用SPY0030集成音频放大器 MIC麦克风输入电路 OSC32768晶振电路 VRTA/D转换外部参考电压输入接口 R/C芯片其他外围电阻，电容电路 K1-K3扩展的按键：接IOA0-IOA2PORTA/B32个I/O口3.1.2 凌阳61板功能特点*具有DSP功能、语音特色的凌阳十六位单片机开发系统。*集开发板仿真器和编程器于一体。只需PC机即可进行产品开发，同时免费提供原版集成开发环境。*不需任何外围器件就可以完成语音录、放、识别等功能。*所有I/O全部引出，可以和用户外部电路直接搭配。*多种电源供

28、电方式，使用户使用更加方便。3.2 凌阳61板硬件电路组成3.2.1 电源 61板采用3节5号电池进行供电，由J10接入，如原理图所示。其中的前后两组电容用来去耦滤波，使其供给芯片的电源更加干净平滑。为了获得标准的3.3V电压，在板子上加入SPY0029三端稳压器。两个二极管，是为防止误将电源接反造成不必要损失而设置的，在操作过程中千万不要将电源接反，因为反向电压超过一定的值，二极管将会被损坏，达不到保护的目的。后面的零电阻及其电源、地分成不同的几路是为减少电磁干扰设置的。图3.2 电源部分原理图3.2.2 程序下载区 ICE 基本运作方式是通过控制clock 及通过ICE 喂入指令

29、方式，来控制CPU 的运行及缓存器资料和内存资料的存取，因此必须透过控制缓存器值的设定来控制目前CPU 的动作.每个相连接的不同ICE模块都拥有自己独特的3-bit ID，当PC在传送control信号时都会先传送该3-bit ID，只有ICE本身的ID和control信号的ID 相同时才会执行该命令或回传资料。61板上的74HC244主要在我们选用下载线的时候起作用，主要起缓存的作用和完成SDA是作为数据回送还是数据下传的选择。图3.3 下载区原理图3.2.3音频输入部分如下图所示电路， MICP和MICN将随着MIC产生的波形变化，并在两个端口处形成两路反相的波形，再经过两级运放放大，

30、把放大的语音信号交给ADC转换为数字量，这个时候我们就可以通过单片机编程对这些数据进行处理，比如说语音数据压缩、语音识别样本处理。图3.4 音频输入外围电路3.2.4 音频输出部分如下图，SPY0030是凌阳公司开发的专门用于语音信号放大的芯片，它的增益如下所示：图3.5 SPY0030工作原理图3.2.5 按键部分按键是通过通断控制来实现它的功能，61板上的按键在没按下时，它的1、3脚是断开的，当按下时这两个脚是连通的。若此时我们在1脚接一个高电平，把第三脚连到一个I/O口上，这就形成了一个人机操作界面，通过编程对I/O扫描，单片机就能识别到我们的按键命令。图3.6 按键原理图3.3

31、凌阳61板接口说明3.3.1 输入/输出（I/O）接口61 板将SPCE061A 的32 个I/O 口全部引出：IOA0IOA15，IOB0IOB15，对应的SPCE061A 引脚为：A 口，4148、53、5460；B 口，51、8176、6864。而且该I/O 口是可编程的，即可以设置为输入或输出：设置为输入时，分为悬浮输入或非悬浮输入，非悬浮输入又可以设置为上拉输入或是下拉输入；在5V 情况下，上拉电阻为150K，下拉电阻为110K；设置为输出时，可以选择同向输出或者反相输出。图3.7 61板接口说明图3.3.2 音频输入/输出接口正如我们在前面介绍的“61 板”具有强大的语音处理功能，X1 是语音的MIC 输入端，带自动增益（AGC）控制，J3 是语音输出接口，一个2pin 的插针外接喇叭，由DAC 输出引脚21 或22 经语音集成放大器SPY0030A放大，然后输出，SPY0030A 是凌阳的一款芯片，相当于LM386，但是比LM386音质好，它可以工作在2.46.0V 范围内，最大输出功率可达700mW（LM386 必须工作

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？