基于ADPCM的语音信号编解码文档格式.docx

资源描述

基于ADPCM的语音信号编解码文档格式.docx

《基于ADPCM的语音信号编解码文档格式.docx》由会员分享，可在线阅读，更多相关《基于ADPCM的语音信号编解码文档格式.docx（16页珍藏版）》请在冰豆网上搜索。

基于ADPCM的语音信号编解码文档格式.docx

四、分析与总结-11-

五、仿真程序-12-

六、参考文献-14-

摘要

自适应差分脉冲编码调制（ADPCM）是运用了自适应技术、脉冲编码调制、差值调制技术，对PCM（脉冲编码调制）语音信号进行再压缩。

本报告从ADPCM编码基础理论出发，基于对G721标准的分析和理解，对语音压缩编码算法进行了仿真，包括了一下几个模块，自适应预测，快速非锁定因子的计算，单频信号的判定，窄带信号瞬变判定，自适应速度控制，量化矩阵自适应因子的计算，自适应量化编码，自适应逆量化，量化器标度因子自适应的选取，速度控制。

然后，实现了一个ADPCM的编码器程序。

最后，基于对编码器的研究，进行了解码输出的仿真。

一、语音压缩编码简介

语音信号的数字化传输一直是通信发展的主要方向之一，语音的数字通信和模拟通信相比，无疑具有更好的效率和性能，这主要体现在：

具有更好的语音质量：

具有更强的抗干扰性，并易于进行加密；

可节省带宽，能够更有效的利用网络资源；

更加易于存储和处理。

最简单的数字化方法是直接对语音信号进行模数转换，只要满足一定的采样率和量化要求，就能够得到高质量的数字语音，但这时语音的数据量仍旧很大，因此在进行传输和存储之前，往往要对其进行压缩处理，以减少其传输码率或存储量，即进行压缩编码。

传输码率也称为数码率或编码速率，表示每秒传输语音信号所需的比特数。

1.1语音压缩技术的现状及发展方向

语音压缩编码技术的发展是十分迅速的，CELP的编码速率较低，但复杂度较高，可以在4.8kb/s左右的码速率上获得较高质量的语音，是当今中低速率语音编码技术的主流技术之一，许多国际标准化组织及机构纷纷将这一编码方案作为语音编码标准。

在对其改善质量、降低复杂度、减少编码延迟等方面都提出了不少新的方法，使CELP在实践中得到广泛应用。

随着DSP技术的发展，CELP技术还具有一定的潜力，例如将G.729扩展到6.4kb/s，用于TDMA/CDMA移动无线系统和DCME。

目前，语音压缩编码技术主要有两个努力方向：

一个是中低速率的语音编码的实用化，及如何使用化过程中进一步减低编码速率和提高其抗干扰、抗噪声能力；

另一个是如何进一步的降低其编码速率，目前已能在5kb/s-6kb/s的速率上获得高质量的重建语音，下一个目标则是要在4kb/s的速率上获得短延时、高质量的重建语音。

特别是对中长延时编码，人们正在研究其更低速率（如400b/s-1200b/s）的编码算法，在这个过程中当编码速率降至2.4kb/s速率以下时，CELP算法即使应用更高效的量化技术也无法达到预期的指标，需要其它一些更符合低速率编码要求的算法，目前比较好的算法还有正弦变换编码（STC）、混合激励线性预测编码（MELPC）、时频域插值编码（TFI）、基音同步激励线性预测编码（PSELP）等，同时还要求引入新的分析技术，如非线性预测、多精度时频分析技术（包括子波变换技术）、高阶统计分析技术等，这些技术更能挖掘人耳听觉掩蔽等感知机理，更能以类似人耳的特性作语音的分析与合成，使语音编码系统更接近于人类听觉器官的处理方式工作，从而在低速率语音编码的研究上取得突破。

1.2语音压缩编码分类

语音编码按编码方式分为3类：

波形编码、参数编码、混合编码。

波形编码是将时间域或变换域信号直接变换为数字信号，力求使重建语音波形保持原始语音信号的波形形状。

参数编码又称声码器编码，它是将信源信号在频域或其他变换域提取特征参数，然后对这些特征参数重建语音信号。

混合编码将波形编码和参数编码结合起来，克服了波形编码和参数编码的缺点，吸收了它们的长处，能够在低速率上得到高质量的合成语音。

1.3语音信号压缩的基本原理

在数字通信中，语音信号被编码为二进制数字序列，通过信道传输或存储，在经过解码后恢复为可懂的语音。

将语音信号编码为二进制数字序列后再经传输或储存有其独特的优点。

例如，可摆脱传输或存储中噪声的干扰。

模拟传输信道的噪声总是要使语音信号发生畸变，而数字通信只要有足够的通信站，就能排除所有噪声的影响；

另一方面，磁带录音机存储模拟信号时要受磁带噪声和其他噪声的影响，而采用计算机存储数字语音信号时，惟一的失真来自模数转换前的低通滤波。

另外，数字编码的信号还便于处理和加密、再生与转发，也可与其他信号复用一个信道，设备便于集成等。

最简单的语音编码方法是对其直接进行模/数变换；

只要其取样率足够高，量化每个样本的比特数足够大，那么就能保证解码恢复的语音信号有非常好的音质，而且也不会丢失有用信息。

可是对语音信号直接进行数字化其所需数码率太高，比如普通电话通信中采用8KHZ取样率，如用12bit进行量化，则数码率为96kbit/s，这样大的数码率即使对很大容量的传输信道也是难以承受的。

而语音信号用PCM编码后，数码率为64kbit/s,不进行压缩很难用调制解调器在电话线路上传输，所以必须进行压缩编码。

对语音进行编压缩码的基本依据有两个。

一是，从产生的物理机理和语音结构的性质来看，语音信号中存在较大的冗余度。

从信息保持的角度讲，只有当信源本身具有冗余度，才能对其进行压缩。

语音压缩实质上就是识别语音中的冗余度并设法去除掉它们。

冗余度最主要部分可以分别从时域或频域来考虑，归纳起来有以下几个方面：

1，语音信号样本间的相关性很强，即其短时谱不平坦。

2，浊音语音段具有准周期性。

3，声道的形状及其变化比较慢。

4，传输码值的概率分布是非均匀的。

语音编码的第二个依据是利用人类听觉的某些特性。

人耳听不到或感知不灵敏的语音分量可视为冗余（这种冗余可看作为主观上的冗余），所以可以利用人耳感知模型，去除掉人耳感觉不灵敏的语音分量，而重构后的语音质量不明显下降。

总之，利用冗余度或者是听觉上的制约，可以压缩表示语音信号的必要信息，从而可降低传输速率或存储容量

脉冲编码的基本框图：

1.4语音压缩编码性能的评价指标

语音编码的根本目标就是在尽可能低的编码速率条件下，重建得到尽可能高的语音合成质量，同时还应尽量减小编码延时和算法复杂度，因此编码效率、编码语音质量评价、编解码延时以及算法的复杂度就成了评价一个语音编码算法性能的基本指标。

编码速率直接反应了语音编码对语音信息的压缩程度。

编码速率可以用“比特/秒”来度量，它代表总的编码速率。

现在大部分编码标准都是固定速率编码，其范围为0.8-64kbit/s。

其中，保密电话的编码速率最低，其原因是它的通信信道带宽限定在4.8kbit/s一下。

数字蜂窝移动电话和卫星电话编码器的编码速率为3.3-13kbit/s，它使数字蜂窝系统的容量可以达到模拟系统的多倍。

编码语音质量评价分为主观评价和客观评价。

主观评价方法是基于一组测听者对原始语音与合成语音进行对比试听，然后根据某种事先规定好的尺度标准来对失真语音划分等级的。

主要反映的是测听者主观上对语音质量或者可懂度的一种感知。

客观评价算法在理想情况下需要在没有原始语音下对语音进行评价。

需要结合不同的处理过程的知识，包括底层处理和高层处理。

现有的评价方法局限于要知道原始的语音信号，并且多数只能模拟在底层的处理过程。

编解码延时一般用单次编解码所需的时间来表示，在实时语音通信系统中，语音编解码延时同线路传输延时的作用一样，对系统的通信质量有很大影响。

过长的语音延时会使通信双方产生交谈困难，而且会产生明显的回声而干扰人的正常思维。

对于公用电话网，编解码延时通常要求不超过5-10ms,而对于移动蜂窝通信系统，允许最大延时不超过100ms，

算法复杂度主要影响到语音编解码器的硬件实现，它决定了硬件实现的复杂度、体积、功率和成本等。

对一些复杂的语音编码算法，一般编码算法的复杂度与语音质量有密切关系。

再同样速率的情况下，复杂一些的算法将会获得更好一些的语音质量。

同时，算法的复杂度与硬件实时实现也有密切关系。

二、G.721编码及算法实现

2.1自适应差分脉冲编码调制ADPCM

ADPCM将脉冲编码调制、差值调制和自适应技术三者结合起来，进一步利用语音信号样点间的相关性，并针对语音信号的非平稳特点，使用了自适应预测和自适应量化，在32kbit/s速率上能够给出网络等级语音质量，从而符合进入公共网的要求。

图是G.721算法的框图，其中虚线部分是解码器框图。

由图中可以看出，编码器中嵌入一个解码器，使得编码器的自适应修正完全取决于信号的反馈值。

这个反馈值与解码器的输出是一致的，所以后续的差值采样就补偿了量化误差，从而避免了量化误差的积累。

图2-1G.721编码器原理框图

2.2G.721各部分算法介绍

（1）、求采样值s（k）和其估计值se（k）之差

（2.2.1）

（2）自适应量化d（k）并编码输出I（k）

（2.2.2）

其中，I（k）还含有以为符号。

表给出了I（k）的编码值。

y（k）是量化阶矩自适应因子，它由调整短时能量变化较快的语音信号的yu（k）和调整数据类慢变信号的yl（k）两部分，经速度调整因子al（k）加权平均而成

（2.2.3）

对快变信号，趋于1，而对慢变信号趋于0。

表2-1G.721编码器量化

归一化输入

log2|d（k）|-y（k）

输出代码I（k）

归一化量化输出

[3.12,+∞]

3.32

[2.72,3.12]

2.91

[2.34,2.72]

2.52

[1.91,2.34]

2.13

[1.38,1.91]

1.66

[0.62,1.38]

1.05

[-0.98,0.62]

0.031

[-∞,-0.98]

-∞

（3）阶矩自适应因子

称快速非锁定标度因子，它的取值范围在区间，对应的的线性域。

（2.2.4）

的取值如表所示

表2-2的取值

|I（k）|

w[I（k）]

70.13

22.19

12.38

7.00

4.00

2.56

1.13

-0.75

为适应语音预测差值信号中的基音引起的能量突变，的高端取值都很大。

对于带内数据，信号短时能量基本上是平稳的，阶矩自适应采用

（2.2.5）

式中，称为锁定标度因子。

（4）速度控制

是速度控制因子，它是通过I（n）的长时平均幅度值与短时平均幅度值相差求出的。

它反应了预测余量信号的变化率。

函数F[I（k）]的取值如下表

表2-3F[I（k）]的取值

F[I（k）]

当余量信号短时能量平稳时，I（k）的统计特性随时间变化很小，与相差不大。

而当余量信号短时能量起伏较大时，他们出现差值。

利用这一特性先计算中间参数：

（2.2.6）

显然，当幅度变化较大时，而差别较小时，。

条件表明输入信号很小，处于轻音段或噪声段，这是也有，以便使量化器处于快速自适应状态来等待输入信号的突然变化。

量化器速度控制因子通过对限幅得到

（2.2.7）

这样，量化器从快速自适应向慢速自适应转变有一个延迟。

对于带内调幅数据，这种延迟效应可以防止自适应速度

展开阅读全文