语音编码总结.docx-资源下载

语音编码总结.docx

1、语音编码总结语音编码总结一、历史与概念1、模拟的声音信号话音信号：口语发声的200Hz3400Hz调幅广播信号：无线广播50Hz到7000Hz调频广播信号：无线广播20Hz到16000Hz激光唱机信号CD：10Hz20000Hz2、话音编码技术的历史回忆话音编码研究的历史说明，这一领域的研究成果直接为通信产业发展提供了源动力。目前IP 所用的编码的标准有G.723.1, G.728, G.729。具有低延迟、低码率、低复杂性、高音质的话音编码算法将是未来IP 网络的奠基石。 3、假设干概念术语1数字信号：标称的不连续信号。它可以用离散的步差从一个状态转变到另一个状态。2采样：按周期T对模拟信

2、号进行测量，称为采样。采样频率Fs=1/T.在满足奈奎斯特定理时，从采样值可准确的恢复原信号。3量化用数字信号表示话音的过程称为量化。4非均匀量化非均匀量化可以兼顾动态范围和小信号的系统精度。Reeves提出概念。即对大信号取较大的量化步长。对小信号取较小的量化步长。二、矢量量化将k个样点构成的有序集信源矢量集合映射为M个恢复失量构成的有限集A码书，码本中的某个矢量Yi码字，码元的映射，称为矢量量化，它是对标量量化在K维空间的一个推广。标量量化矢量量化量化对象单个采样点K个采样点集合划分在一维幅度轴上划分有限个区间1=a0a1) n=an-1an)在k维空间里，划分成有限个子空间S=Si

3、|i=1,2,M量化过程在每个区间里，选一个代表值fi iI=1,2,n在每个子空间里，选一个代表矢量Yi=Yi1,Yi2,YiiYi Sii=1,2,M量化方法对任一模拟信号，当其标称值属于区间 i时，就用数字信号fi代表值对任一k维模拟信号的矢量。当其标称值属于子区间Si时,就用代表矢量Yi去量化之。1、码本设计的LBG方法 1在矢量空间X中，进行最正确划分，即，把X划分成M个子空间Si i=,1.2.m 使平均失真最小。2对划分后的子空间Si求出其形心作为新的最正确代表矢量Yi，从而构成新的码本。将上述步骤反复迭代，最终求出最正确码本和量化器。3初始码本的选择：A、随机选取，迭代时间较长

4、B、分裂法4LBG方法不是最优化方法，即迭代过程不能保证收敛到全局最小值。后来有人提出模拟退火法，将LBG方法收敛到局部最小值时，采用某种扰动将迭代过程继续进行下去。 2、空间分布对矢量量化的影响LBG算法把问题简化为：在矢量空间中，样点的分布是均匀的。但实际的应用场合往往不满足这个前提。因此应考虑空间分布，空间分布对量化值的选择有很重要的影响。对矢量的情况，影响依然存在。3、语音编码方案的三种类型语音编码的主要任务：对量化的话音信号施加某种数字变化，使其具有适于数字信道传输的形式，同时尽可能多信号所承载的信息。话音信号的剩余度主要表现在三个方面：1相邻样点存在较强的相关性2对浊音信号存在

5、周期准周期性3 信号短时平稳，时不变性此外，人类听觉对话音有选择效应，即当一个强音与一个弱音同时存在时，人类听觉能够自动抑制弱音的效果，称为人耳的“掩蔽效应”。这些是话音压缩编码的出发点。3.1 波型编码：对话音信号的每一个样点进行量化、编码和传输。因此，波型编码是没有延迟的话音编码方案。3.1.1 差值脉码调制DPCM和-调制一位的DPCM系统成为-调制或增量调制DM。流程图如下：这里，表示对应的量化值，上标表示对应的预测值，用 ei 表示差值di的量化误差。收端恢复的量化信号只与差值信号的量化误差有关，而与预测器性质无关。1当信号变化快时，恢复波形跟不上信号的变化，称为”斜率过载

6、“2对于零信号，DM方法交替输出一串0和1，这种随机交变电平成为“颗粒噪声”。解决方法是在量化器引入自适应阶矩调整机制ADM。如果自适应调整依据输入信号，称为前向自适应。如果自适应调整依据是量化器输，称为后向自适应。前向自适应将导致延迟的产生，后向自适应有可能不稳定。 3.1.2 连续可变斜率增量调制CVSD其原理可用下列图说明：当反馈回路中，出现连续四个“1”或连续四个“0”时，说明系统出现斜率过载的情况，此时或门输出一个高电平，驱动触发器改变量化的阶矩的大小，以便适应输入信号的变化。3.1.3 自适应差值脉码调制ADPCMPCM:非均匀量化。D:调制。差值调制。CVSD：自适应概念将脉

7、码调制、差值调制和自适应技术三者结合起来。使编码算法不仅适用于幅值起伏较大的话音信号，而且能很好的适合于平稳信号如话带数据。信息压缩的基本思路1、信息与消息1消息是由符号、数字、文字或语言组成的序列。2信息是消息中不确定的内容。消息是信息的载体，信息是消息的内含。由于信息是消息中承载的不确定性因素差异、变化、区别等，因此必然与通信双方的知识约定有关。越少见的事件，其出现带来的信息越多2、信息压缩的主要手段1减少不确定性差值编码：相当于用前一个值来预测当前值，引出线性预测的概念2通信双方建立某种知识约定，如码书或算法3对变化的规律、不确定性因素建立描述机制或学习机制 3.2 参数编码就是对每帧语

8、音信号，将滤波器系数和残差e(n)分别进行量化编码。由于e(n)的平均能量和幅度变化范围远远小于信号s(n)，因此在信噪比相同的条件下，可以用较少的比特对其编码。参数编码时，将激励按清音、浊音分成高斯随机白噪声或准周期信号。倒谱参数C(n)构成的同态声码器，用共振峰参数构成的共振峰声码器，都是参数编码方法。1、基音提取：并联基音提取方法。1短时平均幅度差函数AMDF2中心削波法是对信号的一个非线性变换:式中，Cl称为削波电平，它取信号最大值Smax的一个百分比30803三电平中心削波函数用YS(n)表示三电平中心削波器的输出，在自相关函数中有用三电平中心削波信号计算自相关函数，找到自相关函数最

9、大值，并将峰值与一个固定门限例如Rn(0)的1/3比较，如果低于门限判为清音，如果高于门限则最大峰位置判为基音周期。2、并联基音提取基本方法原理：1先对信号进行处理产生假设干冲激串，冲激串只保留原始信号的周期性而去除了与基音检测无关的信息。2估计每个冲激串的周期。3对这些周期进行逻辑判断，最后确定语音信号的周期，将进过低通滤波的信号按如下原则求出六个冲激串3.3 混合编码波形编码音质好但码率高，参数编码可以获得很低的码率但音质不好，为了兼顾二者的长处和不足，提出了残差激励模型，多脉冲激励模型和码激励模型。此外，对LPC参数模型也提出了噪声加权整形技术和长时预测滤波器等方法。1、混合编码中的新

10、技术1长时预测滤波器浊音信号存在准周期性，当用滤波器描述语音信号时，残差序列e(n) 保留着中准周期性。为此，用一个称为长时预测滤波器的B(z)来去除这种准周期性。式中M是对应于基音周期的样点数。I根据滤波器阶数一般取0或1。残差e(n)经B(z)滤波器滤波后将得到更加白化的噪声谱。 2、噪声整形信号经短时长时滤波后，噪声谱一般是平坦的。由于在两个共振峰之间，信号谱低于噪声谱，因此尽管总的信噪比是高的，但在阴影区域对应的频率上，噪声能明显被人耳感觉到。采用噪声谱变形后，总的信噪比有所降低，但在所有频率上信号的能量大于噪声的能量，由于人耳的选择性，可以形成对噪声的听觉屏蔽效应，所以采用噪声整形

11、。3、合成分析法Analasys By Sythesis A-B-S 波形编码器内一般要嵌入一个解码器，使得解码信号与原始信号作差，提供一个比较信息或形成后向自适应。在参数编码时也用这一类方法，将合成信号与原始信号作差加权并比较，以次为依据进行参数修正或选择激励，这种方法称为A-B-S。LPC编码方法的二元激励模型过于简化。1多脉冲激励线性预测编码器 MPLPC的关键问题是，如果一帧中允许用M个激励脉冲，如何求出这M个脉冲的位置和幅度，使得合成语音与原始语音的感觉加权均方误差最小。用自相关法求出短时滤波器A(z)后经听觉加权处理，其冲击响应为：它们激励综合滤波器合成语音信号为： 2规则脉冲激励

12、线性预测编码器(RPE-LPC)规则脉冲是多脉冲的一种，即脉冲间隔固定的多脉冲激励。对于规则脉冲激励，算法可以简化。其结构图如下：规则脉冲是让原始语音经短时滤波后的信号r(n)与激励信号作差，然后对感觉加权后的差值信号求均方误差最小来确定最正确激励。规则脉冲激励的问题是A、确定规则脉冲最正确的相位 B、为每个非零脉冲确定一个幅度。4码激励 CELP通过LPC分析去除信号的短时相关性，再用长时基音分析去除基音周期性，得到的是信号具有高斯白噪声特性。5G.728 低延迟码激励话音编码算法LD-CELPA、特点 a、b、采用50阶LPC滤波器，不用长时预测和基音检测c、50阶LPC滤波器参数每4帧

13、更新一次，具有时变参数特性d、e、采用后向滤波技术，因此不传递参数信息，只传递激励信息f、采用对数增益滤波技术，有效地降低码书尺寸B、G.728原理可归纳为一个判据，三个模块。1) 判据2）LPC分析模块：3）包括四个滤波器：a. 50阶综合滤波器 b. 10阶感觉加权滤波器 c. 10阶对数增益滤波器 d. 10阶后滤波器6G.729:共轭结构的代数码激励 CS-ACELP G.729编码器属于CELP型编码器，帧长为10ms，采样率为8kHz。通过对输入语音信号进行分析，提取出CELP模型参数，包括线性预测滤波器系数、自适应码书和代数码书的标号和增益，将这些参数编码后发往解码器。 A、编

14、码器原理框图 B、解码器原理解码器对接收到的码流进行解码，得到对应的编码器参数，利用这些参数，构成重建语音，再将重建语音送给后处理级，后处理级包括基于长时和短时合成滤波器的后滤波器,后面跟有一个高通滤波器和幅度调节单元。 C、加窗LP分析窗由两部分组成：第一部分是半个哈明窗，第二部分是四分之一个余弦函数窗D、感觉加权滤波器滤波器系数ai是通过对输入语音进行LP分析而得到的，ai值每帧更新一次，以到达加权的作用。E、开环基音分析为降低搜索闭环基音的复杂性，可以先把搜索范围限制在开环基音Top附近。开环基音延迟是对加权输入语音信号sw(n)进行分析得到的，每帧进行一次。F、自适应码书搜索自适应码书搜索每个子帧进行一次，目的是找到最正确基音延迟和增益，使用的方法是基于加权均方误差最小准则进行的闭环分析，在第一个子帧里，在开环基音延迟Top附近的6个样点内搜索来确定延迟G、固定码书结构固定码书是基于代数结构的码书，其中，每个码矢含有4个非零脉冲，每个脉冲可为+1或-1，H、固定码书搜索方法固定码书搜索是使加权输入信号语音Sw(n)和加权重建语音间均方误差最小。用于闭环基音搜索的目标信号通过减去自适应码书的奉献而得到更新。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？