多媒体通信论文.docx

资源描述

多媒体通信论文.docx

《多媒体通信论文.docx》由会员分享，可在线阅读，更多相关《多媒体通信论文.docx（21页珍藏版）》请在冰豆网上搜索。

多媒体通信论文.docx

多媒体通信论文

《多媒体通信》

-----音频信息处理技术

班级：

通信071501

姓名：

刘健

学号：

200715030113

2010.12

音频信息处理技术

1．基本概念

（1）声音：

通过空气传播的一种连续波，称为声波。

音频：

声音的电子重现。

（2）声音信号的基本参数

频率：

每秒变化的次数，单位Hz

亚音信号（Subsonic）＜20Hz

音频信号（audio）20Hz~20kHz

话音（speech）信号300Hz~3400Hz

超声波（ultrasonic）＞20kHz

带宽：

它用来描述组成复合信号的频率范围。

幅度（强度）：

表现声音的大小。

参照声：

人耳所能察觉的最弱音：

2.83×10-4dyn（达因）/cm2

声音强度：

声音与参照声之间的差值，以分贝为单位：

dB=20log10（A/B）

大多数人感觉痛苦的极限为100~120dB。

（3）音频特性——掩蔽

听到的声音依赖于同时出现的其他声音，各种声音可以互相掩蔽，在此情况下，要听清被测量的声音，必须提高强度。

掩蔽值：

被掩蔽的声音达到闻域，所提高的分贝数。

频谱掩蔽:

高电平音调对附近频率的低电平信号的掩蔽。

瞬态掩蔽:

冲击前和衰退后产生的掩蔽。

（4）音频特性——听觉频谱特性

音频信号通过傅立叶变换可得到其频谱图。

人耳对其波峰、波谷、基频的改变都是很敏感的。

（5）音频特性——失真

失真：

重现声音和原始声音的相差程度。

失真的表示方法：

主观度量和客观度量。

（6）音频特性——声道

单声道

多声道

立体声（虚拟三维空间）

2．音频信号数字化

将模拟音频信号转换成有限数字表示的离散序列。

音频信息处理框图

（1）采样过程：

将模拟信号转换为时间离散的样本脉冲序列。

采样频率

常见音频应用带宽示意图

（2）量化过程：

将离散时间连续幅度的抽样信号转换成为离散时间离散幅度的数字信号。

量化方法：

标量量化和矢量量化

量化误差：

信噪比（signal-to-noiseratio，SNR）

SNR＝10log[（Vsignal）2/（Vnoise）2]＝20log（vsignal/Vnoise）

（4）编码过程：

用一定位数的脉冲码组表示量化采样值。

自然二进制码

折叠二进制码

3．音频信号的压缩编码

音频编码方法：

基于音频数据的统计特性进行压缩编码

基于音频产生机理进行压缩编码

基于人的听觉特性进行压缩编码

（1）波形编码：

基于音频信号波形，将抽样信号直接变换成数字代码并进行压缩编码，重建信号保持原信号波形状态。

波形编码类型：

（2）参数编码：

根据对人的发声机理的研究，构造出产生语音信号的模型，用适当的模型参数和激励信号来代表具体的语音。

声音的重放则通过激励信号激励相应的模型来实现。

（3）混合编码：

3.1增量调制

（1）一般增量调制：

M是一种简单且有数据压缩功能的波形编码方式，它只用一位编码，不是表示采样值的大小，而是表示采样时刻波形的变化趋势。

增量调制（M）系统

（2）简单增量调制的问题：

<1>信号频率高，量阶相对小，量化跟不上变化，产生过载失真。

<2>信号频率低。

量阶相对大，产生量化失真（颗粒噪声）。

改进方法：

<1>自适应方式使量阶的大小随信号幅度瞬时压扩，称为瞬时压扩增量调制ADM。

<2>量阶随音节时间间隔（5-20ms）的信号平均斜率变化，称为连续可变斜率增量调制CVSD。

连续可变斜率增量调制框图

3.2自适应差分脉冲编码调制

（1）非均匀PCM

（2）A律对数压扩方程

（3）13折线A律压扩曲线

（4）差分脉冲编码调制（DPCM）

DPCM系统原理框图

（5）自适应差分脉冲编码调制（ADPCM）

3.3子带编码（SBC-Sub-BandCoding）

（1）子带编码系统

基本原理:

<1>子带编码首先通过一组带通滤波器把输入信号频带分拆成若干个子带信号，每个子带信号经过调制后，被变换成低通信号，然后进行单独的编码（通常采用自适应PCM编码，以提高编码精度），为了传输，需再将各路子带码流用合路器复接起来。

<2>在接收端，采用完全类似的逆过程得到恢复的语音信号，其原理方框图如图所示。

3.4变换域编码

变换域编码先将信号进行某种函数变换，把信号从一种描述空间变换到另一种可用较少元素表述的空间，用变换系数来描述，这些系数之间的相关性明显下降，且能量常常集中于低频或低序系数区域中，容易实现码率的压缩，降低实现难度。

（1）变换域编码的基本原理：

设信源输出为一个一维消息U＝（u1，u2，…，un），经变换后输出为X＝（x1，x2，…，xn），故有：

X＝PU

由正交性（ATA＝A－1A＝I），则有：

U＝P－1X＝PTX

式中：

P——实正交变换矩阵；

PT——矩阵P的转置矩阵；

P－1——矩阵P的逆矩阵；

I——单位矩阵。

（2）常用的正交变换：

<1>卡胡南——列夫变换（KLT）：

在均方误差准则下是最佳正交变换。

<2>离散余弦变换（DCT）：

DCT变换在压缩效率上略逊于KLT变换，但由于其算法的高效性及结构上的规律性，且有快速算法，它已经成为H.261、JPEG及MPEG等国际标准的主要环节。

<3>离散余弦的反变换（IDCT）

（3）变换编码方法的特性：

能量主要集中在信号的低频或低序区域，使大多数变换系数为零或很小的数值。

若在信源质量允许的条件下，可以舍弃能量较小的系数，或分配其很少的比特——这就是正交变换能实现高压缩率的根本原因。

3.5矢量量化

（1）基本思想：

当把多个信源符号联合起来形成多维矢量，再对矢量进行标量量化时，自由度将更大，同样的失真下，量化级数可进一步减少，码率可进一步压缩。

这种量化叫做矢量量化。

矢量量化编码及解码原理框图

3.6线性预测编码

对人发音生理机理的研究表明，语音信号可用一些描述语音特征的参数表征。

分析提取语音的这些参数，对它们量化编码传输，收端解码后用这些参数去激励一定的发声模型即可重构发端语音，这种通过对语音参数编码来传输语音的方式称为语音参数编码。

（1）语音产生模型及特征参数：

语音信号是一个非稳态信号，随时间变化。

但在一个很短（5~50ms）的时间段内，可以认为具有相对稳定的特征，称为准平稳信号或短时平稳信号。

语音信号模型：

经过几十年的理论和实验研究，现已建立起一个近似的语音信号模型，并被广泛地应用于语音信号处理中。

<1>浊音及基音:

浊音,又称有声音。

发浊音时声带在气流的作用下准周期地开启和闭合，从而在声道中激励起准周期的声波，如图所示。

浊音声波波形图

Tp:

基音频率

<2>清音:

清音又称无声音。

由声学和流体力学知，当气流速度达到某一临界速度时，就会引起湍流，此时声带不振动，声道相当于被噪声状随机波激励，产生较小幅度的声波，其波形与噪声很像，这就是清音，如图所示。

清音信号没有准周期性。

清音波形图

<3>共振峰及声道参数:

由流体力学分析知，声道频率特性（唇口声速u出与声门声速u入之比）与谐振曲线类似，如图所示。

声道频率特性

<4>语音信号产生模型:

根据上面对实际的发音器官和发音过程的分析，可将语音信号发生过程抽象为图示的物理模型。

语音信号产生模型

（2）参量编码过程：

<1>通过对每帧与引进行分析，求出其基本参量，然后将他们进行量化、编码传送给收端。

<2>接收端用收到的参量和发声模型，综合、复制出语音信号。

（3）线性预测编码（LPC）:

LPC声码器原理框图：

（a）发端；（b）收端

在收端，按假定的语音生成模型组成语音合成器，由从发端传输来的特征参数来控制合成语音。

合成器如图所示。

LPC声码器中的合成器

4.数字音频编码标准

4.1常见音频编码标准

（1）G.711标准：

ITU-T于1972年对话音频谱的模拟信号用脉冲编码调制（PCM）编码时的特性进行了规范，其主要内容有:

<1>模拟信号的取样率标称值为每秒8000个样值；

<2>推荐A律和μ律两种编码率，量化值的数目由编码律决定，每个样值编码为8位二进制数码。

<3>A律（或μ律）的每一个“判决值”和“量化值”应当与一个“均匀的PCM值”相关联。

<4>串行传输时在一个样值编码码字中首先传送极性比特，最后传送最低有效位比特。

<5>标准对A律或μ律各规定了一个字符信号周期序列，当该周期序列加到PCM复用设备解码器输入端时，在设备的任一音频输出端应当出现一个标称电平为0dBm0的1kHz正弦信号。

（2）G.721标准：

G.721标准是ITU-T1984年为实现64kb/s的A律或μ律PCM与32kb/s的ADPCM之间的转换。

基于ADPCM技术

采样率8kHz

样值与预测值之差用4位编码

编码速率为32kb/s

（3）G.722标准：

G.722标准是ITU-T1988年调幅广播质量的音频信号压缩制的标准。

音频范围——（50～7000Hz）

比特率为48kb/s、56kb/s、64kb/s。

在标准模式下，采样频率为16kHz，幅度深度为14bit。

以4kHz为界，分为高低两个子带，采用子带ADPCM（SB-ADPCM）编码方案

（4）G.728标准：

G.728标准是一个追求低比特率的标准。

编码速率为16kb/s，话音质量

采用低延时码激励线性预测算法（LD―CELP）

原理框图:

G.728标准的LD-CELP编码原理框图

（5）G.729标准：

以8kb/s速率对语音信号编码

采用共轭结构代数码激励线性预测（CS―ACELP）方法

主要应用于多媒体通信和IP电话。

G.729发端编码器的原理框图：

G.729标准语音编码系统的原理框图

（6）GSM音频编码标准：

通过GSM采用长时预测规则激励（RPE-LTP）编码方案。

采样频率8kHz，运行速率13kb/s

GSM所采用的RPE-LTP算法编码器原理框图

4.2MPEG音频编码标准

数据压缩主要依据——心理声学模型

MPEG主要采用的感知编码

（1）MPEG―1音频编码标准：

MPEG―1是世界上第一个高保真声音数据压缩国际标准

音频采样频率：

可选32kHz（带宽15kHz）、4.1kHz或48kHz（带宽20kHz）

样本精度：

16位

压缩码率：

可选择从32～384kb/s的特定比特率。

<1>MPEG-1音频标准提供三个独立压缩层次:

Layer1:

输出数据率384kb/s

用于小型数字盒式磁带

Layer2:

输出数据率：

256～192kb/s

用于数字广播、数字音乐及VCD

Layer3——mp3:

64kb/s

<2>MPEG-1音频性能：

MPEG－1声音压缩率

层次

算法

压缩率

立体声时数据速率

MUSICAM

384

MUSICAM

1~8:

256~192

ASPEC

10:

1~12:

128~112

MPEG－1声音编解码器延迟时间

层次

理论最小值ms

实际实现值ms

<50

100

150

<3>MPEG-1编码层:

<4>MPEG-1层1帧结构:

<5>MPEG-1层2、3帧结构:

（2）MP3编码标准:

作为MPEG-1第三层标准，MP3结合了MUSICAM和ASPEC两种算法，可在64kbps/channel条件下获得接近CD的音效。

例：

CD音质的Wave：

抽样分辨率：

16bit，抽样频率：

44.1kHz，声音模式为立体声，1秒钟CD音质的Wave文件容量：

16bit×44.1KHz×2（Stereo）=1.4Mbit

MP3格式压缩为原来的1/10到1/12，每1秒钟的MP3只需大约112～128kbit。

MP3编码方框图

MP3编码原理框图

（3）MPEG―2音频编码标准:

MPEG-2编译码器种类相同，层次结构也相同。

MPEG―2性能扩充：

增加16kHz、20.05kHz、24kHz采样频率

扩展了编码器输出速率范围：

32～382kb/s扩展到8～640kb/s

增加声道数，支持5.1声道和7.1声道环绕立体声

MPEG―2音频数据帧结构

4.3AAC

（1）MPEG-2标准中，音频编码技术可分为BC和AAC两种：

<1>BC（BackwardCompatible）为向下兼容格式。

<2>AAC为了追求低比特率数据的高音质，放弃了向下兼容能力，采用了更高压缩率的先进编码技术。

（2）AAC编码器流程：

AAC编码器流程图

（3）分析滤波器组：

使用MDCT，MDCT采用时域混叠抵消（TDAC）技术，MDCT的表达式为：

解码器中用的IMDCT表达式为：

<1>w（n）为窗函数，AAC提供了两种窗函数：

正弦窗和凯塞-贝赛尔窗（KBD窗）。

<2>AAC的MDCT变换的帧长分2048和256两种。

（4）感知模型：

感知模型即心理声学模型，它是包括AAC在内的所有感知音频编码的核。

AAC使用的心理声学模型原理上与MP3所使用的模型相同，但在具体计算和参数方面并不一样。

AAC采用的模型不区分单音和非单音成分，而是把频谱数据划分为“分区”，分区范围与临界频带带宽有线性关系。

感知模型计算过程的步骤如下：

<1>做FFT，将时域信号转至频域；

<2>计算谱线的幅度和相位预测值，使用静态线性预测，通过前两个时间窗的频谱预测当前窗的频谱；

<3>计算谱线的不可预测性指数；

<4>计算每个掩蔽分区的能量；

<5>计算每个分区的单音性指数；

<6>计算每个分区的信噪比；

<7>计算能量掩蔽阈值；

<8>计算感知熵PE；

<9>计算谱线的掩蔽能力，即计算子带的信号噪声掩蔽比。

（5）量化和编码：

<1>量化模块按心理声学模块输出的掩蔽阈值把限定的比特分配给输入谱线，尽量使量化所产生的量化噪声低于掩蔽阈值，达到不可闻的目的。

量化时需计算实际编码所用的比特数，量化和编码是紧紧结合在一起进行的。

<2>AAC在量化前先将1024条谱线分成数10个比例因子频带，然后对每个子频带采用3/4次方非线性量化，起到幅度压扩作用，提高小信号时的信噪比和压缩信号的动态范围，利于哈夫曼编码。

经过量化以后的信号再进行无噪声编码，即哈夫曼编码，标准中提供了12张可选择的码表。

（6）IS和M/S立体声模块：

<1>强度立体声IS和M/S立体声模块都是AAC编码器的可选项。

<2>人耳听觉系统在听4kHz以上的信号时，双耳的定位对左右声道的强度差比较敏感，而对相位差不敏感。

IS就利用这一原理，在某个频带以上的各子带使用左声道代表两个声道的联合强度，右声道谱线置为0，不再参与量化和编码。

平均而言，大于6kHz的频段用IS编码较合适。

<3>在立体声编码中，左右声道具有相关性，利用和/差方法产生中间和边（Mid和Side）声道替代原来的L/R声道，M/S和L/R的关系很简单，见下式：

（7）预测和时间噪声成形

<1>在信号较平稳的情况下利用时域预测可进一步减小信号的冗余度，在AAC编码器中是利用前面两帧的频谱来预测当前帧的频谱，再求预测与实际值的差值，然后对差值进行编码。

<2>预测使用经过量化后重建的频谱信号的具体步骤如下：

1.使用前两帧的重建频谱信号预测当前帧的频谱；

2.将当前频谱与预测频谱相减得到差值信号；

3.对差值信号量化；

4对差值信号反量化，利用预测差值和预测值重建当前帧频谱信号；

5.更新预测器。

<3>时间噪声成形（TemporalNoiseShaping，TNS）是增加预测增益的一种方法。

对于时域较平稳的信号，频谱变化较剧烈；反之，时域上变化剧烈的信号，频域就较平稳。

TNS是在信号的频谱变化较平稳时，对一帧信号的频谱进行线性预测，再将预测差值编码。

在编码时判断是否要用TNS模块的判据由感知熵决定，当感知熵大于预定值时就采用TNS。

（8）成帧：

把各种必须传输的信息按AAC标准给出的帧格式组成AAC码流。

AAC的帧结构非常灵活，除支持单声道、双声道、5＋1声道外，可支持多达48个声道，具有16种语言兼容能力。

AAC中的数据块类型有：

单声道元素、双声道元素、耦合声道元素、低音增强声道元素、数据元素、声道配置元素、结束元素和填充元素。

每一个数据块类型都有一个以3bit表示的唯一标志，例如5＋1声道时，左右声道编成一个双声道元素，左右环绕声道编成另一个双声道元素，这两个双声道元素以各自的标签加以区别，如图3.4-12所示。

图中帧头56bit、CRC16bit和ID_CPE标志双声道元素，ID_LFE标志低音增强声道元素，ID_EDN标志结束元素。

AAC码流帧结构

（9）AAC的分级

MPEG-2标准的AAC定义了三种架构：

主级（MainProfile）、低复杂度级（LowComplexityProfile,LC）和取样率可分级（ScalableSamplingRateProfile，SSR）。

主级除增益控制模块不用外，其他模块都具有，所以算法最复杂，所需运算量和内存容量也最大，当然编码质量最好。

低复杂度级没有时域预测，对TNS模块中预测的阶数作了限制，音质虽不如主级，但也满足“与原始音比较听不出区别”的要求。

取样率可分级属低复杂度，它不含时域预测和声道耦合模块，而包含了增益控制模块，在解码端可有选择性地提取6、12、18、24kHz（48kHz取样率）带宽信号。

从主观评价来看，AAC的音质要优于MPEG音频（包括MP3）以及后面要介绍的AC-3音频。

AAC在128kb/s双声道时的音质相当于AC-3的196kb/s双声道时的音质，AAC96kb/s双声道音质优于MP3128kb/s双声道的音质。

由此可见，AAC在每声道64kb/s时重建的音质最佳，并已达到ITU-R和EBU关于作为无线广播时不能听出音质变差的要求。

AAC的效率比MPEGLayer2约高100％，比MP3约高30％。

换句话说，只需70％MP3的数码率，AAC就可获得与MP3相同的音质。

展开阅读全文