音频相关知识.docx-资源下载

音频相关知识.docx

1、音频相关知识多媒体计算机技术（第二章）音频信息的获取 2.1.0声音的特性与类型 (1) 声音的特性 * Characteristic of sound物理特性心理/ 生理特性 frequency (Hz) 音调,音高(12音阶) amplitude/power(W,mW) 响度,音量(Phon, 方) shape of waveform 音色 (2) 声音的类型 * 按频率划分： * Infra-sound ( 次声) 0-20Hz * Audio ( 可听声) 20-20kHz * Ultrasound ( 超声) 20kHZ-1GHz 其中，多媒体技术只研究可听声。声音的类型 *

2、可听声中，按声音是否“符号化”分为： * 语音 ( speech ) 300-3400Hz * 音乐 ( music ) 20-20kHz * 其它声音 (effect sound, noise) 20-20kHz 声音信息中，语音（话音）和音乐是多媒体技术重点处理的对象 2.1.1 模拟音频和数字音频 * 声音是机械振动。振动越强，声音越大，话筒把机械振动转换成电信号，模拟音频技术中以模拟电压的幅度表示声音强弱。 * 模拟声音在时间上是连续的，而数字音频是一个数据序列，在时间上是断续的。数字音频是通过采样和量化，把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字音频信号。计算机内

3、的基本数制是二进制，为此我们也要把声音数据写成计算机的数据格式，这称之为编码音频数字化，计算机内的音频必须是数字形式的，因此必须把模拟音频信号转换成有限个数字表示的离散序列，即实现音频数字化。在这一处理技术中，涉及到音频的抽样、量化和编码。 2.1.2 数字音频的采样和量化 * 采样：音频实际上是连续信号，或称连续时间函数x(t)。用计算机处理这些信号时，必须先对连续信号采样，即按一定的时间间隔(T)取值, 得到x(nT)(n为整数)。T称采样周期，1/T称为采样频率。称x(nT)为离散信号。 2.1.2 数字音频的采样和量化 * 采样定理：设连续信号x(t)的频谱为x(f)，以采样间隔T采样

4、得到离散信号x(nT),如果满足：当|f|fc时,fc是截止频率 T 1/2fc 或fc 1/2T 则可以由离散信号x(nT)完全确定连续信号x(t)。当采样频率等于1/（2T）时，即fN=1/2T，称fN为耐魁斯特频率。常用的音频采样率有：8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz * 量化：为了把抽样序列x(nT)存入计算机，必须将样值量化成一个有限个幅度值的集合x(nT)。通常，用二进制数字表示量化后的样值是方便的。用B位二进制码字可以表示2B个不同的量化电平。存储数字音频信号的比特率为： I=Bfs(比特/秒) fs是抽样

5、率(抽样/秒) B是每个样值的比特数(比特/采样) * 量化采样的过程如下：先将整个幅度划分成为有限个小幅度(量化阶距)的集合，把落入某个阶距内的样值归为一类，并赋予相同的量化值。如果量化值是均匀分布的，我们称之为均匀量化。设为量化阶距，量化器的最大范围是Xmax，则： ?=2Xmax / 2 对于小于(i+1/2)，而大于(i-1/2)的样值，均规定为相同的量化值i。 2.1.3 数字音频的文件格式 * 数字音频的文件格式文件扩展名说明. * PCM PCM数据序列 VOC Creative公司的波形音频文件格式。 WAV Microsoft公司的波形音频文件格式。 SND NeXT计算

6、机的波形音频文件格式。 AIF Apple计算机的波形音频文件格式。 MID MIDI文件格式。 RMI Microsoft公司的MIDI文件格式。它可以包括图片、标记和文本。 2.1.4 音频信号的特点 * (1). 音频信号是时间依赖的连续媒体。 * (2). 即理想的合成声音应是立体声。 (3). 对语音信号的处理，要抽取语意等其它信息，如可能会涉及到语言学、社会学、声学等。从人与计算机交互的角度来看音频信号相应的处理如下： (1). 人与计算机通信(计算机接收音频信号)。包括音频获取；语音识别与理解。 (2). 计算机与人通信(计算机输出音频)。音频合成；声音定位：音频/视频同

7、步。 (3). 人计算机人通信人通过网络，与处于异地的人进行语音通信，需要的音频处理包括：语音采集、音频编码/解码、音频传输等。这里音频编/解码技术是信道利用率的关键。 2.2.1 音频卡的功能和分类* 音频卡的主要功能是：音频的录制与播放、编辑与合成、MIDI接口、文语转换、CD-ROM接口及游戏接口等。录制与播放编辑与合成MIDI接口和音乐合成文语转换与语音识别 2.2.2 音频卡的工作原理 * 开发生产音频卡的公司很多,其中最有影响的公司是新加坡创新科技有限公司(Creative Labs.Inc.)开发的系列产品Soundlaster系列音频卡,它是集语音与音乐于一体的多煤体音频卡,

8、它不但具有优良稳定的硬件特性,而且还有丰富的软件。 2.3.1 音频编码基础 * 从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。根据统计分析结果，语音信号存在着多种冗余度，其最主要部分可以分别从时域和频域来考虑。另外由于语音主要是给人听的，所以考虑了人的听觉机理，也能对语音信号实行压缩 2. 数字声音 (1) 声音信号的数字化方法： 1. 取样（sampling） 2. 量化（quantization，AD conversion ) 3. 编码（encoding） Sampling * 原理:用一定速率的离散取样序列可以代替一个连续的频带有限的信号而不丢失任何信息. * N

9、yquist sampling theorem “For lossless digitization, the sampling rate should be at least twice the maximum frequency response.” Quantization * what ? 使用有限位数的整数来近似地表示实型量的样本值，也称为 A/D conversion。 * 量化精度：用多少个二进位来表示每一个样本，也称为量化位数。声音信号的量化位数一般是 4,6,8,12或16 bits 。 * 量化位数的多少决定了动态范围和噪声大小. 数字化声音举例质量采样频率(kHz)

10、样本精度(bit) 声道数数据率频率范围(Hz) 电话 8 8 1 8 KB/s 2003,400 AM 11.025 8 1 11.0 KB/s 507,000 FM 22.050 16 2 88.2 KB/s 2015,000 CD 44.1 16 2 176.4 KB/s 2020,000 DAT 48 16 2 192.0 KB/s 2020,000 声音数字化表示的优点 * 存储时重放性能好，复制时没有失真; * 传输时抗干扰能力强， * 可编辑性好, 易处理， * 能进行数据压缩， * 容易与其它媒体结合（集成）， * 可能自动提取元数据（bits about bits） (3

11、) Reconstruction of Sound 1. Decoding 2. Dequantization ( D/A conversion ) 3. Interpolation 重建声音的质量评价(客观法) * 声音质量的客观度量主要用信噪比SNR(signal to noise ratio)来度量。 SNR10 log10(s2/n2) （其中，s为原始声音信号，n为原始声音信号与重建声音信号的误差信号） * 计算并不复杂，但与人对声音的感知不完全一致。重建声音的质量评价(主观法) 分数质量级别失真程度 5 优(Excellent) 无察觉 4 良(Good) (刚)察觉但不讨厌

12、 3 中(Fair) (察觉)有点讨厌 2 差(Poor) 讨厌但不反感 1 劣(Bad) 极讨厌(令人反感) 2.2 数字语音的编码与应用内容 1. 引言 2. 数字语音的波形编码（基于音频数据的统计特性进行的编码） 3. 数字语音的参数编码（基于音频的声学参数） ? 数字语音的混合编码 ? 基于人的听觉特性进行的编码 6. 数字语音技术的应用 1. 引言压缩编码的必要性 ? Wav文件的大小计算公式： S=R(采样频率Hz )D(录音时间)r(量化位数（位）) 声道数8 s: 字节；R:HZ；D：录音时间S；r:量化位数bit 或者：WAV文件的字节数/每秒=采样频率（Hz）量化

13、位数（位）声道数/8 例如：S44100101682B1764KB ? Bitrate = sampling rate quant.bits channel num. 例: telephone speech =8k 8b 1 = 64kbps =8kB/s=28MB/h ? 对数字语音进行数据压缩的目的: 提高通信效率（降低传输带宽）降低存储成本压缩编码的可能性 ? 声音信号中包含有大量的冗余信息， ? 可以利用人的听觉感知特性, ? 可以利用语音信号的生成机理， Requirements for compression 码率（bitrate）质量（quality ： excellen

14、t, good, fair ) 延时（time delay）成本（cost）语音压缩编码方法分类 ? Perception model-based compression(波形编码) benefits : generic drawbacks : highest compression rates are difficult to achieve Examples : PCM, ADPCM, Subband ? Production model-based compression(参数编码,源编码) benefits : highest possible compression drawba

15、cks : signal source(s) must be know Examples : vocoder ? Hybrid compression(混合编码) Examples : CELP 语音编(译)码器的3种类型 ? 波形编译码器(waveform codecs) ? 音源编译码器(source codecs) ? 混合编译码器(hybrid codecs) 2. 数字语音的波形编码波形编译码器(waveform codecs) ? 算法比较简单 ? 数据速率在16 kbps以上 ? 声音质量相当高 ? 很成熟，有一系列国际标准： CCITT G.711 PCM 64kb/s CC

16、ITT G.721 ADPCM 32Kb/s CCITT G.726 ADPCM 48, 32, 24, 16 Kb/s ? 已广泛应用 (1)话音频率脉冲编码调制 (CCITT G.711) Pulse Code Modulation (PCM) of Voice Frequences) ? 处理过程： ? 分析：方法简单，质量好，易实时处理。数据量较大 (64kbps)。对数变换 Y(n)=ln(X(n) ? 目的 : 适应听觉的非线性特性；压缩数据。 2 种压扩算法 ? 律压扩(companding)算法（北美和日本等地区） ? A律压扩算法（欧洲和中国大陆等）压扩算法的实现线性

17、码(12位) PCM码(7位) 0 0 0 0 0 0 0 W X Y Z a 0 0 0 W X Y Z 0 0 0 0 0 0 1 W X Y Z a 0 0 1 W X Y Z 0 0 0 0 0 1 W X Y Z a b 0 1 0 W X Y Z 0 0 0 0 1 W X Y Z a b c 0 1 1 W X Y Z 0 0 0 1 W X Y Z a b c d 1 0 0 W X Y Z 0 0 1 W X Y Z a b c d e 1 0 1 W X Y Z 0 1 W X Y Z a b c d e f 1 1 0 W X Y Z 1 W X Y Z a b c d

18、e f g 1 1 1 W X Y Z PCM 的应用 ? 应用于数字声音的表示与存储: CD-DA（CD唱片），DAT (44.1 KHz x 16 bit x 2) ? 应用于数字声音的编辑处理（多媒体计算机） ? 应用于声音的传输（通信）: 长途电话 (8 KHz x 8 bit x 1), 时分多路复用TDM (time-division multiplexing) 数字语音传输的多路复用技术 (1) 频分多路复用FDM (frequency-division multiplexing) . 把传输信道的频带分成好几个窄带，每个窄带传送一路信号。 (2) 时分多路复用TDM (time

19、-division multiplexing) 把传输信道按时间来分割，为每个用户指定一个时间间隔（time slot），每个时间间隔专门用于传输相应用户的声音信号。 (3) 码分多路复用(CDM) (4) 波分多路复用(WDM) 二次时分多路复用多次复用的数据传输率线路速率等级 T1 T2 T3 T4 话路数目 24 96 672 4032 传输率(Mb/s) 1.544 6.312 44.736 274.176 线路速率等级 E1 E2 E3 E4 话路数目 30 120 480 1920 传输率(Mb/s) 2.048 8.448 34.368 139.264 (2) Adaptiv

20、e Differential PCM(ADPCM) (CCITT G.721) ? 原理：声音信号具有很强的相关性，可从巳知信号耒预测未知信号, 即使用过去的样本值预测下一个输入样本的值，使实际样本值和预测值之间的误差总是最小。利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值， ? 效果：量化位数可以显著减少，从而降低了总的码率。自适应脉冲编码调制(APCM) ? 根据输入信号幅度大小来改变量化阶大小。 ? 可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是音节自适应，即量化阶的大小在较长时间周期里发生变化。

21、差分脉冲编码调制DPCM ? 利用样本与样本之间存在的信息冗余进行编码 ? 根据过去的样本去估算下一个样本的幅度大小，然后对实际信号值与预测值之差进行量化编码。 ADPCM 小结 ? PCM话音质量 4.5级 ? ADPCM话音质量 4.34级,码率降低一倍(32 kbps)。 ? ADPCM应用：数字语音通信多媒体应用中的语音（解说词） (3) Sub-band coding (子带编码) ? 基本原理：利用带通滤波器(BPF)把声音信号按频率范围划分成几个组成部分(子频带，子带) 低频部分能量较集中，量化精度要高，取样频率可稍低。高频部分是摩擦音、噪音，量化精度可低些，但取样频率要

22、稍高。不同子频带作不同的ADPCM编码处理，然后再复合在一起。 2. 数字语音的参数编码参数编码(源编码) ? 思想: 编码时从话音波形信号中提取生成话音的参数，解码时使用这些参数通过语音生成模型, 重构出话音。 ? 语音生成模型（声源-滤波器模型）发声器官的组成： ? 声源喉：振动源肺：能源 ? 声道从喉到口腔，到唇(谐振源) 鼻腔(谐振源) ? 发射机构包括唇、齿、舌、面颊 Vocal schematic 语音生成的数学模型编码: 从已知信号中提取参数 ? 语音过程是一个近似的短时(1030ms)平稳随机过程，参数变化比较慢, 因此, 可以以20ms(其中有20x8=16

23、0个样本)作为一帧，每一帧内的所有信号近似地满足同一模型，因此每一帧语音可以用一组参数表示: 浊音还是清音（1位）浊音的基频（即音调周期）（6位）音源的幅度（5位）线性滤波器的参数（10个参数，每个参数6位，共60位） ? 总码率为：(1000/20) x 72 bits = 3600 bps = 3.6kbps ? 参数既可在时域,也可以在频域确定，由编码器完成. 线性预测编码LPC (linear predictive coding) ? 对声音波形的编码实际就转化为如何提取语音生成模型的参数，经典的方法是线性预测编码LPC。 ? 每一个样本都可用过去p个样本的线性组合来预测： xp

24、re(n) = - a1x(n-1)+a2x(n-2)+apx(n-p) 线性预测编码LPC ? 预测误差为: e(n) = x(n) - xpre(n) = x(n) + a1x(n-1)+a2x(n-2) +apx(n-p) ? 问题：在给定的时间范围n0，nk，怎样选择系数ai 使得预测误差e(n)的平方和为最小？即 E e(n0)2 +, . , + e(nk)2 最小 ? 对a1, a2, , ap 分别求偏导数得到一组差分方程： dE/da1 0, dE/da2 0, . , dE/dap 0, ? 求解差分方程组，可得到系数 ai 的值。参数编码器的解码 ? 接收端使用LPC

25、分析得到的参数之后，通过语音合成器重建语音。 ? 合成器实际上就是一个语音生成系统。波形编码与参数编码的比较波形编码参数编码 1 码率高码率低 2 音质好音质差 3 算法简单算法复杂 4 可处理任何声音信号仅处理语音信号 ? 参数编码的数据率在2.4 kbps左右，产生的语音虽然可以听懂，但其质量远远低于波形编码。尽管它的音质比较低，但它的保密性能好，因此这种编译码器一直用在军事上. 4. 数字语音的混合编码混合编码 ? 思路: 使用合成-分析法AbS(Analysis-by-Synthesis)来改进参数编码, 其中声道滤波器模型仍与LPC编码器中的相同，但不使用两个状态(有

26、声/无声)的模型来寻找滤波器的输入激励信号，而是企图寻找这样一种激励信号，使得用这种信号激励产生的波形尽可能接近于原始话音的波形。合成-分析法AbS ? 通过调节激励信号u(n)可使语音输入信号s(n)与重构的语音信号误差最小。这就是说，编码器通过“合成”许多不同的近似值来“分析”输入话音信号，这也是“合成-分析编码器”名称的来由。等间隔脉冲激励RPE (regular-pulse excited) ? 使用固定间隔的脉冲，编码器只需要确定第一个激励脉冲的位置和所有其他脉冲的幅度，例如每5 ms可使用10个脉冲，数据率在10 kbps左右。 ? GSM(Global System for

27、Mobile communications)移动电话使用的是一个带长期预测的简化的RPE编译码器，它把20ms一帧(16016比特)的PCM波形数据压缩成264比特的GSM帧，压缩后的数据率为13.2 kbps. CELP 编(译)码器 ? CELP算法,1985提出。它使用的激励信号是由一个矢量量化大码簿的表项给出，还有一个增益项用来扩展它的功率。典型的码簿索引有10位(1024个表项)，增益用5位表示。 ? 在CELP基础上制定的话音编码标准: 美国的 DoD的 4.8 kbps codec CCITT的“low-delay 16 kbps codec ? 近年来对运行在4.8 kbps以

28、下的编译码器作了大量的研究工作，其目标是开发运行在2.4 kbps或者更低数据率下的编译码器。 CELP 编(译)码器小结：语音压缩编码的标准与应用 5. 数字语音技术的应用数字语音技术的应用 ? Nontelephony application multimedia title speech synthesizer speech input DAB ? Telephony application（CTI） voice messaging call processing interactive voice response ( IVR ) IP phone （VoIP）什么是CTI ?

29、? CTI（Computer Telecommunication Integration）= 计算机+电信 ? 目的: 提高效率,降低成本,扩大业务,增加收益。 ? 思路: 把计算机的信息处理和控制能力与通信相结合把计算机的信息存储和数据管理功能与语音通信相结合把计算机网络的数据通信功能（如电子邮件、文件传输等）与语音通信相结合 CTI技术的主要应用交互式语音应答（Interactive Voice Response, IVR）；呼叫中心（Call Center）；统一消息处理系统； IP电话、IP传真等；其它增值业务。交互式语音应答 ? Interactive Voice Re

30、sponse，简称IVR,又叫做“自动声讯服务” ? 服务模式：交互式语音应答 ? 效果：方便、高效、低成本。 ? 用途举例：电信局查询话费，打开语音信箱，业务咨询，用户缴费，故障报修等，航空公司的航班查询，银行帐目查询等。 ? 关键技术：电话与电脑的接口语音合成输入效率呼叫中心（Call Center） ? 呼叫中心又叫做“客户关照中心”，特点是支持多种接入方式、提供多方位的信息服务。 Call Center的系统组成 Call Center的工作过程 ? 客户拨打呼叫中心的电话 ? ACD播送问候语，判断话务员有无空闲，如果没有空闲，则把呼叫进行排队，或请客户挂断等候回叫。重要的用户可以优先处理。 ? VRU与客户进行交互，了解服务要求，需要时通过ACD转接到空闲的话务员，同时进行号码识别，调出数据库中该客户的信息，转送到话务员的屏幕上。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？