语音信号处理总复习资料.docx

资源描述

语音信号处理总复习资料.docx

《语音信号处理总复习资料.docx》由会员分享，可在线阅读，更多相关《语音信号处理总复习资料.docx（26页珍藏版）》请在冰豆网上搜索。

语音信号处理总复习资料.docx

语音信号处理总复习资料

Ch1绪论

§1.1语音信号处理概述

一、语音、语音信号处理的名词解释

1、语音：

是语言的声学表现，是声音和意义的结合体，是相互传递信息的重要手段，是人类最重要、最有效、最常用和最方便的交换信息的形式。

2、语音信号处理：

是研究用数字信号处理技术对语音信号进行处理的一门学科，它是一门新兴的学科，同时又是综合性的多学科领域和涉及很广的交叉学科。

二、语音学的名词解释（集中备课）

语音学：

是研究言语过程的一门科学，它包括三个研究内容：

发音器官在发音过程中的运动和语音的音位特性；语音的物理特性；以及听觉和语言感知。

§1.2语音信号处理的发展概况

一、语音编码、语音合成、语音识别名词解释（参见大纲）

1、语音编码：

语音编码技术是伴随着语音信号的数字化而产生的，目前主要应用在数字语音通信领域。

2、语音合成：

语音合成的目的是使计算机能像人一样说话。

3、语音识别：

语音识别是使计算机判断出所说的话得内容。

Ch2基础知识

§2.2语音产生的过程

一、语音、清音、浊音

1、语音：

声音是一种波，能被人耳听到，振动频率在20Hz-20kHz之间。

语音是声音的一种，它是由人的发音器官发出的、具有一定语法和意义的声音。

语音的振动频率最高可达15kHz左右。

2、人类生成语音过程可分为神经和肌肉的生理学阶段和产生语音波、传递语音波的物理阶段。

3、浊音、清音：

语音由声带振动或不经声带振动来产生，其中由声带振动产生的音统称为浊音，而不由声带振动产生的音统称为清音。

浊音中包括所有的元音和一些辅音，清音包括另一部分辅音。

二、语音的产生过程：

空气从肺部排出形成气流。

空气通过声带时，如果声带是紧绷的，则声带将产生张弛振动，即声带周期性地开启和闭合。

声带开启时，空气流从声门喷射出来，形成一个脉冲；声带闭合时相应于脉冲序列的间歇期。

三、基音周期、基音频率

基音周期：

声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。

基音频率：

基音周期的倒数称为基音频率，简称为基频。

四、浊音、清音、爆破音的激励源

对于浊音、清音和爆破音来说，激励源是不同的，浊音语音是位于声门处的准周期脉冲序列，清音的激励源是位于声道的某个收缩区的空气湍流，而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。

五、共振峰的概念（参见大纲）

1、共振峰名词解释：

声道是一个分布参数系统，它是一个谐振腔，有许多谐振频率，称为共振峰，它是声道的重要声学特征。

2、共振峰的公式：

Fn=（2n-1）c/4L（会运用公式进行计算，填空、选择）

3、谐振点间的间隔不同，但平均仍然大约为每1KHz有一个谐振点。

4、共振峰特性，决定信号频谱的总轮廓，或称谱包络。

语音的频率特性主要是由共振峰决定的。

声道的共振峰特性决定所发声音的频谱特性（音色）。

5、头三个共振峰最重要。

§2.3语音信号的特性

一、语音的物理属性（集中备课）

语音的物理性质包括音质、音调、音强、音长等特性。

语音是人的发音器官发出的一种声波，具有声音的物理属性。

音质是一种声音区别于其他声音的基本特征；音调指声音的高低，取决于声波的频率：

频率高则音调高，频率低则音调低；响度是指声音的强弱，又称音量，它是由声波震动幅度决定的；声音的长短也称音长，它取决于发音持续时间的长短。

二、音素、音节、单词、句子的基本概念以及它们之间的关系（集中备课）

（1）音素是语音的最小、最基本的组成单位，音素都有其独立的各不相同的发音方法和发音部位，它是使听者能区别一个单词和另一个单词的声音的基础。

（2）音节是最小的语言片段，一个音节由一个或几个音素组成。

（3）单词是由音节结合而成的更大单位，是有意义的语言的最小单位。

（4）句子是单词的进一步组合。

三、汉语的特点是：

音素少、音节少。

汉语中的音节即字音由声母、韵母和声调按一定方式构成，即声、韵、调三个因素构成。

四、语音的时间波形和频谱特性（集中备课）

（答题关键点抓住：

时域卷积，频域相乘）

1、元音的时间波形如图2-2所示（P10）

特点：

其声门波形为脉冲序列，脉冲之间的间隔为基音周期，用g（t）表示。

2、声道的输出如图2-3所示（P11）

特点：

是g（t）与冲激响应h（t）的卷积，其中，每个高峰代表一个新的声门脉冲的起点，它们之间的间隔等于声门脉冲的周期。

3、元音信号的频谱如图2-6所示（P12）

特点：

g（t）的频域为G（f），冲激h（t）的频域表示为H（f），输出的频谱为G（f）H（f），如图2-6所示。

其中虚线称为谱包络，其形状是由H（f）和G（f）的包络乘积得到的。

五、清音和浊音的频谱特性

清音和浊音的波形有很大的不同。

清音的波形类似于白噪声，具有很弱的振幅；元音（浊音）具有明显的准周期性，并具有较强的振幅。

它们的周期对应的频率就是基音频率。

如果考察其中一个周期，还可以大致看出其频谱特性。

§2.4语音信号产生的数学模型

一、语音信号的数字模型（集中备课）

语音信号数字模型的概念：

语音信号被看成是线性时不变系统（声道）在随机噪声或准调周期脉冲序列激励下的输出。

在满足这样的假设条件下，产生了语音信号的基本数字模型，是语音处理技术的基础。

二、浊音、清音激励源

1、发不同性质的音时，激励的情况是不同的，大致分为两类：

（1）发浊音时，此时气流在通过绷紧的声带时，冲激声带产生振动，使声门处形成准周期性的脉冲串。

声带绷紧的程度不同时，振动频率也不同，这个频率就是音调频率，其倒数为音调周期。

不同人的音调周期是不同的，男子大，女子小，老人大，小孩低。

（2）发清音时，此时声带松弛而不振动，气流通过声门直接进入声道。

2、语音信号的产生模型P16（重点注意，框图中有些符号visio软件中没有，这个框图就自己补充上吧！

）

三、语音信号数字模型的组成等（集中备课）

1、语音信号数字模型由激励模型、声道模型和辐射模型组成。

2、声道模型包括声管模型和共振峰模型。

3、共振峰模型又可分为级联型、并联型和混合型。

特点：

（1）级联型比较简单，可用于描述一般的元音。

级联的级数取决于声道的长度。

（2）腔体具有反谐振特性时可采用并联结构，它比级联复杂，每个谐振器的幅度要独立控制。

（3）混合型是将级联型和并联型结合起来的、较完备的一种共振峰模型。

该模型能够根据不同性质的语音进行切换。

四、语音信号数字模型的框图：

（P21图2-18，自己补充）

图中，清/浊音开关模拟了加在声道上的激励的改变情况：

当开关接在浊音位置时，激励源是准周期脉冲序列发生器，其重复频率由基音频率来确定；当开关接在清音位置时，激励源是随机噪声发生器。

§2.5语音感知

一、语音感知

1、人耳听到声音后，经过大脑的处理才能变成确定的含义，这就是对语音的感知。

2、人耳能听到的声音，频率范围在16Hz-16kHz之间，年轻人的上限可以延伸至20kHz，老年人则衰退到10kHz。

二、声音的三要素（集中备课）

声音可以用幅度、频率和相位三个物理量来描述，但相对于人耳的感觉，声音的描述有其三要素，即：

响度、音调和音色。

1、响度：

响度是人耳对声音强弱程度的主观反应，响度取决于声音的幅度，主要是声压的函数，但和频率和波形也有关，单位是宋（sone）。

人耳对3000－4000Hz的声音感觉最灵敏。

2、音调：

也称音高，是一种主观心理量，是人耳对声音频率高低的感受，即与声音的频率有关。

音调与声音频率是近似的对数关系，单位是美（mel）。

3、音色：

也叫音质，反映了声音属性。

人根据音色在主观感觉上区别具有相同响度和音调的两个声音。

三、听觉掩蔽：

人类听觉中存在一种现象，即两个音同时存在时，一个声音有可能受到另一个声音的干扰或压制，即一个音被另一音掩盖，这称为听觉掩蔽。

Ch3时域分析

§3.1概述

一、为什么时域分析要采用短时分析技术（大纲）（集中备课）

1、短时分析技术的基本概念：

语音信号是一种随时间而变化的信号，可能是浊音激励也可能是清音激励，浊音的基音周期以及信号幅度等语音特性也都随时间变化，但这种变化是缓慢的，在一小段短时间内10-30ms，语音信号近似不变。

于是，我们把变化的语音信号分成一些相继的短时间段来处理。

而每一段时间段具有固定的特性，这种方法称为“短时”处理方法。

短时方法是用平稳信号的处理方法处理非平稳信号的关键。

2、语音信号分析的分类

（1）根据所分析的参数不同，语音信号分析可分为时域、频域、倒谱域。

（2）将语音的特征表示和提取方法分为模型分析法和非模型分析法。

模型分析法包括共振峰模型分析和声管模型分析；非模型分析法包括时域分析法、频域分析法及同态分析法。

3、语音信号特点：

（1）表示语音信号比较直观、物理意义明确；

（2）实现起来比较简单、运算量少；（3）可以得到语音的一些重要参数。

§3.2数字化和预处理

一、取样和量化（集中备课）

1、为了将原始的模拟信号转换为数字信号，必须经过取样和量化两个步骤，从而得到在时间和幅度上均离散的数字语音信号。

2、取样是将时间上连续的语音信号离散化为一个样本序列。

根据取样定理，当取样频率大于两倍信号带宽时，取样过程不会丢失信息，且从取样信号中可以精确地重构原始信号的波形。

3、量化是指将取样后得到的样本序列的幅度再离散化，量化过程是将整个幅度值分割为有限个区间，将落入同一区间的样本赋予相同的幅度值。

4、常见语音的采样频率

（1）电话带宽语音（长途通信、移动通信、卫星通信）取样率为8kHz；

（2）实际语音信号处理，取样率为10kHz；

（3）为实现更高质量的语音合成，取样率提高到15-20kHz。

二、量化噪声的概念及特点（集中备课）

1、量化噪声：

量化后信号值与原信号之间的差值称为量化误差，即量化噪声。

2、量化信噪比的计算公式：

SNR（dB）=6.02B-7.2

三、语音信号系统框图（为什么要进行预处理）（集中备课）

系统框图：

P26图3-4

（1）反混叠滤波器的作用：

它是一个具有良好截止特性的模拟低通滤波器，主要是为了防止混叠失真和噪声干扰。

（2）平滑滤波器的作用：

对重构的语音波形的高次谐波起到平滑作用，以去除高次谐波失真。

§3.3短时能量分析

一、语音信号的能量分析：

语音信号的能量分析是基于语音信号能量随时间有相当大的变化，特别是清音段的能量一般比浊音段的小得多。

能量分析包括能量和幅度两个方面。

二、直角窗和海明窗（集中备课）

1、不同的窗口选择将决定短时能量特性，即窗口的形状和长度。

2、直角窗和海明窗的比较（大纲）

（1）从窗口形状上：

海明窗的带宽大约是同等宽度矩形窗带宽的2倍。

此外，海明窗在通带外的衰减比矩形窗小得多，而且通带与阻带的起伏比较小。

直角窗的谱平滑较好，但波形细节丢失，海明窗刚好相反。

（2）从窗口长度上（窗口选择原则）：

选择太大，则短时能量随时间变化就很小，不能充分反映语音信号的幅度变化；而选择得小，即选择等于或小于一个基音周期时，将按照信号波形的细微变化而起伏不定，以致短时能量不够匀化和平滑。

因此，折衷考虑的值，在通常情况下，当取样频率为10KHz时，=100-200被认为是合适的。

三、短时能量的概念及其结论（集中备课）

短时平均能量反映了语音能量随着时间缓慢变化的规律。

它的主要用途有：

1、可以区分清音段和浊音段；

2、可以区分声母与韵母的分界、无声和有声的分界、连字的分界等。

3、作为一种超音段信息，用于语音识别中。

§3.4短时过零分析

一、过零分析、过零率和平均过零数的名词解释（大纲）

1、过零分析是语音时域分析中最简单的一种，对于离散时间信号的相邻两个取样值具有不同的符号时，便出现“过零”现象。

单位时间过零的次数叫作“过零率”。

2、平均过零数Z：

单位时间内的过零数（Z=2f0/fs过零/样本）。

二、短时平均过零

展开阅读全文