老师整理语音信号处理复习知识点11南理工Word格式文档下载.docx

资源描述

老师整理语音信号处理复习知识点11南理工Word格式文档下载.docx

《老师整理语音信号处理复习知识点11南理工Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《老师整理语音信号处理复习知识点11南理工Word格式文档下载.docx（23页珍藏版）》请在冰豆网上搜索。

老师整理语音信号处理复习知识点11南理工Word格式文档下载.docx

三、基音周期、基音频率

基音周期：

声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。

基音频率：

基音周期的倒数称为基音频率，简称为基频。

四、浊音、清音、爆破音的激励源

对于浊音、清音和爆破音来说，激励源是不同的，浊音语音是位于声门处的准周期脉冲序列，清音的激励源是位于声道的某个收缩区的空气湍流，而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。

五、共振峰的概念

1、共振峰名词解释：

声道是一个分布参数系统，它是一个谐振腔，有许多谐振频率，称为共振峰，它是声道的重要声学特征。

2、共振峰的公式：

Fn=（2n-1）c/4L（会运用公式进行计算，填空、选择，见书第8页）

3、谐振点间的间隔不同，但平均仍然大约为每1KHz有一个谐振点。

4、声道的共振峰特性决定所发声音的频谱特性（音色）。

5、头三个共振峰最重要。

2.3语音信号的特性

一、语音的物理属性

语音的物理性质包括音质、音调、音强、音长等特性。

语音是人的发音器官发出的一种声波，具有声音的物理属性。

音质是一种声音区别于其他声音的基本特征；

音调指声音的高低，取决于声波的频率：

频率高则音调高，频率低则音调低；

响度是指声音的强弱，又称音量，它是由声波振动幅度决定的；

声音的长短也称音长，它取决于发音持续时间的长短。

二、音素、音节、单词、句子的基本概念以及它们之间的关系

（1）音素是语音的最小、最基本的组成单位，音素都有其独立的各不相同的发音方法和发音部位，它是使听者能区别一个单词和另一个单词的声音的基础。

（2）音节是最小的语言片段，一个音节由一个或几个音素组成。

（3）单词是由音节结合而成的更大单位，是有意义的语言的最小单位。

（4）句子是单词的进一步组合。

三、汉语的特点是：

音素少、音节少。

汉语中的音节即字音由声母、韵母和声调按一定方式构成，即声、韵、调三个因素构成。

四、语音频谱特性其中虚线称为谱包络，其形状是由H（f）和G（f）的包络乘积得到的。

五、清音和浊音的频谱特性

清音和浊音的波形有很大的不同。

清音的波形类似于白噪声，具有很弱的振幅；

元音（浊音）具有明显的准周期性，并具有较强的振幅。

它们的周期对应的频率就是基音频率。

如果考察其中一个周期，还可以大致看出其频谱特性。

2.4语音信号产生的数学模型

一、语音信号的数字模型

1、语音信号数字模型的概念：

语音信号被看成是线性时不变系统（声道）在随机噪声或准调周期脉冲序列激励下的输出。

2、语音信号的产生模型框图P16

3、语音的产生过程（具体见考题）

二、发不同性质的音时，激励的情况是不同的，大致分为两类：

（1）发浊音时，此时气流在通过绷紧的声带时，冲激声带产生振动，使声门处形成准周期性的脉冲串。

声带绷紧的程度不同时，振动频率也不同，这个频率就是音调频率，其倒数为音调周期。

不同人的音调周期是不同的，男子大，女子小，老人大，小孩低。

（2）发清音时，此时声带松弛而不振动，气流通过声门直接进入声道。

三、语音信号数字模型的组成等

1、语音信号数字模型由激励模型、声道模型和辐射模型组成。

2、声道模型包括声管模型和共振峰模型。

3、共振峰模型又可分为级联型、并联型和混合型。

四、语音信号数字模型的框图：

P21图2-18

图中，清/浊音开关模拟了加在声道上的激励的改变情况：

当开关接在浊音位置时，激励源是准周期脉冲序列发生器，其重复频率由基音频率来确定；

当开关接在清音位置时，激励源是随机噪声发生器。

2.5语音感知

一、声音的三要素：

响度、音调和音色。

任何声音的都可以用声强的三个物理量表示：

幅度、频率、相位。

1、响度：

响度是人耳对声音强弱程度的主观反应，响度取决于声音的幅度，主要是声压的函数，但和频率和波形也有关，单位是宋（sone）。

人耳对3000－4000Hz的声音感觉最灵敏。

2、音调：

也称音高，是一种主观心理量，是人耳对声音频率高低的感受，即与声音的频率有关。

音调与声音频率近似为对数关系，还与声音的强度及波形有关，单位是美（mel）。

3、音色：

也叫音质，反映了声音属性。

每个声音具有特殊的音色，人根据音色在主观感觉上区别具有相同响度和音调的两个声音。

二、人的听觉系统的特性（具体见考题）

三、听觉掩蔽（具体见考题）：

人类听觉中存在一种现象，即两个音同时存在时，一个声音有可能受到另一个声音的干扰或压制，即一个音被另一音掩盖，这称为听觉掩蔽。

两个声音音调越接近，掩盖现象越严重。

听觉掩蔽现象在语音处理中得到了一些应用，比如，在语音编码中，利用听觉掩蔽效应改善输出语音质量已经取得了很大的效益。

Ch3时域分析

3.1概述

一、为什么时域分析要采用短时分析技术（具体见考题）

1、短时分析技术的基本概念：

语音信号是一种随时间而变化的信号，可能是浊音激励也可能是清音激励，浊音的基音周期以及信号幅度等语音特性也都随时间变化，但这种变化是缓慢的，在一小段短时间内10-30ms，语音信号近似不变。

于是，我们把变化的语音信号分成一些相继的短时间段来处理。

而每一段时间段具有固定的特性，这种方法称为“短时”处理方法。

2、语音信号特点：

（1）表示语音信号比较直观、物理意义明确；

（2）实现起来比较简单、运算量少；

（3）可以得到语音的一些重要参数。

3.2数字化和预处理

一、取样和量化（具体见考题）

1、为了将原始的模拟信号转换为数字信号，必须经过取样和量化两个步骤。

2、取样是将时间上连续的语音信号离散化为一个样本序列。

满足取样定理，当取样频率大于两倍信号带宽时，取样过程不会丢失信息，且从取样信号中可以精确地重构原始信号的波形。

3、量化是指将取样后得到的样本序列的幅度再离散化，量化过程是将整个幅度值分割为有限个区间，将落入同一区间的样本赋予相同的幅度值。

分为均匀和非均匀量化。

二、量化噪声的概念及特点

1、量化噪声：

量化后信号值与原信号之间的差值称为量化误差，即量化噪声。

2、量化信噪比的计算公式：

SNR（dB）=6.02B-7.2

三、语音信号系统框图（为什么要进行预处理）

1、系统框图：

P26图3-4

2、反混叠滤波器的作用：

它是一个具有良好截止特性的模拟低通滤波器，主要是为了防止混叠失真和噪声干扰。

3.3短时能量分析

一、语音信号的能量分析：

语音信号的能量分析是基于语音信号能量随时间有相当大的变化，特别是清音段的能量一般比浊音段的小得多。

能量分析包括能量和幅度两个方面。

二、直角窗和海明窗

1、不同的窗口选择将决定短时能量特性，即窗口的形状和长度。

2、直角窗和海明窗的比较

（1）从窗口形状上：

海明窗的带宽大约是同等宽度矩形窗带宽的2倍。

此外，海明窗在通带外的衰减比矩形窗大得多，而且通带与阻带的起伏比较小。

（2）从窗口长度上（窗口选择原则）：

N选择太大，则短时能量E随时间变化就很小，不能充分反映语音信号的幅度变化；

而N选择得小，即选择N等于或小于一个基音周期时，E将按照信号波形的细微变化而起伏不定，以致短时能量E不够匀化和平滑。

因此，折衷考虑N的值，在通常情况下，当取样频率为10KHz时，N=100-200被认为是合适的。

三、短时平均能量反映了语音能量随着时间缓慢变化的规律。

它的主要用途有：

1、可以区分清音段和浊音段，因为浊音时比清音时大得多；

2、可以区分声母与韵母的分界、无声和有声的分界、连字的分界等。

3、作为一种超音段信息，用于语音识别中。

3.4短时过零分析

一、过零分析、过零率和平均过零数的名词解释

1、过零分析是语音时域分析中最简单的一种，对于离散时间信号的相邻两个取样值具有不同的符号时，便出现“过零”现象。

单位时间过零的次数叫作“过零率”。

2、平均过零数Z：

单位时间内的过零数（Z=2f0/fs过零/样本）。

二、短时平均过零数的实现

1、实现框图：

P32图3-12

2、文字描述：

首先对语音信号序列x（n）进行成对的查对采样以确定是否发生过零，若发生符号变化，则表示有一次过零；

而后进行一阶差分计算，再求绝对值，最后进行低通滤波。

三、短时过零分析的用途（包含清音、浊音的各自特点）

1、短时平均过零数可以用来区分清音和浊音。

发浊音时，语音能量约集中于3kHz以下。

而发清音时，多数能量集中在较高的频谱上。

浊音具有较低的平均过零数，而清音时具有较高的平均过零数。

可见P33的图3-13

2、利用短时平均过零数还可以从背景噪声中找出语音信号，用于判断寂静无语音和有语音的起点和终点位置。

四、图3-14说明的问题是什么

由图可见，这三句话的平均过零数变换都很大，高平均过零数对应于清音，低平均过零数对应于浊音；

但是清音和浊音的变化非常明显。

因而，短时平均过零数可用于清音和浊音的大分类上。

3.5短时相关分析

一、短时自相关分析得到语音信号有何特点和用途

1、对于浊音语音来说，短时自相关函数具有明显的峰值且呈周期分布，而对于清音来说，则没有很强的自相关周期峰，其性质类似于噪声的高频波形。

2、短时自相关函数是语音信号时域分析的重要参量。

它有两个用途，一是判断清/浊音，并估计浊音的基音周期，因为周期函数的自相关还是周期函数，周期不变；

二是它的傅里叶变换是短时谱，可用于计算语音信号的频谱特性。

3、短时自相关函数的框图（P35图3-17）

4、短时平均幅度差函数：

利用差值来简化计算自相关函数。

用途：

判断清/浊音，并估计浊音的基音周期。

常见的几种语音信号短时分析法：

短时能量、短时平均过零率和短时自相关函数。

Ch4短时傅里叶分析

4.1概述

一、傅里叶分析在信号分析与处理中的地位与作用

在语音信号处理中，傅里叶表示在传统上一直起主要作用。

其原因一方面在于稳态语音的产生模型由线性系统组成，此系统被一随时间作周期变化或随机变化的源所激励，因而系统输出频谱反映了激励与声道频率响应特性。

另一方面，语音信号的频谱具有非常明显的语言声学意义，可以获得某些重要的语音特征。

同时，语音的感知过程与人类听觉系统具有频谱分析功能是密切相关的。

二、短时傅里叶分析的重要性。

短时傅里叶分析是分析缓慢时变频谱的一种简便方法，是用稳态分析方法处理非稳态信号的一种方法，在语音处理中是一个非常重要的工具。

4.2短时傅里叶变换

一、短时傅里叶变换的定义

语音信号可以认为是局部平稳的，所以可以对某一帧语音进行傅里叶变换，即短时傅里叶变换，定义为：

离散的短时傅里叶变换，令

，

二、短时傅里叶变换的两种解释

一是标准傅里叶变换的解释，二是滤波器的解释。

三、标准傅里叶变换解释

1、与序列的傅里叶变换相同，短时傅里叶变换随着ω作周期变化，周期为2π。

2、窗口序列具有的特性：

（1）频率分辨率高，即主瓣狭窄、尖锐；

（2）通过卷积，在其他频率成分产生的频谱泄漏少，即旁瓣衰减大。

3、海明窗与直角窗的频率特性（具体见考题答案）

它们在基音谐波、共振峰结构以及频谱具有相似性，但其频谱间也具有差别。

（1）是基音谐波尖锐度增加，这是因为矩形窗频率分辨率较高；

（2）矩形窗较高的旁瓣产生了一个类似于噪声的频谱。

因此，在语音频谱分析中极少采用矩形窗。

4、窗口宽度与短时傅里叶变换特性之间的关系，即用窄窗可得到好的时间分辨率，用宽窗可得到好的频率分辨率。

四、滤波器的解释

1、第一种形式的滤波器为低通滤波器；

第二种形式的滤波器为带通滤波器。

具体掌握图4-5及下一段的解释。

4.3短时傅里叶变换的取样率

一、时间取样率、频域取样率和总取样率的相关概念

1、时间取样率

2B=2fs/N直角窗

2B=4fs/N海明窗

2、频域取样率

为使恢复的时域信号不产生混叠失真，需满足条件L≥N（取样频率L≥取样点N）。

3、总取样率SR（单位是Hz）

SR=时域取样率*频域取样率=2B*L=2BL

SR=2fsL/N直角窗

SR=4fsL/N海明窗

4.4语音信号的短时综合

一、语音的短时综合两种经典的方法是：

滤波器组求和法和快速傅里叶变换求和法。

4.5语谱图（大纲没要求，但2012年考题有，所以请参照答案记概念）

Ch5同态滤波（同态信号处理）及倒谱分析

5.1概述

一、根据语音信号的产生模型，可以将其用一个线性非时变系统的输出表示，即看做是声门激励信号和声道冲激响应的卷积。

二、为了分离加性组合信号，常采用线性滤波方法；

而为了分离非加性组合信号，常采用同态滤波技术。

5.2同态信号处理的基本原理

一、同态信号处理的概念

同态信号处理就是将非线性问题转化为线性问题来处理，按处理的信号可分为乘积同态处理和卷积同态处理。

二、同态信号处理的实现框图、基本原理（要掌握公式的推导）

任何同态系统都可以表示为三个同态系统的级联，框图如图5-2所示。

即同态系统可分解为两个特征系统和一个线性系统。

在同态系统的组成中第一个系统以若干信号的卷积作为输入，并将它变换成对应输出的相加性组合。

第二个系统是一个普通的线性系统，服从叠加定理。

第三个系统是第一个系统的逆变换，即它将信号的相加性组合反变换为卷积组合。

特征系统和逆特征系统如图5-3所示。

5.3复倒谱和倒谱

一、复倒谱和倒谱的概念

复倒谱：

信号经过同态滤波的特征系统环节后，

仍然是一个时域序列，我们称

是

的复倒谱域，简称为复倒谱（具体名词解释见考题答案）

倒谱：

与复倒谱类似，如果

和

分别是

倒谱，并且

；

那么

的倒谱为

。

5.4两个卷积分量复倒谱的性质

一、一个周期冲激的有限长度序列，其复倒谱也是一个周期冲激序列，并且长度Np不变，只是序列变为无限长度序列。

同时其振幅随K值的增大而衰减。

二、声道冲激响应序列复倒谱的性质

1、

是双边序列，存在于-∞<

∞。

2、

是衰减序列。

3、

随|n|增大而衰减的速度至少比1/|n|快。

4、如果x（n）是最小相位序列，即极零点均在z平面单位圆内，此时

只在n≥0时有值，即

是因果序列。

最小相位信号序列的复倒谱是因果序列。

5、如果x（n）是最大相位序列，即极零点均在z平面单位圆外，此时

只在n≤0时有值，为左边序列。

最大相位信号序列的复倒谱是左边序列。

三、声道冲激响应序列的全零点模型描述

5.5避免相位卷绕的算法

一、避免相位卷绕求复倒谱的方法包括：

微分法、最小相位信号法、递推法。

二、相位卷绕：

在复倒谱分析中,Z变换后得到的是复数，所以取对数时进行的是复对数运算。

这时存在相位的多值性问题，使得后面求复倒谱以及恢复语音等运算均存在不确定性而产生错误。

三、微分法和最小相位法求复倒谱框图。

Ch6线性预测分析

6.1概述

一、线性预测分析的基本概念

线性预测分析的基本概念是，一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。

通过使实际语音抽样和线性预测抽样之间差值的平方和（在一个有限间隔上）达到最小值，即进行最小均方误差的逼近，能够决定唯一的一组预测系数，即线性组合的加权系数。

6.2线性预测分析的基本原理

一、线性预测模型采用全极点模型的原因（具体见答案）

全极点模型最易于计算，对全极点模型作参数估计是对线性方程组的求解过程；

有时无法知道输入序列；

人的听觉对于那种只能用零点来表示的频谱陡峭谷点是迟钝的；

如果不考虑鼻音和摩擦音，那么语音的声道传递函数就是一个全极点模型。

二、全极点模型——非鼻音浊音语音

极零点模型——鼻音和摩擦音

三、1、对于浊音信号谱在谐波成分处的匹配效果要远比谐波之间好得多。

2、LPC谱对其他谱的优点是可以很好地表示共振峰结构而不出现额外的峰起和起伏。

6.4线性预测分析的解法

（1）

一、线性预测的经典解法有两种，一种是自相关法，一种是协方差法，另外还有格型法。

（优缺点比较，具体看书）

6.6线性预测分析应用——LPC谱估计和LPC复倒谱

一、线性预测分析（LPC）的阶数P的选取原则

首先要保证有足够的极点来模拟声道响应的谐振结构，但P值达到12-14后，若进一步增加则误差改善很小。

二、线性预测分析中，帧长度N

线性预测分析中，分析帧长度N同样重要，N尽可能小有好处，在LPC线性方程组求解中，计算量都与N成正比。

但谱估计的精度随N的增加而提高。

通常取N为2-3个基音周期长度。

三、复倒谱分析的优点：

运算量小，可用于实时语音识别。

Ch7矢量量化VQ

7.1概述

一、量化可以分为两类：

标量量化和矢量量化。

二、矢量量化VQ的基本概念

矢量量化是将若干个取样信号分成一组，即构成一个矢量，然后对此矢量一次进行量化，即作为一个整体进行量化，既能有效降低数码率，又能保证语音质量。

三、矢量量化的理论依据与优越性（大纲）

根据仙农信息论可以得出，矢量量化总是优于标量量化，且矢量维数越大性能越优越。

因为矢量量化有效利用了矢量中各分量间的各种相互关联的性质。

采用矢量量化技术对信号波形数据进行压缩，可以获得非常高的压缩比。

7.2矢量量化的基本原理

一、矢量量化的过程（VQ的基本原理）

将语音信号波形的K个样点的每一帧，或有K个参数的每一帧参数，构成K维空间中的一个矢量，然后对这个矢量进行量化。

7.3失真测度

一、失真测度必须具备的几个特性

必须在主观评价上有意义,即小的失真应该对应于好的主观语音质量；

必须是易于处理的，即在数学上易于实现；

平均失真存在且可计算；

易于硬件实现。

二、欧氏距离-均方误差的概念（P96公式7-1）

7.4最佳矢量量化器和码本的设计

一、矢量量化器最佳设计的两个条件是：

最佳划分和最佳码书。

二、几种初始码书的生成方法包括：

随机选取法、分裂法、乘积码书法。

7.5降低复杂度的矢量量化系统

一、矢量量化器的研究主要是围绕着降低速率、减少失真和降低复杂度展开的。

速率、失真和复杂度是矢量量化器的三个关键问题。

二、矢量量化系统主要由编码器和译码器组成。

三、降低复杂度的设计方法包括两类：

无记忆的矢量量化器和有记忆的矢量量化器。

四、无记忆的矢量量化器和有记忆的矢量量化器的概念及区别

无记忆的矢量量化器是指量化每一个矢量时都不依赖于此矢量前面的其他矢量，即每一个矢量都是独立量化的。

有记忆的矢量量化器与无记忆的矢量量化器不同，它是量化每一个输入矢量时，不仅与此矢量本身有关，而且也与其前面的矢量有关。

五、无记忆的矢量量化系统包括树形搜索的矢量量化系统和多级矢量量化系统。

有记忆的矢量量化分为反馈矢量量化和自适应矢量量化两类。

Ch9基音检测分析

9.1基音检测

一、基音检测的重要性和难点

基音的提取和估计是语音信号处理中十分重要的一个问题，准确地检测语音信号的基音周期对于高质量的语音分析与合成、语音压缩编码、语音识别和说话人确认等具有重要意义。

在低速率语音编码中，准确的基音检测是非常关键的，它直接影响到整个系统的性能。

二、基音检测的三个研究方面

1、稳定并提取准周期性信号的周期性方法；

2、因周期混乱，采取基音提取误差补偿的方法；

3、消除声道影响的方法。

三、基音检测的三种方法：

波形估计法、相关处理法和变换法。

1、波形估计法包括：

并行处理法、数据减少法、过零数法；

2、相关处理法包括：

自相关法、SIFT法、AMDF法；

3、变换法：

倒谱法、循环直方图。

四、清/浊音判断的辅助参量

1、语音信号能量

2、过零数

3、自相关函数

4、线性预测系数

五、常用的几种基音检测方法包括：

自相关法、并行处理法、倒谱法、简化逆滤波法。

六、中心削波法的基本原理,三电平削波函数特性（P119-120）

七、利用倒谱法提取基音的基本原理和实现方法（P123）

八、利用简化逆滤波器法进行基音检测的基本原理和方法（P125）

9.2共振峰估值

一、共振峰估计中存在的问题

1、虚假峰值

2、共振峰合并

3、高基音语音

二、几种常用的提取共振峰特性的方法

1、带通滤波器组法

2、离散傅立叶变换

3、倒谱法

4、LPC法

三、浊音和清音时DFT谱特性比较

1、浊音时

DFT得到的频谱受基频谐波的影响，最大值只能出现在谐波频率上，因此共振峰测定误差较大。

2、清音时

此时信号具有随机噪声的特点，其频谱不具有离散谐波特性，但其包络基本上反映了声道的特性。

对其频谱进行线性平滑而得到谱包络，并用一个峰值搜索算法来确定峰值。

四、浊音和清音时倒谱法检测效果对比

1、浊音时，若频谱包络的变换和基音峰值的变换在倒谱域中的间隔足够大，则前者容易识别。

2、清音时，声门激励序列具有噪声特性，其倒谱没有明显峰值，且倒谱分布于从低倒谱域到高倒谱域的很宽的范围之内，因而在低倒谱域对声道响应的信息产生了影响。

五、倒谱法难以解决的两个问题

1、并不是所有的谱峰都为共振峰

2、带宽的计算

六、LPC法进行共振峰估计的两个方案

1、求根法

2、LPC谱估计

七、LPC法的优点和缺点

优点：

1、通过对预测多项式的分解能够精确地决定共振峰的频率和带宽。

2、能很好的表示共振峰结构而不出现额外的峰起和起伏。

3、额外的极点一般容易排除。

缺点：

用一个全极点模型逼近语音谱，对于含有零点的某些音来说，根反映了极零点的复合效应，因而无法区分这些根是相应于零点还是极点，或完全与声道的谐振极点有关。

Ch10语音编码

（1）——波形编码+声码器技术（语音编码的方法）

10.1概述

一、语音编码的目的

语音编码的目的是在保持可以接受的失真的情况下尽可能少的比特数表示语音。

二、语音压缩编码需要在保持可

展开阅读全文