语音信号处理复习题.docx

资源描述

语音信号处理复习题.docx

《语音信号处理复习题.docx》由会员分享，可在线阅读，更多相关《语音信号处理复习题.docx（27页珍藏版）》请在冰豆网上搜索。

语音信号处理复习题.docx

语音信号处理复习题

1研究语音信号处理的目的是什么？

人类的通信有哪三种方式，从而说明语音信号处理有哪三个学科分支？

它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息；二是要通过处理的某种运算以达到某种用途的要求。

1.什么叫做语言学？

什么叫做语音学？

言语过程可分为哪五个阶段？

语音中各个音的排列由一些规则所控制，对这些规则及其含义的研究学问称为语言学；另一个是对语音中各个音的物理特征和分类的研究称为语音学。

人的说话过程如图2-1所示，可以分为五个阶段：

（1）想说阶段：

（2）说出阶段：

（3）传送阶段：

（4）接收阶段：

（5）理解阶段：

3、有哪几种描述声道特性的数学模型？

请说明声管模型流图是如何得出的？

有几种共振峰模型？

各有什么特点和适用情况？

声道的数学模型有两种观点：

1）声管模型

将声道看为由多个不同截面积的管子串联而成的系统。

在“短时”期间，声道可表示为形状稳定的管道。

另一种观点是把声道视为一个谐振腔，按此推导出的叫“共振峰模型”。

共振峰模型，把声道视为一个谐振腔。

共振峰就是这个腔体的谐振频率。

由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的，所以这种共振峰的声道模型方法是非常有效的。

一般来说，一个元音用前三个共振峰来表示就足够了；而对于较复杂的辅音或鼻音，大概要用到前五个以上的共振峰才行。

基于物理声学的共振峰理论，可以建立起三种实用的共振峰模型：

级联型、并联型和混合型。

（1）级联型声道模型

这时认为声道是一组串联的二阶谐振器。

从共振峰理论来看，整个声道具有多个谐振频率和多个反谐振频率，所以它可被模拟为一个零极点的数学模型；但对于一般元音，则用全极点模型就可以了。

它的传输函数可分解表示为多个二阶极点的网络的串联：

N=10，M=5时的声道模型如下图所示：

（2）并联型声道模型

对于非一般元音以及大部分辅音，必须考虑采用零极点模型。

此时，模型的传输函数如下：

通常，N>R，且设分子与分母无公因子及分母无重根，则上式可分解为如下部分分式之和的形式：

这就是并联型的共振峰模型。

如图2-21所示（M=5）。

（3）混合型声道模型

上述两种模型中，级联型比较简单，可以用于描述一般元音。

当鼻化元音或鼻腔参与共振，以及阻塞音或摩擦音等情况时，级联模型就不能胜任了。

这时腔体具有反谐振特性，必须考虑加入零点，使之成为零极点模型。

采用并联结构的目的就在于此，它比级联型复杂些，每个谐振器的幅度都要独立地给以控制。

但对于鼻音、塞音、擦音以及塞擦音等都可以适用。

正因为如此，将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。

4、请写出完整的语音信号数学模型的表示式。

什么叫做预加重处理？

为什么要进行这些处理？

完整的语音信号的数字模型可以用三个子模型：

激励模型、声道模型和辐射模型的串联来表示。

如图所示：

基音频率F0振幅AV

语音

s（n）

信号

振幅AU

它的传输函数可表示为：

由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在800Hz以上按6dB/倍频程（倍频程：

若使每一频带的上限频率比下限频率高一倍，即频率之比为2，这样划分的每一频程称为1倍频程）跌落，所以求语音信号的频谱时，频率越高相应的成分越小，高频部分的频谱比低频部分难求，要在预处理中进行预加重处理。

预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。

预加重一般在语音信号数字化后，参数分析之前用预加重数字滤波器来实现。

十倍频程-频率按照增加或按减小，从10Hz到100Hz为一个十倍频程；倍频程-频率按增加或按减小，从10Hz到20Hz为一个倍频程。

2倍频和10倍频是一回事

对于滤波或运放放大倍数来讲使用dB来表示的，具体的公式是：

，是滤波器或运放的一个极点。

采用dB表示时是

，要取模，即。

对于n倍频（靠近的频率不准确，n>0），（开方中的1可忽略）则有

这样，对于两倍频，，则此时下降是

当时，

预加重数字滤波器一般是一阶的数字滤波器

，

值接近于1。

5、短时平均能量（短时平均幅值）和短时平均跨零数的定义。

窗口函数的长度和形状对它们有什么影响？

常用的有哪几种窗口？

这两种时域参数的用途。

设第n帧语音信号的短时能量用表示，则其计算公式如下：

短时平均幅度函数，它定义为：

分别采用矩形窗、汉明窗不同窗长得到的语音信号短时能量，可以得到如下结论：

●在用短时能量反映语音信号的幅度变化时，不同的窗函数以及相应窗的长短均有影响；

●Hamming窗的效果比矩形窗略好；

●但是，窗的长短影响起决定性作用。

窗口长度反映语音信号的幅度变化。

窗过大（N很大），等效于很窄的低通滤波器，不能反映幅度En的变化；窗过小（N很小），短时能量随时间急剧变化，不能得到平滑的能量函数。

在11.025kHz左右的采样频率下，N选为100~200比较合适。

定义语音信号的短时过零率为：

式中，是符号函数，即

6、短时自相关函数和短时平均幅差函数的定义及其用途。

在选择窗口函数时应考虑什么问题？

语音信号的定义语音信号的短时自相关函数的计算公式如下：

这里K是最大的延迟点数。

浊音是周期信号，浊音的短时自相关函数呈现明显的周期性，自相关函数的周期就是浊音信号的周期。

清音接近于随机噪声，其短时自相关函数不具有周期性，也没有明显突起的峰值，且随着延时k的增大迅速减小。

短时平均幅度差函数：

计算只需加、减法和取绝对值的运算，与自相关函数的加法与乘法相比，其运算量大大减小，尤其在用硬件实现语音信号分析时有很大好处。

为此，AMDF已被用在许多实时语音处理系统中。

短时谱的定义。

它可以有哪两种解释？

窗口函数的影响。

是帧号n和角频率的函数。

可见，当n不变时，是序列的标准傅里叶变换，此时具有与标准傅里叶变换相同的性质。

设语音信号序列和窗口序列的标准傅里叶变换均存在。

当n取固定值时，

根据卷积定理有：

因为上式右边两个卷积项均为关于角频率的以为周期的连续函数，所以也可以将其写成如下的卷积积分形式：

（*）

结论：

假设的DTFT是，且的DTFT是，那么是和的周期卷积。

由于相当于信号谱与窗函数谱的卷积，根据卷积积分公式（*）可知，为了使得能够与具有相同的性质，则要求必须是一个冲激函数。

因此应使窗函数的频率分辨率高，主瓣尖锐；同时还要使旁瓣衰减大。

根据信号的时宽带宽积为一常数这一性质，可知主瓣宽度与窗口宽度成反比，N越大，主瓣越窄，则越接近于。

但窗长太大时，窗选信号已经不满足语音的短时平稳特性，此时，已不能正确反映短时语音的频谱，为此，必须要折中选择窗长。

另外，令角频率，则得到离散的短时傅里叶变换，它实际上是在频域的取样，如下所示：

在语音信号数字处理中，都是采用的离散傅里叶变换代替，并且可用高效的快速傅里叶变换（FFT）算法完成由至的转换。

当然，这时窗长N必须是2的整次幂（L是整数）。

根据傅里叶变换的性质，实数序列的傅里叶变换的频谱具有对称性，因此全部频谱信息包含在长度为个里。

另外，为了使具有较高的频率分辨率，所取的DFT以及相应的FFT点数N1应该足够多，但有时的长度N要受到采样率和短时性的限制。

转流程：

原信号频率就处在之间，即，只要在0~5kHz内求其频谱。

FFT的计算可以在通用计算机上由相应的算法软件完成，这种方式一般只能实现非实时运算，为了完成实时运算可以采用先进的数字信号处理芯片、阵列处理芯片或专用芯片。

因而，如果将看作一个滤波器的单位函数响应，则就是该滤波器的输出，而滤波器的输入为，如下图所示。

简单分析一下不同的窗函数对语音信号短时谱的影响。

上图给出了N=500（取样率为10kHz，窗持续时间50ms）时矩形窗和汉明窗下浊音语音的频谱。

其中图（a）是汉明窗的窗选信号，图（b）是其对数幅度谱；图（c）是矩形窗下的窗选信号，图（d）是其对数幅度谱。

从图（a）可以明显看出时间波形的周期性，此周期性同样在图（b）中表现出来。

图中基频及其谐波在频谱中表现为等频率间隔的窄峰。

图（b）中的频谱大约在300~400Hz附近有较强的第一共振峰，而在2000Hz附近有一个对应于第二、第三共振峰的宽峰。

此外，还能在3800Hz附近看到第四共振峰。

最后，由于声门脉冲谱的低通特性，频谱在高频部分表现为下降的趋势。

将图（b）和图（d）比较可看出它们在基音谐波、共振峰结构以及频谱粗略形状上的相似性，同样也能看到其频谱之间的差别。

最明显的是图（d）中基音谐波尖锐度增加，这主要是由于矩形窗频率分辨率较高。

另一个差别是矩形窗较高的旁瓣产生了一个类似噪声的频谱。

这是由于相邻谐波的旁瓣在谐波间隔内的相互作用（有时加强有时抵消），因而在谐波间产生了随机变化。

这种相邻谐波间不希望有的“泄露”抵消了其主瓣较窄的优点，因此在语音频谱分析中极小采用矩形窗。

下面给出了矩形窗和汉明窗加窗的清音波形及其短时频谱。

由上图可以看出:

从两个短时频谱图中都可以发现，由于清音的发音类似于随机噪声，因此频谱具有慢速变化的趋势，同时有着频繁的尖峰和谷。

当然，汉明窗较之矩形窗具有平滑的短时频谱。

下面给出了浊音和清音前50个样点加矩形窗和汉明窗的短时频谱，可以直观地看到窗长对短时谱的影响。

由图可见：

由于窗长很短，因而时间序列（图（a）和图（c））及信号频谱（图（b）和图（d））均不能反映信号的周期性。

与上图相反，本图只大约在400、1400以及2200Hz频率上有少量较宽的峰值。

它们与窗内语音段的前三个共振峰相对应。

比较图（b）和图（d）的频谱后，再次表明矩形窗可以得到较高的频率分辨率。

从以上对窗函数和短时频谱的讨论可以得到以下结论：

1）矩形窗和汉明窗的主瓣狭窄且旁瓣衰减较大，具有低通的性质。

窗越长，主瓣越窄，加窗后的频谱能更好地逼近短时语音的频谱；

2）窗长越长，频谱分辨率得到提高，但由于长窗的时间平均作用导致时间分辨率相应下降，如共振峰在不同的基音周期是要发生变化，但如果使用较长的窗会模糊这种变化。

3）窗长越短，时间分辨率越高，但频率分辨率相应降低，如采用短窗可以清楚地观察到共振峰在不同基音周期的变化情况，但是基频以及谐波的精细结构在短时频谱图上消失了。

4）由于时间分辨率和频谱分辨率的相互矛盾关系，在进行短时傅里叶变换时，应根据分析的目的来折中选择窗长。

7、请叙述同态信号处理的基本原理（分解和特征系统）。

同态处理理论的一个重要方面是任何同态系统都能表示为三个同态系统的级联，如下图所示。

即同态系统可以分解为两个特征系统（它们只取决于信号的组合规则）和一个线性系统（仅取决于处理的要求）。

第一个系统以若干信号的卷积组合作为其输入，并将它变换成对应输出的相加性组合。

第二个系统是一个普通线性系统，它服从叠加原理。

第三个系统是第一个系统的逆变换，即它将信号的相加性组合反变换为卷积组合。

这种同态系统的重要性在于，可以使这种系统的设计简化为线性系统的设计问题。

对于语音信号，其特征系统和逆特征系统的构成分别如下图所示：

下面分析同态信号处理的基本原理。

设输入信号：

其中和分别是声门激励和声道响应序列。

特征系统完成将卷积性信号转化为加性信号的运算。

它包括三部分，首先进行Z变换，将卷积性信号转变为乘性信号

然后进行对数运算，将乘积运算转变为加性运算：

上面这个信号是加性的对数信号，使用起来不方便，所以再将其变换为时域信号。

因而最后要进行逆Z变换，即：

由于加性信号的Z变换或逆Z变换仍然是加性信号，因而这种时域信号可以用线性系统处理。

经过线性处理后，若将其恢复

展开阅读全文