本文意在处说话人识别中的一个分支说话人确认.docx

上传人:b****8 文档编号:28695309 上传时间:2023-07-19 格式:DOCX 页数:13 大小:116.02KB
下载 相关 举报
本文意在处说话人识别中的一个分支说话人确认.docx_第1页
第1页 / 共13页
本文意在处说话人识别中的一个分支说话人确认.docx_第2页
第2页 / 共13页
本文意在处说话人识别中的一个分支说话人确认.docx_第3页
第3页 / 共13页
本文意在处说话人识别中的一个分支说话人确认.docx_第4页
第4页 / 共13页
本文意在处说话人识别中的一个分支说话人确认.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

本文意在处说话人识别中的一个分支说话人确认.docx

《本文意在处说话人识别中的一个分支说话人确认.docx》由会员分享,可在线阅读,更多相关《本文意在处说话人识别中的一个分支说话人确认.docx(13页珍藏版)》请在冰豆网上搜索。

本文意在处说话人识别中的一个分支说话人确认.docx

本文意在处说话人识别中的一个分支说话人确认

本文意在处理“说话人识别”中的一个分支“说话人确认”的问题。

解决问题的想法是从语音中提取出足以区别于其他人的声音的个人特征,将这些特征参量化。

以某一个特定人的声音的特征参量为标准模板,定义其他人与该特定人的声音之间的距离测度,规定一个阈值,这样,标准模板、距离和域值就组成了一个说话人确认系统。

对一个待测的声音,系统将它与标准模板匹配,计算距离并根据此距离是否在规定阈值之内来判断待测的说话人就是特定的说话者。

解决问题的关键是声音的个人特征的提取。

本文采用的方法是对声音信号作短时傅里叶变换,从它的功率谱图中找出具有代表性的一些波峰所对应的频率,用这些特征频率值作成一个特征向量。

用某个特定人声音的特征向量为标准向量F,定义待测声音的特征向量G与F之间的距离函数D,给定一个阈值P。

由F,D和P构成说话人确认系统。

方法比较粗略,但“说话人确认”在许多方面仍有待于完善,笔者仅仅是做一些初步的摸索。

语音中包含的第一意义的信息是与语言意义内容相关的音韵性信息;第二意义主要是讲话人的个人信息。

提取个人信息并判断出是谁的声音称为“说话人识别”。

“说话人识别”包括“说话人鉴别”和“说话人确认”。

前者是把待测说话人的语音判定为多个参考说话人之中的某一个;后者则是根据待测说话人的语音,确定为是否与其所声称的参考说话人相符。

“说话人识别”的基本原理主要包括两阶段,即训练和识别。

在训练阶段,系统的每个使用者说出若干个训练语句,系统据此建立每个使用者的模板和模板参数。

在识别阶段,待识人的语音特征提取后与系统训练时产生的模板或模板参数进行比较。

在说话人确认中,通过判断测试音与所生成的说活人的模型的匹配距离是否小于一定阈值做出判断。

其原理图如下:

 

 

输入语音

 

识别结果

 

说话人识别可以分为两种:

一种是预先确定识别用语的方法(发音内容依存型);另一种是无论讲什么话都可进行识别的方法(发音内容独立型)。

从声音中准确地提取和分离个人信息是相当困难的。

至今还没有建立起准确分离和提取个人特征的技术。

当前的状况是说话人识别多采用固定声音内容的方法来提高识别率。

多年来,人们对于特征参数在说话人识别系统中的有效性进行大量的验证和研究,得到许多有意义的结果,例如:

线性预测系数或其派生系数,由语音频谱直接导出的参数,其他鲁棒性系数包括Mel频率倒谱系数,以及经过信道谱减或噪声谱减的倒谱,混合参数等。

当然没有一种是十全十美的。

二、模型假设

模型中处理的对象是数字声音信号。

一个原始的声音信号,经过取样、量化、编码等处理变成了数字信号。

取样既是把时间上的连续波形,用时间上离散的各时点值的序列来表示。

根据奎斯特取样定理。

一个连续的带限信号能被一个离散取样序列所代替而不会有任何信息的丢失。

量化将模拟信号波形表示成一系列脉冲,这会造成一定程度的量化失真。

我们是通过Windows自带的录音机获得这种数字声音信号的。

而录音设备和外界环境都会对声音信号造成一定的影响。

声音可以理解成由振幅和相位随时间缓慢变化的正弦波构成。

人的听觉对声音的感觉特征主要包含在振幅信息中,相位信息一般不起作用。

在研究声音的性质时,往往把时域信息(波形图)变换得到它的频域信息(频谱),通过研究频谱和与频谱相关联的特征获得声音的特性。

语音信号是一种典型的非平稳信号,但是由于语音的形成过程是与语音器官的运动密切相关的。

这种物理运动比起声音振动速度要缓慢的多。

因此,语音信号常常可以假定为短时平稳的。

在10~30ms这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。

这样我们可以采用平稳的分析方法来处理。

由以上的分析可以提出以下几点假设:

1.将原始的声音信号转换成数字信号的过程对声音的特征造成的影响可以忽略。

2.录音设备和外界环境对声音信号的影响可以忽略。

3.声音特征基本反映在振幅信息中。

4.从时域变换到频域后,语音特征体现在它的频谱中,忽略频谱失真。

5.语音信号是短时平稳的。

三、建模与分析

该模型采用的是声音内容依存型的说话人确认系统,需要先让系统对使用者说某个特定词的语音信号进行学习。

该特定词就成为系统确认通过的“秘语”。

也就是说想让系统确认通过,首先得知道这个“秘语”。

这里,我们把这个“秘语”设定为汉语的“开门”一词。

当然这个“秘语”是可以改变的。

1)语音个人特征的提取

我们通过Windows自带的录音机得到声音数字信号。

这种信号是一系列离散时间上的量化的振幅样点。

图1给出某人说三次“开门”时的波形图。

图1(采样频率为22050Hz,横轴为时间,单位时间1/22050s,纵轴为振幅)

从图1中可以看出,虽然同一人说的都是同一个词,但三个波形图还是有一定差别的。

所以即便声音特征反映在振幅信息中也很难直接从时域信号中提取出语音的个人特征。

因此需要从其它的角度来提取语音的个人特征。

语音的感知过程与人类听觉系统具有的频谱分析功能是紧密相关的,因此,对语音信号进行频谱分析,是认识语音信号和处理语音信号的重要方法。

下面将采用频谱来分析语音信号。

对一个语音时域离散信号{x(n)},其频谱函数

是x(n)的傅里叶变换。

傅里叶变换定义为:

其中j为虚数单位,

称为数字频率。

由于处理的信号是有限长的,即

,故实际采用的是离散傅里叶变换DFT(DiscreteFourierTransform)。

长度为N的序列x(n),其DFT定义为:

,其中

如果x(n)为一个周期序列,得到的X(k)为x(n)的周期频谱。

若x(n)不是周期序列,先对x(n)进行周期性扩展,把它看成某个周期性信号的一个周期,得到的X(k)是x(n)频谱在一个周期的采样。

DFT有一种快速算法FFT,称为快速傅里叶变换。

MATLAB中采用的就是FFT算法。

图2给出了一个语音信号经MATLAB中FFT变换后得到的频谱一部分。

图2(图为一语音信号的频谱的一部分,横轴为频率,单位Hz)

信号x(n)经FFT变换后得到是尖锐的频谱,由假设5,我们可以对语音信号进行短时平滑处理。

切取信号波形x(n)的短时样本,进行基于短时的傅里叶分析。

这需要用时间窗乘以原有的波形。

对波形乘以窗函数,不仅为了在切取区间的两端不引起急剧变化,使波形缓慢降为零,而且还相当于在频谱范围对信号频谱进行窗函数的傅里叶变换的卷积,或者是进行加权移动平均。

信号{x(n)}的短时傅里叶变换定义为:

,其中{w(n)}是一窗序列。

这里,我们采用常用的汉明(Hamming)窗

汉明窗在频率范围中的分辨率较高。

取样周期T、分析用的取样数L和得到的频谱的频率分辨率

三者之间,存在如下关系:

短时傅里叶变换幅度的平方

是信号x(n)在时间n处的频谱能量密度函数。

因为我们把x(n)看成是能量有限信号时,其频谱能量在频域时连续分布的,只能以密度函数形式给出。

可以证明,它是信号x(n)的短时自相关函数的傅里叶变换,即:

其中短时自相关函数定义为

在实际计算中,由于信号长度是有限的,一般用离散傅里叶变换代替连续傅里叶变换,这就需要对信号进行周期性扩展,也就是把

看成是某个周期性信号的一个周期,然后对它作离散傅里叶变换。

做法与x(n)的DFT变换相同。

我们称

为信号x(n)的功率谱(PSD)。

图3~5分别给出同一个人两次说“开门”的功率谱图,不同人说“开门”的功率谱图以及同一人说不同两词的功率谱图:

(窗函数取窗长度为256的Hamming窗)

图3(用Matlab中的psdplot命令绘得的同一人两次说同一词的功率谱比较)

图4(不同人说相同的词的功率谱比较)

图5(同一人说音近的两词的功率谱比较,两词为“大蒙”和“卡门”)

可以看出功率谱图比较好地反映出声音的个人特征:

在低频部分(频率低于6000Hz),同一人说同一词,其功率谱图中的各个波峰所对应的频率基本相同;不同人说同一词,其功率谱图的出现波峰的频率比较接近;同一人说不同词时功率谱的形状差别较大。

在高频部分,波峰比较密集,特征不明显。

基于以上的观察,作如下统计:

将0~6000Hz等分为60个频段,100Hz为一频段,记录功率谱图中每一频段出现波峰的频率。

(信号的采样频率为22050Hz,窗长256的Hamming窗,频率分辨率

约为89Hz)

表1给出同一人说10次“开门”的功率谱图中挑出的10个频段的波峰位置;表2给出10个人说“开门”的功率谱图中前十个波峰的位置。

129.2

559.86

689.06

1636.5

2756.3

129.2

646

1636.5

2196.4

2713.2

3143.8

129.2

516.8

689.06

947.46

1636.5

3186.9

129.2

602.93

904.39

1593.5

3186.9

129.2

559.86

689.06

990.53

1550.4

2756.3

3273

129.2

689.06

1636.5

2196.4

129.2

602.93

1593.5

2196.4

2799.3

3273

129.2

559.86

1593.5

2756.3

129.2

516.8

1593.5

2110.3

2713.2

3143.8

3273

129.2

990.53

1593.5

2713.2

3143.8

表1(一行对应一次的特征频率值,空格表示对应波段没出现波峰,单位Hz)

86.133

646

1292

1722.7

1938

2196.4

2713.2

3230

3919

4565

129.2

602.93

1292

1550.4

2368.7

2670.1

3057.7

3488.4

3919

4091.3

172.27

689.06

1076.7

1593.5

2110.3

2627.1

3110.8

3789.8

4392.8

5038.8

129.2

258.4

646

818.26

1550.4

2325.6

2627.1

2799.3

3445.3

3574.5

86.133

301.46

646

947.46

1335.1

1636.5

2325.6

2627.1

2971.6

3316.1

172.27

387.6

646

1421.2

2497.9

3057.7

3746.8

3876

4420.5

4522

129.2

473.73

1248.9

1593.5

2325.6

3273

4134.4

4780.4

5512.5

6029.3

129.2

473.73

818.26

1205.9

1421.3

1938.

2196.4

2497.9

2799.3

3100.8

129.2

516.8

1335.1

2584

2842.4

3230

3617.6

3876

4737.3

5211

172.27

559.36

1335.1

2196

2670.1

3359.3

3746.8

4349.7

4694.2

5211

表2(一行对应一人的特征频率,单位Hz)

统计表反映的结果与观察相符。

因此我们可以将功率谱中频率较低段波峰出现的位置既相应频率值作为声音的个人特征。

不妨称为这些功率谱中波峰对应的频率值hz1,hz2,…,hzn为特征频率值,它们组成的向量Hz=(hz1,hz2,…,hzn)为特征频率向量。

2)距离的定义

多次提取某人(模板提供者)说同一词时功率谱中的特征频率值,这些频率值分布趋于稳定(由表1可以看出端倪)。

以100Hz为一个频段,将频谱(0~6000)划分为60个频段。

将多次提取功率谱中每一频段出现的所有频率值的平均值作为标准频率向量,F=(f1,f2,…fn)

以此标准频率向量F为模板。

对一个待确认声音,提取其特征频率向量G=(g1,g2,…,gm)。

因为F由多次提取得到,所以有m<=n。

定义F与G之间的匹配距离函数

,其中

3)阈值

用模板提供者的一组声音与标准向量进行匹配,即得出一组匹配距离,D1,D2,…,Dn,根据这组距离,一般取阈值P=max(D1,D2,…,Dn)。

由于存在诸因素的影响,可能出相匹配距离明显偏大的情况,实际阈值视具体情况可以取得小一些。

4)系统组成

标准频率向量F,距离函数D以及阈值P就可以构成一个“说话人确认”系统。

当待确认特征向量G与标准向量F的距离D(F,G)

提取某人说十次“开门”的特征频率值,得到标准向量F的每一分量如下

129.2542.64658.3732.13958.231586.31636.52024.12170.52325.62440.425842641.42743.93057.73161.132733445.335533617.63725.23861.63962.14155.942424371.24464.645654672.74745.948454995.75142.15254.15340.25426.45555.65663.25770.958575943.2

让该人对系统训练10次,得到一组匹配距离D1,D2,…,D10如下:

0.0819010.0483090.0725590.039530.0186670.126470.0823190.618260.14220.084312

D8明显异常,将其剔除,取P=0.15。

训练中只出现一次错误拒认(模板提供者的确认距离大于阈值)。

让系统对另外10人的声音进行确认,得到匹配距离如下:

0.870380.664760.28110.668210.249690.444271.03120.761550.627940.64517

结果比较理想,没有出现错误确认(非模板提供者的确认距离小于阈值)。

四、模型的讨论

评价一个“说话人确认系统”的好坏,很重要的是错误确认率及错误拒识率两个指标,此外还要综合考虑系统的实际应用要求,这主要包括以下几方面:

(1)训练样本数和训练速度。

(2)识别响应速度。

(3)说话方式要求。

(4)对环境的鲁棒性能。

优良的系统应有良好的是硬环境干扰的能力,包括噪声、信道畸变、线路衰减即多人背景语音等。

本文采用的说话人确认系统比较粗糙。

首先,作为模型中的处理对象的声音信号,并不全是语音区间,还包含空白区间。

由于将空白区间也当作语音信号处理了,所以频谱会受到影响。

实践中发现,此影响在高频部分比较明显。

虽然在模型中我们提取特征向量时没有考虑高频部分,抵消了一部分影响,但影响还是存在的。

应该在对声音信号处理前多加一项语音区间检测。

其次,我们在模型假设中忽略了一些因素的影响,从频谱中提取出语音的个人特征,而频谱会受到这些因素的影响,使得特征参量不能完全符合原始声音的个人特征。

例如,实践中发现系统受录音设备的影响比较大。

不同录音设备下系统的错误确认率和错误拒认率都比较高。

还要从其他角度提取能够反映个人信息的稳定的语音特征,以提高系统的适应性。

再次阈值的选取对系统也有影响:

提高阈值,能够降低错误拒认率,但同时也提高错误确认率;反之,降低阈值,降低了错误确认率却提高了错误拒认率。

这是一对矛盾。

在“说话人确认”系统中,可能要求P取得小一些,以保证系统不发生错误确认,但造成错误拒认次数增多。

另外还发现,由于标准向量F实际取的是多次特征向量的均值,频谱受被忽略的因素影响的机会加大,故训练样本数的增多并没有提高系统的性能,反而会降低系统的性能。

因此诸于种种,还须对系统加以改进,提高系统的健壮性。

总体上讲,“说话人确认”今后应解决有关问题如:

研究长时间稳定的而且抗伪声能力强的特征参数;研究与发音内容无关的,不论讲什么内容都能提取共通的个人信息的方法;研究除去电话机和传出线路上产生的畸变、噪声和环境噪声等方法。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1