e改进的隐马尔科夫模型的语音识别方法.docx
《e改进的隐马尔科夫模型的语音识别方法.docx》由会员分享,可在线阅读,更多相关《e改进的隐马尔科夫模型的语音识别方法.docx(23页珍藏版)》请在冰豆网上搜索。
e改进的隐马尔科夫模型的语音识别方法
第39卷第6期
2008年12月中南大学学报(自然科学版)J.Cent.SouthUniv.(ScienceandTechnology)、,01.39No.6Dec.2008
基于改进的隐马尔科夫模型的语音识别方法
袁里驰1,2
(1.中南大学信息科学与工程学院,湖南长沙,410083;
2.江西财经大学信息管理学院,江西南昌,330013)
摘要:
针对隐马尔可夫(HMM)语音识别模型状态输出独立同分布等与语音实际特性不够协调的假设以及在使用
段长信息时存在的缺陷,对隐马尔可夫模型进行改进,提出马尔可夫族模型。
马尔可夫族模型可看作一个数学上
由多个马尔可夫链构成的多重随机过程,HMM模型则是双重随机过程,因而,HMM模型可视为马尔可夫族模
型的特例。
马尔可夫族模型用条件独立性假设取代了HMM模型的独立性假设。
相对条件独立性假设,独立性假设是过强假设,因而,基于马尔可夫族模型的语音模型更符合语音实际物理过程。
在马尔可夫族语音识别模型中
引入状态段长信息,能自动根据语速对语音单元段长进行调整。
非特定人连续语音实验结果表明,利用状态段长信息的改进语音识别模型比经典HMM模型的性能明显提高。
关键词:
隐马尔可夫模型;马尔可夫族模型;段长;语音识别
中图分类号:
TN912.34文献标识码:
A文章编号:
1672—7207(2008)06—1303—06
Aspeechrecognitionmethodbasedon
improvedhiddenMarkovmodel
YUANLi.chil,2
(1.SchoolofInformation
2.SchoolScienceandEngineering,CentralSouthUniversity,Changsha410083,China;ofInformationTechnology,JiangxiUniversityofFinance&Economics,Nanchang330013,China)
Abstract:
Inorder
speechrecognitiontoovercomethedefectsofthedurationmodelingofhomogeneoushiddenMarkovmodel(HMM)inandtheunrealisticassumptionthatsuccessiveobservationsareindependentandidentically
ondistributionwithinastate,Markovfamilymodel(MFM)wasproposed.Inthespeechrecognitionmodelbased
aHMM,thetime-sequencestructureofspeechsignalwasconsideredtobe
modelwas
special
incaseadoublestochasticprocess,whileMarkovfamilytomultiplestochasticprocesswhichconsistsofafewMarkovchains,SOHMMcouldbeconsideredwasplacedbyconditionalindependencebeaofMFM.Moreover,independenceassumptioninHMMassumptionMFM,andfromtheviewofthestatistics,theassumptionofindependenceisstrongerthanthatofconditional
speechindependence,SOrecognitionmodel
tobasedonMFMismorerealisticthanHMMrecognitionmode.MarkovdistributionbasedFamilymodelwasappliedspeechrecognition,andduration
theMFMrecognitionmodewhichtakesdurationdistributionintoaccountandintegratesframeandsegmentbasedacousticmodelingtechniques,was
proposed.Thespeakerindependentcontinuousspeech
betterrecognitionexperimentsshowthatthisnewrecognitionmodelhasperformancethanstandardHMMrecognitionmodels.
model;duration;speechrecognitionKeywords:
hiddenMarkovmodel;Markovfamily
收稿日期:
2008-06-05:
修回日期:
2008-07-28
基金项目:
国家自然科学基金资助项目(60663007):
中南大学博士后科学基金资助项I目(2007)通信作者:
袁里驰(1973一),男,湖南邵阳人,博士后,副教授,从事信息检索与语音识别研究;电话:
0791—3076768;E-mail:
yuan_lichi@hotmail.tom万方数据
1304
中南大学学报(自然科学版)
第39卷
隐马尔可夫模型[1](hiddenMarkovmodel,即HMM)被认为是语音识别领域中最成功的统计模型之一。
HMM对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:
一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含随机过程,另一个是与Markov链的每一个状态相关联的观测序列随机过程。
HMM模型可分为离散隐马尔可夫模型…(采用离散概率密度函数,简称
DHMM)和连续隐马尔可夫模型¨(采用连续概率密度
函数,简称CDHMM)以及半连续隐马尔可夫模型[1I(SCHMM,集中了DHMM和CDHMM的特点)。
近几十年来,有关语音识别的研究取得了许多进展,尤其是在出现了隐马尔可夫模型以后,大词汇量连续语音识别【21取得了重大突破,但其识别性能仍有待提高,体现在:
首先,经典的HMM是齐次的马尔可夫模型,其状态转移概率为常数,状态驻留长度服从指数分布[3】,这与语音的实际物理过程不符;其次,由于人在自然发音过程中发音器官的运动惯性,相邻帧的语音特征之间有很强的时间相关性。
而在现有HMM应用中,为了处理方便,引入了一个重要的状态输出特征矢量独立分布的假设。
针对HMM语音识别模型现有的一些缺陷,本文作者提出马尔可夫族模
型(Markovfamilymodel,即MFM)。
马尔可夫族模型
(MFM)是由多个马尔可夫连构成的多重随机过程,随机过程相互之间有一定的概率关系,该模型用条件独立性假设取代隐马尔可夫模型的独立性假设。
1隐马尔可夫模型与马尔可夫族模型
1.1隐马尔可夫模型
定义1(隐马尔可夫模型)
隐马尔可夫模型‘11是
一个五元组(S,A,KB,万)。
其中:
S={S1’.一,SⅣ),是状态集;V={V1,…,vM},是输出符号集合;
71"={7/"1,…,万|v),1≤f≤Ⅳ,
(1)
是初始状态概率分布;A=(口i,j)Ⅳ。
Ⅳ,是状态转移概率分布矩阵;
ai,,=其墨+1=sj『墨=Si),
(2)
是从状态毋转移到状态sj的概率;B=(6J,≈)Ⅳ。
M,
万方数据
是状态符号发射的概率分布矩阵:
b1.女=P(o,=‰IXf=Sf),1≤后≤M
1≤f≤Ⅳ,
(3)
表示在状态S,时输出符号Ⅶ的概率。
从隐马尔可夫模型的定义可以看出,HMM模型是一个数学上的双重随机过程;建立在以下3个基本假设的基础上:
马尔可夫性假设;不动性假设;输出独立性假设。
1.2马尔可夫族模型
定义2马尔可夫族模型(Markovfamilymodel)
令X={xt,恐,…,如)表示m维随机向量,其中分量
(1≤i≤m)构成马尔可夫族模型,若它们满足下列条件:
a.每一个分量Ⅸ(1≤f≤m)都是一个n,阶马尔可夫链:
P(xi,rIXi,1,…,Xi,f-1)=P(xi,flXi,,吨+1,…,Xi’r.1)。
(4)
b.分量在时刻t出现某一个状态的概率只与该分量在时刻t以前状态和时刻t其他分量的状态有关:
P(xi,f
X1,1,…,X1’f,…,Xi,1,…,Xi,t-1,…,Xm,l,…,x州)=
P(xi,,IXi,f一吩+1,…,Xi,t-I,X1,f…,Xi一1,f,Xi+1,f…,xⅢ,f)。
(5)
c.条件独立性假设:
P(xi,t-ni+l,…,Xi,,_1,X1,,…,Xi一1'f’Xi+1,f.一,xm,f『Xi,f)2P(xf,㈣,+1,…,Xi’f_1XI,f)・P(Xl,f
Xi,f)…P(x州lXi,f)。
(6)
条件a表明马尔可夫族模型是多重随机过程,而隐马尔可夫模型可看作一个数学上的双重随机过程。
从这个意义说,隐马尔可夫模型可视为马尔可夫族模
型的特例:
条件b明确了马尔可夫族模型的多重随机过程相互之间的关系,利用该特性能简化马尔可夫族模型的计算。
根据条件C,某分量在时刻t的值已知的条件下,该变量在时刻f以前的n;-1个取值,与其他
分量在时刻t取值是相互独立的,即马尔可夫族模型用条件独立性假设取代了隐马尔可夫模型中的独立性
假设。
从统计学的角度来说,相对条件独立性假设,独立性假设是过强假设,与语音、语言现象也不尽符
合。
因而,可以说,基于马尔可夫族模型的语音、语言模型比基于隐马尔可夫模型的语音、语言模型更符合语音、语言的实际物理过程。
Ⅸ(1≤f≤m)取值于有限状态集Si(1≤f≤所)。
分量Ⅸ
第6期
袁里驰:
基于改进的隐马尔科夫模型的语音识别方法1305
2基于段长分布的MFM语音识别
模型
在连续语音中,不同说话者在不同语境下说话的速度差异是很大的。
偏离正常语速过大往往会造成识另U错误,过快的语速会使删除错误增加,过慢的语速会造成插入错误增加,从而使识别性能下降。
目前,人们对这个问题的研究主要是先按照某种方法得到识别语料的语速度量,然后,根据语速的快慢更新转移概率,将慢速情况下的状态自转移概率增大,离开转移概率变小,快速时则反之,从而调整每个语音单元的持续时间以适应语速【引。
基于段长的语音识别模型‘3,5_8】,直接从段长出发,说话速度的变化直接反映为段长的变化,同时,语速变化对段长的影响是同步增长或同步下降的,即在慢速情况下,前一个语音单元长于平均段长,后一个语音单元也会以相同的趋势长于其平均段长,而在快速下情况正好相反。
并且在一个较短的时间段内,1个说话者的说话速度会比较稳定,即一个短时间段内这种语速对段长的影响可以认为是基本一致的。
这样,就可以用前一个语音单元段长对其均值的偏差来预测后一个语音单元段长的变化趋势[9-13】。
语音识别统计模型通常以音子【l】为最基本的识别单位[14】。
假设音子模型允许出现的状态有£种,记为st(1=l,…,三),在时刻玎0≥1)所处的状态用如表示,h表示状态%的观察特征,系统在状态%连续驻留的时问长度(简称为段长)用靠表示。
记有关概率为:
al=口m=P(x”2st),1=1,…,£;
CIi,,2口岛,%3P(xn+1
2
sj
Iz"=sf),f,j=l,…,£;
bl(y。
)=b。
(y。
)=P(y。
lx。
=s1),l=1,…,L。
假设识别系统的词汇表容量为以其中每一个词条表示为Wv,v=l~V,设每一词条W。
中包含£。
个状态,记为s,,,_1—正。
。
现假定一个完整的句子所相应的特征序列,即观察序列为Ob{D。
,0z,…,0r},待识别句
子的词序列为肛{w1,W2,…,WN},词序列中的第i
(1≤《Ⅳ)个词Wi对应的第j(1≤≯≤功个状态记为S:
,
系统在状态S:
连续驻留的时间长度(段长)记为r,,,则系统所经历的状态序列为:
万方数据
S=∞…,乳,,…,s≯・,s≯。
———r——。
k—二—、,—j
・,s墨,…,s“N)。
、---------—√—------一
rl,1个
『l‘个
学
。
N,LN令
语音识别的任务就是由观察序列D={D。
,0z,…,OT}来求最佳的状态序列S,进而求得最佳的词序列
肛{wl,W2,…,WN),即搜索最可能的词序列:
arg∥maxP(s,∥I
∥
O)=argWmax!
兰兰铲t=
f/L
)
argmaxP(OI∥)・P(∥)。
(7)
其中:
尸(彬)=兀p(wf
Wi-K+I,wf—K+2,…,Wf_1),K≥2。
当K为2,3时,分别称为双词文法、三词文法。
设厂表示对应于词序列矽的可能状态序列S的集合,则有P(O
I∥)=∑P(O,SI∥)=∑P(O
s,形)・P(Sl矽)。
(8)
设
正=1,正=∑∑f州+1,2≤f≤Ⅳ,
u=lv=l
/-1
乃,l=I,I√=乃+∑r咖,2勺≤£f,
表示段的分割点,并假定D={01,02,…,0r)是一个M阶马尔可夫链,则有
PDS陟
≈
PⅣ兀瑚岛兀卢盯兀料
p
巧
岫
I“ITi,j++^k一-MI+l,JJi,Wi)≈
Ⅳ兀汹岛兀芦妒兀料
Ⅸ听
七
。
五T‘,j+女k一-MI+1’sj)。
而式(8)中概翠P(SJ叨的计算如F:
P(S
l∥)=P(s},…,S㈠W1).
、。
。
。
。
’’、,。
。
。
。
一
‰个
户2了—芦
nP(s≯・,J;|s一1,…,s一1,w1)・
1-ItP<?
i,…,si
i=2■:
鬲_—■~琢一
s斗i-I。
,…,s斗i-1。
,Wi-1,wi)・
‘1,1。
rl一1,£P11、
户2了—i彳_
兀P(s≯・,J;IJ川i,…,s/i_1’Wf)]。
(10)
1306中南大学学报(自然科学版)
第39卷
其中:
P(s;,…,s;I、---—-v—--—√、—-—————v—————J
S—I.,…,s工1,Wi)=tt?
冷
rf,1-1+
P(x”+1=s;,fH+1=Fi,』lh=J;一1,“=ff,,一1,wi)≈P(r肘I=f“IXn+l=s;,zH=j;一1,fH=7i,,一1,wJ)・
P(x。
+1=s;Ix。
=s;一l,wi)。
(11)
条件概率P(x¨=s;l_]c。
=3,i_l,wf)可取近似值
P(x州2J,i
x。
2
s,i一1)=as‰《,由马尔可夫族模型的
条件独立性假设,有P(f。
+l:
ff,,Ix。
+l:
J;,x。
:
s;一l,r。
:
『f,卜l,wj):
P(r月+1=7i,,I
Xn+l=sj,fn=fj,/一I,wi)=
P(x月+1=J;,rH=ff,』一1l'n+1=ff,,,wi)P(rn+1=ff,J
wi)
P(x州=sj,Z"n=Fi,/一1IⅥ)
璺垒!
!
三生!
垒:
!
三量:
』:
兰!
璺垒三垒:
』:
!
!
垒!
!
三量:
z:
兰!
璺鱼!
!
三曼』!
兰!
。
P(h+l=0i,"Cn=Fi,』一l
wj)
(12)
由贝叶斯定理,有
P(x¨1=sj
7n+l=Fi,j,wi)=
P(r。
+1=ff,,I
Xn+l=s;,wi)・P(x。
+1=s;I
P(r肿1=Fi,JIWi)
坠丑鼍P(r等1篙W掣刈4,
P(rH=Fi,,一1
l'n+1=ff,J,wf)=
、。
肿=q,,lf)
将式(13)和(14)代入式(12)可得:
P(rn+1=Yi,,f
Xn+1=J;,zIn=l"i,J一1,wi)≈
竺!
!
!
:
!
三:
!
:
!
!
兰!
:
!
三!
i:
!
!
!
:
竺!
!
!
:
!
三:
!
:
!
!
!
!
三!
!
:
!
:
!
:
兰!
。
P(rH+I=7f,Jfw/)
05)
式(10)中的其他参数也可通过类似的计算得到。
条件概率
万方数据
P(r”+1="Ci,/IfH=fj,,一1,Wi)
的计算利用了相邻2个语音单元间的段长相关信息,称这样实现的系统为段长二元概率系统。
当然,也可
利用相邻r个语音单元间的段长相关信息,则相应的系统称为段长r元概率系统。
由于数据稀疏,P(r。
+l=ff,,Ir。
=ff,,一l,Wf)可取近似值P(f川=ff,,lfn=fj,,一1)或用平滑方法得到:
P(rn+1=q,Jlf"=rf,J一1,wf)≈(1一五wj)
P(r肿1
2
l"i,,I
r"2
q,卜1f)+
2w,P(r.+l
2
ff√[Tn-----Ti,j_I,Wi)o
(16)
其中:
兄。
为平滑参数,0<A。
<1;ff.f为状态段长,
但也可以是描写半音节(声母和韵母)或音节的段长。
因此,这里提供的模型和算法具有很大的灵活性。
在经典的HMM语音识别模型中,状态f的驻留概率a;i为常数,系统进入状态i后在该状态连续驻留的时间f即段长服从几何分布【l】:
P(f)=口fF。
f-1(1-aj,j),f≥1。
(17)
实验统计结果表明,经典HMM模型这种段长的
几何分布形式不能很好地描述语音的段长特征。
为此,许多研究者对模型进行改进,将状态段长概率直接引入统计模型中。
常用的段长分布形式有Gamma分布、高斯分布、泊松分布和均匀分布等。
3实验结果
为了验证本文提出的语音识别方法,对连续语音进行试验。
大词汇量连续语音试验所采用的语音数据
是“863”计划提供的男女声各83人的连续语音录音数据。
每个说话人对应一个520句话到650句话不等
的文件,其中9个文件用于识别(慢速,适中语速,快速3类各3个文件),另外74个文件用于训练。
采用的特征[15-171是14维MFCC特征及其一阶差分和二阶
差分,归一化能量及其一阶差分和二阶差分,共45维特征,结果见表1。
第6期
袁里驰:
基于改进的隐马尔科夫模型的语音识别方法1307
表1
非特定人连续语音识别的实验结果
Table1
Experimentalresultsofspeaker-independent
continuousspeechrecognition
模型
替釜黔插全黔删肇黔总繁率
表1中的HMM语音识别实验基于连续的隐Markov模型,利用英国剑桥大学提供的HTK(HMM
Tool
Kit)工具包中编码、训练、识别等相关工具。
从
表1可以看出:
替代错误率从22.83%下降到20.22%,
插入错误率从3.35%下降到2.14%,删除错误率从0.78%下降到0.57%,总错误率从26.96%下降到22.93%,相对下降近15%。
对大词汇量连续语音的试验结果表明:
基于段长分布的马尔可夫族语音识别模型(DDBMFM)克服了传统HMM不合理的独立性假设,对识别性能有明显的改善。
该模型同时对偏离正常语速的语料进行识别时,能自动根据语速对语音单元段长进行调整,从而降低由语速带来的插入错误和删除错误,获得了更精确的分割点,并因此减少了替
代错误,从而提高了系统的性能。
4结论
a.在隐马尔可夫模型的基础上,提出了一种新的统计模型即马尔可夫族模型。
马尔可夫族模型是多重随机过程,而隐马尔可夫模型可看作一个数学上的双重随机过程,因而隐马尔可夫模型可视为马尔可夫族模型的特例。
马尔可夫族模型用条件独立性假设取代隐马尔可夫模型中的独立性假设,从统计学的角度来说,相对条件独立性假设,独立性假设是过强假设,与语音、语言现象也不尽符合。
因而,基于马尔可夫族模型的语音、语言模型比基于隐马尔可夫模型的语音、语言模型更符合语音、语言的实际物理过程。
b.将马尔可夫族模型应用于语音识别,同时在语音识别模型中直接引入状态段长信息。
基于段长的语音识别模型直接从段长出发,说话速度的变化直接反
万方数据
映为段长的变化,能自动根据语速进行语音单元段长的调整。
结果表明,利用状态段长信息的MFM语音识别模型比经典HMM模型的性能明显提高。
C.马尔可夫族模型是一种新的统计模型,有关马尔可夫族模型的理论及其在语音识别和自然语言处理等领域中的应用有待进一步研究。
参考文献:
[1]RabinerL,JuangBH.Fundamentals
of
speechrecognition[M].
New
Jersey:
PrenticeHall,1993.
[2]ChangE,ZHOUJian-lai,SHOUDi,eta1.Largevocabularymandarin
speech
recognition
with
differentapproaches
in
modeling
tones[C]//Proceedings
of
the
6th
International
Conference
on
SpokenLanguage
Processing(ICSLP2000).San
Jose:
IEEEPress,2000:
983—986.[3】
Mitchell
CD,JamiesonLH.Modelingdurationin
a
hidden
Markovmodelwiththeexponentialfamily[C]//Proceedingsof
theIEEEInternational
conference
on
Acoustic,Speech,Signal
Process(ICASSP
1993).
San
Jose:
IEEE
Press,1993
331-334.
【4】ShinodaK,LeeC.A
structural
Bayesapproach
to
speaker
adaptation[J].IEEETransactiononSpeechandAudioProcessing,2001,9(3):
276—287.
[5]Vasehgi
S
VState
duration
modeling
in
hidden
Markov
models[J].JournalofSignalProcessing,1995,41(1):
31-41.[6]LaiWH,ChenSH.Analysisofsyllabicdurationmodelsfor
mandarin
speech[C]//ProceedingsoftheIEEE
International
conference
on
Acoustic,Speech,Signal
Process(ICASSP2002).
SanJose:
IEEEPress,2002:
497—500.
[7]
WANGZuo—ying,XIAOXi.DurationdistributionbasedHMM
speech
recognition
models[J].ChineseJournalofElectronics,
2004,32(1):
46-49.【8】Hon
H
w'WangKS.Unifiedframeandsegmentbasedmodels
forautomaticspeech
reeognition[C]//ProceedingsoftheIEEE
Internationalconference
on
Acoustic,Speech,Signal
Process
(ICASSP2000).SanJose:
IEEEPress,2000:
1017-1020.
【9]
GONG
Yi-fan.Stochastictrajectorymodelingand
sentence
searchingfor
continuousspeech
recognition明.
IEEE
Transactions
on
SpeechAudio