语音识别在公安工作中的应用.docx

资源描述

语音识别在公安工作中的应用.docx

《语音识别在公安工作中的应用.docx》由会员分享，可在线阅读，更多相关《语音识别在公安工作中的应用.docx（14页珍藏版）》请在冰豆网上搜索。

语音识别在公安工作中的应用.docx

语音识别在公安工作中的应用

中国人民公安大学（自然科学版）

2007年第4期N042007JournalofChinesePeople'sPublic§!

堡!

（）垂箜塑璺

语音识别在公安工作中的应用

于瑞华

（中国人民公安大学安全防范系,北京102600）

摘要语音识别是根据语音波形中反映说话人生理,心理和行为的语音特征参数识别说话人身

份.由于其独特的技术优势,语音识别技术在公共安全领域得到越来越广泛应用,为公安部门有

效预防犯罪和快速侦查破案,提高工作水平和工作效率提供支持和帮助.随着技术的发展,语音

识别必将成为科技强警的重要手段之一.

关键词语音识别;公安应用;声纹特征

中图分类号D631

0引言

语音识别是根据语音波形中反映说话人生理,

心理和行为的语音特征参数识别说话人身份.它涉

及多学科的知识和经验,如信号处理,计算机科学,

通信,语言学,生理学,心理学,模式识别等.语

音识别属于一种行为特征识别方式,对语音识别技

术的研究从20世纪50年代到现在一直非常活跃,

随着技术的发展和不断成熟,语音识别必将在公安,

司法及生产过程的自动控制等方面得到广泛应用.

1语音识别的原理和方法

1.1语音识别的可行性

语音是由人的发声器官所产生的,其产生过程

是声带振动产生声带音,声带音经过调制（传输

共鸣）,最后由嘴唇辐射出去.由声带产生声源,

声带的长短,宽窄,厚薄决定了语音音调的高低.

人类语音特征与发声人的发音器官,大脑神经

的生理特性,心理素质,心理状态和发声人所生活

的言语环境,社会规范密切相关,并且具有相对稳

定性和唯一性.稳定性是指人的语音特征在一生中

虽然是变化的,但是在一段时期内,特别是生理和

作者简介于瑞华（1965一）,女,天津人,副教授.

96?

心理成熟以后的相当长的时期内具有相对稳定性.

唯一性是指它因人发声器官的生理构造及说话时的

配合习惯,心理素质,言语水平不同而具有个体特

殊性.这些都说明根据语音来识别具体的说话人是

可行的,这就是语音识别的前提和基本依据.

1.2语音识别的分类

根据不同的标准,可以把语音识别分为不同的

类型.从对语音的要求上,分为与文本无关的语音

识别和与文本相关的语音识别.与文本无关的语音

识别指语音不要求特定的语言和内容,而且探测到

的语音与测试语料之间也不要求一致;与文本有关

的语音识别指探测到的语音应与测试语料相一致.

按照应用方式,分为语料分析,说话人辨认和说话

人识别.语料分析,是根据某一具体的语料的特点

和内容,通过对方言,音调,词汇,语法,口头语

等进行直接分析来确定其说话人的性别,年龄,地

域,文化水平,职业,身高,体态等身份信息,是

一

种一对一的识别;说话人辨认,是在众多的语料

中判断是否含有与已获取的特定说话人的原始语音

材料相同的,发现后将其查找出来,以确定原始语

音的说话人身份,是一种多对一的识别;说话人识

别,是将获取的某一说话人的语料与数据库中已有

于瑞华:

语音识别在公安工作中的应用

的众多语料进行比对,以确认此说话人的身份,是

一

种一对多的识别.

1.3语音识别系统的基本原理

语音识别是一种多维模式的识别系统,一个完

整的语音识别系统包括语音材料获取,声纹特征提

取,语音模式匹配三个部分.

1.3.1语音材料的获取

原始语音材料的获取是进行语音识别的首要问

题,这就需要语音记录,传输和存储等方面的技术

和设备来支持.声音经过记录,存储,传输到声音

播出时的质量常常只能达到记录时采样频率的一

半,因此须采取双倍采样率才能将原音准确重现.

由于人说话的语音频率大约为10KHz,在一般的语

音识别系统中,对此频率加倍采样,采样频率达到

22KHz即可.虽然采样率越高,所记录下来的音质

就越清晰,但同时采样所记录下来的数据所需的存

储空问就会越大.

1.3.2声纹特征提取

声纹特征提取即提取声音信号中所表征的说话

人的基本特征,该特征能有效地区分不同的说话

人,且对同一说话人的变化保持相对稳定.说话人

特征大体归为以下几类:

（1）基音轮廓,共振峰频率带宽及其轨迹.

这是基于发声器官生理结构的特征参数.

（2）谱包络参数.声音通过滤波器组输出,

以适当的频率对输出抽样,作为声纹特征参数.

（3）听觉特性参数.这是模拟人耳对声音频

率感知特性而提出的,如感知线性预测等.人耳朵

所能听到的频率范围约在20～20000Hz之间,能听

到的最低声强约为10W/m,可见人耳对声音的

接收本领是非常强的.

（4）线性预测系数.线性预测与声道参数模

型相符合,将它导出的各种参数,如反射系数,自

相关系数,线性预测系数等作为识别特征.

1.3.3语音模式匹配

（1）矢量量化.以量化产生的失真度作为判

决标准,识别精度较高,判断速度较快.

（2）概率统计.因为短时问内语音信息相对

平稳,通过对稳态特征参数统计分析,利用均值,

方差等统计量和概率密度函数进行判决.其优点是

不用对特征参量在时域上进行规整,适合文本无关

的说话人识别.

（3）动态时间规整.说话人声音信息既有稳

定的因素如发声习惯,发声器官结构,又有时变的

因素如语速,语调,重音,韵律等.常用基于最近

邻原则的动态时问规整来判断特征的相似程度.

（4）人工神经网络.这种分布式并行处理结

构的网络模型在某种程度上模拟生物感知特性,具

有自组织和自学习能力,很强的复杂分类边界区分

能力及对不完全信息的鲁棒性,其性能近似理想的

分类器.

（5）隐马尔可夫模型.这种基于转移概率和

传输概率的随机模型,最早被美国的IBM公司用

于声音识别.它把声音看成由可观察到的符号序列

组成的随机过程,该序列是发声系统状态序列的输

出.识别时,为每个说话人建立发声模型,通过训

练得到状态转移概率矩阵和符号输出概率矩阵.具

体应用时,计算未知声音在状态转移过程中最大概

率,根据最大概率对应的模型进行判决.它不需时

问规整,可节约判决的计算时间和存储量.这是目

前广泛采用的一种语音识别技术.

1.4语音识别的优缺点

和其他生物识别技术相比较,语音识别既有许

多特有的优点,也有自己的不足之处.语音识别的

优点:

（1）便于采集

由于语音传播所需条件简单,记录,存储和传

输技术成熟,设备轻巧且使用方便,所以语音的采

集非常容易实现.而且语音识别是非接触式的,对

被采集对象没有过多的特殊要求.

（2）实时处理能力强

语音识别系统的处理速度相对较快,做出响应

的时间比较短,一般最短的可以在250ms内做出

响应,实时处理能力强,能够保证系统的持续工作

和识别的延续进行.

（3）应用范围广

语音识别除了可以用在公安,司法等部门外,

在生产过程的自动控制,商务或办公系统中产品和

文件的加密,电信和医疗设备的检测评价等方面也

得到广泛应用.

语音识别的缺点:

（1）区分度差,误识率高

具有唯一性的语音特征提取起来比较困难,而

且稳定性相对较低,造成系统误识率较高.

（2）变异性较大,易受环境影响

由于生病,伪装,不同的说话速度等原因,使

得语音信号本身有较大的变异性.同时,在环境比

较嘈杂,杂音较大时,语音会受到背景噪声的干

97?

于瑞华:

语音识别在公安工作中的应用

扰,使得信噪比下降,特征提取难度增加.

（3）保密性不好

语音识别可以不依赖于活体目标,对于采用高

保真录音,再利用他人原声录音进行回放,系统判

断起来比较困难,尤其是在基于语音识别技术的出

人口控制系统中,如果没有其他复核手段,容易造

成误判.

2语音识别在公安工作中的应用

2.1历史背景和现状

由于语音的可行性,可用性,并且具有诸多优

点,在国外,电子监听技术很早就作为安全部门侦

查破案的技术手段而被采用.世界上最早将语音识

别技术用于安全工作是1963年4月发生在东京的拐

卖幼儿案中.该案唯一的线索就是犯罪嫌疑人打电

话威胁的声音.声纹专家通过对其语音材料的分析,

推断出犯罪嫌疑人年龄,职业,出生地,为发现嫌

疑人提供了极有价值的线索.初步确定犯罪嫌疑人

后,办案人员秘密获取了嫌疑人的语音材料,并将

电话录音和嫌疑人的声纹进行比对,参加声纹鉴定

的专家们一致对两次录音做出同一认定的结论,办

案人员据此成功侦破了这桩轰动一时的案件.

但是,公安机关作为执法部门和打击犯罪的刑

事司法力量,其行为应首先符合法律的规定.语音

识别要在公安工作中得到合法而有效的应用,并为

诉讼和审判提供证据,必须得到相关法律的支持.

1968年,美国制定了《综合控制犯罪和街道安全

法》,允许办案警察对特定的严重犯罪进行监听.

英国,日本等国家也先后制定了《通讯截获法》,

《电子监听法》等法律法规,允许警察和情报部门

对某些嫌疑人实施监听.1971年,美国首次公开

认可声纹鉴定结论可以作为证据使用.

在我国,《人民警察法》第十六条规定:

"公

安机关因侦查犯罪的需要,根据国家有关规定,经

过严格的批准手续,可以采取技术侦察措施".

《中华人民共和国国家安全法》第十条规定:

"国

家安全机关因侦查危害国家安全行为的需要,根据

国家有关部门的规定.经过严格的批准手续,可以

采取技术侦察措施".在上述两法中规定的"技术

侦查措施"包括电子监听,秘密拍照或录像,秘

密获取某些物证,邮件检查等秘密的技术手段.这

是我国公安机关采取电子监听措施的法律依据.

尽管国内对这项技术一直存在着质疑甚至否定,

但是,目前语音识别技术作为一种有效的手段在公

98?

安和司法部门已经得到比较广泛的应用,声纹鉴定

结论也作为初始证据在刑事诉讼中获得认可.公安

机关如果能掌握和利用好这项技术,合理地把它用

到公安警务工作的各个方面,必然能使其为提高工

作效率和增强公安实战能力做出更大的贡献.

2.2语音识别在侦查工作中的应用

某些案件中,在受案和侦查的初始阶段,公安

机关所能掌握的线索可能只有一段录音.例如绑架

案和敲诈案,犯罪嫌疑人往往通过电话来作案,其

语音就成了唯一的线索.而提取嫌疑人的语音特

征,通过语音识别和说话内容分析,对说话人身份

进行判断,是侦查工作的重要突破口.

1996年河北省发生一起绑架杀人案,警方所

能利用的只有一盘由录音电话录制的录音带,被绑

架者家属称其无任何仇人,也没有怀疑目标.而录

音里嫌疑人使用的是普通话,家属听着比较陌生.

面对这种情况,办案人员委托有关的声纹鉴定专家

对该录音进行了分析.专家们经过认真,反复的声

音辨听,发现嫌疑人普通话的语音里有三处山西方

言成分,并通过对该语音音色和用词情况的分析推

断,做出如下认定:

打电话的嫌疑人是一男性,从

小生活在山西,后在北京生活过较长一段时间,有

初中以上文化程度,年龄在26～29岁之间,身高

1.75米左右.侦查人员根据这一结论,迅速展开

调查,终于发现了犯罪嫌疑人,并追踪破获了一个

绑架勒索杀人的犯罪团伙.

2.3语音识别在抓捕中的应用

抓捕是公安机关在侦破案件中危险最大的一个

环节,也是比较辛苦和耗费时间的.在线索不多,

对犯罪嫌疑人情况了解不足的情况下,容易发生危

险或者是抓错人.将语音识别用在公安机关的抓捕

过程中,可以很好地解决这些难题.

在进入抓捕现场前,先通过技术监听设备实现

对犯罪嫌疑人所藏匿的房间进行监听,并进行语音

识别,确认是不是要抓捕的犯罪嫌疑人,并初步判

断房间内人员数量,类型,所处状态和拥有武器情

况,以便制定正确的抓捕方案,合理布置警力,变

被动为主动,减少不必要的伤亡和损失.

在有些案件中,犯罪分子在某处作案后往往未

被及时抓获,可能潜逃并流窜到其他地点再行作

案.而如果犯罪分子在作案前后留有录音,我们就

町以提取其留下的语音信息,并发到全国各地的公

安机关,由民警携带存有犯罪分子语音信息并能自

动识别的仪器,在犯罪分子可能出现的地方守候或

于瑞华:

语音识别在公安Z-作中的应用

者安置在其最有可能出现的场所.如果犯罪分子出

现并发出声音时,仪器捕捉其语音并通过与已有的

信息进行比对,确认是要抓捕的犯罪嫌疑人后,民

警可以及时将其抓获.

在通过接群众举报或其他方式抓获犯罪嫌疑人

但无法确认时,还可以用语音识别来确认其身份.

在震惊全国的马加爵特大杀人案件中,通缉令在全

国范围的公开发布,加上25万元的奖励,除了急

于破案的公安民警外,还有众多的目光在搜寻着马

加爵.在抓到他之前,先后在云南昆明,江西萍

乡,浙江宁波,四川宜宾,甘肃陇西,山西太原,

辽宁风城,广西钦州等地有人举报发现有与马加爵

体貌特征相同的人.甚至有故意冒用马加爵姓名的

不良青年在网上出现过.真正的马加爵在三亚被抓

获时,已是灰头土脸,衣衫褴褛,多Et饥饿和精神

紧张令他明显比通缉令上瘦弱.民警从他身上搜出

了几盘磁带,录音内容与杀人案有关.为了确认抓

获人的身份,昆明市人民检察院还委托鉴定水平位

于全国前列的深圳市检察院对录音带进行鉴定.经

语音辨听和声谱分析,鉴定方最后认定抓获的嫌疑

人就是马加爵.

2.4语音识别在取证中的应用

录音作为视听资料的一种,是《民事诉讼法》

规定的七种法定证据形式之一.语音识别和语音资

料的司法鉴定,除了可以用在上面提到的绑架案,

敲诈案中外,在诬告陷害,威胁恐吓,诽谤谩骂骚

扰他人的案件中,还有贪污,行贿,受贿案件,经

济交往中的钱物,财产纠纷案,以及谎报火警,匪

警等恶意扰乱机关办公秩序的案件中,也是重要的

取证手段.这些都可以利用语音识别来协助破案.

2000年4月8日,河北省某市发生一起绑架

案.事主张明的儿子被绑架.绑匪打来匿名电话,

让事主马上准备20万元,第二天晚上8点送到某

路口的圆盘下面,并且强调要按时送到,不准报

案,否则就撕票.办案民警对其家中的电话进行了

技术监听,在绑匪再次打电话时进行了录音.通过

对录音进行分析,确定了一个嫌疑对象何方华,并

将其传唤到案,经过8个多小时讯问,何方华始终

没有承认打过电话,更不承认已经撕票的行为.最

后,民警将匿名电话录音和传讯录音送到声纹鉴定

部门,经过专家的听辨和用仪器进行声谱分析,电

话录音和传讯录音中相同字词在共振峰模式,基

频,振幅,音强等特征参量上符合较好,反映了同

一

个人的语音特征,认定何方华就是打电话的人.

面对强有力的证据,犯罪嫌疑人何方华的心理防线

被彻底摧毁,终于低头认罪并坦白交待了自己绑架

杀人的全部罪行.

2.5语音识别在执行取保候审,监视居住等强制

措施中的应用

根据《中华人民共和国刑事诉讼法》第五十

条至五十八条之有关规定,公安机关可对某些犯罪

嫌疑人采取取保候审或监视居住的强制措施.但要

求犯罪嫌疑人不得离开一定的区域,公安机关要对

其行为进行监控.而由于公安机关严重的警力不

足,如果办案民警每天到现场对这些被采取强制措

施的犯罪嫌疑人进行察看,无疑会加重民警的工作

负担.如果将语音识别技术应用在对犯罪嫌疑人的

监控中,将会极大地减轻民警的工作负担并提高工

作效率.可以通过对犯罪分子住处的声音进行监听

判断犯罪分子的活动情况,通过要求犯罪分子使用

某一地点的固定电话与民警进行通话并对其身份进

行识别和判断,确定犯罪嫌疑人是否一直处在法律

规定的区域内.

3结语

由于语音识别系统的应用环境非常复杂,造成

训练环境与识别环境不能完全一致,使得在实验环

境下的效果与实际应用场合的效果往往会有较大差

距,从而限制了语音识别技术的应用范围.然而,

语音识别技术的优势是不可否认也不容忽视的.随

着相关技术和设备的改进,语音识别的准确率和有

效性将不断得到提高,其应用范围将更为广泛.语

音识别技术在公安工作中的广泛应用,必将为公安

部门有效预防犯罪和快速侦查破案,提高工作水平

和工作效率提供支持和帮助,并成为科技强警的重

要手段之～

参考文献

1.张战海,张铎.现代自动识别技术与应用[M].北京:

清华大学出版社,2003.

2.陈方,高升.语音识别技术及发展[j].电信科学,

1996（12）.

3.杨大利,徐明星,吴文虎.语音识别特征参数选择方法

研究[J].计算机研究与发展,2003（7）.

4.聂敏.语音识别技术及关键技术[J].微波与卫星通

信,1999（4）.

（责任编辑陈晓明）

99?

展开阅读全文