基于感知哈希的语音内容认证方法研究.docx

资源描述

基于感知哈希的语音内容认证方法研究.docx

《基于感知哈希的语音内容认证方法研究.docx》由会员分享，可在线阅读，更多相关《基于感知哈希的语音内容认证方法研究.docx（45页珍藏版）》请在冰豆网上搜索。

基于感知哈希的语音内容认证方法研究.docx

基于感知哈希的语音内容认证方法研究

学校代号10731学号102081001002

分类号TP309.7、TN912.3密级公开

硕士学位论文

基于感知哈希的语音内容

认证方法研究

学位申请人姓名邸燕君

培养单位计算机与通信学院

导师姓名及职称张秋余研究员陈海燕副教授

学科专业通信与信息系统

研究方向多媒体信息安全

论文提交日期2013年6月4日

学校代号：

10731

学号：

102081001002

密级：

公开

兰州理工大学硕士学位论文

基于感知哈希的语音内容

认证方法研究

学位申请人姓名：

邸燕君

导师姓名及职称：

张秋余研究员陈海燕副教授

培养单位：

计算机与通信学院

专业名称：

通信与信息系统

论文提交日期：

2013年6月4日

论文答辩日期：

2013年5月29日

答辩委员会主席：

王彩芬

ResearchonContentAuthenticationofSpeechBasedonPerceptualHashing

DIYanjun

B.E.（LanzhouUniversityofTechnology）2010

Athesissubmittedinpartialsatisfactionofthe

Requirementsforthedegreeof

MasterofEngineering

CommunicationandInformationSystem

inthe

GraduateSchool

LanzhouUniversityofTechnology

Supervisor

ResearcherZHANGQiuyu

AssociateProfessorCHENHaiyan

May,2013

兰州理工大学学位论文原创性声明和使用授权说明

原创性声明

本人郑重声明：

所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。

除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。

对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。

本人完全意识到本声明的法律后果由本人承担。

作者签名：

日期：

年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：

学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。

本人授权兰州理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》，并通过网络向社会公众提供信息服务。

作者签名：

日期：

年月日

导师签名：

日期：

年月日

摘要I

AbstractII

插图索引IV

附表索引V

第1章绪论1

1.1课题的研究背景与意义1

1.2语音认证发展现状2

1.3现有语音认证技术与分类3

1.4语音感知哈希国内外研究现状5

1.5现有研究中存在的问题与不足之处6

1.6论文的主要贡献与组织结构安排7

第2章语音认证的感知哈希技术分析9

2.1语音认证概述9

2.1.1语音内容认证的基本原理9

2.1.2语音内容认证的内在模糊性10

2.1.3语音感知内容认证系统的性质11

2.2感知哈希基本理论11

2.2.1感知哈希的定义12

2.2.2感知哈希的性质13

2.2.3感知哈希的分类14

2.2.4感知哈希的应用15

2.2.5感知哈希与相近技术的异同17

2.3感知哈希应用于语音内容认证的意义与研究热点17

2.4本章小结19

第3章可实现篡改定位的高效语音感知哈希内容认证算法20

3.1引言20

3.2语音感知内容认证相关技术21

3.2.1认证特征选择21

3.2.2LSP系数特征21

3.3基于LSP的语音内容认证21

3.3.1预处理22

3.3.2特征提取23

3.3.3哈希构造23

3.3.4哈希匹配23

3.4实验结果与分析24

3.4.1鲁棒性分析25

3.4.2区分性分析26

3.4.3效率分析27

3.4.4篡改定位与攻击类型27

3.5本章小结28

第4章基于MFCC的压缩域语音感知哈希内容认证算法29

4.1引言29

4.2压缩域MDCT系数30

4.3压缩域语音内容认证算法30

4.3.1算法流程30

4.3.2压缩格式下MFCC特征提取30

4.3.3哈希构造33

4.3.4哈希匹配33

4.4试验结果与算法性能分析33

4.4.1鲁棒性分析33

4.4.2区分性分析35

4.4.3效率分析36

4.4.4篡改定位与攻击类型36

4.5本章小结37

总结与展望38

参考文献40

致谢46

附录A攻读硕士学位期间发表的学术论文47

摘要

随着信息技术，网络技术以及多媒体处理技术的飞速发展，语音作为最便捷的多媒体形式之一，在人类交流中发挥了越来越重要的作用。

语音信息的真实性、完整性关乎到各个领域，大到国家安全、社会稳定、法庭取证，小到公民个人利益。

然而，无线网络以及通信信道的开放性，使不法分子对语音数据的窃听、篡改等成为可能，对语音数据的修改、传播更加方便。

因此，语音的安全认证显得尤为重要。

语音认证有其特殊性，语音信息与音乐在信号特点、编码、传输方式以及存储方面有很大的不同。

尽管现有语音通信终端的资源有限，语音对实时性的要求却很高，故语音认证对算法的效率要求更高。

而现有的语音内容认证算法研究中，主要对象为原始语音，计算量大，很容易遭到编码的影响。

针对上述问题，本文致力于保护语音内容的真实性与完整性，基于感知哈希主要研究高效的语音内容认证算法。

感知哈希不光对内容保持操作具有很好的鲁棒性，而且对非法的内容改变具有不错的区分性，也满足单向性、抗碰撞性等安全性要求，已逐渐被用来解决多媒体的认证问题。

针对现有语音内容认证算法效率低，认证粒度无法满足定位精度，不能在资源有限的语音通信终端实时应用的现状，本文提出了一种可实现篡改定位的高效语音内容认证算法。

该算法提取线谱对（LSP）系数为特征，通过系数加权的哈希构造方法减小认证数据量，实现了对语音内容的快速认证。

实验结果表明：

该算法对减小音量、回声、重采样、提高音量等内容保持操作具有鲁棒性，对替换、删除等恶意操作敏感，并可实现精确的篡改定位。

为了快速验证压缩域语音内容完整性，结合人耳听觉感知特性，本文提出了一种基于MFCC的压缩域语音感知哈希内容认证算法。

该算法由压缩域MDCT系数计算MFCC特征参数，经哈希构造得到二进制感知哈希值。

实验结果表明：

该算法较原始语音为输入的内容认证算法鲁棒性和区分性相似，具有更低的数据率，并可实现篡改定位，特别适用于无线通信等资源受限的情况。

关键词：

语音内容认证；压缩域；感知哈希；感知特征；MFCC特征；鲁棒性

Abstract

Withtherapiddevelopmentofinformationtechniques,networktechniquesandmultimediatechniques,speech,asoneofthemostconvenientformofmultimedia,hasplayedanincreasinglyimportantroleincommunication.Theauthenticityandintegrityofspeechinformationrelatestoallfields,uptonationalsecurity,socialstability,thecourtevidence,downtothecitizens'personalinterest.However,becauseoftheopennessofthecommunicationchannelandwirelessnetwork,itmakesthecriminals'eavesdroppingandtamperingtothespeechdata,italsomakesthecopying,modifyingandcommunicationofaudiodatatobemoreconvenient.Therefore,speechsecurityauthenticationisparticularlyimportant.Speechauthenticationhasitsparticularity,theyareverydifferentinthesignalfeatures,encoding,waysoftransmissionandstoragebetweenspeechandmusic.

Theresourceconstraintsofspeechcommunicationterminalandthereal-timerequirements,sospeechauthenticationhashigherrequesttotheefficiencyofalgorithms.Butthemostoftheexistingspeechcontentauthenticationalgorithmsarewithoriginalspeechtobetheinput,havelargeamountofcalculationandeasilybeaffectedbylossycompression.Accordingtotheaboveproblems,thispapermainlystudiesthespeechcontentauthenticationalgorithmbasedonperceptualhashing,workingtoprotecttheauthenticityandintegrityofthespeechcontent.Perceptualhashinghasnotonlyrobustnesstothecontentmaintainoperationbutalsohasdistinctiontothecontenttamperoperation,anditalsomeetsothersecurityrequirements,suchasunidirectional,collisionresistance,ithasgraduallybecomethekeytechnologyofmultimediacontentauthentication.

Inviewofthepresentsituationofthelowefficiency,can'tsatisfythereal-timeapplicationoflimitedresourcesofspeechcommunicationterminaloftheexistingspeechcontentauthenticationalgorithms,thispaperputsforwardaneffectivespeechcontentauthenticationalgorithmbasedonperceptualhashing,whichhasthetamperinglocalizationproperty.Thealgorithmextractedlinearspectralfrequency（LSP）coefficientsastheperceptualfeatures,compressedtheauthenticationdatabythehashingstructureofweightcoefficient,realizedthefastauthenticationtothespeechcontent.Experimentalresultsshowthatthealgorithmhasrobustnesstonarrowbandnoise,echo,resampling,increasethevolumeetal.ofmaintaincontentoperations,itissensitivetoreplace,delete,andothermaliciousoperations,anditcanpreciselylocatethetemperplace.

Inordertoverifythecontentintegrityofcompresseddomainspeechquickly,combinedwithhumanearperceptualfeatures,thispaper,basedoncompresseddomainMFCC,proposedaspeechcontentauthenticationalgorithmofperceptualhashing.TheMFCCfeatureparametersarecalculatedfromcompresseddomainMDCTcoefficients,thebinaryperceptualhashvalueiscalculatedbythehashstructure.Experimentalresultsshowthattheproposedalgorithmunderthepremiseofkeepingtherobustnessanddistinction,withverylowdatarates,italsocanlocatethetamperplace,soitisespeciallysuitableforthelimitedenergy,computingandstorageresources,suchaswirelesscommunicationoccasions.

KeyWords:

speechcontentauthentication;compresseddomain;perceptualhashing;perceptualfeatures;MFCCfeatures;robustness

插图索引

图2.1语音内容认证框图10

图2.2传统哈希函数与感知哈希函数关系图12

图2.3人类和计算机对语音信息的处理过程比较12

图2.4认知各集合相互映射图示13

图2.5音频感知哈希基本流程图14

图2.6图像感知哈希一般提取过程15

图2.7基于感知哈希的多媒体认证框图16

图2.8基于感知哈希的多媒体识别框图16

图2.9基于感知哈希的多媒体检索框图17

图2.10基于感知哈希的语音认证流程图18

图2.11语音感知哈希基本框架图18

图3.1语音内容认证流程22

图3.2感知相同语音、不同语音和篡改语音BER分布曲线25

图3.3不同内容语音哈希BER正态概率图26

图3.4误识率-误拒率曲线27

图3.5多处篡改定位示意图28

图4.1基于压缩域MFCC的感知哈希算法30

图4.2压缩域MFCC计算流程图31

图4.3感知内容相同语音哈希值统计图34

图4.4不同内容语音哈希BER正态概率图35

图4.5误识率-误拒率曲线36

图4.6多处篡改定位示意图37

附表索引

表3.1各种内容保持操作后的认证通过率26

表4.1实验语音段属性33

表4.2各种内容保持操作后的认证通过率34

第1章绪论

1.1课题的研究背景与意义

自古以来，语音一直扮演着人们交流感情、获取信息的最直接和最便捷的工具，随着信息技术的进步，它更是涉及到社会生活的方方面面，借助卫星、电话和网络等各种通讯设施，语音可以被无限的记录、传播与保存。

然而，语音信息在给人类社会生活带来便利的同时，通讯技术的快速发展也给语音的应用带来了各种安全问题。

由于多媒体信息处理技术的发展，尤其在开放的网络应用环境中，很容易获得各种多媒体处理软件（如Photoshop、CoolEditor、GoldWave等），这些软件可以轻易的对语音信息进行窃听、恶意篡改等非法操作。

语音的安全应用关系到诸多的保密信息，某些军事消息的篡改会给国家安全带来无法挽回的损失；金融操作时的身份冒充或语音指令篡改会引发经济纠纷；一些语音记录可能被修改后作为伪造证据进而造成危害[]。

所有这些，小到公民个人隐私，大到国家安全、商业贸易、金融活动和军事情报等信息，都离不开可靠的语音安全系统[,]。

语音内容的真实可靠是语音信息安全中急需解决的一个重要方面。

首先，现有的加密算法不能适应当前所有的应用环境。

在某些领域是不适合加密的，例如在民用电话网络中，每天有大量的数据传输，对所有数据进行加密是不可能的，也不现实，加之若只使用加密技术，一旦在传输过程中出现误码，解密后会出现乱码，无法判断乱码是由于内容篡改引起的，还是由于误码造成的；其次，语音信息等多媒体信息区别于一般的数据信息，其内容具有可感知特性，可由不同的数据形式来表示，一般的内容保持操作只能改变数据的结构，无法改变语音信息的内容本身，对信息的完整性不造成威胁[4]。

所以真正实用的语音内容认证系统应该能够区分内容保持操作与恶意操作，而不仅仅是对语音信息的数据结构进行检验。

如何有效地保护语音内容的完整性、真实性和可用性日益受到人们的关注。

随着我国信息化的不断推进，语音在经济贸易、法庭取证、国防安全等领域中的应用越来越广泛。

语音认证是多媒体信息安全的一个分支，其中涉及到如信息理论、数字信号处理、编码理论、密码学等多学科、多领域的理论与知识。

一方面，语音认证的发展依赖于相关技术的不断进步；另一方面，语音信息的安全为相关领域技术的创新与进步给予了支持。

因此，语音认证技术的发展与相关领域技术的发展息息相关，研究语音认证技术具有重要意义。

语音内容认证侧重于语音内容在传输过程中是否受到恶意干扰与篡改，对于一般的不改变信号意义的处理具有鲁棒性；并且，可以区分轻度的干扰与改变内容的操作，即兼顾鲁棒性与区分性的平衡。

鲁棒性与区分性是一种对立关系，然而对于基于语音内容的认证而言，这两种属性属于对立统一的关系[,]。

感知哈希技术是一种用于多媒体信息安全的新技术，结合人类感知特性，以其出色的鲁棒性、区分性和可靠的安全性等对内容认证有力的特性，引起了各个研究机构的兴趣。

感知哈希提取人类感知特性，对内容无变化的合法操作鲁棒，对恶意操作敏感。

将感知哈希技术用于语音内容认证，可实现对内容保持操作的鲁棒性与对非法操作区分性的合理平衡，提取人类听觉感知特性，克服了水印认证方法中水印信息对待测语音的影响。

因此将感知哈希技术用于语音内容认证的研究符合人类感知特性，符合本课题研究目标。

综上所述，语音信息的真实完整性是语音安全应用中必不可少的重点之一。

语音信息中片段的替换、合成将对新闻报道的可信度和媒体的公信力造成严重威胁，而对作为军事情报的语音内容完整性鉴别，更是关系到国家安危，意义重大[1,]。

对一段语音改变其语义的方法很简单，重新排列或剪切都能达到，而只靠人的感官来检验语音内容是不可信的。

因此，利用感知哈希的优越性研究语音认证问题，有利于解决多媒体信息的安全问题。

1.2语音认证发展现状

多媒体内容认证技术源于密码学中的信息认证技术，是一种新颖的信息安全技术，用于验证多媒体数字信息内容的真实性，以及来源的合法性[]。

图像认证技术的研究比其它媒介成熟，已有大量的文献发表，语音内容认证的研究处于起步阶段。

语音作为一种重要的多媒体信息，其内容认证的研究逐渐受到国内外学者的重视。

国外对于语音内容认证的研究起步早于国内，见参考文献[~~/]。

Wu提出了针对G.723.1语音编码的语音内容认证方法[~~//]。

传统的认证技术主要针对文本认证或身份认证，目前相对比较成熟。

传统的文本认证不同于多媒体感知认证，由于文本信息的紧凑性，它的认证方案是将所有的信息视为二进制数据，不容许任何数据结构上的变化，将所有的二进制数据当作比特流来产生消息认证码，没有考虑到多媒体信息数据量大，冗余性高的特殊性。

文本认证过程对所有二进制流进行相同的计算，认证函数大致可以有三种：

散列函数、消息加密函数和消息认证码。

多媒体信息不同于普通的文本信息，人们将文本信息看作一个整体，不容许任何操作，而多媒体信息的表达方式多样，数据量多具有冗余性，对它的要求是听觉或视觉上的完整性。

因此，传统的认证方法已不再适合多媒体信息的认证。

文献[]针对传统认证算法不适用语音通讯的现状，提出了一种基于人耳感知特性的认证算法。

算法先将语音分为清浊音，滤掉对认证意义不大的清音，提取语音信息的浊音部分，并基于人类听觉感知原理提出一种新颖的特征提取算法，首先计算改进的梅尔倒谱系数，然后用RM-EPN编码消除误差，最后使用彩虹算法对序列进行签名。

实验证明：

该算法能够用较少的资源实现语音的实时处理。

由于语音通信技术的快速发展，不断涌现了对于金融贸易、军事指令、秘密通讯等语音内容认证的迫切需求，各研究机构开始重视语音内容认证的研究，已经有一些针对语音内容认证算法及与语音内容认证相关的多媒体认证系统的项目立项。

目前，国内研究语音内容认证的机构主要有中国科学技术大学，西南交通大学，哈尔滨工业大学，南京理工大学，复旦大学，上海大学，东南大学，齐齐哈尔大学等。

但是目前为止，发表在国内期刊上的相关方面的文章还很少。

文献[]提出了一种感知域的鲁棒性语音感知认证算法，将语音的感知特性与签名算法相结合，算法基于人耳感知特性，语音的掩蔽效应和非线性效应，去除时频域掩蔽阈值下的冗余信息，进行非线性滤波后提取感知参数，并运用改进的Rainbow算法对语音参数进行签名，具有较高的效率；文献[]利用频域统计特征，提出了一种基于指纹的高效音频认证算法；文献[]为解决从多种合法操作中区别恶意篡改操作的问题，基于分布式信源编码提出一种后向兼容的音频认证方法；Wu[12]等人提出了一种基于音频特征的数字签名算法

展开阅读全文