基于二值水印图像的音频篡改检测剖析.docx

资源描述

基于二值水印图像的音频篡改检测剖析.docx

《基于二值水印图像的音频篡改检测剖析.docx》由会员分享，可在线阅读，更多相关《基于二值水印图像的音频篡改检测剖析.docx（27页珍藏版）》请在冰豆网上搜索。

基于二值水印图像的音频篡改检测剖析.docx

基于二值水印图像的音频篡改检测剖析

第二届粤港澳大学生计算机软件应用大赛终期报告

学校：

佛山科学技术学院

项目名称：

基于二值水印图像的音频篡改检测

队伍名称：

Victory

指导教师：

周燕

作品类型：

创新应用类

参赛队成员名单（含个人教育简历）：

刘智丰佛山科学技术学院电子与信息工程学院计算机科学与技术本科生

许德亿佛山科学技术学院电子与信息工程学院计算机科学与技术本科生

基于二值水印图像的音频篡改检测

摘要（中英文）

本作品针对音频内容的完整性和真实性，利用直观的图像作为版权保护水印，利用有序二值序列作为内容认证水印，同时把两种水印嵌入到音频中，以此保证音频的完整性和真实性。

通过提取图像水印，可以直观辨别音频的真实性，当音频被篡改时，提取内容认证水印，与原水印进行匹配，可以检测其篡改类型及篡改位置。

Thisworksforaudiocontentintegrityandauthenticity,withintuitiveandintegrityoftheimageasawatermarkisembeddedintoaudioinaudio,asprotection,andwhentheaudioisdistortedwhencanextractthewatermark,thewatermarkandtheintegrityofthecontentauthenticationwatermarkdetectingtamperingtypeandlocation.

1.引言

随着数字音频处理技术和互联网技术的快速发展,音乐和语音等各种形式的数字音频作品的编辑和传输都变得极其便利,由此也造成了信息篡改的隐蔽性，因此对音频数据的版权保护变得越来越重要。

而在版权保护领域，数字水印是最常见的一种技术。

数字水印技术能鉴定作品的所有权，并进行盗版追踪。

在数字水印技术中，图像水印算法相对比较成熟，而音频水印算法处于起步阶段，理论基础比较薄弱，尚有很多问题需要解决。

因此需要一个安全的音频认证系统来验证音频内容的完整性和真实性。

2.项目创新点

1）本作品算法对原始音频的影响很小，可以很好的保证音频的质量，有极其良好的不可感知性。

2）本作品算法属于盲水印，能在不同的音频中嵌入相同的水印，能独立从水印音频中提取水印，不需要原音频的参与，具有广泛性和通用性。

3）本作品算法同时使用图像和有序二值序列作为音频水印，既可以根据用户需要嵌入不同的图像，也可以准确的定位篡改位置。

4）本作品采用的水印属于脆弱水印，任何轻微的改动，都能准确定位出篡改位置。

3.技术架构与特点

3.1软件相关资料

3.1.1数字水印技术

数字水印技术是基于信息隐藏和伪装思想，将特定的信息（称之为水印）嵌入到待保护的多媒体中（图像、音频、视频、文本等）。

需要时再将水印提取出来作为证据，以鉴定待保护多媒体的所有权和完整性。

数字水印技术已广泛应用在访问控制、信息认证、隐蔽通信、数据库内容注释、数字指纹和广播监控等领域。

音频水印算法众多，根据不同标准可以分为以下几类：

1）1比特水印和多比特水印

由于多比特水印应用范围更广，目前大多数音频水印算法均为多比特水印。

2）非盲检测水印和盲检测水印

非盲检测水印，又称为私有水印，是指提取水印时需要提供原始音频。

而盲检测水印，也称为公有水印，不需要原始音频就能提取水印。

通常，非盲检测水印的性能更好，但盲检测水印有更大的实用价值，如访问控制、隐蔽通信等领域都要求盲提取水印。

3）鲁棒水印和脆弱半脆弱水印

鲁棒水印要求在受到恶意攻击时，水印信息仍然不会被更改、删除。

脆弱水印一旦受到攻击，水印信息将发生变化并能记录下攻击情况。

半脆弱水印则要求对滤波、压缩等常规信号处理具有鲁棒性，同时对裁剪、拼接等恶意编辑具有敏感性。

4）可听水印和不可听水印

根据水印信息是否可听，分为可听水印和不可听水印。

由于可听水印应用范围较小，且与音频合成等研究领域有很大重叠，因此目前对可听水印的研究还很少。

大部分水印算法都属于不可听水印，即对水印不可察觉性要求较高。

3.1.2WAVE文件结构

用.wav作为扩展名的文件格式称为波形文件格式（WAVEFileFormat），它是一种资源交换文件格式（ResourceInterchangeFileFormat，RIFF），RIFF格式是面向部分（chunk）的，一个RIFF文件是由一个或多个部分组成的，其中每一个部分都指向下一个部分。

RIFF文件结构如图1所示：

图1RIFF文件结构

波形文件格式支持存储各种采样频率和样本精度的声音数据，并支持声音数据的压缩。

一个WAVE文件至少包含三个块。

RIFF块是其中最大的，整个WAVE文件就是一个RIFF块。

Cksize紧跟在“RIFF”CKID之后出现，它包含一个值，等于文件的大小减去8个字节，这8个字节用来存储RIFF的CKID和CKSIZE。

第二和第三块称为子块，包含在RIFF块之中。

这些块的第一个块是“fmt”块，包含PCMWAVEFORMAT结构所需要的信息；第二个块“data”紧跟在“fmt”之后，包含所有的波形数据。

RIFF的CKSIZE等于“fmt”块和“data”块所占用的字节之和。

常见的声音文件主要有两种，分别对应于单声道（11.025KHz采样率、8Bit的采样值）和双声道（44.1KHz采样率、16Bit的采样值）。

采样率是指：

声音信号在“模→数”转换过程中单位时间内采样的次数。

采样值是指每一次采样周期内声音模拟信号的积分值。

对于单声道声音文件，采样数据为八位的短整数（short int 00H-FFH）；而对于双声道立体声声音文件，每次采样数据为一个16位的整数（int），高八位和低八位分别代表左右两个声道。

WAVE文件数据块包含以脉冲编码调制（PCM）格式表示的样本。

WAVE文件是由样本组成。

在单声道WAVE文件中，声道0代表左声道，声道1代表右声道。

在多声道WAVE文件中，样本是交替出现的。

WAVE文件说明如表1所示：

表1WAVE文件说明

偏移地址

字节数

数据类型

内容

00H

char

"RIFF"标志

04H

long

文件长度

08H

char

"WAVE"标志

0CH

char

"fmt"标志

10H

过渡字节（不定）

14H

int

格式类别（10H为PCM形式的声音数据）

16H

int

通道数，单声道为1，双声道为2

18H

int

采样率

1CH

long

波形音频数据传送速率，其值为通道数×每秒数据位数×每样本的数据位数／8。

播放软件利用此值可以估计缓冲区的大小。

20H

int

数据块的调整数（按字节算的），其值为通道数×每样本的数据位值／8。

播放软件需要一次处理多个该值大小的字节数据，以便将其值用于缓冲区的调整。

22H

int

表示每个声道中各个样本的数据位数。

如果有多个声道，对每个声道而言，样本大小都一样。

24H

char

数据标记符＂data＂

28H

long

语音数据的长度

PCM数据的存放方式如表2所示：

表2PCM数据存放方式

样本1

样本2

8位单声道

0声道

8位立体声

0声道（左） 1声道（右）

16位单声道

0声道低字节

0声道高字节

1声道低字节

1声道高字节

16位立体声

0声道（左）低字节

0声道（左）高字节

1声道（右）低字节

1声道（右）高字节

8位和16位的PCM波形样本的数据格式如表3所示:

表38位和16位的PCM波形样本的数据格式

样本大小

数据格式

最小值

最大值

8位PCM

unsignedint

225

16位PCM

long

-32767

32766

3.1.3BMP文件结构

1）BMP文件组成

BMP文件由文件头、位图信息头、颜色信息和图形数据四部分组成。

文件头主要包含文件的大小、文件类型、图像数据偏离文件头的长度等信息；位图信息头包含图象的尺寸信息、图像用几个比特数值来表示一个像素、图像是否压缩、图像所用的颜色数等信息。

颜色信息包含图像所用到的颜色表，显示图像时需用到这个颜色表来生成调色板，但如果图像为真彩色，即图像的每个像素用24个比特来表示，则文件中就没有这一块信息，也就不需要操作调色板。

文件中的数据块表示图像相应的像素值，图像的像素值在文件中的存放顺序为从左到右，从下到上，也就是说，在BMP文件中首先存放的是图像的最后一行像素，最后才存储图像的第一行像素，但对于同一行的像素，则是按照从左到右的顺序存储；存储图像的每一行像素值时，如果存储该行像素值所占的字节数为4的倍数，则正常存储，否则，需要在后面补0，凑足4的倍数。

2）BMP文件头

BMP文件头数据结构含有BMP文件的类型、文件大小和位图起始位置等信息。

3）位图信息头

BMP位图信息头数据用于说明位图的尺寸等信息。

4）颜色表

颜色表用于说明位图中的颜色，它有若干个表项，每一个表项是一个RGBQUAD类型的结构，定义一种颜色。

颜色表中RGBQUAD结构数据的个数由BITMAPINFOHEADER中的biBitCount项来确定，当biBitCount=1,4,8时，分别有2,16,256个颜色表项，当biBitCount=24时，图像为真彩色，图像中每个像素的颜色用三个字节表示，分别对应R、G、B值，图像文件没有颜色表项。

位图信息头和颜色表组成位图信息，在RGBQUAD数据结构中，增加了一个保留字段rgbReserved，它不代表任何颜色，必须取固定的值"0"，同时，RGBQUAD结构中定义的颜色值中，红色、绿色和蓝色的排列顺序与一般真彩色图像文件的颜色数据排列顺序恰好相反，即：

若某个位图中的一个像素点的颜色描述为"00，00，ff，00"，则表示该点为红色，而不是蓝色。

5）位图数据

位图数据记录了位图的每一个像素值或该像素对应的颜色表的索引值，图像记录顺序在扫描行内是从左到右,扫描行之间是从下到上。

这种格式又称为Bottom_Up位图，与之相对的还有Up_Down形式的位图，它的记录顺序是从上到下的，对于这种形式的位图，也不存在压缩形式。

位图的一个像素值所占的字节数：

当biBitCount=1时，8个像素占1个字节；当biBitCount=4时，2个像素占1个字节；当biBitCount=8时，1个像素占1个字节；当biBitCount=24时,1个像素占3个字节，此时图像为真彩色图像。

当图像不是真彩色时，图像文件中包含颜色表，位图的数据表示对应像素点在颜色表中相应的索引值，当图像为真彩色时，每一个像素用三个字节表示图像相应像素点彩色值，每个字节分别对应R、G、B分量的值，此时图像文件中没有颜色表。

Windows规定图像文件中一个扫描行所占的字节数必须是4的倍数（即以字为单位）,不足的以0填充，图像文件中一个扫描行所占的字节数计算方法如下：

DataSizePerLine=（biWidth*biBitCount+31）/8；

位图数据的大小按下式计算（不压缩情况下）：

DataSize=DataSizePerLine*biHeight。

3.2音频水印方案分析

由于音频水印尚未成熟，理论基础还比较薄弱，各种水印都尚有很多问题需要解决。

目前多比特水印、不可听水印发展相对比较快，脆弱水印和半脆弱水印也提出了很多算法，但都属于非盲水印，鲁棒水印和非盲水印还十分罕见。

由于每段音频生成的非盲水印都唯一，所以提取时需要原始音频的参与，极大地限制了水印的广泛传播性和通用性。

鲁棒水印是当水印信息受到攻击时仍然不会被更改、删除，这要求水印具有很好的性能，目前只有非盲水印的性能较好。

因此鲁棒水印与盲水印是相互冲突的。

我们对音频水印提出了几点要求：

1、嵌入水印后不影响原音频的质量，要求为不可听水印。

2、水印能提供版权保护功能，要求为多比特水印。

3、水印提取时必须脱离原音频，要求为盲水印。

4、为了更好地实现盲水印，应选择为脆弱水印。

所以我们设计了一个不可听、多比特、脆弱的盲水印。

3.3理论基础

音频属于一维数据集，图片属于二维数据集，原则上毫无关联。

但实际上音频是以帧为单位的数据集合，图片是以点为单位的数据集合。

音频按照不同的频率，每秒有11025帧或44100帧，按照不同位宽，每帧大小为8位或者16位。

按照不同图片格式，每点大小为1位（黑白）、8位（灰度）、16位（彩色）或者24位（真彩色）。

只要通过恰当的分段方式，把音频的每一帧与图片的每一点进行匹配，就能把图片数据隐蔽地收藏到音频帧当中，即实现在音频数据中嵌入图片数据（以下简称嵌入）。

3.3.1分段方式

分段方式

音频数据分段：

如图，按照不同的音频位数与声道数，会有不同的分段方式：

八位单声道采用单字节分段，建立一个字节数组，每次读取八位数据（即一段），连续读取直到文件尾部。

十六位单声道采用双字节分段，建立一个双字数组，每次读取十六位数据（即一段），连续读取直到文件尾部。

八位双声道采用单字节奇字节分段，建立两个字节数组（分别存储左声道，右声道数据），每次先读取八位数据存储到数组一（左声道），再读取八位数据储存到数组二（右声道），左右声道交替读取，直到文件尾部。

由于数组一（左声道）的数据在音频中不是连续，都在奇字节位，所以命名为奇字节分段。

十六位双声道采用双字节奇字节分段，建立两个字节数组（分别存储左声道，右声道数据），每次先读取十六位数据存储到数组一（左声道），再读取十六位数据储存到数组二（右声道），左右声道交替读取，直到文件尾部。

图片水印分段：

不论图片的位数如何，其分段方式相同：

一次性读取图片数据，然后把图片数据的每一位分离，每一位即一段。

3.4软件设计方案

本软件的处理对象是wav格式音频和bmp格式图像，其主要功能是对音频进行图片水印的嵌入，生成水印音频。

对水印音频进行水印提取，生成水印图片。

水印要求作版权保护，能判断音频完整性，精确定位篡改区域。

本软件的设计方案如图3-1。

图3-1软件设计方案

由图3-1可知，软件设计主要分为音频保护、水印提取和音频检测三部分。

视频保护主要是两种水印的嵌入，一是图片水印，既作为版权保护水印也作为完整性水印；二是内容认证水印，定位篡改区域。

水印提取是两种水印的提取；音频检测是根据提取水印，与原始水印进行比对，最后输出检测结果。

此外，为了方便系统性能检测分析，添加了音频播放和结果显示功能。

3.5功能实现

3.5.1嵌入

音频水印的嵌入流程如图3-2所示：

图3-2音频水印嵌入流程

Step1:

读取音频数据并分段。

按照分段方式（见3.3.1分段方式）读取音频数据，然后分段。

Step2:

提取二值水印图像的灰度值并分段。

读取一幅图像（以下以二值图为例），某一二值图像大小为

，将二维二值图像降维，得到一维序列

，降维方法如下：

二位水印图像为：

其中

代表二值水印图像的第i行、第j列像素的灰度值

，图像上的灰度值为1，即表现为白色点，反之灰度值为0，表现为黑色点。

将二维二值图像按

分块，得到二维序列

，降维后得到的一维序列

。

然后进行分段，以每个字节（S=8）为数据段读取，得到图像格式水印。

设每一段含水印的像素总数为S，则

，其中

代表分段后的一维序列的第K段的第l个像素的灰度值。

把图像数据的每个数据段的八位分离，以每一位作为新的数据段形成图像水印序列。

Step3:

计算间距

假设原始数字音频数据总长度为L，每个音频数据段的长度为T，每个音频数据中嵌入水印

的一个像素信息，因此要嵌入全部的

个水印像素信息，原始数字音频数据段的长度T和数据总数L应满足：

。

本软件采用的是：

将水印

平均嵌入原始音频数据段中。

根据音频段数和水印段数，计算嵌入间隔，图片水印帧的间距

（P为水印图像大小）。

其余为非图像水印帧。

Step4：

图像水印嵌入（水印帧水印化）、内容认证水印嵌入。

对于图像水印帧，嵌入图像水印序列。

对于非图像水印帧，嵌入内容认证水印。

（内容认证水印为有序二值序列，有序二值串可通过随机方式生成，本文为了序列更简便，采用全1序列）。

把有序二值数字串顺序嵌入非图像水印帧。

嵌入规则如下：

把水印数据与音频数据比对，规定原始水印数据中1对应偶数，0对应奇数。

水印数据为1，若对应的音频数据为偶数，则音频数据不变；若对应的音频数据为奇数，则使音频数据变成偶数。

水印数据为0时同理。

从而获得一段含有水印音频。

3.5.2提取

音频水印的提取流程如图3-3所示：

图3-3音频水印提取流程

Step1：

读取水印音频。

按照wav格式的类型读取音频数据（仍然以八位单声道的wav文件为例），对音频信号进行分段，以每一字节（即8位）读取音频文件数据。

Step2：

提取图像原始水印序列。

根据音频大小与水印图像大小，重新计算出水印数据的间距（与3.5.1提取step2类似），得出图像水印帧和非图像非水印帧。

对图像水印帧进行原始图像水印序列提取，提取规则如下：

图像水印帧为偶数，提取出的原始水印序列为1，图像水印帧为奇数，提取出的原始水印序列为0。

从而重新得到图像原始水印序列。

Step3：

合成格式图像水印，生成图像文件。

按照图片水印的分段方式（以二值图为例），提取出的连续8个图像原始水印按二进制合成1字节的格式图像水印（八位合成），然后将一维序列升维成二维序列，添加上文件头，生成水印图像。

3.5.3篡改检测定位

音频检测流程如图3-4所示：

图3-4音频检测流程

Step1：

检测图片水印的完整性。

把提取出的图片水印与原水印作逐帧对比，假如水印完好，则原水印与提取水印完全相同，确定为完整结束检测。

非完整时，进入一下步骤。

Step2：

匹配内容认证水印

提取内容认证水印，然后与原内容认证水印匹配。

找出相同的帧与不同帧。

Step3：

分析匹配结果。

情况

：

提取水印与原水印能部分匹配成功，篡改类型属于删除或篡改。

进而进行内容认证水印检测。

若内容认证水印部分丢失，篡改类型属于删除；若内容认证水印部分无序化，篡改类型属于篡改。

情况

：

提取水印与原水印匹配失败。

认为音频是非水印音频或完全被篡改。

Step4：

定位篡改区域，显示结果。

根据不同帧的位置计算篡改区域，绘出篡改区域，并进行篡改结果显示。

4.软件主要功能点列表

4.1界面说明

4.1.1主界面

双击运行软件直接进入如图4-1所示软件主界面。

主界面大体可分为两部分：

图像显示窗口、音频显示及操作窗口。

图4-1主界面

4.1.2图像显示窗口

如图4-2，用于显示原始水印图像和提取水印图像

图4-2图像显示窗口

4.1.3音频显示及操作窗口

如图4-3，用于显示音频波形图与软件操作

图4-3音频显示与操作窗口

各按钮具体功能如表4-4

打开原始音频文件

打开原始水印图片

打开原始水印和原始水印后，把原始水印嵌入到原始音频中，并自动保存。

打开含有水印音频

打开含有水印音频后，从水印音频中提取出水印图片，并自动保存。

提取水印和打开原始水印后，能把提取水印与原始水印对比，并结合内容认证水印，确定篡改区域。

表4-4

4.2功能介绍

4.2.1嵌入水印

1、点击

，选择原始音频，即会绘出音频波形图。

如图4-5

图4-5原始音频区域

2、点击

，选择原始水印，即会显示水印图像。

如图4-6

图4-6原始水印窗口

3、点击

，选择水印音频保存路径，键入水印音频文件名，即会生成水印音频，显示嵌入成功。

如图4-7

图4-7

4.2.2提取水印

1、点击

，选择水印音频，自动绘出音频波形图。

如图4-8

图4-8水印音频区域

2、点击

，选择水印图片保存位置，键入水印图片文件名，即会生成提取出的水印图片，并进行显示。

如图4-9

图4-9提取水印窗口

4.2.3篡改检测

1、首先提取水印，步骤如4.3.2。

若水印音频未被篡改，则水印完整。

如图4-9

若音频被篡改，则水印不完整，出现混沌段。

如图4-10

2、点击

，选择原始水印，即会显示原始水印图像。

如图4-6

3、点击

，若水印音频未被篡改，则显示未发现篡改。

如果4-11

若音频被篡改，即绘出出篡改区域如图4-12a，并把篡改区域的时间在信息栏显示出。

如图4-12b

图4-10篡改后的水印图

图4-11

图4-12a篡改波形区域

图4-12b篡改信息显示栏

4.2.4音频播放

点击

可以播放原始音频或者水印音频，并出现播放随动条。

如图4-13a，图4-12b

图4-13a原始音频及播放随动条

图4-13b水印音频及播放随动条

5.性能测试

5.1系统指标

水印不可察觉性要求水印不能影响音频的听觉质量，属于评价音频水印的性能指标之一。

常见的测量方法有平均观点分（MeanOpinionScore，MOS）和信噪比（SignalNoiseRatio，SNR）。

MOS利用专业人员对测试音频的音质进行评分，一般采用五分制。

MOS评分标准表如下表所示：

分数

音频质量

描述

优质

语音非常清晰，相当于在专业录音棚的录音质量

良

语音自然流畅，相当于长距离PSTN网上的语音质量

中

达到基础通信质量，听起来仍有一定困难

差

语音质量很差，很难理解

无法分辨

语音不清楚，基本已被破坏

虽然MOS能比较精确的反映音质变化情况，但需要经过培训的专业人员才能完成测试，成本高，应用范围有限。

在客观测试中，一般均采用SNR作为水印质量评估标准，SNR值计算方法如式

（1）所示。

（1）

其中

和

分别表示原始音频的第i个样本值和含水印音频的第i个样本值。

IFPI要求嵌入水印后的音频和原始音频之间的SNR值至少不低于20dB。

SNR值只能通过比较样本值的差异来计算音频之间的差异，若待计算的音频采用了压缩格式（如MP3），还需先将待计算的音频文件解压缩成PCM数据。

解压缩过程会对音质造成一定影响。

通过逐个比较并累计样本的差异，SNR能反映两个音频之间细微的变化。

但SNR的计算过程没有结合人类听觉系统的特性，单单依靠SNR值的大小来评估嵌入水印操作对音质的影响，可能会得出错误结论。

例如，若接收音频在起始阶段丢失了k个样本，导致后续所有样本相对于原始音频均提前了k个样本位置。

此时人耳将听不出接收音频和原始音频之间有任何差异，MOS得分也会将近满分，但SNR值却会很低。

因此，在数据仿真环节，我们将采取以SNR值为参考数据，综合使用眼睛对比波形图，以实际听觉效果为最终依据来裁定水印不可察觉性程度。

误码率（BitErrorRate,BER）也是评价音频水印性能的重要指标。

展开阅读全文