基于内容的视频拷贝检测文档.docx

上传人:b****8 文档编号:30621296 上传时间:2023-08-18 格式:DOCX 页数:11 大小:770.65KB
下载 相关 举报
基于内容的视频拷贝检测文档.docx_第1页
第1页 / 共11页
基于内容的视频拷贝检测文档.docx_第2页
第2页 / 共11页
基于内容的视频拷贝检测文档.docx_第3页
第3页 / 共11页
基于内容的视频拷贝检测文档.docx_第4页
第4页 / 共11页
基于内容的视频拷贝检测文档.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

基于内容的视频拷贝检测文档.docx

《基于内容的视频拷贝检测文档.docx》由会员分享,可在线阅读,更多相关《基于内容的视频拷贝检测文档.docx(11页珍藏版)》请在冰豆网上搜索。

基于内容的视频拷贝检测文档.docx

基于内容的视频拷贝检测文档

基于内容的视频拷贝检测技术

牛晓14050019

一、背景

随着互联网技术和多媒体技术的飞速发展,人们获取信息的途径也从单一依靠传统的纸质文本发展到现在多元化的电子文档、图像、音频和视频,网络用户每天都会上传数量惊人的图像、音频、视频到互联网上。

视频具有直接生动的特点并涵盖了比图像和音频更丰富的内容信息,从而成为了目前人们最热衷的信息获取途径。

人们可以通过一些数字视频处理工具对视频进行编辑和修改并产生一些拷贝视频。

这些拷贝视频发布到互联网上之后,会导致用户在进行视频搜索时得到很多内容相似甚至相同的视频,这不仅会极大的降低检索的效率,同时也可能侵犯了版权人的合法权益。

因而如何从网络上大量的视频中准确地检索出拷贝视频已经成为目前数字版权保护领域急需解决的难题。

为了解决上述难题,基于内容的视频拷贝检测技术(CBCD)成为目前研究的热点。

二、概念描述

视频拷贝的定义:

一个视频或者其片段在经过某些编辑处理后,得到的内容相同但视觉外观(如亮度、格式)不完全一致的同源视频版本。

拷贝视频的主要内容和原始视频大体相同,但仍有一些内容或格式上的差别,主要的视频拷贝处理方法有如下几种:

1.视频格式的变化:

对原始视频的存储格式进行更改以满足不同的需要,主要的视频格式有MPEG、AVI、WMV、RM等。

2.对位率、帧率、帧大小进行处理:

对原始视频进行重新压缩,得到了改变质量效果的拷贝视频。

3.空间域操作:

对原始视频的内容进行处理,常用的有加入噪声、改变对比度、剪切、翻转、加入边框、加入字幕、插入画中画等处理。

图1给出了一些基于空间域拷贝处理的例子。

4.时间域操作:

对原始视频中图像帧按时间顺序进行处理,常用的有按时间顺序翻转、丢帧、插帧等。

图1视频拷贝处理的例子

视频拷贝检测的定义:

给定一个查询视频和已知的大规模源视频数据库,拷贝检测指的是通过将查询视频的特征与库中视频做匹配,判断此查询视频是否包含数据库中的某个源视频的内容,即判断查询视频是否是库中某源视频的拷贝。

三、体系框架

一个典型的基于内容的视频拷贝检测系统由四个模块组成:

参考视频库特征提取,查询视频特征提取,特征匹配,拷贝结果判决。

1.参考视频库特征提取:

首先对参考视频进行特征提取,提取出可以表示该视频内容信息的特征序列,并将其保存到参考特征库中;

2.查询视频特征提取:

对于一个查询视频,采用与参考视频特征相同的特征提取方法提取特征序列;

3.特征匹配:

计算查询视频特征序列与参考视频特征序列之间的距离或两者之间的相似度;

4.拷贝结果判决:

将査询视频和参考视频特征序列之间的距离或相似度与某个事先设定的域值进行比较,通过比较结果来判断查询视频是否是参考视频的拷贝视频。

由于视频中图像的数量过于庞大,对每一帧图像都进行特征提取和特征匹配是不切实际的,因而目前基于内容的视频拷贝检测系统都选取视频中一部分图像进行处理。

视频是由一系列镜头所组成,同一镜头内的图像内容相近,因而可以从这些图像中选择具有代表性的一帧或几帧作为该镜头的关键帧。

目前基于关键帧的视频拷贝检测系统的框架一般可以分成四个部分:

镜头分割、关键帧提取、特征提取、特征匹配,如图2所示:

图2基于内容的视频拷贝检测系统的一般框架图

检测系统首先对查询视频和参考视频进行镜头分割和关键帧提取,然后对关键帧进行特征提取,最后对特征序列进行匹配从而判定拷贝结果。

四、镜头分割技术

镜头分割技术首先检测出视频内容发生明显变化的帧位置,然后根据内容变化的位置将视频分割为不同的镜头。

基本方法是首先从视频的每帧图像中提取出某种特征,接着比较相邻两帧之间特征值的相似度,最后将两帧之间的相似度与阈值进行比较。

若相似度小于该阈值,则认为该相邻两帧属于两个不同的镜头,并认为该处镜头边界为镜头切变点;反之则认为此相邻两帧属于同一个镜头。

下面是几种常用的镜头分割技术:

1.像素比较法:

主要是对视频帧图像底层进行处理,包括灰度值、亮度值或颜色值。

其计算复杂度较低,原理是计算相邻两帧之间对应像素的灰度(亮度)的变化情况来判断是否发生镜头变换。

若相邻两帧的距离大于某一设定阈值,则判定镜头发生切换。

该方法优点是原理简单、便于实现,缺点是对于摄像机及镜头内运动物体、光线条件的剧烈变化比较敏感,容易出现误检。

2.块匹配似然比法:

块匹配似然比法利用图像的局部特性降低了对物体和摄像机运动的敏感性,增强了其鲁棒性。

首先将图像分成N个子块,然后计算第n帧和第n+1帧对应块的相似比S,首先计算所有子块的相似比,然后统计出相似比大于域值T的块数。

若发生变化的块数多于事先设置的阈值,则认为这两帧之间发生切换。

相对于像素比较法,这种方法优点是对两帧之间小物体的缓慢运动鲁棒性较强,缺点是由于计算公式的复杂性,使得它的计算量变的非常大,且对复杂场景的分割效果不佳。

3.直方图比较法:

使用较多的是颜色直方图法,颜色直方图包括亮度、灰度、颜色域的直方图。

灰度直方图法把灰度空间分为若干个区间,计算图像中灰度值落在对应各区间的像素的个数作为该帧的灰度直方图。

基于直方图的镜头分割算法无需考虑像素的位置信息,而使用其亮度值、灰度值或颜色值的统计信息,相对于像素比较法鲁棒性较强,缺点是会对内容不同但直方图很相似的两帧造成漏检,并且在光线变化比较剧烈的情况容易出现误检。

4.基于压缩域的镜头分割技术:

目前大部分视频都是以MPEG格式压缩存储的,常规的镜头分割技术要先对视频进行解码才能进行镜头分割,而视频解码需要大量的运算时间和存储空间,因而基于压缩域的镜头分割技术应运而生。

目前基于压缩域的镜头分割技术一般釆用基于DCT系数进行镜头分割,该类方法首先比较视频中相邻I帧图像的DCT系数的相似度,然后将其与阈值进行比较,若相似度小于阈值,则判定发生了镜头变换。

基于压缩域的镜头分割方法可以有效地应对镜头切变,但面对复杂的镜头渐变时,非压缩域的分割方法要优于压缩域的分割方法。

5.基于聚类的镜头分割方法:

首先在相距较远的帧图像之间进行粗聚类,检测出镜头突变的大致位置,然后再进行逐帧细聚类,可以精确地检测出镜头突变的位置。

6.基于边缘轮廓变化率的镜头分割:

此方法的主要思想是通过计算边界的变化程度来确定镜头的边界,当发生镜头变换时,前一镜头中旧的边缘会消失,后一镜头中新的边缘会出现。

具体算法为首先用Canny算子对图像进行边缘化处理,其次计算出相邻两帧间的总体位移,以此进行配准,最后统计边缘的数量和位置。

帧差是由边缘发生变化的比例来表示,即边缘从一帧到另一帧移进和移出的比例。

但是由于该方法是先边缘化再进行配准,最后才进行边缘比较,因此本方法可以有效检测运动物体。

五、关键帧提取技术

连续的视频帧之间存在大量的冗余信息,在视频库中视频帧的数量急剧增长的情况下,对每一帧都提取特征并进行相似度比较需要的运算时间太长。

因而在镜头分割之后要对镜头提取关键帧(KeyFrame)。

关键帧是指可以表示一个镜头内容的一个或多个帧图像,关键帧提取的方法一般有如下几种:

1.基于镜头边界的提取方法:

基于镜头边界的提取关键帧方法选择固定位置的帧作为镜头的关键帧,例如第一帧、中间帧、最后一帧或者相隔固定帧数采样一帧。

这种方法操作简单,计算复杂度低,适用于内容变化较小或者保持不变的镜头。

但在实际应用中,由于不同的镜头其视觉内容的复杂度也不同,因而对长度和内容不同的镜头都提取相同位置、相同数量的关键帧是不合理的。

并且如果之前的镜头分割步骤出现误差,那基于镜头边界提取出的关键帧也会出现误差。

2.像素值平均法:

像素值平均法首先计算出镜头内所有帧在某个位置像素值的平均值,然后选取镜头内该位置像素值最接近平均值的那一帧作为该镜头的关键帧。

这种方法所选取的关键帧可以有效表示镜头内的平均内容,但当镜头内存在多个运动物体时会出现误差。

3.直方图平均法:

直方图平均法首先计算出镜头内所有帧的灰度直方图,然后计算出这些直方图的平均值直方图,最后选取直方图与该平均值直方图相似度最大的帧作为关键帧。

4.基于聚类的方法:

基于聚类的提取方法首先根据视频中每帧图像的特征确定出一个初始的类心,然后计算每一帧特征与类心的相似度,从而判断是将该帧分到该类还是设置为新的类心;在将一个镜头内所有帧分类之后,取各类中与类心相似度最大的帧作为关键帧。

基于聚类的关键帧提取技术可以有效地消除镜头内图像帧之间内容的相关性,但丢失了镜头内图像帧之间的时间信息。

5.基于运动矢量的方法。

Wolf首先对光流场(图像中所有像素点构成的一种二维瞬时速度场,其中二维速度矢量是景物中可见点的三维速度矢量在成像表面的投影,所以光流不仅包含了被观察物体的运动信息,而且还包含有关景物三维结构的丰富信息)进行分析,然后计算镜头内的运动矢量,选择运动矢量局部最小值处的帧图像作为关键帧。

基于运动矢量的方法可以有效地描述镜头内的物体运动的信息,同时可以针对不同镜头内容自适应的提取出数量不同的关键帧。

6.基于统计的方法:

本方法首先统计一个镜头内所有帧在某一空间位置的灰度直方图,并取直方图中峰值对应的灰度值作为关键帧在该位置的灰度值,通过对所有位置的统计生成一个全新的关键帧。

通过对整个镜头内信息的统计,产生的关键帧可以包含大部分的视觉信息。

六、关键帧特征提取技术

基于内容的视频拷贝检测技术的核心部分是关键帧的特征提取,因而在关键帧提取之后需要从关键帧中提取出可以代表其内容信息的特征。

视频拷贝检测的特征需要具有可区分性、鲁棒性和可重复性这三种特性。

目前常用的特征提取技术可分为以下五种:

1.基于空间域的特征提取。

基于空间域的特征又可分为基于全局特征和基于局部特征。

基于全局特征的方法有很多,目前应用比较多的是序数测量OM(order-measure)算法。

这种方法首先将视频中的每一个关键帧分成m*n个图像块,然后根据每一块的平均值对这些块进行排序并将这个排序矩阵作为该关键帧的特征。

全局特征的计算比较简单,对亮度、尺度变换比较鲁棒,但对于局部变换抵抗性较差。

基于局部特征的方法提取图像的局部特征,能够抵抗局部变换,但计算较复杂,目前常用的局部特征有SIFT、SURF、CS-LBP、GLOH、Daisy等等。

其中SIFT特征的应用最为广泛,该特征不仅对于旋转、尺度缩放、亮度变化保持不变,而且对视角变换、仿射变换、噪声处理也具有一定的鲁棒性,SIFT特征虽然性能较优,但特征的维数较高且计算较复杂。

因而出现了PCA-SIFT和SURF等方法对SIFT特征进行降维,在保证特征鲁棒性的前提下降低了计算复杂度。

CS-LBP描述符是对LBP进行改进,它结合了SIFT和LBP算法的优势,CS-LBP利用直方图的二值化模式,计算区域纹理特征,对于一个区域的8个像素,CS-LBP只产生16维特征,大大降低了特征的存储空间。

2.基于时间域的特征提取。

基于时间信息的特征提取方法就是从视频中提取出时间信息,构造出一个视频签名,通过查询视频和参考视频之间视频签名的相似度比较来检测拷贝。

如文献采用时间OM算法,先将视频的每一帧分为m*n个图像块,然后在一个时间范围内对相同空间位置的图像块进行排序,最后将这些图像块的排序信息作为视频的特征。

3.基于时空联合信息的特征提取。

基于时空联合信息的特征提取就是将空间特征和时间特征相融合作为视频的特征。

KIM首先提取出关键帧的空间序数特征,然后再提取关键帧在时间位置上的时间序数特征,最后将空间序数特征和时间序数特征进行融合生成一个新的特征,之后通过比较查询视频和参考视频的时空序数特征来判定拷贝。

4.基于变换域的特征提取。

基于变换域的方法是对视频的关键帧进行一些变换如DCT、DWT,然后从变换域中提取特征,目前应用较多的是DCT变换。

如靳延安首先将关键帧转化为灰度图像,并将其划分成64(8x8)个大小相等的子图像,然后计算每一块的平均亮度值。

对计算出的8x8均值矩阵做8x8的2维DCT变换,变换成一系列DCT系数。

取DCT变化的AC系数值生成一个包含63个AC系数值的1x63的排列矩阵,把该AC系数的排序矩阵作为该关键帧的特征。

5.基于颜色域的特征提取。

蕋于颜色信息的方法是根据视频中的颜色信息来检测拷贝。

颜色通常和图像中包含的物体或场景十分相关,因而颜色是图像检索中广泛使用的底层特征。

颜色特征的优点是方法简单、计算复杂度低,检测速度较快,图像本身的尺寸、方向、视角等依赖性较小。

因此可采用颜色直方图、颜色矩等方法对图像颜色特征进行描述。

颜色直方图是对一幅图像中所有像素的颜色取值进行统计。

颜色直方图所描述的是不同颜色值在整幅图像中所占的比例,并不关心每种色彩所处的空间位置,因此适合不需要考虑物体空间位置图像的特征提取。

文献中利用关键帧颜色相关性的不变性来为关键帧提取特征,对于一个关键帧比较其中每一个像素的RGB三个通道的像素值之间的关系,并根据其关系将其分成六类,并统计这六类像素点的直方图作为关键帧的特征。

但是此类基于图像颜色特征的方法对图像的颜色、对比度变化比较敏感,对颜色拷贝处理的鲁棒性较差。

七、特征匹配技术

在特征提取之后,视频拷贝检测的下一步工作是进行特征匹配。

目前特征匹配主要有两种方法:

序列匹配和基于帧融合的匹配方法。

序列匹配的主要思路是先对参考视频进行关键帧提取和特征提取,然后组成一个参考特征库。

对于一个查询视频,在提取关键帧和特征信息之后,以查询视频特征序列的长度为窗口长度,设定一个固定的步长。

每次把查询特征序列向前移动一个步长,并设定一种距离比较方案,在每个对齐的窗口上计算查询视频和那一段参考视频的距离。

记录下整个窗口滑动过程中的所有距离值,找出距离值中局部最小值,并设定一个阈值,比较这个局部最小值和阈值的关系。

如果该最小值小于阈值那么该查询视频就是其对应的参考视频片段的拷贝视频。

序列匹配过程如图3所示,但序列匹配的过程中存在一些问题。

首先是阈值的设定问题,对于内容不同的视频,以及经过了不同拷贝处理的查询视频,这个阈值都很难确定。

除此之外,该方法只能针对整段查询视频都是拷贝视频进行匹配,对于查询视频之中只有部分视频是拷贝视频的情况,这种匹配方法的准确率就会降低。

图3查询视频和参考视频的匹配过程

上图展示了查询视频和参考视频的匹配过程,在本例中,齐询视频包含四帧图像,参考视频包含七帧图像。

基于帧融合的匹配方法首先对参考视频进行关键帧提取和特征提取,然后组建一个关键帧特征库。

对于一个查询视频,在提取了关键帧和特征之后,查询视频序列的每一个关键帧,都通过相似性比较从关键帧特征库中返回一个相似帧列表。

该列表由参考特征库中和该查询帧最相似的M个关键帧组成。

有了这些列表,再通过查询视频和参考视频在时间上的一致性信息就可以为查询视频找到一段参考视频和其对应。

这种方法不需要一定的阈值,但也有一些缺点,首先当查询视频很长时,要为所有查询序列的关键帧搜索一个相似性列表之后,才能进行时间一致性检验从而得出结果,这在时间和空间上都是很大的消耗。

目前帧融合匹配有两种方法。

一种方法是采用时间差函数进行帧融合,主要方法是计算查询帧与其相似列表中参考帧的时间差,然后统计查询视频的相似列表中时间差的直方图,取时间差直方图中最大值作为查询视频和参考视频的时间差,然后将满足该时间差的查询帧和参考帧分别融合生成一个查询拷贝视频和参考拷贝视频。

如图4所示,查询视频在b1视频中找到了三帧相似帧,在b2视频中找到了四帧相似帧,在b1视频中找到的相似帧序列在时间上是连续的,而在b2视频中的相似帧序列是不连续的。

图4查询视频在b1视频和b2视频中相似帧的位置

图5给出了查询视频在b1和b2视频中相似帧的时间差统计直方图,虽然b2视频中相似帧个数多,但在时间上不连续,而b1视频中相似帧序列在时间上连续,其时间差直方图的峰值也要大于b2视频的直方图的峰值,因而判定查询视频中有b1视频的拷贝视频。

图5查询视频的时间差直方图

另一种方法是采用一种动态的viterbi-like算法,该算法不用等待所有相似性列表返回完毕,随着一部分相似性列表的返回,就可以开始融合,随即产生一段参考视频序列。

对于一个查询视频,首先为其返回一个相似帧列表,然后在这个列表中根据时间一致性原理对这些相似帧进行融合,将在时间上连续的相似帧融合成一个路径。

如图6,对于查询视频g,其相似帧列表中包含了A,B,C,D4个视频中的相似帧,通过时间一致性原理对这些相似帧进行融合后,可发现C视频返回的路径最长,因而判定查询视频为C视频的拷贝视频。

图6基于帧融合的视频拷贝检测

然而,这种方法也存在一定的问题,首先,时间一致性原理的假设就是基于查询序列和参考序列对应帧之间的相似性,并且随着时间的推移,这种相似是连续发生的。

虽然不需要一个硬阈值就可以得出连续和查询序列匹配的参考序列,但往往相似性搜索的结果并不完全准确,尤其是当视频遭受一些复杂的拷贝处理后视频内容信息变化比较严重的时候,这就造成相似帧列表中没有和查询帧相似的关键帧。

而且当关键帧选取的比较密集的情况下,时间一致性原理还会导致一些虚假的参考序列被返回。

同时融合之后得到的参考关键帧序列并不是只有一条,这时怎样判断究竟哪一条是真正反映拷贝的位置就不得而知。

八、研究难点

由于视频本身内容信息的复杂性和拷贝处理的多样性,使得设计一个检测精度高且具有较好通用性的视频拷贝检测系统成为一个富有挑战性的任务。

目前来看,基于内容的视频拷贝检测的主要难点是特征提取和特征匹配两方面。

1.特征提取:

同一个视频的拷贝视频可能被转换成各种视频格式,并且遭受各种不同拷贝处理的拷贝视频在内容上也会有很大的不同,例如视频尺寸、对比度、颜色、画面内容等都会出现变化。

这些因素都给通用特征的提取带来很大的困难,因而目前的特征提取技术大多还是针对一种或几种拷贝处理进行研究。

2.特征匹配:

目前特征匹配技术主要有序列匹配技术和帧融合匹配技术。

序列匹配技术虽然计算复杂度较低,但难以应对非拷贝视频中插入拷贝视频的定位问题。

而基于帧融合的匹配技术则有着较高的计算复杂度。

九、实验

由于时间原因,并为对上文提到的各种方法进行实验,只是对实验室中已有的方法进行了探讨。

对于镜头分割和关键帧提取,不是我们研究的重点,其本身对于视频拷贝检测结果的影响也不是很大。

重点是关键帧特征提取与特征匹配技术的研究,本次参赛的程序出现了一些问题,事先效果不错的局部SIFT特征这次没有体现出应用的作用,所以比赛仅仅是用了全局HSV颜色直方图,准确率不高也是情理之中了。

问题主要出在哪儿,目前还无法做出判断,接下来半年我会多和学长进行交流。

另外,经过了半年时间,对于研究生的学习、生活也都了解了,说实话,这半年过得有点儿迷茫,每天过得浑浑噩噩,对于课程觉得效果也不理想,下半年我打算改变现有的生活方式,争取下半年真正融入到实验中去,对于课程就学好基础的就可以,早一点进入实验室的项目对于基础薄弱的我来说应该会收获更多。

研究生生活很短暂,也能感觉到每天都过得很快,不好好利用眨眼就荒废了,不管最后是否会继续深造,都得先顺利毕业再说,也请老师可以严格要求,我一定尽自己最大努力过好接下来的两年生活。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 自然科学 > 物理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1