线性回归模型论文回归模型论文Word格式.docx
《线性回归模型论文回归模型论文Word格式.docx》由会员分享,可在线阅读,更多相关《线性回归模型论文回归模型论文Word格式.docx(5页珍藏版)》请在冰豆网上搜索。
Abstract:
ForthespatialresolutionreductionofH.264/AVCstream,amotionre-estimationalgorithmbasedonlinearregressionmodelisproposedinthispaper.Itexploitsthecorrelationbetweenthemotionvectorsoforiginalvideostreamandthoseofdown-sampledvideo,whichismodelledbylinearregressionmodeltoobtaintheestimatedmotionvectors.Experimentalresultsdemonstratethattheproposedapproachcansignificantlyreducethecomputationalcomplexityofthetranscoderwithonlyslightsacrificeofvisualquality.
Keywords:
videotranscoding;
H.264/AVC;
linearregressionmodel;
motionvectorre-estimation
随着网络和多媒体通信的发展,不同网络上各种视频信息的交流需求在不断增加。
由于网络和终端设备的多样性,编码得到的视频流不一定是最优的。
当在具有不同的信道特征的网络上,向具有不同的计算和显示能力的用户终端传输视频流时,必须根据用户环境动态地调整视频流。
视频转码通过改变视频的码率和空间分辨率等格式,使经过处理后的视频流满足传输信道和解码器的特殊要求[1-2]。
目前,空间分辨率缩减的转码技术研究已经较多,但大多数是针对MPEG-x视频流。
H.264/AVC是最新的视频编码标准,它采用了可变分块大小运动估计,多种帧内预测模式以及多参考帧等新特征,具有编码效率高和网络适应性强等优点,正在得到广泛地应用。
因此,研究适合于H.264/AVC视频流的空间分辨率缩减转码技术具有重要的意义。
Zhang等[3]提出一种下采样后快速模式匹配的算法,能节省转码的时间,但没有处理8×
4,4×
8,4×
4帧间模式,转码质量不高。
Shen等[4]提出了一种新的R-D模式优化选择算法,能加快转码的速度,却不能保证视频的质量。
Cock[5]等提出一种基于开环转码结构的低复杂度漂移误差补偿技术,但是计算复杂度高。
运动矢量重估计是H.264/AVC视频空间分辨率缩减转码的关键因素之一。
文献已有少量同类的研究,但并不成熟。
Shen等[6]提出通过对原始视频流的运动矢量进行加权,但没有对运动矢量的误差进行补偿,将可能产生块效应的积累,严重影响视频的质量。
Shanableh等[7]提出直接利用原始视频流运动矢量的中值或平均值,代替下采样视频流的运动矢量。
它具有计算量小的优点,但是当某个块的运动矢量明显不同于周围的块时,将产生较大的误差。
视频转换编码的关键在于充分利用部分解码输入码流过程中易于得到的运动矢量等信息,以降低转码过程的计算量[2]。
考虑到原始视频流的运动矢量与空间分辨率缩减后视频流的运动矢量具有较强的相关性,本文提出了一种基于线性回归模型的运动矢量重估计算法,根据原始视频流的运动矢量得到下采样视频的运动矢量,适合于H.264空间分辨率缩减的视频转码。
1.转码器的体系结构
转码器的结构可以分为两类:
级联像素域转码结构(CPDT)和DCT域转码结构(DDT)。
相对DDT结构,CPDT具有结构灵活,漂移误差小等特点[8]。
本文采用CPDT实现H.264视频流的空间分辨率转码,原理框图如图1所示。
转码器由一个解码器和一个编码器级联而成,即先对编码码流进行解码,然后对重建视频帧进行下采样,再重新编码。
其中,基于线性回归模型的运动矢量重估计是本文的核心。
对于H.264编码器,运动估计占用了整个编码过程约70%的运算量。
因此,加快重编码过程的运动估计成为提高转码速度的关键。
原始视频流的运动矢量与下采样视频流的运动矢量之间具有很强的相关性,为利用原始视频流的运动矢量加快重编码过程的运动估计提供了可能。
此外,大量研究表明:
解码得到的宏块编码模式与率失真优化(RDO)算法得到的宏块编码模式的相关性不强,通过原始数据流运动信息确定宏块编码模式计算速度提高较小,而视频质量影响较大[9]。
本文主要针对运动矢量重估计展开研究,宏块编码模式的确定则使用标准的RDO方法。
图1空间分辨率转码结构
Fig.1Frameworkofspatialresolutiontranscoding
视频下采样后的每个块都对应原始视频的一块区域。
图2反应了下采样前后视频流的运动矢量之间的映射关系。
其中,B表示下采样图像的某个分块,R表示该块在原始视频图像对应的区域,该区域由多个具有独立运动矢量的分块组成。
H.264支持7种帧间预测模式,每种预测模式i都对应从块Bi到区域Ri的映射。
假设原始视频数据流得到区域Ri的所有块的运动矢量为vi=(x1,x2,…,xM),其中M代表Ri中块的个数。
假设通过RD优化算法得到块Bi的运动矢量为yi,则待研究的转码就是要解决如何根据区域Ri的运动矢量vi得到块Bi运动矢量yi的问题。
图2下采样图像和原始图像运动适量对应关系Fig.2Mapofmotionvectorsbetweendownsamplingandoriginalimages
3.运动矢量的合成和修正
基于H.264转码的运动矢量研究算法一般包含两个步骤:
第一,解码原始的压缩数据流,计算出运动矢量的估计值。
第二,在一个较小的范围内进行运动矢量的搜索和修正。
运动矢量的估计值越准确,有助于减小搜索范围,提高运动矢量修正的效率。
前文提到,原始视频流的运动矢量与下采样视频流的运动矢量有很大的相关性。
因此,需要通过一种模型表示这种相关性。
文献[10]将线性回归模型运用在MPEG-4编码端的运动估计过程中,文献[11]将线性回归模型应用在速率控制方面,都取得了较好的效果。
本文提出利用线性回归模型,进行视频转码过程的运动矢量重估计。
H.264有7种帧间预测模式,需要对每种预测模式分别建立线性回归模型,该模型定义如下:
(1)
其中,,,…,为未知参数,可以从当前视频序列采集数据对该模型进行训练,得到相应的未知参数,从而支持该视频序列的特征。
方法如下:
1)解码原始的压缩数据流,对其进行下采样。
2)开始阶段用标准的H.264编码方式和R-D优化算法对其进行重编码,保存得到的所有块的运动矢量,按照宏块预测模式对其进行分类。
i表示宏块预测模式,Ni表示该预测模式的块的个数,它们的运动矢量表示为:
{yn,n=1,2,…,Ni}。
3)找到2)中的所有块在原始视频图像中的对应区域,用{xmn,m=1,2,…M,n=1,2,…,Ni}表示它们对应的运动矢量。
4)从上述方法获取的数据Si={(xmn,yn),m=1,2,…M,n=1,2,…,Ni}中选取N组数据S={(xmn,yn),m=1,2,…M,n=1,2,…,M}对预测模式为i的线性回归模型进行训练。
5)将N组数据对应的的平均值确定为该预测模式下未知参数的值。
视频的特征会影响N的取值,而N值的大小,又会影响运动估计的速度和准确性。
通过实验发现:
当N取8时,能得到较好的实验结果。
将数据S={(xmn,yn),m=1,2,…M,n=1,2,…,M},应用在线性回归模型
(1)中可得:
(2)
根据式
(2)可推导出:
(3)
(4)
(5)
每个线性回归模型的运动矢量都对应两个相互独立的方向,例如:
Y=(y1,y2),X={(x1m,x2m),m=1,2,…,M},={(,),m=1,2,…,M},该模型对应2个线性方程,如下所示:
(6)
因此,对7种不同的预测模式及两个相互独立的方向需要分别建立线形回归模型。
将求得的参数保存在转码器的缓冲区中,利用线性回归模型,后续帧在B块的运动矢量可以通过以下步骤获取:
1)确定该块的预测模式i。
2)在原始视频图象中找到该块对应的区域R,记录该区域各块的运动矢量。
3)将得到的运动矢量运用到预测模式为i的线性回归模型中,求得B块的运动矢量。
4)通过1/4像素精度,快速搜索算法来获取最佳运动矢量。
4实验结果和分析
为了测试本文算法的性能,在以下实验平台进行了仿真实验:
Pentium(R)4CPU3.00GHz2.99GHz,504MB内存的PC机,程序运行环境:
VC++6.0。
输入视频流采用开源的H.264/AVC校验模型JM8.6得到,编码端的主要参数设置如表1所示。
视频测试序列选取Mother&
Daughter,Foreman和Tempete(CIF格式),它们具有不同的运动复杂度。
图3列出了这3种视频测试序列中的具有代表性的帧。
(a)Mother&
Daughter
(b)Foreman
(c)Tempete
图3视频测试序列
Fig.3TestingSequences
将本文的方法(LRM)和下面3种方法进行比较:
(1)BestRD:
指重编码过程中,按照H.264编码标准直接进行CPDT,并使用R-D优化算法;
(2)Benchmark:
指重编码过程中,仍然按照H.264编码标准进行CPDT,但不使用R-D优化算法;
(3)文献[7](AMV):
利用原始视频流运动矢量的平均值来替代下采样视频流的运动矢量。
表2-4列出了对3个序列采用4种转码方法时的R-D结果和时间开销。
可以看出,使用BestRD方法具有最好的R-D性能,但同时它的耗时也是最多的。
AMV方法耗时最少,但是R-D性能却是最差的。
本文算法的R-D性能和时间开销介于二者之间,与理论分析结果一致。
以Foreman序列为例,图4给出了分别采用上述4种方法时的R-D性能比较,图5则是它们的耗时比较。
可以看出,本文提出的方法和Benchmark方法R-D性能相似,接近BestRD方法,较AMV方法有明显的提高。
同时,耗时只占BestRD方法的6.40%,Benchmark方法的8.33%,极大地降低了计算的复杂度。
同时,在码率变化时具有较稳定的性能。
AMV方法比本文的方法要快一些,但R-D性能演示要差很多。
总之,本文的方法维持在一个较小的率失真情况下,计算效率有较大的提高。
图4Foreman序列4种转码方法的R-D性能
Fig.4R-DCapabilityComparisonamongFourTranscodingMethodsofSequenceForeman
图5Foreman序列4种转码方法的耗时比较图
Fig.5ComparisonofTimeConsumptionamongFourTranscodingMethodsofSequenceForeman
5结束语
本文提出了一种基于线性回归模型的运动矢量重估计算法,可根据原始视频流的运动矢量得到下采样视频的运动矢量,适合于H.264空间分辨率缩减的视频转码。
实验结果证明该算法对视频质量所造成的损失较小,同时显著地减小了转码过程的计算复杂度,有利于实时转码的实现。
参考文献
[1]VETROA,CHRISTOPOULOSC,SUNHF.Videotranscodingarchitecturesandtechniques:
anoverview[J].IEEESignalProcessingMagazine,2003,20
(2):
18-29.
[2]杨高波,余圣发.压缩域的H.264视频转换编码及其关
键技术分析[J].通信学报,2006,27(10):
124-131
YANGGao-bo,XUSheng-fa.VideotranscodingforH.264inthecompresseddomainandkeytechniquesanalysis[J].JournalonCommunications,2006,27(10):
124-131.
[3]ZHANGP,LUY,HUANGQM,GAOW.Modemappingmethodforh.264/avcspatialdownscalingtranscoding[C]//ProcofIEEEInternationalConferenceonImageProcessing.Singapore:
IEEEPress,2004,2781-2784.
[4]SHENB,SETHIIK,VASUDEVB.Adaptivemotionvectorresamplingforcompressedvideodownscaling[J].IEEETransactionsCircuitsandSystemsforVideoTechnology,1999,9(6):
929-936.
[5]COCKJD,NOTEBAERTS,VERMEIRSCHK,etal,EfficientspatialresolutionreductiontranscodingforH.264/AVC[C]//ProcofIEEEInternationalConferenceonImageProcessing.SanDiego:
IEEEPress,2008:
1208-1211.
[6]SHENHF,SUNXY,WUF,etal.Afastdownsizingvideotranscoderforh.264/avcwithrate-distortionoptimalmodedecision[C]//ProcofIEEEInternationalConferenceonMultimedia&
Expo.Toronto:
IEEEPress,2006:
2017-2020.
[7]SHANABLEHT,GHANBARIM.Heterogeneousvideotranscodingtolowerspatio-temporalresolutionsanddifferentencodingformats[J].IEEETransactionsonMultimedia,2000,2
(2):
101-110.
[8]XINJ,LINCW,SUNMT.Digitalvideotranscoding[J].ProceedingsoftheIEEE,2005,93
(1):
84-97.
[9]WANGJ,YANGEH,YUX.AnefficientmotionestimationmethodforH.264-Basedvideotranscodingwithspatialresolutionconversion[C]//ProcofIEEEInternationalConferenceonMultimedia&
Expo.Beijing,IEEEPress,2007:
444-447.
[10]KIMHS,CHULLJ,TAEPK.Motionestimationmethodusingmultiplelinearregressionmodel[C]//theInternationalSocietyforOpticalEngineering,SanJose:
SocietyofPhoto-OpticalInstrumentationEngineers,1997.600-607.
[11]CHENZZ,NGINK.Ratecontrolforvideocoderemployingadaptivelinearregressionbitsmodeling[J].SignalProcessing:
ImageCommunication,2007,22
(1):
19-38.