ImageVerifierCode 换一换
格式:DOCX , 页数:46 ,大小:76.87KB ,
资源ID:8560572      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/8560572.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于视觉特性的视频编码理论与方法研究毕业论文.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

基于视觉特性的视频编码理论与方法研究毕业论文.docx

1、基于视觉特性的视频编码理论与方法研究毕业论文项目名称:基于视觉特性的视频编码理论与方法研究一、研究内容由于可以有效节省通信带宽和存储容量,高效率的视频编码技术已经成为数字视频广播(广播网)、数字媒体存储与网络传输(计算机网络)、以及多媒体通讯(通信网)等数字媒体产业的共性关键技术。特别是近年来,我国的数字媒体产业迅猛发展,年均产值已近万亿元,使得音视频编解码标准技术的地位越来越重要。经过多年努力,2006年中国终于有了自己的视频编码国家标准AVS。但我们仍需未雨绸缪,从模型、理论、方法和技术上为下一代视频编码国家标准和国际标准的制定早做准备,确保在下一轮的标准竞争中立于不败之地。从视频编码的需

2、求角度看,编码的主要动机是在尽量保证高质量视觉效果的前提下最大限度地降低码率,达到压缩的目的。众所周知,人类视觉系统的信息处理能力远远超过目前的视频处理系统,因此,从方法论上借鉴人类视觉系统的视觉信息处理基本神经机制和心理机理,构建统一的图像/视频基本结构与表示模型及其相应的视觉计算方法,发展将香农信息论与人类视觉系统信息处理原理相结合的高效视觉信息编码理论与方法,就成为了本项目的基本出发点和立项依据。视频编码处理的核心环节要对视频中包含的视觉信息进行高效的表达和准确的重建,其本质是视觉信息的基本结构和有效表示问题。为此,我们需要探讨以下关键科学问题:(1) 视频编码可以借鉴的视觉信息处理机理

3、是什么?作为长期进化的结果,人类视觉信息处理系统是至为精致的生物系统之一。但遗憾的是,其基本神经机制、知觉和认知机理目前尚不完全清晰。本项目将从多学科交叉的角度出发,探索视觉信息处理的基本神经机制和认知机理,研究相应的理论和模型,对其进行实验验证与计算仿真,以期能够用以指导建立更加有效的视觉计算模型。(2) 视频编码可以利用的符合视觉信息处理机理的计算模型是什么?尽管人类视觉系统的信息处理机理尚不完全明了,但随着技术手段的提高,脑科学、神经科学和认知心理学专家已经掌握了越来越多的规律并提出了很多假说和模型。如何基于这些发现构建相应的、可计算的视觉信息处理数学模型就成为一个重要的基础科学问题。其

4、解决不仅可以有效促进视觉编码技术的发展,还可以从计算模拟的角度反过来推动视觉基本机理的研究。(3) 与人类视觉系统特性相吻合的视频表示及编码的理论是什么?香农信息论虽然从理论上给出了编码效率的上界和失真的关系,但并未考虑编码的符号(事件)集,因而对视频中高阶相关缺乏有效的描述手段。视觉信息论试图借鉴神经生理学在不同感知阶段对感知对象的抽象,建立对应的符号(事件)集,使之能够方便地描述高阶相关性,体现语义结构,从而丰富信息论理论。符号(事件)是借鉴稀疏编码理论通过采用贝叶斯计算视觉感知的后验概率建立的。这将为高效视频编码提供指导性的理论基础。上述三个关键科学问题紧紧围绕视觉信息处理系统中最核心的

5、表示与编码问题,分别从生理/心理基本机理、视觉信息处理计算模型、视频编码基础理论三个层面展开。其中,视觉基本机理既是基本出发点也是落脚点,计算模型是桥梁和纽带,视觉信息论则是设计和实现下一代视频编码方法和技术的理论基础。围绕上述三个关键科学问题,我们提出的总体研究内容框架如图2所示,以期建立解决这些问题的模型、理论和方法,构建相应的验证平台和原型系统。如图所示,对应三个关键科学问题,本项目的主要研究内容自底向上分别建立在三个层面,即:机理与模型层,理论与方法层,关键技术与验证层。下面我们分别从这三个层面对本项目的主要研究内容进行阐述。2.1视觉基本机理与模型层该层面的研究内容面向的科学问题主要

6、是前两个:视觉信息处理的基本机理和符合这些基本机理的计算模型。不难理解,二者有天然的紧密联系:一方面,视觉信息处理基本机理为视觉信息处理的计算仿真、计算模型建立等提供了良好的生理学和心理学参照系,对其基本规律的认识为计算模型的建立提供了良好的技术可能性和努力方向。另一方面,计算模型也为基本机理的正确性和模型的有效性提供了验证机会,有利于推动视觉基本机理的研究。下面分别叙述本项目在视觉基本机理和计算模型方面拟开展的研究。2.1.1视觉信息处理基本机理研究在视知觉机理方面,将主要从生理、心理角度,通过神经电生理学、视觉行为学、药物学等研究手段,在灵长类动物上采用包括微电极矩阵记录方法、高时间分辨率

7、的事件相关电位(ERP)、功能核磁共振(fMRI)等技术手段从初级视觉皮层V1神经元群体反应特性入手,研究V1神经元经典和非经典感受野与上级视觉皮层区域神经元正向和反向联系、V1神经元之间的横向联系,以及视觉学习过程中神经元群视觉编码模式的变化特性,探索初级和高级皮层中的神经元群在视觉处理中对简单和复杂视觉刺激的编码模式以及动态反应模式,各级皮层神经元群对不同视觉模式识别的贡献,考察视觉注意和知觉组织之间相互影响和交互作用,以验证或改进现有假说或理论模型(如稀疏编码、群组编码、视觉注意、增量成组假说等),乃至提出有关视觉模式识别的神经机制及编码机理的新假说、新模型,为后续的计算模型的研究提供神

8、经机制和心理机理方面的基础。图3给出了本项目在视知觉基本机理方面拟开展的主要研究内容,涉及的主要关键问题,机理模型/假说,以及拟采用的技术手段。视知觉基本机理的研究成果为实现人工视觉提供了一条可行的道路,利用基本视觉机理如稀疏编码、群组编码、增量成组等,根据人类视觉系统在平移、旋转、尺度下的不变性以及对数据缺失、噪声等问题的自适应性,从计算仿真的角度研究相应的视觉信息处理计算结构,探讨视知觉的计算机理,建立相应的表示和计算模型。我们将在这一框架下研究包括视觉信息的稀疏表示、初级视觉皮层(V1区)、V2区、V4区和IT区的各个层次、不同复杂度下特征形成的计算模型和实现算法。具体研究内容包括:在视

9、皮层网络结构第一层上研究视觉信息稀疏表示的机器学习算法、超完备表示对实现鲁棒图像编码的作用以及基于超完备表示的特征提取方法等。在第二网络层次上将研究视觉特征成组(Feature Grouping)机理以及神经网络拓扑结构和学习算法。在皮层型网络的第三层上则研究整体特征形成机理及计算模拟算法,在最高层则研究基于整体特征的物体识别模型与算法。2.1.2面向视频编码的视觉计算模型研究在上述视知觉机理研究基础上,我们将从功能模拟的角度,采用统计学习方法,研究从图像和视频中学习与视觉感知相对应的视觉信息表示基本粒子结构,建立形式化数学描述的有关理论和方法。特别要重点研究稀疏编码、增量成组和视觉注意机制所

10、遵循的基本规律及其可能的计算模型,进而建立与视觉信息处理相关的统计模型和计算方法。在本项目的研究中,我们将基于静态要素图模型,提出一个针对视觉运动的、统一的视觉表示模型时空要素图(Spatial Temporal prImal skeTCh graph STITCH)系统。该系统包含了运动图像序列中每一帧的要素图表示。这些要素图比以往从静态图像中所获得的要素图显示出更强的语义信息。这些语义信息主要来源于运动所提供的丰富线索考虑到运动的时空相关性以及整体运动的一致性(coherence),我们可以对每帧静态要素图做进一步的分析处理,如层次化连接不同粒度的基元和模式等。图与图之间元素的对应关系表示

11、了这些元素在时间上的动态对应关系。此外,STITCH系统还包括驱使这些要素图产生变化的动力学模型,如:要素图或其子图的运动、几何变形、以及拓扑结构的变化模型等。我们认为时空要素图模型是对运动图像序列的一种内在本质表示,它将为编码提供稀疏、高效的表示,从而有望使得新一代编码技术获得本质性的飞跃。本项目将通过提出上述针对视频信息的“时空要素图”表示模型和计算方法,研究将视频分解为层次化基元结构的可行性,探讨视频表示及编码的基本数学模型问题,进而探索视频的内在基本结构,为后续的“视知觉熵”、“视觉信息论”、基于视觉特性的高效视频压缩、多维度可伸缩编码、分布式多视点编码和面向智能监控的视频编码等研究内

12、容提供基础性的视觉表示和计算模型。在视觉注意计算方面,项目将基于前面讨论的STITCH表示,研究视频的注意选择计算模型。将视频分解成基元结构后,根据视觉机理中的“中心-环绕”机制,视频中的注意区域可定义为运动基元的时空特征拐点,如飞翔的小鸟、飘落的雪花可能会因其空间特征与周围区域有显著差异而显著性高,而快速行走的人突然停下来可能会引起运动特征与周围(时间轴)有变化而被关注。显著性可以用特征与中心/环绕类别标记之间的互信息来描述,特征与类别标记关联越紧密,该特征越能将中心和环绕区域分离开,即中心与环绕区域之间的特征分布差异越大,则显著性越高这种定义在运动基元上的显著性与现有的基于低级特征(如颜色

13、、亮度、方向和光流)的显著性相比更加符合人类的视觉特性,可以为后续基于注意的视频编码和内容监控提供更多信息。2.2视频编码理论与方法层上述视觉基本机理与模型层研究的核心内容是视觉信息的有效表示问题,而视频编码的根本目标则是要使用尽可能少的比特来编码表达原始视频中包含的视觉信息,因此,上述基本机理和数学模型恰可以利用以进行高效的视频编码,而且这为突破现有技术框架提出了新思路,即基于视觉特性的高效视频编码理论。从视频编码领域自身技术发展趋势来看,除了提高编码效率这一核心目标之外,也需要在其他角度上发展。首先,需要适应不同的传输带宽、存储和检索目的,实现多个维度上的可伸缩编码。传统的可伸缩编码重点在

14、时间、空间和质量上进行伸缩,我们则提出了更多的维度,包括注意可伸缩、动态范围可伸缩等。其次,分布式系统、立体视系统(尤其是三维电视)等应用需求越来越强烈,因此也特别有必要针对这类多视频源编码问题进行探讨,即所谓分布式多视点编码。最后,在视频监控领域,对智能视频监控的需求日益强烈。目前的监控系统均直接采用面向广播或通信业务的视频编码方法,而没有针对监控任务本身进行特殊的编码,因此编码和后端的智能分析功能是割裂开的。为此本项目提出一种新的解决思路,试图将二者更加紧密地联系起来,即在前端编码阶段就尽量多地考虑后端的智能分析需求。在视频编码理论与方法层面,我们将重点开展四个方面的研究,即:基于视觉模型

15、的高效视频编码理论、多维度可伸缩编码方法、分布式多视点视频编码方法和面向智能监控的视频编码方法。它们之间的关系如表1所示:表1 编码理论与方法主要研究内容之间的关系编码方法涉及的机理与计算模型主要的理论与方法主要应用领域基于视觉模型的高效视频编码视知觉机理,特别是稀疏编码理论,视觉计算模型,特别是局部视觉(基元)模型视觉信息论,视觉要素编码方法,局部视觉模型参数编码高清、超高清视频广播,视频存储多维度可伸缩编码视觉注意机理,图像/视频显著性计算模型可伸缩编码理论,注意区域编码方法流媒体服务,可伸缩质量服务分布式多视点视频编码分布式信源相关模型,深度视觉计算模型分布式编码理论,Wyner-Ziv

16、编码多视点视频,3D电视面向智能监控的视频编码群组编码机理,对象检测与识别模型,视觉注意机理面向对象编码方法,智能视频分析与编码,索引编码智能视频监控,视频检索四个主要研究内容各自具体描述如下:2.2.1基于视觉模型的高效视频编码理论结合视知觉机理和视觉计算模型,研究符合人类视知觉机理的视频压缩理论与方法。本部分研究内容将从基础理论、算法与框架以及应用三个方面开展。在基础理论方面,研究基于视知觉熵的视觉信息论,探讨视知觉机理中给出的视觉基本组成单元与视觉信息论中基本信源符号的关系,定义合理的基本信源符号,进而提出视知觉熵的概念;研究视知觉熵的测度和数量化方法,特别是视知觉熵的动态测度特性,探索

17、鲁棒、易行的视知觉质量评价方法,及其基于视知觉熵的率失真理论,进而提出视觉信息论,为基于视知觉的视频压缩提供理论依据。在算法及系统方面,以视觉信息论为指导,研究基于视知觉的视频压缩算法及系统,设计理论上最优的压缩系统,寻找基于视知觉率失真理论的系统优化方法。具体而言,就是从人的视觉特性出发,对视频内容进行分析,从中提取出视频的关键特征,如边缘、纹理、运动等人眼所关注的局部特征,探索针对这些局部特征的参数化算法、根据局部特征参数的视觉掩蔽模型的动态调整方法、以及相应的量化算法和编码算法,建立空域、时域、局部特征的相关性模型。在这里如何进行局部特征的提取,以及利用这些局部特征对视觉模型的调整与具体

18、编码模块间的联系成为整个编码系统的关键问题,因此,找出这些特征的规律,并用其指导压缩成为提高压缩效率的关键,为此项目研究还将对基于模型的图像/视频局部特征提取进行深入研究,从而可以通过学习训练适应性地进行特征提取与编码。在应用方面,我们拟研究基于视觉的动画压缩和基于视觉的超高清视频编码以及超分辨率视频编码。动画本身的产生机制非常有利于采用基于视觉的编码方法,和自然视频相比,动画一般有着较明显的边缘特征、纹理特征、或色彩一致的区域,运动模型也相对较容易建立,因此我们拟结合动画制作的基本原理,对基于视觉特征的动画编码进行研究,搭建基于视觉的动画压缩系统,提高动画的压缩效率,为推动基于视觉的视频压缩

19、应用迈出关键的一步。对于超高清分辨率视频,目前的压缩效率还难以满足应用需求,本项目拟研究基于视觉的超分辨率视频编码技术,提高超高清视频的编码效率。我们拟在原始分辨率视频上提取边缘、纹理等视觉特征并进行编码,然后对原始分辨率视频进行下采样编码,在解码端通过超分辨率插值技术重构高分辨率视频。随着硬件技术的快速发展,高分辨率的逐行显示设备越来越普及,但在许多应用场合由于历史的原因隔行视频还将长期存在一段时间,对此我们拟研究基于超分辨率技术的去隔行效应研究,实现低分辨率、低帧率的隔行视频到高分辨率、高帧率的视频转换,取得更好的主观效果。2.2.2多维度可伸缩编码方法对此问题将从理论层和算法层分别展开。

20、理论部分主要结合香农传统信息论和视觉信息论,根据视知觉熵的定义、测度及相关率失真理论,探求可伸缩编码的视知觉率失真曲线,及其与传统率失真曲线的关系。在此理论研究基础上我们将探索基于视觉信息论的SVC编码框架及算法。通过在传统三维SVC框架上引入注意度,进一步提高SVC编码的性能;引入针对高动态范围视频输入的动态范围这一自由度,支持高动态范围图像的编码显示。对于这一问题重点研究注意模型的建立及基于注意模型的感兴趣区域的提取、表达和编码,力图寻求具有最高率失真性能的可伸缩编码;研究具有强容错能力并且能够适应各种动态变化网络和不同的用户终端设备的可伸缩视频编码方法,主要基于视频内容的视知觉熵,为视频

21、要素提供不同级别的纠错保护,尽可能提高重建视频的主观满意度;研究基于注意度的码流优化截取方法,其目标即为最大化重建视频的视知觉率失真性能,同时兼顾复杂度。2.2.3分布式多视点视频编码方法在资源受限的分布式视频应用中,鉴于现有分布式视频编码的低效性,需要利用视觉特性,研究分布式多视点编码理论,从而提高编码效率。同时,必须充分利用分布式信源之间的相关性,去除分布式信源的视间冗余,达到分布式视频信息高效解码。在立体视编码方面,需要利用深度辅助信息来精确描述真实的三维世界。根据立体视觉成像的原理, 利用多个视点图像的空间几何关系以及图示线索知识获取深度信息是立体视点视频处理的重点研究内容;同时,需要

22、研究利用多视点视频编码对大量的视频原始数据和辅助信息进行压缩并且通过网络进行有效传输;通过自由视点切换保证用户的交互功能,使用户可以根据自己的兴趣选择不同的视角具体的研究内容包括:(1) 基于视觉特性的视频源分割在视觉模型的指导下,研究基于视觉特性与统计特性的信源分割准则。根据这种分割准则,将视频源划分为若干个视觉特性、统计特性相异的子视频源。然后对每个子视频源使用相应的高效编码方法,以期获取好的主观质量。(2) 基于多视频源相关模型的分布式编码根据视频序列的具体分割形式,利用多视点信源的相关特性、视点间的几何位置以及采集参数,研究其相应的相关模型以及参数估计方法,指导编码器进行高效的分布式编

23、码。(3) 研究多视频源时间、视间联合相关性,实现高效解码分布式编码理论要求独立编码的信源码流必须在解码端联合解码,通过充分挖掘信源间的相关性来高质量地重建源数据。利用基于视间运动的边信息导出、数据融合等技术,研究高效的边信息生成、信道解码以及源数据重建等方法。(4) 面向视觉质量的自适应解码将主观视觉质量评价模型嵌入到分布式解码器中,当目标视频区域解码质量达到主观质量要求时,即终止解码过程。这样既可以达到更优的码率与视觉质量平衡,还可以控制解码器的计算复杂度。(5) 基于立体视觉机理的多视编码研究利用多个视点图像的空间几何关系以及图示线索知识生成深度序列,用以精确表达真实世界的立体视觉信息。

24、基于立体视觉机理,进一步研究深度序列与彩色视频的联合高效压缩,重构出最优的三维视频。为了支持多视点切换,研究高效灵活的低延迟视点切换,同时使压缩效率和视点切换代价之间达到最优的平衡。(6) 三维显示技术研究高效虚拟视合成技术,可使用户按照深度感知能力选择合适的欣赏视点;研究多视点的三维显示器,使观察者具有更加广阔的视域。2.2.4面向智能监控的视频编码方法虽然视频监控部署规模已经比较庞大,而且发挥着重要作用,但是目前系统的应用模式比较落后,主要靠人工监视多路视频和事发后的人工搜检,其中实时现场人工监视耗费大量人力,而且监视人员易疲劳、漏检风险大,亟待半自动乃至全自动预警的支持。这需要我们从视频

25、编码层次进行基础性创新,从而构建新一代的智能化、高效能视频监控体系。针对视频监控的特点与需求,研究三层码流结构(基本层、对象层和索引层)的新一代监控视频编码方法与标准,拟利用本项目研究的视频编码方法进行基本层编码,通过在视频码流中增加对象层和索引层,将满足视频监控智能化和高效率的需要。基本层编码方法采用本项目研究的基于视觉特性的视频编码方法,针对监控视频的特点和需求,提出适合监控需要的视频编码方案并进行标准化。针对重要场合监控中可获得多摄像源的特点,通过多源视频融合获得广视角、高清晰的监控效果。对象层编码面向监控智能化的需要,基于基本层码流中的视觉基元、运动向量等要素,研究监控背景、场景、物体

26、、人物等对象模型,分析异常行为和异常事件,形成描述监控目标及其关系的对象层码流,发挥基于视觉特性的编码理论与方法的优越性,提高视频监控系统的效率。索引层以提高海量监控视频的检索和存储效率为目标,基于基本层中的感兴趣区域、视觉基元和对象层中的对象描述信息,研究监控场景变化的检测方法,提出评价视频片段重要性的计量方法,获得场景变换位置、视频片段重要程度等描述信息,形成描述视频结构的索引,支持对监控视频的提纲携领式检索、摘要和存储容量缩减。2.3原型研究与验证层上述两个层面所研究的基础性的模型、理论和方法还需要通过设计原型系统或者应用平台进行验证。我们重点考虑在宽带移动多媒体应用中进行原型研究和系统

27、验证,构建相应的验证平台。具体研究内容如下:(1) 面向远程医疗的高动态视频采集技术:高动态范围视频采集通过多个摄像头协同采集同一场景不同动态范围的图像,生成高保真的高动态范围视频源。(2) 视频转码技术研究:主要解决流媒体系统平移过程中的转码关键问题,特别是多种其它编码格式到AVS等视频格式的转码技术,在此基础上突破解决转码的一些共性的关键技术,例如新的转码结构的设计、视频图像的滤波预处理、转码运动矢量的预测等。同时在转码过程中研究编码的率失真属性,为视频的有效调度打下基础。(3) 多流封装技术:针对网络传输介质误码率高、带宽差异等问题,本项目基于可伸缩编码方法研究多流封装技术,将一个视频源

28、分拆为多个独立的视频流单独传输,从而确保传输的健壮性。研究基于传输通道的冗余编码技术,减少传输过程对误码率的影响,适应不同带宽。(4) 面向远程医疗的视频编码应用技术研究:根据基于视觉特性的视频编码理论和远程医疗业务应用需求, 针对远程医疗的视频编码技术应用场景进行分析和研究,主要包括:感兴趣区域编码的远程医疗会诊技术应用研究,高动态范围视频手术监测技术应用研究等。(5) 高清IPTV和固定移动融合(FMC)视频应用验证平台实现技术:研究面向远程医疗的高清IPTV网络流媒体系统架构,固定移动融合(FMC)环境下的网络流媒体系统架构,搭建相应的宽带移动多媒体传输验证平台,对新一代基于视觉特性的视

29、频编码理论和方法进行验证。二、预期目标3.1总体目标本项目针对高效视频编码所涉及的视觉信息处理基础科学问题开展多学科交叉的共同研究,借鉴神经科学的最新研究成果,以探索视觉信息表示和编码的基本神经机制和心理机理为出发点,构建视频内容表示的时空要素图模型及其统一的计算模型。在这些研究的基础上,针对视觉信息编码与传输问题,将香农信息论与人类视觉系统信息处理原理相结合,并以此作为视频编码的理论基础,从而提出新的基于视觉模型的下一代高效视频编码框架,并扩展研究包括视觉注意和高动态范围在内的多维度可伸缩编码方法、面向多视频源的分布式多视点编码方法以及面向智能监控的视频编码方法,从而构建一套基于视觉特性的高

30、效视频编码理论、模型和方法体系这即是本项目在理论方面的总体目标。本项目在解决国家重大需求和产业创新方面的总体目标包括两方面。首先,以此为基础衍生出的视频编码技术可为下一代视频编码国家标准做出不可替代的贡献,并深度参与未来视频编码国际标准的制订工作,从而提高我国信息通信产业的国际竞争力。其次,本项目面向智能监控的编码方法等研究成果预期可以改变传统视频监控的应用模式,从而服务于国家公共安全、重大事件应急管理等国家重大需求;通用编码方法则还可以为下一代宽带移动多媒体应用技术提供理论与核心技术基础,并为航天遥现遥控等国家重大工程提供技术储备。3.2五年预期目标根据上述总体目标,未来五年内本项目预期在理

31、论与方法、解决国家重大需求、科研成果和人才培养方面达到如下目标:1、预期在理论与方法方面取得的进展、突破及其科学价值 如前所述,理论层面我们的总体目标是构建一套高效的基于视觉特性的视频编码理论、模型和方法体系,具体的五年目标主要体现在以下几个方面:(1) 在视觉基本机理层面,探索视觉信息处理的基本神经机制和认知机理并对其进行计算仿真。特别要采用先进的多电极矩阵技术手段,为揭示视知觉的神经机制提供经验和第一手实验证据。期望能探明稀疏编码与群组编码这两类编码方式的区别与联系、转化机制及相应的心理机理;探明基本成组和增量成组两种成组方式之间的相互作用以及视觉注意在其中的调节机制,从而为建立视觉计算模

32、型提供基本机理基础。(2) 在视觉计算模型层面,建立统一的统计视觉表示与计算模型。提出并完成面向视频处理的“时空要素图”模型,建立视频内容基本要素的数学统计模型及其符号化的形式化描述以及相应的计算推理方法。(3) 在视频编码理论层面,提出与视觉感知一致的视频编码与传输理论。建立视觉信息量、视知觉熵等概念的形式化描述,从而构建符合视觉特性的视频编码理论。(4) 在视频编码方法层面,构建包括基于视觉模型的新型编码方法、多维度可伸缩编码方法、分布式多视点编码方法和面向智能监控的视频编码方法等在内的下一代高效视频编码理论与方法体系。 2、预期在解决国家重大需求方面的研究目标(1) 突破数字视频编解码核心技术,为制定下一代自主知识产权的高效视频压缩国际/国家标准提供理论、方法和关键技术上的支持,实现5年内视频压缩率再提高1倍的目标(即从目前的约1:100提高到1:200)。预期能够为下一代视频编码国家标准(AVS阶段2)做出不可替代的贡献(预期本项目组成员贡献率不低于40%)。同时,至少申请10项以上具有我国自主知识产权的国际

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1