数字视频处理 大连理工数字视频处理.docx

上传人:b****1 文档编号:1626652 上传时间:2022-10-23 格式:DOCX 页数:9 大小:1.03MB
下载 相关 举报
数字视频处理 大连理工数字视频处理.docx_第1页
第1页 / 共9页
数字视频处理 大连理工数字视频处理.docx_第2页
第2页 / 共9页
数字视频处理 大连理工数字视频处理.docx_第3页
第3页 / 共9页
数字视频处理 大连理工数字视频处理.docx_第4页
第4页 / 共9页
数字视频处理 大连理工数字视频处理.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

数字视频处理 大连理工数字视频处理.docx

《数字视频处理 大连理工数字视频处理.docx》由会员分享,可在线阅读,更多相关《数字视频处理 大连理工数字视频处理.docx(9页珍藏版)》请在冰豆网上搜索。

数字视频处理 大连理工数字视频处理.docx

数字视频处理大连理工数字视频处理

1 引言

随着数字媒体和显示技术的普及和不断发展,人们对3D视频也逐渐了解,希望能获得更多3D体验的需求也日益增长。

3D视频技术的大规模部署,在电影、电视和移动设备等高可视性领域继续经历着快速的增长。

当然,我们看到的3D视频的形象其实是一个4D体验过程,因为三个空间维度被认为是在第四维的时间基础上的视频变化。

然而,因为我们通常把这些视频仅仅描绘为“3D”,因此,时间维度常被忽略。

为什么3D突然如此流行?

对于很多人而言,相比于传统2D视频,观看3D视频需要对动态场景有一个高度逼真和身临其境的感知,使我们产生更多深刻的体验。

上述这些,再加上3D技术的巨大进步和有史以来最成功的3D电影《阿凡达》的上映,3D视频技术的发展和研究显然又涌起了一股新的热潮,其中2D视频转换为3D视频将越来越广泛的应用于各领域之中,实现真正的3D全球化、平民化、大众化。

现实中,我们有巨大数额的高品质二维视频内容,如果能把这些关于艺术和娱乐的数据转换为质量相当的三维格式,我们将会体验到更加真实、更加绚丽的物质世界。

另外,实现二维到三维的转换能为那些一直在寻求能为他们的广大节目素材库提供新的收入来源的内容供应商带来巨大的利润。

2D转3D技术的基本原理在于,立体观察涉及双目处理的两个不同的图像。

人眼视觉系统将左眼与右眼图像之间的细微差别(像素水平的偏移)变换为距离信息,这样一来,物体被认为处在不同的深度,同时超出二维显示平面。

因此,将二维图像转换为立体三维图像涉及到通过像素的水平移位来产生新的图像这一基本原理。

像素水平移动的范围不仅取决于一个对象到立体相机的距离,同时依赖于决定新图像视角的镜头分离。

至今,已有多种2D到3D的转换方法被提出。

这些方法可以分为以下三种,即:

手动、人工辅助和自动转换。

手动方案是对于图像的在不同地区/对象,艺术性的选择深度值来改变像素水平以产生一个新的图像。

手工方案可以产生高质量的深度,但非常耗时和昂贵。

人工辅助方案是利用操作员“手动”产生的修正将二维图像立体三维图像。

尽管与手动转换方案相比,该方案减少了时间消耗,但仍然需要大量的人的参与来完成该转换。

要把大量的二维资源转换为三维,一种经济的方式是自动转换方式。

自动转换计划利用深度信息源于一个单一的图像或一个图像流,从而利用有轻微视角偏差(水平移动)的相机来产生一个新的场景投影。

它可以在实时或更耗时的离线过程中进行。

自动转换方式的过程图解如图一所示。

产品的质量涉及相关处理过程的水平,所以实时解决方案通常产生最差质量的转换。

有两个关于自动2D-3D转换技术的关键问题需要考虑:

如何从单一视觉图像或视频获取深度信息,以及如何在新的虚拟视角中生成高质量的立体图像。

本文主要介绍和解释了关于二维到三维视频转换的一些新兴理论和算法,对自动2D-3D转换技术做了一个概要说明,从而将普通的二维视频转换为三维视频。

图1自动2D-3D转换过程图解

2.自动2D-3D转换框架

2.1转换中的建模与绘制技术介绍

2D到3D视频的转换包括从一个单一的二维图像或一个二维图像流(视频序列)中产生新的图像。

从这个角度来讲,至少在概念上,2D到3D视频的转换可以看作基于图像的建模和绘制技术的一个特例。

根据在该过程中被明确应用的几何信息量,基于图像的建模与绘制技术可以分为三大类:

1)使用场景的一个完整的三维模型:

这种方法需要完整和准确的重建所捕获场景的几何模型。

这样的模式将包含从一个给定的角度来看,一个新的虚拟视图所有需要的信息渲染。

结构轮廓,是一种常用的构建物体三维模型的技术。

在给定的三维模型和现场的照明条件下,一个新的虚拟视图可以使用传统的计算机图形技术,很容易地从我们得到的视图中描绘出来。

在2D到3D视频转换的背景下,从一个单一的图像或视频序列中恢复完整的三维场景结构通常是非常困难的,容易出错,除非视频是在严格条件下拍摄的。

因此,使用一个完整的三维模型的方法来实现自动2D-3D视频转换是不切实际的。

2)仅使用图像和不明确的几何信息:

这一类直接从拍摄到的一组图像中呈现新的虚拟视图,通常需要几百到成千上万的图像,没有或只有很少的几何信息,如光场和lumigraph。

2D到3D视频的转换,可用于绘制的图像数量通常很小,这使得该方法对自动2D-3D视频转换变得不切实际。

3)混合方法,明确地使用一些几何信息:

这是一种使用混合几何和基于图像的方法。

借助于这些不完整的场景几何信息,可以从数量有限的图像中描绘出新的虚拟视图。

这一类方法包括基于深度图像的绘制(DIBR),分层深度图像(LDI),和中间视图重建(IVR)。

大多数已经提出的2D到3D视频转换算法就利用了这一基本方法。

2.2常用转换框架的组成元素

常用的自动2D-3D视频转换框架基本上由2个元素组成,即:

深度信息的提取与根据估计的深度信息和预期的视图条件产生的立体图像。

提取的深度信息的目的是利用包含在一个单一的二维图像或视频中的图案线索和运动视差,以恢复场景的深度结构。

然后,检索到的深度信息被转换成一个适当的表现形式,从而应用于2D-3D视频转换过程。

稀疏的三维场景结构和深度图是拍摄场景中两个常用的不完整几何结构的代表。

一个稀疏的三维场景结构通常由大量的真实世界的三维坐标组成,而深度图本质上是一个提供深度的二维函数,至于相机位置,则作为图像坐标的函数。

简单起见,我们使用深度信息的术语,包括上述两个不完全场景中几何结构的代表。

立体图像的生成这一步涉及根据原始图像得到的翘曲纹理和检索到的深度信息,从而创建一个新的图像或视频序列。

已经提出的的视图合成算法也可以用来生成多个新的图像,以满足自动立体三维显示的格式要求。

对于后者这种情况,多视点图像内容的具体性应被考虑在内。

例如,多视点图像之间可能存在的更广泛的基线会产生更多的不封闭区域,这就需要有一个先进的填充孔的算法,如图像修复算法。

3.深度信息提取

3.1深度线索简介

人类正在利用各种深度线索在三个维度中感知世界。

其中有代表性的两类是双眼深度线索和单眼深度线索。

双眼线索在观察场景时,双眼利用感知图像之间的差异来提供深度信息,而单眼线索在观看场景时用一只眼睛提供深度信息。

深度线索的列表如图2所示。

场景深度信息的提取目的是将视频中包含的单目深度信息转换为目标捕获场景的定量深度值序列。

单眼深度线索可分为图案线索和运动线索。

在下文中,我们将重点放在从图案和运动线索中提取深度上。

图2深度线索分类

3.2从图案线索中获取深度信息

图案深度线索是允许我们在一个二维场景中感知深度的图像中的元素。

这几个世纪以来已经被广泛应用在视觉艺术中来增强我们的深度感知。

深度感知可能与人体视觉系统(HVS)的物理特性有关,例如对深度感知的调节,或者我们能够从经验中进行学习,就像我们能通过画面中物体的相对高度来感知透视图、阴影和其他图案线索。

如图3所示,它显示了一张利用图像深度线索提取出清晰的深度排序的图像。

图32D图像中的图像深度线索

嵌入在图像中的图案线索的深度信息的生成,可以分为2种方法。

第一个涉及到从一张图像的可用图像线索中提取出“真实”的深度信息。

这里“真实”是指场景中对象之间的相对深度。

在不了解捕获装置的位置和光学特性的情况下获得绝对深度是不可能。

第二种方法是利用在诸如风景或室内等给定类别的所有场景中发现的图示线索来创建人工的或虚拟的深度信息。

我们将在下面部分中讨论三种常用于提取深度信息的图案线索类型。

1)来自聚焦/离焦的深度:

调节是人眼对于给定平面的深度进行聚焦的机制。

真正的光圈相机以相似的机制对给定平面聚焦。

这在实践中会使其余的场景在取决于对聚焦平面的光学距离的测量中变得模糊。

这一机制可被用于从捕获的图像中获取深度信息,其中包含聚焦平面和脱离聚焦平面的物体。

这个话题在文献中被称为自聚焦/散焦深度,这是第一个从单一图像中恢复深度的机制。

在实践中,主要采用以下两种方法来实施这一机制。

第一种方法利用不同聚焦特性的图像,以提取可用图像的一个给定的图像特征的模糊变化。

这种变化可以通过寻找有特殊特性的点,进而被转化为成深度。

虽然这种方法是可靠的,并能提供良好的深度估计,但是,需要一些由不同光学系统捕获到的同一场景的图像这一限制太过严格,以致它在2D-3D转换问题中的任何应用都变得不现实。

第二种方法试图通过测量与每个像素关联的模糊的数量,并把模糊的测量映射为像素深度,进而从一个单一的图像中提取模糊信息。

一种检测边缘模糊的水平的局部尺度控制方法可用于计算这些相关的边缘模糊。

一个高斯模糊的内核是用来模拟边缘模糊的,它的二阶导数是用来测量的边缘的传播,以提取模糊级别。

2)来自几何线索中的深度:

几何线索深度是一个从二维图像获得深度的有趣的方法。

几何相关的图案深度线索是线性的透视图,包括已知的大小、相对大小、图片的高度和纹理梯度。

其中一些线索比其他的更显突出。

一些线索可能是很难用于一个应用程序的深度估计。

例如,与对象的大小相关的信息很难使用,因为它需要标识这些对象,并知道这些对象的正常大小等信息。

最常用的几何线索是线性的透视图和图片高度。

线性透视是指平行线的会聚在无限远的距离的性质,或者说,当距离眼睛很远时,一个固定大小的物体会产生一个较小的视角。

这种特性是通过检测图像中的平行线和识别这些线汇聚后的点来进行深度估计。

然后,基于这些线的位置和消失的点,可以推导出适当的深度信息。

3)来自颜色和强度线索的深度:

到达眼睛的大量光线的变化也可以提供物体的深度信息。

这种类型的变化以强度变化或颜色变化的方式反映在捕获的图像中。

基于此机制的深度线索,包括大气散射,光和阴影分布,图地面知觉和局部对比。

最近,一种基于视觉注意分析的深度生成方法被提出,在它里面一个显著图直接作为深度图使用。

如颜色,对比度,亮度,方向,纹理和移动等局部特征,都分别被用来提供相应的显著图。

这些单独的显着图,最后以一个线性或非线性的方式融合在一起,实现对视觉注意地图的更好的估计。

实验证据表明由此产生的深度图提供了质量良好的深度。

3.3从运动线索中获取深度信息

不同于前一部分所讲的图案深度线索,视频序列提供了作为附加深度线索的运动视差这一属性。

运动视差是指物体穿过视网膜的相对运动。

对于一个移动的观察者而言,近处的物体穿过视网膜时比远处的物体移动的更快,因此,相对运动提供了一个很重要的深度线索。

这通常被称为来自运动视差方法的深度原理。

注意到并不是所有的视频序列都会提供深度线索的运动视差。

原则上,只有被自由移动的有运动视差的相机捕获到的视频序列才与捕获的场景结构紧密相关。

如果相机没有移动,那么捕获到的视频系列就没有运动视差。

即使有场景中一些独立运动的物体,他们的运动可能会在某些情况下提供一些深度线索,但这些线索是比较容易出错的。

另外,不同的相机移动方式将会产生不同强度的深度感知。

一个自由移动的相机会比一个沿着光轴猛然移动的相机提供更多的场景中的深度信息。

仅沿着光轴转动的相机不会产生任何关于场景的深度信息。

4.立体图像的生成

立体图像生成的程序随深度信息的表示方法的不同而变化。

在下面部分,我们讨论的方法主要依赖于二维深度图与稀疏三维场景结构。

4.1基于二维深度图的方法

利用来自深度图的信息,基于透视图的深度图(DIBR)允许生成新的图像,就如同他们被来自不同视角中的相机所捕获一样。

DIBR系统通常包含三个步骤:

1)深度图的预处理;2)3D图像的翘曲;3)填补空洞。

虚拟相机通常被放置于某个位置以形成一个与原始相机平行的立体组织。

最后一步是填补由于视角的差别造成的新产生的风险承受区域。

DIBR中最重要的问题是如何处理虚拟图像中新产生的空洞区域。

洞会沿着物体深度变化的边界产生。

这是由于物体或背景的部分/区域的吸积(空洞),只是从新的视角出发,而不是从原来的位置捕获原始图像。

4.2基于三维场景结构的方法

本部分介绍基于稀疏的3D场景结构的立体视图生成方法,其基本思想是通过稀疏的3D场景结构,来确定原始图像和虚拟图像之间转换,从而实

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1