第二章数字图像及其性质.docx

资源描述

第二章数字图像及其性质.docx

《第二章数字图像及其性质.docx》由会员分享，可在线阅读，更多相关《第二章数字图像及其性质.docx（28页珍藏版）》请在冰豆网上搜索。

第二章数字图像及其性质.docx

第二章数字图像及其性质

机器视觉课程之数字图像及其性质

2.1基本概念

这一章我们要介绍一些木书中用到的基本概念和数学工具。

缺少完整数学背景的读者可能会遇到一些困难，在这种情况下，你可以忽略数学细节而关注于基本概念的直观意义，这是文中所强调的而且在本章结束时也概括出来的。

这种方式不会影响你对本书的理解。

图像和信号常用数学模型来描述，信号是一个依赖于具有某种物理意义的变量的函数，它可以是一维的（例如，依赖于时间）、二维的（例如，依赖于平面上的两个坐标量）、三维的（例如，描述空间中的一个物体）或高维的。

对于单色的图像，一个标量函数可能就足够了，但是对于诸如由三个分量组成的彩色图像，就需要使用矢量函数。

我们要处埋的函数可以分为连续的、离散的或数字的。

连续函数具有连续的定义域和值域；如果定义域是离散的，我们得到的是离散函数；而如果值域也是离散的，我们就得到数字函数.

2.1.1图像函数

图像（image）这一词我们通常在直观上去理解其意义，例如，人类眼睛视网膜上的图像，或者TV摄像机拍摄到的图像。

图像可以表示为两个或三个变量的连续函数，在简单的情况下变量是平曲的坐标（x,y），不过当图像随时间变化时可以加上第三个变量。

图像函数的值对应于图像点的亮度。

函数值也可以表示其他物理量如温度、压力分布、离观察者的距离等。

亮度（brightness）集成了不同的光学量，将亮度作为一个基本量使我们得以避免对图像的成像过程进行描述，这个过程是非常复杂的。

人类眼睛视网膜或者TV摄像传感器上的图像本身是二维的（2D）。

我们将这种记录了明亮度信息的2D图像称为亮度图像（intensityimage）。

我们周围的真实世界本身是三维的（3D）。

2D亮度图像是3D场景的透视投影（perspectiveprojection），这一过程由针孔摄像机拍摄的图像来表达，参见图2.1。

在图中，图像平面被相对于xy平面反折过来了，以避免使用具有负坐标的镜像图像；x，y，z的值是世界坐标系中3D场景点P的坐标，f是镜头的焦距。

投影后的点具有2D图像坐标平面中的坐标（x，y），其中：

非线性的透视投影常被近似为线性的平行（parallel）投影或正交（orthographic）投影（projection），其中f→∞。

隐含地，还有的z→∞——正交投影是远处物体透视投影的极限情况。

当3D物体经透视投影映射到摄像机平面后，由于这样的变换不是一对一的，因而大量的信息消失通过一幅图像来识别和重构3D场景中的物体是个病态问题。

在第9章中，我们将考虑更精细的表达，以便重新获得有关图像所描写的原来3D场景的倍息。

可以预料。

这不是一件简单的事情，涉及到试图建立图像中点的深度（depth）这个中间表达层次。

目标是恢复完整的31〕表达，比如计算机图形学中的表达，即独立于视点的表达，表示在物体坐标系中而不是在观察者坐标系中，如果这样的表达可以恢复，则物体的任何视角的亮度图像可以用标准的计算机图形学技术合成出来。

恢复被透视投影损失的信息只是计算机视觉中的一个问题，这主要是个几何问题，第二个问题是理解图像亮度。

一幅亮度图像的唯一可用信息是像索的亮度本身，它取决于一组互相独立的因素，包括物体表面的反射特性（由表面材料、微结构和斑纹决定）、照明特性、以及相对于观察者和光源的物体表面方向。

当试图从亮度图像恢复物体的3D几何形状时，如何分离这些因素并不容易而且又是一个病态问题。

一些科学和技术学科直接在2D）阁像上进行，例如，在透明的照明条件下显微镜观察到的扁平样品的图像，书写在纸上的字符，指纹的图像，等等。

因此，数字图像分析中的许多基本的有用的方法并不依赖于物体原本是2D）的或是3D的，本书的很大部分篇幅限定于这些方法的研究一，在第9章和第10章中会专门讨论3D理解问题。

图像的形成过程在[born86]中有阐述，相关的学科包括光度测定学（photometry）（参见9.3节）和比色学（colorimetry）。

前者是关于亮度测量的，而后者是研究依赖于波长的光线的反射和散射的。

比色学在[Pratt78.Pratt91]中是作为图像处理中的领域来考虑的。

图像处理通常处理的是静态（statie）图像，时间t作为常量。

单色的静态图像是用连续的图像函数f（x，y）来表示的，其中的变量是平面的两个坐标。

本书所考虑的图像除非特別声明大多数是指单色的静态图像。

把这取所讲的技术推广到多光谱的情况下经常是显而易见的。

计算机化的图像处理使用的数字图像函数通常表示成矩阵的形式，因此其坐标是整数。

图像函数的定义域是平面的一个区域R：

其中x，y表示最大的图像坐标。

图像函数具有有限的域，由于假定图像函数在域R外的值为零，可以使用无限求和或积分的形式。

尽管矩阵中使用的（row,column）定位方式在数宇图像处理中也常用到，但是习惯上采用的图像坐标方向仍然是普通的笛卡儿坐标形式（横轴x纵轴y）。

图像函数的值域也是有限的，按照惯例，在单色图像中最低值对应于黑，而最高值对应于白。

在它们之间的亮度值是灰阶（gray—level）。

数字图像的品质随着空间、频谱、辐射计量、时间分辨率的增长而提高。

空间分辨率（spatialresolution）是由图像平面上图像采样点间的接近程度确定的？

频谱分辨率（spectralresolution）是由传感器获得的光线频率带宽决定的；辖射计量分辨率（radiometricresolution}对应于可区分的灰阶数量；时间分辨率（timeresolution）取决于图像获取的时问釆样间隔。

时问分辨率问题在动态图像分析中是重要的，其处埋的是图像的时间序列。

图像f（x，y）可作为确定的函数或者是随机过程的实现来看待。

图像描述中的数学工具根植于线系统理论，积分变换，离散数学以及随机过程理论中。

本节只概要地介绍一些后面闸述中要涉及到的数学工具，背景数学的详细描述可以参考相应问题中所附的文献。

如果读者想要学习图像处理中的数学知识，可以从如下的推荐书开始[Pavlidis82.RosenfeldandKak82]。

数学变换假定图像函数f（x.r,）是“好形态的”，意思是指：

该函数是可积的，具有可逆的傅立叶变换，等等。

特殊信号（常量、冲激、非周期信号）的傅立叶变换的存在问题[Papoulis62]不在讨论之列，离散图像的傅立叶变换总是存在的。

2.1.2狄拉克（Dirac）分布和卷积

理想的冲激是一个重要的输人信号，它的引人使得在连续图像函数域中吋以使用线性数学现论，图像平面上的理想冲激是用狄拉克分布（Diracdistribution）即（x，y）定义的。

且对于所有的x，y≠0，有

如下的公式（2.4）被称为狄拉克分布的“筛特性（siftproperty）”.它提供函数f（x，y）d在点λ，μ的值：

筛公式可以用来描述连续图像函数f（x，y）的采样过程。

我们可以将图像函数表示成覆盖整个图像平面的位于点a、b的狄拉克脉冲的线性组合，釆样由图像函数f（x，y）W加权。

卷积（convolution）在图像分析的线性方法中是一种重要的运算.二维函数f和h的卷积g记为fxh，通过积分走义为:

卷积是一种非常有用的线性、平移不变的运算。

数字图像在图像平面上具有有限的域.因此平移不变性只有平移量小时才有效一因而卷积常在局部使用。

卷积表示的是用滤波器h做的线性滤波，线性滤波通常用于局部图像预处理和图像复原。

2.1.3傅立叶变换

图像是平面上两个参数的函数。

研究其性质的一个可能途径是将图像分解为一组正交函数的线性组合。

傅立叶变换（Fouriertansrorml使用谐波函数来分解「Fapoulis62，RosenfeldandKak82]。

二维的傅立叶变换定义为如下的积分：

傅立叶变换的存在条件在[Pupoulis62]中有论述，何是对于图像处理日的而言，假定周期函数的傅立叶变换总是存在的且是合理的，傅立叶变换的逆变換定义为：

参数（x，y）表示图像坐标，（u，v）称为空间频率（spatialfrequencies）。

公式（2.8）左端的函数f（x，y）可以解释成-组简单周期模式

的线性组合。

该糢式的实部和虚部是正弦和余弦函数，函数P（u，v）代表单位模式影响度的加权函数。

用F表示傅立叶变换算子.公式（2.7）可以缩写为：

则从图像处理的角度看，傅立叶变换的以下性质是比较重要的：

*线性

其中表示复数共轭，一个图像凼数总是实值的，因此我们可以使用傅立叶变换在第一象限的结果。

此外，如果图像还是对称的，f（x，y）＝f（-r,-y）,那么傅立叶变换F（u,v）的结果是一个实值函数。

*卷积对偶性：

卷积[公式（2.6）]和其傅立叶变换有如下的关系：

这是卷积定理（[Convolutionthcorem）。

这些对于连续函数域的傅立叶变换的性质问样适用于离散函数（图像），只是将各个公式中的积分变为求和。

在图像分析中使用傅立叶变换是很普遍的。

在第1章我们将看到通过确定图像函数中的髙频（急剧的变化）部分是如何可以有助于边缘检测的。

在以下方面也存应用：

将图像从退化中复原过来（参见4.4.2节），利用卷积定理进行快速匹配（参见5.4.1节），边界特性描述（参见6.2.3节），图像压缩（参见第12章），以及若干其他领域。

2.1.4作为随机过程的图像

由于随机变化和噪声的原因,图像在本质上是统计性的[Papoulis62,RowufddandKak82].有时将图像函数作为随机过程的实现来看待有其优越性，这时有关图像的信息量和冗余性的问题可以用概率分布和相关函数来回答◦如果知道槪率分布.我们可以用熵（entroy）H来度量图像的信息量。

设

是符号集合

的概率，所有这样的概率之和是1，熵按下式计算

K阶概率分布函数或概率密度函数在实际中通常是不知道的——它表达的是很多亊件间的复杂关系。

2阶概率分布函数成槪率密度函数用于表达事件对间的关系，更简单的是一阶概率密度函数

在知道图像是如何获取的条件下常常可以给该函数建一个模型。

描述随机过程的更为简单的特征包括随机过程的均值，它是用阶概率密度函数定义的：

其中H（u,v）是函数h（x,y）的傅立叶变换。

公式（2.25）用来描述一个线性图像滤波器h的谱特性。

随机过程的一个特殊的类别是各态历经过程（ergodieprocess）[Rosenfeldandkak82]。

对于这种平稳过程，从其实现计算的均值等丁根据空间变量计算的均值。

当在真实的图像域中常常没有足够的数据来计算时，从其实现计算均值是根据公式〔2.17）进行计算的。

这个计算通常被在图像空间坐标（x,y）域屮计算的均值所取代。

请注意，从理论的角度来看，这样的替代仅对各态历经过程而言才是有效的。

2.1.5作为线性系统的图像

公式（2,28）常用于图像预处理中表示平滑和锐化的处理，将在第4章进一步讨论。

事实上实际的图像并不是线性的.图像坐标和图像函数的数值（亮度）都是有限的，认识这一点是很通要的。

实际的图像的大小都是有限的，亮度的级别数也是有限的。

尽管如此，在很多情况下图像可以用线性系统来近似。

2.2图像数字化

2.2.1采样

在实际的图像数字转换器中，釆样间隔比Shannon采样定理〔公式（2.37）〕所确定的值的1/10还要小。

原因在于将数字化图像函数在显示器上重构为连续图像的算法仅使用的是阶跃函数[Pavlidis82],即线条是由表达为方块的像素组成的。

现在我们用一个256灰阶的图像来说明稀疏采样的影响。

图2.3a是一幅256X256大小的单色图像，图2.3b是同一场景数字化为128X128的降低了分辨率的图像，类似地图2.3c是64X64的图像，而图2.3d是32X32的图像。

从图2.3a到图2.3d图像的质量是明显地降低了。

如果我们从某个距离凝神地看的话，重构质量会得到改善，这说明欠采样的重构仍然含有实质性的信息。

在显示时，大部分的视觉退化是在重构连续函数过程中产生的混迭引起的。

在重构算法中对邻近的像素进行亮度插值可以改善显示的效果，称这项技术为反混迭（amti—aliasing）,常用于计算机图形学中〔Rogers85]如果使用反混迭技术，采样的间隔可以取到接近Shannon采样定理〔公式（2.37）〕所确定的值，由于反混迭技术在计算方面的要求，在实际的图像处理设备中几乎没有应用。

如果需要得到与普通的电视画而类似的图像质量，应该使用512X512的采样率，这就是为什么多数图像捕捉卡使用这个分辨率或更髙分辨率的原因。

—个连续图像在采样点（samplingpoint）处被数字化。

这些釆样点是在平面上排列的，称它们之间的几何关系为栅格（grid）。

因此数字图像是一个数据结构，通常是矩阵。

在实践中，栅格一般是方的（参见图4a）或者是正六边形的（参见图2.4b）。

把栅格与光栅区别开是十分重要的，光栅（raster）是指在点之间定义了相邻关系的栅格。

栅格中一个无限小的采样点对成于数字化图像中的一个像元[像索（pixel）]。

全体像素覆盖了整个图像，实际的数字转换器捕捉的像素具只有有限的尺寸，这是因为采样函数不是一组理想的狄拉克冲激，而是一组有限冲激[公式（2.38）]，从图像分析的角度看，像素是不能再分割的一个单位。

我们也常用一个“点”来一个像素。

2.2.2量化

在图像处理中，釆样的图像数值

用一个数字来表示，将图像函数的连续数值（亮度）转变为其数字等价量的过程是置化（quantization）。

为了使人能够觉察出图像的细微变化，童化的级别要足够的高。

大部分数字图像处理仪器都采用是个等间隔的量化方式。

如果用b位来表示像素亮度的数值，那么亮度阶就是

通常采用每个像素8位的表示方式，也有一些系统使用6位或4位。

二值图像，即或黑或白，可以用1位来表示像素。

另外，有些特殊的测童仪器使用12位或更多位来表示一个像素，这种情况越来越普遍了。

在置化级别不够时，图像的主要问题是出现伪轮廓（falsecontour）。

当亮度级别数小于人能够轻易地分辨出的量级时，就会出现这种情况。

这个数与许多因素有关，例如平均的局部亮度值，通常在显示时需要最少100级才能避免产生这种现象[GonalczandWimz87]。

这个问题也可以通过非等间隔的量化策略来减轻，具体的方法是对图像中较少出现的亮度用比较大的量化间隔。

我们将在4.1.2节中介绍这些灰度级的变换技术。

为了有效地表示数字图像的亮度，每个像素一般需要8位、4位或1位，也就是说计算机存储的每个字节分别相应地可以存下1个、2个或8个像索的亮度。

图2.3a和图2.5a到图2.5d给出了图像中亮度级别数降低时产生的影响。

图2.3a给出的是一个256亮度级别的原图像。

如果亮度级别降到61（图2.5a），则觉察不到退化，图2.5b是16个亮度级别的图像.伪轮廓开始出现了，在具有4个亮度级别的阁2.5c和仅有2个亮度级别的图2.5d中伪轮廓变得更加明显。

2.2.3彩色图像

色彩在人类视觉感知中是极为重要的，但是在数宇图像处理的历史上并没有得到特殊的使用。

这是因为所需硬件成本的原因造成的，但是从20世纪80年代以来，成本已经大幅度地降低了。

彩色图像可以很方便地通过TV摄像机或扫描仪获得。

随着存储成本的降低，与多光谱数据关联的大矩阵的内部存储问题也减轻了。

当然，彩色显示已经是计算机系统的默认配置了。

对于许多应用来说.单色阁像可能没有包含足够的信息，而色彩或多光谱图像（mialiti—spectralimage）常常可以弥补这些信息。

因此，对我们的目的而言，色彩是有用的信息。

色彩是与物体反射不同波长的电磁波的能力相关的，色谱在电磁光谱中大致对应于波长为400mm〜700nm的一段。

人类感知色彩是基于红、绿、蓝二原色（primarycolor）的组合，为了标准化它们，分别被定义为波位为700nm、546.lnm和438.5nm[Pratt78]的波的颜色，然而这并不意味着所有的色彩都可以通过这三原色组合出来。

通常硬件都通过RGB横型（model）（红、绿、蓝）产生或显示色彩。

因此，一个像素与一个三维的向量（r、R、b）相关联，分量分别对应于相应色彩的亮度，其中（0，0,0）是黑，

是“纯”红，等等，其中k是每个原色的量化粒度（grarmUrity）（通常是256）。

这就代表了一个k种不同颜色的色彩空间（当k=256时，就是224），并不是所有的显示器尤其是老式的显示器都支持这么多种颜色。

由于这个原因，为了显示的目的，通常需要指定该空间的一个子集合作为真正使用的色彩空间，我们称之为调色板（palette）。

RGB模塑可看成是3D坐标的色彩空间（参见图2.6），请注意次生颜色（seeondatycolor）是两个纯原色的组合。

大多数图像传感器根据这一模型提供数据，图像可以通过几个传感器抓取到，每个传感器只对一个相当狭窄的波段敏感，传感器输出端的图像函数就如同在最简单的情况下那样（参见第2.2.1节）：

如同是单色图像那样，每个频谱段独立地数字化并表示为单个数字图像函数。

有时图像以类似的方式产生出来，但是对应子不同光谱波段，例如，LANDSAT4卫星发回从近紫外线到红外线之间的5个波段的数字图像。

其他色彩模型，如果不是直觉性差点的话，同样是重要的。

最典型的是CMY，青、品红、黄（Cyan，Magenta，Yellow）色彩模型，它是基于次生颜色的减色基体系的。

例如，白色减去黄色得到蓝色，而白色减去黄色和品红的组合得到蓝色和绿色（以提供红色），这种颜料（Pigment）力法在彩色印刷设备中用于墨水组合（combingingink）,

YIQ模型（有时称为IYQ）用于彩色电视广播中，它是KGB表示的一个简单的线作变换：

（其逆矩阵显然也可计算出来）。

这种模型是有用的.由于Y分量提供了单色显示所需要的所有信息.进而.使人类视觉系统的特性得以利用，特别是在我们对亮度（luminance）的敏感性方面，亮度代表了觉察到的光源能量。

该模型的细节和使用方法在相关的文献中可以找到[Pritchard77,Smith78]。

另一种与图像处理相关的模型是HIS（有时称为IHS）——色调（Hue）、饱和度（Saturation）和亮度（ln-tensity）。

色调是指感知到的色彩（技术上，就是主要的波长）,例如，“紫色"或“橙黄'饱和度度量色彩是指被白光冲淡（dilution）的程度，产生淡紫色”，深紫色”等描述。

HSI将亮度信息从位彩中分解出来，而色调和饱和度与人类感知相对应，因而使得该模型在开发图像处理算法中非常有用。

在讲到图像增强算法（例如，均衡化算法4.1）时，它的用途就会变得明显了，如果我们将增强算法用在RGB的每个分量上，那么人对该图像的色彩感知就变坏了，而如果仅对HSI的亮度分量做增强（让色彩信息不受影响），那么效果就会或多或少地与期望相近。

为了将RGB表示（r,g，b）转化为HSI,假设已经对基色测量做了标准化，即

这些推导是根据个著名的、特殊的色彩三角形得到的，完整的推导过程请参见andWoods

在计算机视觉领域，有关色彩及其应用的个更为全面的介绍可参见[I.uong犯久

2.3数字图像性质

数字图像具有一些度量和拓扑性质，与我们在基础微积分中所熟悉的连续两维函数的性质有所不同。

另一个不同点在于人对图像的感知，因为对图像质童的判断也是重要的。

2.3.1数字图像的度量和拓扑性质

一幅数字图像由有限大小的像素组成，像素反映图像特定位置处的亮度信息。

通常（从此以后我们都这样假设）像素按照矩形采样栅格布置，我们用两维矩阵来表示这样的数字图像，矩阵的元素是整数，对应于亮度范围的量化级別。

连续图像所具有的一些明显的直觉特性在数字图像领域中没有直接的类似推广[Pavlids77,BallardandBrown82]。

距离（distance）是一个重要的例子。

坐标为（i，j）和（h，k）的两点间的距离可以定义为几种形式，经典几何学和日常经验中的欧氏距离（Euclideandistance）D8定义为：

欧氏距离的优点是它在事实上是直观且显然的。

缺点是平方根的计算费时且其数值不是整数。

两点间的距离也可以表示为在数字栅格上从起点移动到终点所需的最少的基本步数，如果只允许横向和纵向的移动，就是距离D1、D4也称为“城市街区（cityblock）”距离，这是因为：

它类似于在具有栅格状街道和封闭房子块的城市里的两个位置的距离。

在数字栅格中如果允许沿对角线方向的移动，我们就得到了距离D8，常称之为“棋盘（chessbosrd）”距离。

距离D8等于国王在棋盘上从一处移动到另一处所需的步数。

任何距离都可以作为斜切（chamfering）的基础，在斜切中产生像素与某个图像子集（多半表示某种特征）的距离，所产生的图像在该子集元素位置处的像素值为0,邻近的像素具有较小的值.而远处的数值就大，该技术的命名源于这个阵列的外观。

斜切在斜面匹配{chamfermatching）中有价值，将在第5.4节介绍。

如下的两遍算法是基于简化了的欧氏度量导出的[Banrowetal.77]，原出处是[RosenfeldandPfalz68]。

解决连通性悖论的一种方法是，对物体用4-邻接处理，而对背景用8-邻接处理（或反过来）。

有关二值和更多亮度级别的数字图像悖论，在[Pavlidis77,Hom86」中有更为严格的处理及解决方法。

这些问题对于方形栅格是很典型的，但是对于六边形栅格（参见图2.4）很多问题就不存在了。

六边形光栅中的任何点与其6个邻接点的距离都相同。

六边形光栅也有一些自身的待殊问题，比如，它很难用傅立叶变换来表示。

解决连接（conncctivity）问题的另一种方法是使用基于单元复合（cellcomplex）的离散拓扑[Kova-lcvaky89]。

这种方法得出了一整套有关图像编码与分割的理论，其中涉及的许多问题我们在后面会遇到，比如边界和区域的表示问题。

这种思想最早是Riemann在19世纪提出来的，它考虑的是不同维数的集合的族，0维的点可以陚给含有更高维结构（比如像素数组）的集合，这样可以排除我们所见到的悖论。

考虑到简单性和易于处理，尽管存在上述缺欠，多数数字化转换器仍然使用方形栅格。

区域的边界（border）是图像分析中的另一个重要概念，区域R的边界是它自身的一个像索集合，其中的每个点具有一个或更多个尺外的邻接点。

该定义与我们对边界的直觉理解相对应，即边界是区域的界限上的点的集合。

有时我们称这样定义的边界为内部边界（intterborder），以便与外部边界（outborder）相区别。

外部边界是指区域的背景（即区域的补案）的边界。

边缘（edge）是更深一步的槪念。

它是一个像素和其直接邻域的局部性质，它是一个有大小和方向的矢量。

边缘计算的对象是具有很多亮度级别的图像，计算边缘的方式是计算图像函数的梯度。

边缘的方向与梯度的方向垂直，梯度方向指向函数增长的方向。

我们在第4.3.2节将详细讨论边缘内容。

请注意“边界”与“边缘”是不同的。

边界是与区域有关的全局概念，而边缘表示图像函数的局部性质；边界与边缘也是关联的，一种寻找边界的方法是连接显著的边缘（在图像函数上具有大梯度的点）。

这种方法将在第5.2节介绍。

边缘性质隶属于一个像素及其邻域，有时评定两个像素对之间的性质也是有益的，裂缝边缘（crackedge）就是这样的一个概念。

每个像索有四个裂缝边缘，由其4-邻接关系

展开阅读全文