第二章数字图像及其性质.docx-资源下载

第二章数字图像及其性质.docx

1、第二章数字图像及其性质机器视觉课程之数字图像及其性质2.1基本概念这一章我们要介绍一些木书中用到的基本概念和数学工具。缺少完整数学背景的读者可能会遇到一些困难，在这种情况下，你可以忽略数学细节而关注于基本概念的直观意义，这是文中所强调的而且在本章结束时也概括出来的。这种方式不会影响你对本书的理解。图像和信号常用数学模型来描述，信号是一个依赖于具有某种物理意义的变量的函数，它可以是一维的（例如，依赖于时间）、二维的（例如，依赖于平面上的两个坐标量）、三维的（例如，描述空间中的一个物体）或高维的。对于单色的图像，一个标量函数可能就足够了，但是对于诸如由三个分量组成的彩色图像，就需要使

2、用矢量函数。我们要处埋的函数可以分为连续的、离散的或数字的。连续函数具有连续的定义域和值域；如果定义域是离散的，我们得到的是离散函数；而如果值域也是离散的，我们就得到数字函数.2.1.1图像函数图像（image)这一词我们通常在直观上去理解其意义，例如，人类眼睛视网膜上的图像，或者TV摄像机拍摄到的图像。图像可以表示为两个或三个变量的连续函数，在简单的情况下变量是平曲的坐标（x,y），不过当图像随时间变化时可以加上第三个变量。图像函数的值对应于图像点的亮度。函数值也可以表示其他物理量如温度、压力分布、离观察者的距离等。亮度（brightness)集成了不同的光学量，将亮度作为一个基本量使我们

3、得以避免对图像的成像过程进行描述，这个过程是非常复杂的。人类眼睛视网膜或者TV摄像传感器上的图像本身是二维的（2D)。我们将这种记录了明亮度信息的 2D图像称为亮度图像（intensity image）。我们周围的真实世界本身是三维的（3D）。2D亮度图像是3D场景的透视投影（perspective projection)，这一过程由针孔摄像机拍摄的图像来表达，参见图2.1。在图中，图像平面被相对于xy平面反折过来了，以避免使用具有负坐标的镜像图像；x，y，z的值是世界坐标系中3D场景点P的坐标，f是镜头的焦距。投影后的点具有2D图像坐标平面中的坐标(x，y)，其中：非线性的透视投影常被近似

4、为线性的平行（parallel)投影或正交（orthographic)投影（projection ），其中f。隐含地，还有的z正交投影是远处物体透视投影的极限情况。当3D物体经透视投影映射到摄像机平面后，由于这样的变换不是一对一的，因而大量的信息消失通过一幅图像来识别和重构3D场景中的物体是个病态问题。在第9章中，我们将考虑更精细的表达，以便重新获得有关图像所描写的原来3D场景的倍息。可以预料。这不是一件简单的事情，涉及到试图建立图像中点的深度（depth)这个中间表达层次。目标是恢复完整的31表达，比如计算机图形学中的表达，即独立于视点的表达，表示在物体坐标系中而不是在观察者坐标系中，如果这

5、样的表达可以恢复，则物体的任何视角的亮度图像可以用标准的计算机图形学技术合成出来。恢复被透视投影损失的信息只是计算机视觉中的一个问题，这主要是个几何问题，第二个问题是理解图像亮度。一幅亮度图像的唯一可用信息是像索的亮度本身，它取决于一组互相独立的因素，包括物体表面的反射特性（由表面材料、微结构和斑纹决定）、照明特性、以及相对于观察者和光源的物体表面方向。当试图从亮度图像恢复物体的3D几何形状时，如何分离这些因素并不容易而且又是一个病态问题。一些科学和技术学科直接在2D)阁像上进行，例如，在透明的照明条件下显微镜观察到的扁平样品的图像，书写在纸上的字符，指纹的图像，等等。因此，数字图像分析中的

6、许多基本的有用的方法并不依赖于物体原本是2D）的或是3D的，本书的很大部分篇幅限定于这些方法的研究一，在第9章和第10章中会专门讨论3D理解问题。图像的形成过程在born 86中有阐述，相关的学科包括光度测定学(photometry)（参见9.3节）和比色学（colorimetry)。前者是关于亮度测量的，而后者是研究依赖于波长的光线的反射和散射的。比色学在 Pratt 78. Pratt 91中是作为图像处理中的领域来考虑的。图像处理通常处理的是静态（statie)图像，时间t作为常量。单色的静态图像是用连续的图像函数f(x，y)来表示的，其中的变量是平面的两个坐标。本书所考虑的图像除非特別

7、声明大多数是指单色的静态图像。把这取所讲的技术推广到多光谱的情况下经常是显而易见的。计算机化的图像处理使用的数字图像函数通常表示成矩阵的形式，因此其坐标是整数。图像函数的定义域是平面的一个区域R：其中x，y表示最大的图像坐标。图像函数具有有限的域，由于假定图像函数在域R外的值为零，可以使用无限求和或积分的形式。尽管矩阵中使用的（row, column)定位方式在数宇图像处理中也常用到，但是习惯上采用的图像坐标方向仍然是普通的笛卡儿坐标形式（横轴x 纵轴y）。图像函数的值域也是有限的，按照惯例，在单色图像中最低值对应于黑，而最高值对应于白。在它们之间的亮度值是灰阶（gray level）。

8、数字图像的品质随着空间、频谱、辐射计量、时间分辨率的增长而提高。空间分辨率（spatial resolution) 是由图像平面上图像采样点间的接近程度确定的？频谱分辨率(spectral resolution)是由传感器获得的光线频率带宽决定的；辖射计量分辨率（radiometric resolution对应于可区分的灰阶数量；时间分辨率（time resolution)取决于图像获取的时问釆样间隔。时问分辨率问题在动态图像分析中是重要的，其处埋的是图像的时间序列。图像f(x，y)可作为确定的函数或者是随机过程的实现来看待。图像描述中的数学工具根植于线系统理论，积分变换，离散数学以及随机

9、过程理论中。本节只概要地介绍一些后面闸述中要涉及到的数学工具，背景数学的详细描述可以参考相应问题中所附的文献。如果读者想要学习图像处理中的数学知识，可以从如下的推荐书开始Pavlidis82. Rosenfeld and Kak 82。数学变换假定图像函数f(x.r,)是“好形态的”，意思是指：该函数是可积的，具有可逆的傅立叶变换，等等。特殊信号（常量、冲激、非周期信号）的傅立叶变换的存在问题Papoulis62不在讨论之列，离散图像的傅立叶变换总是存在的。2. 1.2狄拉克(Dirac)分布和卷积理想的冲激是一个重要的输人信号，它的引人使得在连续图像函数域中吋以使用线性数学现论，图像平面上的

10、理想冲激是用狄拉克分布（Dirac distribution)即（x，y）定义的。且对于所有的x，y0，有如下的公式（2. 4)被称为狄拉克分布的“筛特性（sift property)”.它提供函数f(x，y)d在点，的值：筛公式可以用来描述连续图像函数f（x，y）的采样过程。我们可以将图像函数表示成覆盖整个图像平面的位于点a、b的狄拉克脉冲的线性组合，釆样由图像函数f（x，y）W加权。卷积（convolution)在图像分析的线性方法中是一种重要的运算.二维函数f和h的卷积g记为f x h，通过积分走义为:卷积是一种非常有用的线性、平移不变的运算。数字图像在图像平面上具有有限的域.因此平移

11、不变性只有平移量小时才有效一因而卷积常在局部使用。卷积表示的是用滤波器h做的线性滤波，线性滤波通常用于局部图像预处理和图像复原。2.1.3傅立叶变换图像是平面上两个参数的函数。研究其性质的一个可能途径是将图像分解为一组正交函数的线性组合。傅立叶变换（Fouriertansrorml使用谐波函数来分解Fapoulis62，RosenfeldandKak82。二维的傅立叶变换定义为如下的积分：傅立叶变换的存在条件在Pupoulis 62中有论述，何是对于图像处理日的而言，假定周期函数的傅立叶变换总是存在的且是合理的，傅立叶变换的逆变換定义为：参数（x，y）表示图像坐标，（u，v)称为空间频率（sp

12、atial frequencies)。公式（2.8）左端的函数f(x，y)可以解释成-组简单周期模式的线性组合。该糢式的实部和虚部是正弦和余弦函数，函数P（u，v）代表单位模式影响度的加权函数。用F表示傅立叶变换算子.公式（2. 7)可以缩写为：则从图像处理的角度看，傅立叶变换的以下性质是比较重要的：*线性其中表示复数共轭，一个图像凼数总是实值的，因此我们可以使用傅立叶变换在第一象限的结果。此外，如果图像还是对称的，f(x，y)f(-r,-y),那么傅立叶变换F(u,v)的结果是一个实值函数。 *卷积对偶性：卷积公式（2. 6)和其傅立叶变换有如下的关系：这是卷积定理（Convolutio

13、n thcorem)。这些对于连续函数域的傅立叶变换的性质问样适用于离散函数（图像），只是将各个公式中的积分变为求和。在图像分析中使用傅立叶变换是很普遍的。在第1章我们将看到通过确定图像函数中的髙频（急剧的变化）部分是如何可以有助于边缘检测的。在以下方面也存应用：将图像从退化中复原过来（参见4.4.2 节），利用卷积定理进行快速匹配（参见 5.4.1节），边界特性描述（参见6.2.3节），图像压缩（参见第12章），以及若干其他领域。2.1.4作为随机过程的图像由于随机变化和噪声的原因,图像在本质上是统计性的Papoulis 62, Rowufdd and Kak 82.有时将图像函数作为随机

14、过程的实现来看待有其优越性，这时有关图像的信息量和冗余性的问题可以用概率分布和相关函数来回答如果知道槪率分布.我们可以用熵(entroy)H来度量图像的信息量。设是符号集合的概率，所有这样的概率之和是1，熵按下式计算K阶概率分布函数或概率密度函数在实际中通常是不知道的它表达的是很多亊件间的复杂关系。2阶概率分布函数成槪率密度函数用于表达事件对间的关系，更简单的是一阶概率密度函数在知道图像是如何获取的条件下常常可以给该函数建一个模型。描述随机过程的更为简单的特征包括随机过程的均值，它是用阶概率密度函数定义的：其中H（u,v）是函数h(x,y)的傅立叶变换。公式(2.25)用来描述一个线性图像

15、滤波器h的谱特性。随机过程的一个特殊的类别是各态历经过程（ergodie process)Rosenfeld and kak 82。对于这种平稳过程，从其实现计算的均值等丁根据空间变量计算的均值。当在真实的图像域中常常没有足够的数据来计算时，从其实现计算均值是根据公式2.17)进行计算的。这个计算通常被在图像空间坐标(x,y)域屮计算的均值所取代。请注意，从理论的角度来看，这样的替代仅对各态历经过程而言才是有效的。2.1.5作为线性系统的图像公式（2,28)常用于图像预处理中表示平滑和锐化的处理，将在第4章进一步讨论。事实上实际的图像并不是线性的.图像坐标和图像函数的数值（亮度）都是有限的，认

16、识这一点是很通要的。实际的图像的大小都是有限的，亮度的级别数也是有限的。尽管如此，在很多情况下图像可以用线性系统来近似。2.2图像数字化2.2.1 采样在实际的图像数字转换器中，釆样间隔比Shannon采样定理公式（2. 37)所确定的值的1/10还要小。原因在于将数字化图像函数在显示器上重构为连续图像的算法仅使用的是阶跃函数Pavlidis 82,即线条是由表达为方块的像素组成的。现在我们用一个256灰阶的图像来说明稀疏采样的影响。图2. 3a是一幅256X256大小的单色图像，图2. 3b是同一场景数字化为128X128的降低了分辨率的图像，类似地图2. 3c是64X64的图像，而图2

17、.3d 是32X32的图像。从图2. 3a到图2. 3d图像的质量是明显地降低了。如果我们从某个距离凝神地看的话，重构质量会得到改善，这说明欠采样的重构仍然含有实质性的信息。在显示时，大部分的视觉退化是在重构连续函数过程中产生的混迭引起的。在重构算法中对邻近的像素进行亮度插值可以改善显示的效果，称这项技术为反混迭（amtialiasing),常用于计算机图形学中Rogers 85如果使用反混迭技术，采样的间隔可以取到接近Shannon采样定理公式(2. 37)所确定的值，由于反混迭技术在计算方面的要求，在实际的图像处理设备中几乎没有应用。如果需要得到与普通的电视画而类似的图像质量，应该使用5

18、12X512的采样率，这就是为什么多数图像捕捉卡使用这个分辨率或更髙分辨率的原因。个连续图像在采样点（sampling point)处被数字化。这些釆样点是在平面上排列的，称它们之间的几何关系为栅格(grid)。因此数字图像是一个数据结构，通常是矩阵。在实践中，栅格一般是方的（参见图4a)或者是正六边形的（参见图2.4b)。把栅格与光栅区别开是十分重要的，光栅（raster）是指在点之间定义了相邻关系的栅格。栅格中一个无限小的采样点对成于数字化图像中的一个像元像索（pixel)。全体像素覆盖了整个图像，实际的数字转换器捕捉的像素具只有有限的尺寸，这是因为采样函数不是一组理想的狄拉克冲激，而是一

19、组有限冲激公式(2. 38)，从图像分析的角度看，像素是不能再分割的一个单位。我们也常用一个“点”来一个像素。2. 2. 2量化在图像处理中，釆样的图像数值用一个数字来表示，将图像函数的连续数值(亮度）转变为其数字等价量的过程是置化(quantization)。为了使人能够觉察出图像的细微变化，童化的级别要足够的高。大部分数字图像处理仪器都采用是个等间隔的量化方式。如果用b位来表示像素亮度的数值，那么亮度阶就是通常采用每个像素8位的表示方式，也有一些系统使用6位或4位。二值图像，即或黑或白，可以用1位来表示像素。另外，有些特殊的测童仪器使用12位或更多位来表示一个像素，这种情况越来越普遍了。在

20、置化级别不够时，图像的主要问题是出现伪轮廓(false contour)。当亮度级别数小于人能够轻易地分辨出的量级时，就会出现这种情况。这个数与许多因素有关，例如平均的局部亮度值，通常在显示时需要最少100级才能避免产生这种现象Gonalcz and Wimz 87。这个问题也可以通过非等间隔的量化策略来减轻，具体的方法是对图像中较少出现的亮度用比较大的量化间隔。我们将在4.1.2节中介绍这些灰度级的变换技术。为了有效地表示数字图像的亮度，每个像素一般需要8位、4位或1位，也就是说计算机存储的每个字节分别相应地可以存下1个、2个或8个像索的亮度。图2.3a和图2. 5a到图2. 5d给出了图像

21、中亮度级别数降低时产生的影响。图2. 3a给出的是一个256 亮度级别的原图像。如果亮度级别降到61(图2. 5a)，则觉察不到退化，图2. 5b是16个亮度级别的图像. 伪轮廓开始出现了，在具有4个亮度级别的阁2. 5c和仅有2个亮度级别的图2. 5d中伪轮廓变得更加明显。2.2.3彩色图像色彩在人类视觉感知中是极为重要的，但是在数宇图像处理的历史上并没有得到特殊的使用。这是因为所需硬件成本的原因造成的，但是从20世纪80年代以来，成本已经大幅度地降低了。彩色图像可以很方便地通过TV摄像机或扫描仪获得。随着存储成本的降低，与多光谱数据关联的大矩阵的内部存储问题也减轻了。当然，彩色显示已经是计

22、算机系统的默认配置了。对于许多应用来说.单色阁像可能没有包含足够的信息，而色彩或多光谱图像(mialiti spectral image)常常可以弥补这些信息。因此，对我们的目的而言，色彩是有用的信息。色彩是与物体反射不同波长的电磁波的能力相关的，色谱在电磁光谱中大致对应于波长为400mm 700nm的一段。人类感知色彩是基于红、绿、蓝二原色（primary color)的组合，为了标准化它们，分别被定义为波位为700nm、546. lnm和438.5nmPratt 78的波的颜色，然而这并不意味着所有的色彩都可以通过这三原色组合出来。通常硬件都通过RGB横型（model）（红、绿、蓝）产生

23、或显示色彩。因此，一个像素与一个三维的向量（r、R、b）相关联，分量分别对应于相应色彩的亮度，其中（0，0,0)是黑，是 “纯”红，等等，其中k是每个原色的量化粒度（grarmUrity)(通常是256)。这就代表了一个k种不同颜色的色彩空间（当k= 256时，就是224)，并不是所有的显示器尤其是老式的显示器都支持这么多种颜色。由于这个原因，为了显示的目的，通常需要指定该空间的一个子集合作为真正使用的色彩空间，我们称之为调色板 (palette)。RGB模塑可看成是3D坐标的色彩空间（参见图2.6)，请注意次生颜色（seeondaty color)是两个纯原色的组合。大多数图像传感器根据这

24、一模型提供数据，图像可以通过几个传感器抓取到，每个传感器只对一个相当狭窄的波段敏感，传感器输出端的图像函数就如同在最简单的情况下那样（参见第2.2.1节）：如同是单色图像那样，每个频谱段独立地数字化并表示为单个数字图像函数。有时图像以类似的方式产生出来，但是对应子不同光谱波段，例如，LANDSAT 4卫星发回从近紫外线到红外线之间的5个波段的数字图像。其他色彩模型，如果不是直觉性差点的话，同样是重要的。最典型的是CMY，青、品红、黄（Cyan，Ma genta，Yellow)色彩模型，它是基于次生颜色的减色基体系的。例如，白色减去黄色得到蓝色，而白色减去黄色和品红的组合得到蓝色和绿色（以提供红

25、色），这种颜料（Pigment)力法在彩色印刷设备中用于墨水组合(combinging ink),YIQ模型（有时称为IYQ)用于彩色电视广播中，它是KGB表示的一个简单的线作变换：(其逆矩阵显然也可计算出来)。这种模型是有用的.由于Y分量提供了单色显示所需要的所有信息. 进而.使人类视觉系统的特性得以利用，特别是在我们对亮度（luminance)的敏感性方面，亮度代表了觉察到的光源能量。该模型的细节和使用方法在相关的文献中可以找到Pritchard77,Smith78。另一种与图像处理相关的模型是HIS（有时称为IHS)色调（Hue)、饱和度（Saturation)和亮度（ln- tensi

26、ty)。色调是指感知到的色彩（技术上，就是主要的波长),例如，“紫色或“橙黄饱和度度量色彩是指被白光冲淡（dilution)的程度，产生淡紫色”，深紫色”等描述。HSI将亮度信息从位彩中分解出来，而色调和饱和度与人类感知相对应，因而使得该模型在开发图像处理算法中非常有用。在讲到图像增强算法（例如，均衡化算法4. 1)时，它的用途就会变得明显了，如果我们将增强算法用在RGB的每个分量上，那么人对该图像的色彩感知就变坏了，而如果仅对HSI的亮度分量做增强（让色彩信息不受影响），那么效果就会或多或少地与期望相近。为了将RGB表示（r, g，b)转化为HSI,假设已经对基色测量做了标准化，即这些推导

27、是根据个著名的、特殊的色彩三角形得到的，完整的推导过程请参见and Woods在计算机视觉领域，有关色彩及其应用的个更为全面的介绍可参见I.uong犯久2.3数字图像性质数字图像具有一些度量和拓扑性质，与我们在基础微积分中所熟悉的连续两维函数的性质有所不同。另一个不同点在于人对图像的感知，因为对图像质童的判断也是重要的。2.3.1数字图像的度量和拓扑性质一幅数字图像由有限大小的像素组成，像素反映图像特定位置处的亮度信息。通常（从此以后我们都这样假设）像素按照矩形采样栅格布置，我们用两维矩阵来表示这样的数字图像，矩阵的元素是整数，对应于亮度范围的量化级別。连续图像所具有的一些明显的直觉特性在数

28、字图像领域中没有直接的类似推广Pavlids 77, Ballard and Brown 82。距离(distance)是一个重要的例子。坐标为(i，j)和(h，k)的两点间的距离可以定义为几种形式，经典几何学和日常经验中的欧氏距离（Euclidean distance)D8定义为：欧氏距离的优点是它在事实上是直观且显然的。缺点是平方根的计算费时且其数值不是整数。两点间的距离也可以表示为在数字栅格上从起点移动到终点所需的最少的基本步数，如果只允许横向和纵向的移动，就是距离D1、 D4也称为“城市街区（city block)”距离，这是因为：它类似于在具有栅格状街道和封闭房子块的城市里的两个位置

29、的距离。在数字栅格中如果允许沿对角线方向的移动，我们就得到了距离D8，常称之为“棋盘（chessbosrd)”距离。距离D8等于国王在棋盘上从一处移动到另一处所需的步数。任何距离都可以作为斜切（chamfering）的基础，在斜切中产生像素与某个图像子集（多半表示某种特征）的距离，所产生的图像在该子集元素位置处的像素值为0,邻近的像素具有较小的值.而远处的数值就大，该技术的命名源于这个阵列的外观。斜切在斜面匹配chamfer matching)中有价值，将在第5.4节介绍。如下的两遍算法是基于简化了的欧氏度量导出的Banrow et al.77，原出处是Rosenfeld and Pfal

30、z 68。解决连通性悖论的一种方法是，对物体用4-邻接处理，而对背景用8-邻接处理（或反过来）。有关二值和更多亮度级别的数字图像悖论，在Pavlidis 77, Hom 86中有更为严格的处理及解决方法。这些问题对于方形栅格是很典型的，但是对于六边形栅格（参见图2.4)很多问题就不存在了。六边形光栅中的任何点与其6个邻接点的距离都相同。六边形光栅也有一些自身的待殊问题，比如，它很难用傅立叶变换来表示。解决连接（conncctivity）问题的另一种方法是使用基于单元复合（cell complex）的离散拓扑Kova- lcvaky89。这种方法得出了一整套有关图像编码与分割的理论，其中涉及的许

31、多问题我们在后面会遇到，比如边界和区域的表示问题。这种思想最早是Riemann在19世纪提出来的，它考虑的是不同维数的集合的族，0维的点可以陚给含有更高维结构（比如像素数组）的集合，这样可以排除我们所见到的悖论。考虑到简单性和易于处理，尽管存在上述缺欠，多数数字化转换器仍然使用方形栅格。区域的边界(border)是图像分析中的另一个重要概念，区域R的边界是它自身的一个像索集合，其中的每个点具有一个或更多个尺外的邻接点。该定义与我们对边界的直觉理解相对应，即边界是区域的界限上的点的集合。有时我们称这样定义的边界为内部边界（intter border)，以便与外部边界（out border)相

32、区别。外部边界是指区域的背景（即区域的补案）的边界。边缘(edge)是更深一步的槪念。它是一个像素和其直接邻域的局部性质，它是一个有大小和方向的矢量。边缘计算的对象是具有很多亮度级别的图像，计算边缘的方式是计算图像函数的梯度。边缘的方向与梯度的方向垂直，梯度方向指向函数增长的方向。我们在第4. 3. 2节将详细讨论边缘内容。请注意“边界”与“边缘”是不同的。边界是与区域有关的全局概念，而边缘表示图像函数的局部性质；边界与边缘也是关联的，一种寻找边界的方法是连接显著的边缘（在图像函数上具有大梯度的点）。这种方法将在第5. 2节介绍。边缘性质隶属于一个像素及其邻域，有时评定两个像素对之间的性质也是有益的，裂缝边缘（crack edge)就是这样的一个概念。每个像索有四个裂缝边缘，由其4-邻接关系

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？