基于内容的图象检索综述译文.docx

资源描述

基于内容的图象检索综述译文.docx

《基于内容的图象检索综述译文.docx》由会员分享，可在线阅读，更多相关《基于内容的图象检索综述译文.docx（58页珍藏版）》请在冰豆网上搜索。

基于内容的图象检索综述译文.docx

基于内容的图象检索综述译文

基于内容的图像检索的近年研究

阿诺德W.M.斯缪尔德斯IEEE高级会员，马瑟尔.沃林，西蒙.桑蒂尼IEEE会员，

阿马纳斯.古伯塔IEEE会员，拉麦锡.简，费罗IEEE会员

摘要

这篇文章是一篇对基于内容图像检索领域内两百篇论文的综述。

文章从讨论基于内容检索的工作条件谈起：

使用模式，图像类型，语义的作用以及感觉鸿沟。

接下来的章节讨论了图像检索系统的计算步骤。

第一步是分别按颜色，纹理，局部几何特征对图像进行处理，接着讨论特征，按累加和全局特征，显著特征，对象和形状特征，标记及其结构联合进行分类。

接下来讨论了图像和图像中对象在每个特征类型中的相似性，并紧密结合用户通过交互给出的反馈的类型和方法。

我们简要的讨论了系统工程，数据库，体系结构以及评估的问题。

在最后的总结中，我们在以下方面提出了自己的观点：

整个领域的发展动力，对计算机视觉中的继承，对计算机视觉的影响，相似性和交互性的作用，对数据库的需求，系统评估问题以及语义鸿沟.

索引词

综述，基于内容，检索，语义鸿沟，感官鸿沟，狭义域，广义域，弱分割，累加特征，显著特征，标记，结构特征，相似性，语义解释，查询空间，显示空间，交互序列,索引，结构，评估，图像数据库。

1、引言

芒奇的《尖声惊叫》或者康斯泰伯的《WivenoePark》是无法用言语来表达的，必须去看，同样，一幅撒哈拉沙漠的图片，一个正在分裂的细胞，或者一个饰演李尔王的演员的面部表情，都只能去看而无法用语言描述。

想象一个编辑不看图片而去理解它们或者一个电台播音员口头描述是很难的。

图像必须要按对象，按内容，按方式，按意图来搜索。

如今，关于基于内容的图像检索的研究是一门很活跃的的学科，并且在不断发展。

像许多学科在走向成熟过程中经历的一样，在经过了早期一些应用的成功后，如今的研究集中于更深刻的问题，挑战那些处于学科交叉点的难题，而它正是从这些学科中诞生的：

计算机视觉，数据库和信息检索。

目前，基于内容图像检索的研究正对最初的想法进行回顾，看哪些已经取得成效。

哪些还没有，哪些由于改变了方向而已经落伍。

一九九二年二月，国家科学基金会（USNSF）在加利福尼亚的内得伍德组织了一次研讨会，指出了研究者应着重研究的主要领域，视觉信息管理系统将会用于工业，医学，环境保护，教育，娱乐及其它领域。

从会后的情况来看，大会做了一项很好的工作：

指出那些研究者应该解决却还未解决的问题。

特别需要指出的是，大会提出：

“视觉息管理系统不应该被看成是‘计算机视觉和数据库领域中已有技术在信息管理和信息处理上的应用’。

”以及“计算机视觉的研究者应该确定图像交互理解所需的特征，而不是学科目前将重点放在自动技术上”。

在相应的应用领域里，大会主要考虑了有巨大挑战性的问题，诸如气象预报，生物建模，医疗图像，卫星图像等等。

有一点肯定的是:

与会者们充分看到了大规模计算及存储能力对于视觉数据库的必要性。

然而，同类会议中开的最早的可能是一九七九年在佛罗伦萨举行的有关图像应用中对数据库的应用的会议[13]，在引言中说道：

“这一方面有助于推动综合数据库的发展，另一方面也有助于推动图形和图像（简称：

pictorial）处理的发展”。

接着，作者认为：

“但是，在传统上这两个领域的发展却是不相关的。

”这个论断至今仍非常正确。

就在USNSF会议后，因特网上Mosaic浏览器的出现触发了网络革命。

与此同时，大量新型数字视觉传感器的出现使普通用户能接触到的图像数量在几年里急剧增加，于是，对网络索引工具和建立数字档案馆的要求变得很迫切。

在这篇文章中，我们提出了一种我们称之为基于内容图像建索“近几年研究”的观点，在一九九零年以前发表的文章很少，而且过时，对现在的研究没有多少影响，而一九九七年以后发表的文章数量十分惊人。

我们不可能对所有的文章进行综述，因此，就要有所选择，除了对整个领域有所贡献外，我们尽可能的选择那些用户能理解的文章。

所以，我们一般选择新闻杂志上发表的文章，而不是学术性很强的文章。

我们将使用模式和计算模式作为我们综述的首要准则。

当数据经过计算流程时，我们跟踪它们，并在数据流中的相同位置考虑可替换的方法（如图二）。

在数据流图中，我们用图一中约定的符号。

我们致力于计算方法是为了达到基于工具的综述而不是基于系统的综述，这样我们将用于描述完整系统的引用文章分散开，方法的各个部分将出现于论文的不同章节。

至于基于系统的概述请看[141]。

我们只局限于静止图像的研究而使得视频数据库成为一个独立的课题。

视频检索之所以被认为是比图像检索更宽的研究领域是因为视频是在单幅图像的基础上建立起来的。

从另一个角度看，视频检索又比图像检索更简单，因为当对象中的点一起移动时，视频能更容易的显示出其中的物体。

在静止图像中，作者对目的的语法表述在于框架选择，照明以及结构成分上。

另外，如同文本一样，视频有一个线性的时间顺序,这对视频的语法结构是很重要的，对视频的讨论可见[1][16]。

这篇文章以图二中所指出的方式进行组织。

首先，在第二节中我们讨论了基于内容图像检索的研究范围，讨论了领域特性和知识来源。

接着，分两步分析了对内容的描述。

首先，在第三节中，讨论了按颜色，纹理，局部形状等特征进行图像处理的方法。

在第四节中，讨论了数据阵列的划分和特征计算的处理步骤，在第五节中，我们讨论了单幅图像的注释及两幅图像的相似性。

查询定义，显示及互操作在第六节中进行了讨论。

整篇文章从系统的高度给出总结：

索引，体系结构及性能评估。

每一章节通过讨论技术现状给出结论。

（图三：

基于内容的检索系统的三种使用模式）

2、研究范围

在参考文献中，有大量不同的基于内容检索的方法和系统。

在本章节中，我们将讨论应用模式，图像的，场景的影响，领域知识的作用以及图像特征与用户之间的语义鸿沟。

2.1基于内容检索的应用

在[31]中，我们将用户使用系统的目的分为主要的三种。

见图3

有很多的方法和系统，它们的目的是从大量对信息来源未分类的图像中进行浏览。

按相关性进行搜索的用户最初并没有特定的目标对象。

利用相关性进行搜索往往意味着最初是利用示例或相似性进行搜索，以后对搜索不断的进行精化。

这一类的系统往往都有很高的交互性，通过草图或示例图像进行说明。

最早用于实际的这类系统可能是[88]。

搜索的结果可以通过相关性反馈进行交互操作[68]，[51]。

为了支持相关结果的请求，会使用图像以外的信息来源，请看例子[168]，[21]。

另一类用户进行搜索是为了找到特定的图像，找到一幅与用户脑中的图像一模一样的图像，就好像寻找艺术分类一样，比如说[48]。

目标搜索也可用于搜索与用户图像拥有相同物体的图像，另外，对象查询也可以是：

用户脑海中有了大概的图像，通过交互对给出的示例进行详细说明，直至找出自己满意的图像。

.比如说[31]。

总的来说，这些系统适合于搜索邮票，艺术品，工业元件及目录。

第三类应用，目录搜索，是为了检索能代表特定类的任意一幅图像。

一般是用户有一幅图像，想找出同一类中的其他图像。

目录可以来源于标签或者是从数据库中形成[170]，[186]。

在目录搜索中，用户有一组图像想找出同一类中另外的图像[28]。

在[74]，[79]中，系统是用于商标分类。

这一类的系统通常是按特定领域内定义的相似性进行交互。

当然，这三种类型并不代表所有情况。

[121]的研究将使用分为五种模式：

对特定图像的搜索，在总体浏览基础上进行交互选择，选择和主要素材相匹配的图片，解释文档，搜索仅在感觉上相似的替代图像。

.将用户对静止和运动图像的要求进行综合分类的研究可见[6]。

这以及那些相类似的研究指出，用户查询的范围要比仅基于具有简单视觉特征的对象的出现或消失的图像检索更大。

2.2图像领域及语义鸿沟

系统所考虑的图像—图像域I—在狭义域和广义域之间有一个渐进的差别[160]。

狭义域在它外观的各个相关方面都有一个有限的，可预知的变化。

在狭义域中,图像内容变化很小。

通常,整个领域的纪录环境也是相似的。

比如在平版印刷中,从正面看去，记录在白光之下没有遮挡。

同样，当对象的外观变化较小时，图像的语义描述总体上是好定义的，并且大多数情况下是唯一的。

狭义域的另一个例子是在清晰的背景下，一系列面部纪录的正视图，虽然每张面部是唯一的，并且在视觉细节上有大量的可变性，但仍由明显的几何，物理及颜色相关的限制决定着区域。

如果面部是从人群中或是在户外拍摄的，区域会变得更宽。

在那种情况下，对分析的主要影响来自于照明的变化，场景的混乱，遮挡及视点。

与狭义域相对的是广义域：

即使对具有相同的语义含义，在其外观上，广义域也会有无穷的，不可预知的变化。

在广义域中，图像是有差别的，它们的语义只能被部分的定义。

这种情况是场景中有显著的物体，并不知道它的类别，甚至连场景的注释都不唯一。

一幅广义域的图像能在大量的图像堆或者其他图像资料中被发现[42]，对数据可用的最宽的类是在因特网上可用的图像集。

实际关心的许多问题在狭义域和广义域之间有图像领域,见图4。

狭义域和广义域的概念用于刻划使用模式的特征，选择特征及设计系统上。

在广义域图像区域中，特征描述和语义注释之间的差距通常较大。

对于狭义域，在特定的图像区域中，特征和它们的语义注释之间的差距比广义域小，这样,特定区域的模型就有用。

许多几何模型和统计模型都可用于面部图像。

而这些计算模型在广义域中就不适用，因为在广义域中计算所需的变量数目非常巨大。

特别对于广义域图像，必须要有一般的标准。

图像区域的照明是白色还是有色？

场景中是只包含已定义和完全可见的对象还是可以包含模糊和遮挡的对象？

是对二维场景的二维纪录还是对三维场景的二维纪录？

给定照明的特征，遮挡的出现或消失，模糊及摄像机视角等等都决定着对检索方法。

感觉鸿沟是现实场景中的对象和场景纪录中可计算的描述信息之间的差别。

感觉鸿沟使物体的描述变得很困难，:

它对有关对象的状态产生了不确定性。

当关于纪录条件的精确信息丢失后，感觉鸿沟变得尤为突出。

不同三维物体的二维纪录是可能完全相同，没有更多的信息，就会认为他们代表了相同的物体。

并且，一个三维物体的二维纪录会包含了场景和感觉的附属信息，但并不知道那些信息是和场景有关的。

由感觉鸿沟引起的不确定性不都存在于视角，还存在于遮挡（能够辨别两个相离物体的本质部分可能落在视野之外），模糊和照明。

通过比较可替换的注释能够消弱感觉鸿沟。

基于内容的检索系统通过好对几个解释不断的检验和消除来减少歧义，这同自然语言的处理过程很相似。

2.3领域知识

在视觉搜索中，领域知识的表述对于减少感觉鸿沟事很重要的。

在一般知识来源上，我们有以下几方面：

·语法等同性和相似性的规则定义了图像象素集或图像特征集之间的联系，并不考虑他们的物理或知觉成因。

比如说,如果两幅图像的上半部分的几个被选择部分都具有蓝色的阴影，那么就认为这两幅图像是相似的，这在从其他图像中分离户外场景是有效的。

这就是语法相似，因为这种方法并没有考虑相似性存在的原因（在该例中，就是天空的散射）也没有考虑观察者为什么认为两幅图像相似。

同样的道理，RGB颜色空间在语法相似中是有效的（就好像它在艺术品中有效一样[65]）但它并不能展示颜色形成的物理过程和颜色理解的过程。

·人对等同性和相似性理解的描述规则是很重要的，因为它们是在和用户经验同样的基础上定义等同性的。

在颜色上，CIE-Lab和芒瑟尔空间就是遵照用户对颜色相似的理解进行设计的。

如果用户对一个对象的理解是基于图像中某些显著的部分，那么，很自然，对广义域特征的计算就要针对这些点和区域[157]，[138]。

·在感觉和物体表面特性的差别下描述图像的等同性和差别性的物理规则。

照明的物理效果，表面反射及图像构成对图像都有总体的效果。

一般的物理规则可用于大量类的物体。

一个普通的例子是对粗糙物体的光反射的一致性原则。

这些规则被用来设计表述等同性的颜色特征而不去考虑姿势和视点。

·用于描述空间图案等同性和差别性的几何和拓扑规则。

当两个物体几何等同时，它们的表面物理特性和感觉的物理条件也许是不同的。

举一个用于图像检索的几何规则的例子，所有接近水平线时具有深度和局部细节信息的图像看起来会变小，在几何上，水平线被定义成一个包含中心点的虚拟线。

几何规则的另一个例子是物体之间空间[22]和拓扑关系[172]的表述。

·基于目录的规则对由所有z记号组成的空间里的z类的一般特性进行编码。

如果z代表所有茶壶组成的类，那么特性就包括茶壶嘴的展现。

在狭义域里几乎很少使用目录。

领域知识会对图像的语法特性进一步的限制，除此以外，还有几何和物理规则或特定领域内人为习惯的限制。

在工程绘图领域，细节几何知识将控制符号的探测.在中世纪的艺术品中，色彩和物体的相关位置有象征性的意义。

[30]再搜索中会形成一系列的有用的限制。

每个应用领域都有各自的限制集。

·最后，人为的习惯或者与人相关的模式引出了基于观念的等同性和差别性的规则。

在观念下，我们假设为语言。

在寻找内部图像的过程中，人们会将对许多直线和直角进行确定作为首选标准。

2.4使用和用户，语义沟

我们认为，绝大多数早期的检索系统之所以令人不满意是因为没认识到语义鸿沟的存在及它对系统设计所产生的后果。

语义鸿沟是指对于一个用户，在一个给定的环境内，从视觉数据中能够抽取的信息和同一数据提供给他的注释之间缺乏一致性。

语言描述几乎总是有上下文的，然而，一幅图像可以单独存在。

对一幅图像进行语言描述是很困难的，甚至是不可能的[146]。

用户总是寻找包含特定对象或者表达特定信息的图像。

从另一方面来说，依赖数据驱动特征的图像描述和上面两者缺乏关联。

为了建立一个完整语义系统和图像数据之间的的相关性，至少需要解决从一幅图像中识别一般物体的问题。

因为这个问题还没解决。

目前的研究正致力用不同的方法实现更高级的语义和显著的数据驱动的结合。

正如图二中指出的，语义特征描述的最直接的方法需要通过关键词和标题进行注释。

这就减少了信息检索中基于内容的存储[135]。

而一般对标定的反对主要是开销和覆盖面上。

在开销上，对数千幅的图像进行标定是一项繁重而代价高昂的工作，有可能降低了经济上的可用性。

.为了解决这个问题，[21]，[142]的系统使用了一个程序，能够搜索因特网，收集图像并按照一个预定义的基于图像周围文本信息的分类法对入它们分类。

一个用于数字图书馆的相类似的方法被[24]所采用。

在覆盖面上，标定很少是完整的，并且与上下文有关，并且在任何情况下，只是查询中重要的一部分,它们的语义信息不能够被标定单独捕获。

[6]，[64]。

只有在孤立的情况下，两种方法才可以覆盖掉语义鸿沟。

2.5对研究范围的小结

基于内容检索的关键点是用户需要语义相似，但是数据库只能通过数据处理提供相似性。

这就是我们说的语义鸿沟。

同时，图像的属性与图像中对象的属性之间的感觉鸿沟在检索图像内容中.

我们讨论了三类基于内容检索的应用：

目标搜索，目录搜索及按相关性搜索。

目标搜索是和机器视觉中的图案匹配的传统相联系的。

基于内容搜索的新挑战是在不完整的查询说明，不完整的图像描述和物体状态及感知条件的变化中搜索大量对象。

目录搜索是建立在机器视觉的对象识别和统计图案示别之上。

与对象识别所取得的成就相比较，基于内容检索的新挑战是结果的交互性（通常结果是数目巨大的对象类）以及关于特征和分类调整的训练阶段的缺乏。

按相关性进行搜索就进一步的从大多数的机器视觉中分离出来。

它的阻碍主要是语义鸿沟，只要存在语义鸿沟，用于浏览的基于内容检索就不可能得到广泛的应用。

因为人们习惯于一看到图像就会在脑中立刻有它的语义信息。

基于内容的检索系统必须能最大程度的填补可用视觉特征的简单性和用户语义的丰富性之间的语义鸿沟。

我们分析了图形领域的特征，领域知识及使用类型是决定系统功能的主要因素。

一个重要的分别是在广义域和狭义域之间。

域越广，更多的按相关性的浏览和搜索能得到很好的解决；域越窄，领域知识的应用就越有有可能成功。

对广义域中图像搜索引擎的挑战是如何通过示例，说明以及交互来适应用户所考虑的狭义领域。

3、内容的描述：

图像处理

首先要确定的是：

基于内容的检索并不是完全依赖于对图像内容的描述。

一个检索系统能展现在用户定义的感觉中相似的图像也许就足够了。

内容的描述应主要为这个目标服务。

我们分两步考虑对内容的描述。

首先，我们讨论能将图像数据变换成另一空间数据阵列的图像处理。

见图六，我们按局部颜色，局部纹理及局部几何结构对方法划分。

一般的，他们过以下公式描述：

f（x）=g.i（x），

（1）

其中，i（x）代表图像，是图像空间I的一个元素，g是施加于图像上的一个运算，结果图像区域用f（x）表示。

g的可计算参数可以包括为了计算f（x）而选择的的x周围邻域的大小，当邻域大小依赖于实际数据时，这个参数可以是同性质的标准。

例子在[163]，[126]

因此，在图像检索系统中，图像处理就必须要增加图像数据中与查询相关的部分,而减少剩余的部分。

可以通过用不变性处理由语义沟产生的信息的意外失真来实现这个目标。

很明显，通过上面对语义鸿沟的讨论，不变特征比其他特征携带了更多的特定对象的信息，因为它们对感觉的意外变化并不敏感。

不变性描述的目的就是：

不管在哪或者怎样观察，在丢失了一些内容信息的情况下，仍然能够识别物体，。

如果两个物体ti（或同一物体的两个外观）在一组变换W下是等同的，那么它们就是一个等价类中的[18]：

（2）

在W变换下，t的性质f是不变的当且仅当不管由w表示的附加的条件怎样，ft保持不变.

（3）

不变性的程度，或者说，w类的维度，应该适合映射的情形。

一般来说，具有非常宽的不变性的特征在本质区别上丧失了识别的能力。

被认为等价的图像类的大小随着W的维数增加而增加。

最后，不变性会变得非常宽以至于对象具有任何识别力。

目的是选择最紧密的不变量的几何来适应预期的不恒定的条件集。

在图像搜索中所需的就是在[159]中讨论的查询说明中最小不变条件的说明。

最小不变条件只能由用户来说明，因为这是他或她的意图的一部分。

有关机器视觉中不变性的工作最早在物体识别中完成。

在其他方面的研究，见[117]。

图像检索中的不变性描述相对来说是比较新的，但已经引起广泛的关注,见[18]，[32]。

另一种方法是独立于场景中对象来描述观察条件。

使用这种方法，不变特征减少时，信息不会丢失，而会被重新组织。

至于哪一种方法是重要的，应由以后的研究阶段来决定。

3.1图像颜色处理

在图像检索中，对颜色的研究比机器视觉的其他任何分支都要活跃。

颜色是图像I（x）在一个颜色向量空间中的值。

相对于一维空间域的灰度级图像，三维空间中，对颜色的兴趣来自于其更高的识别潜力。

研究的动力主要有两方面：

首先是对颜色的纪录随着表面位置，摄像机的视点，照明位置，光源的光谱以及光线与物体相互作用的方式的变化而相差很大。

这种变化性可以用某种方式加以解决；其次，人对颜色的理解是一门很复杂的课题，在其中已做了许多努力来捕获理解的相似性。

只有当纪录或者理解中没有变化时，RGB表示法才是一个较好的选择，因为，这种表示发被设计成与人们的观察方式相匹配。

RGB颜色表示法正被广泛使用。

它们按对象颜色的语法属性来描述图像。

当纪录缺乏变化时，一幅图像以（R（x）,G（x）,B（x））来表示（以后表示时将省略参数）是有重要意义的。

比如说，对于艺术绘画[64]，照片的色彩构成[48]及商标[79][39]，其中的两维图像是在标准条件下，以前视图的方式进行纪录。

RGB彩色空间的一个重大改进（至少在检索应用中）是颜色对的表示法[169]。

该方法使用颜色对轴（R-G,2B-R-G,R+G+B）。

这种表示法的优点是孤立第三轴上的亮度信息。

通过这种方法,前两个颜色轴能被down-sampled,因为人们对亮度比对色度更敏感。

当照明强度和阴影改变时，它们是不变的。

其他的方法由于它们的相关理解一致性而使用芒瑟尔或者实验室空间。

实验室表示法是

用两个颜色表示的欧式距离来给人们对颜色差别的理解建模。

当对实验室空间的非线性变换进行数字化时，需注意。

[115]

HSV表示法由于它的不变性而经常被使用。

对于对象位置，照明及摄像机的方向改变，色调是不会改变的，因此更适合于对象检索。

大量的紧密光度颜色不变量来源于[57]中对有关对象反射的斯卡弗模型的分析.它们derivefor在白光照射下的不变颜色空间里的不光滑斑纹。

只依赖于传感器和表面反射。

对于闪亮的表面以及白色的照明，不变性的表示如下：

及另外两种置换形式。

颜色模型对主要视点失真具有鲁棒性。

颜色恒定性是指：

当照明中可见光的物理光谱改变时，人对同样外观颜色的理解能力。

在机器视觉中，[49]首先考虑了颜色恒定性。

对平面的，不光滑的及一致的照明对象，thepaperformsthecanonicalgamutdefindedastheconvexsetofphysciallyfeasiblenormalizedRGB，也就是说，rgb响应。

引用文章将图像中的所有颜色响应映射到一个规范的空间中去。

对所有观察的映射的解释决定了颜色的恒定性。

在[47]中，改进的方法考虑了镜面反射，形状及照明的变化。

通过计算对蓝色的比例矢量

，保留了颜色位置，而去掉了强度。

在这个二维空间中，颜色恒定图从颜色和表面的canonicalgamut中再次被选择。

在[56]中，比率

给表面积和变量提供了提供了更多的稳定性。

在[54]中，颜色恒定通过使用照明不变的颜色表示应用于检索中。

作者给出周围颜色比率的索引。

颜色恒定索引导致对物体的识别能力有所下降，但却使得照明独立于检索。

在[158]中，通过代数不变量的使用来改进方案。

除了不变性描述，对观察中由于表面反射引起的不等性的另一种处理方法是在图像颜色柱状图中搜索集簇。

在RGB柱状图中,从对象reflectoff的象素集簇形成了拉长的条纹。

因此，在[126]中，采用了RGB空间里的无参集簇算法来识别图像中的哪些象素来源于颜色一致的对象。

3.2对图像局部形状的处理

用具部形状的说法，是因为我们收集了能捕获图像明显几何细节的所有特性。

采用局部形状而不是其他不同的几何特性是为了表达结果而不是方法。

与不形状优化的结果是一个不同于对形状的密集图像数据域.（具体讨论见第四节）

由方向颜色导数产生的局部形状特征（在论文中，称之为纹理特性）已经在[115]被用于在由不同材质构成的高度纹理的局部区域中找出显著的知觉细节。

在[165]中有大量的而不是无结构的不同的图形探测器。

比例空间理论被认为是preattentive视觉中完整的和唯一的首要步骤[187]。

它为在任何比例下探测显著细节提供了理论基础。

在[105]中，用一系列具有不同方向和比例的Gabor过滤器来增强图像特性[137]。

在[136]中描述了显著的几何不变性。

在[148]中给出了采用局部形状和亮度信息的方法，用于对视点和遮挡不变的对象检索。

方法以来在由不同的几何不变量组成的完整的family中进行表决。

在[178]中也寻找不同的放射不变的描述符.在[5]中，当没有假设反射模型或者漫反射模型时，对表面反射,高斯曲率的局部符号进行计算。

在不变性研究中，将颜色和形状结合起来考虑是非常有效的，[56]中通过存储颜色边缘中内外颜色反射曲率的最大值来辨别物体。

3.3图像纹理处理

在计算机视觉中，纹理是除了颜色和局部形状剩下的部分，或者是被定义成诸如结构或随意性。

许多一般的纹理是由小的纹理基元组成，由于数目众多，纹理基元常被理解为孤立的对象。

这些元素或多或少的被任意或有规则的摆放。

它们或者完全一致或者在外观和姿态上有很大的差别。

在图像检索的上下文中，搜索绝大多数是针对用于刻划局部特征的统计或生成的方法。

包括马尔科夫分析在内的基础纹理特性，追述到一九七三年的一般性的Haralic理论[91],[58].在检索

展开阅读全文