0925图像标注中的语义层次Word下载.docx

资源描述

0925图像标注中的语义层次Word下载.docx

《0925图像标注中的语义层次Word下载.docx》由会员分享，可在线阅读，更多相关《0925图像标注中的语义层次Word下载.docx（28页珍藏版）》请在冰豆网上搜索。

0925图像标注中的语义层次Word下载.docx

一种体育项目。

图2试图抓住语义图像标注的研究方向，由于并没有统一词汇来表示层次化和多方面化的标注或是描述，导致Google学术搜索中查找到的提到taxonomy或是语义层次化的文章数量逐年增长。

本文试图提供最新的旨在利用共享词汇库来提供更为丰富的图像内容描述的相关技术。

特别地，本文涉及了有关于多层次准确度以及更为丰富的语义方面的内容。

尽管息息相关，但是本文并不涉及目标识别技术以及图像检索技术。

对这方面内容感兴趣的读者应该参考阅读由Datta等人[21]和Liu等人[64]所作的综述文章。

自动化标注是复杂的任务正如例子中所述，选择词汇高度依赖于应用、用户需求以及用户上下文。

在章节2中，本文介绍了一幅图片中不同描述。

本文研究了一幅图片可以做出的不同标注以及用户在选择关键词的过程中所扮演的角色。

然后本文在章节3.1中解释了自动化标注中的技术难题，称为语义鸿沟，并且介绍了用于桥接鸿沟的不同技术，以及可以用于解决问题的词汇库组织结构——例如，语义层次化结构。

最终，本文对目标识别/场景识别以及图像检索中的重要工作进行了回顾：

首先是章节4中，未使用语义结构作为输入的方法，然后是在章节5中介绍了使用语义结构作为输入的方法。

两届F1方程式大奖赛冠军MikaHakkinen于2008年3月30日驾驶一辆迈凯轮F1赛车穿过新加坡街道。

Hakkinen说：

在新加坡街道的比赛对车手来说是非常独一无二的挑战，但通过良好的组织及准备可保证车手及观众的安全。

Hakkinen在街道上的比赛是反酗酒活动比赛的一部分。

图1路透社图片标注范例（摄影师：

VivekPrakash/路透社）

2图像描述中的语义天性和作用

图1中的元数据可能处于标注中的最高层次。

图片被置于最初的上下文中。

只给定以上描述，可以很容易地猜出图片的内容：

街道中的F1赛车，背景中的建筑物，赛道两旁的栅栏以及人群。

数据中可以提取中一部分信息，但是描述中包含更多的不可见信息。

例如，（i）MikaHakkinen曾两次获得世界冠军（ii）他参加的这场比赛时反酒驾大赛的一部分（iii）这幅照片摄于2008年3月30日。

这些数据不能完全依赖图像数据获得。

本文按照ShatfordLayne[85]对于元数据的分类将其分为四个主要类别：

1.传记属性，例如，考虑图像的创建（位置，时间，…）

2.主题属性，例如，表明图片内容的描述

3.例证属性，例如表明图像的类型（照片，漫画，草图，…）

4.关系属性，与相应图片相关

现有的综述只阐述了内容的描述，例如，主题属性。

图2

2.1语义层次

如图1所示，元数据通常由多种不同类型的信息组成。

本文主要关注图像内容，这种情况下，信息只能来源于图片本身。

在ShatfordLayne的理论中，内容描述包括以下几方面内容：

1.Of-nessvs.About-ness，例如，

2.描述可以通用，例如“一座桥”，或者特定，例如“布鲁克林大桥”。

3.包含几个方面：

时间，地点，时间或者客体。

Jorgensen[55]拓展了以上方法，并且表述了在图像搜索中，一幅图片可以从多个方面进行描述，图像应该可以从多个入口访问而不是单一入口。

形式上，图像和概念不能只通过单一层次链接，而应该使用多层次方式进行链接。

ShatfordLayne[86]依照解释（必要的主观）区分感知属性和解释属性，并添加了反应属性描述当一个人看到一幅图片过后的反应。

Enser和Sandom[28]采用Jorgensen[55]的方法将描述分为以下层次：

感知层、通用解释层、特定解释层以及抽象层。

如表1所示，Jaimes和Chang[51]在图片视觉特征和抽象解释之间使用了10层描述层来组织图像内容。

前四层涉及感知方面或是句法。

后六层与语义或是视觉概念相关。

作者认为各层之间的区别不需要被严格区分；

这种分层更像是一种辅助理解问题的方法。

层次越高，解释中包含的知识越多。

四个句法层完全客观性，完全是对图像的数字化表示。

与ShatfordLayne和Jorgensen的区分方法（通用层、特定层和抽象层）相比，这种方法的语义层增加了物体描述（或是局部物体，例如，一辆F1赛车、一座摩天大楼、一条街道、…）和场景描述（在图1中，例如，一场F1比赛）之间的区分。

图3给出了样例，在自动识别领域，如今的算法仍然没有超越第七层。

Hare等人[46]提出了一种与Jaimes和Chang[51]的方法类似的源图像到高层语义分级方法：

原始图像；

视觉描述子；

物体（例如，分割）；

物体名字；

语义（例如，所在情景层的含义）。

照片

（直方图）

（分割）

花、叶子、水

自然

荷花和荷花叶子

池塘

10.

静止、寒冷

图3不同层次标注举例

Eakins等人[26]展示了抽象化的不同方面，这些抽象画方面与Jainmes和Chang[51]的情景分层（通用层、特定层和抽象层）相关。

上下文抽象（Contextualabstraction）取决于环境的知识，这些知识可以非常基础（通用）。

文化抽象（Culturalabstraction）使用特定的文化知识表示解释（例如，理解宗教仪式的含义）。

情感抽象指的是观察者的个人背景严重影响了解释（与Jorgensen的反应属性有关）。

最终需要领域内的专家知识来理解技术抽象，例如翻译X射线。

表1Jaimes和Chang[51]提出的描述层次

类型，技术

全局分布

局部结构

全局构成

通用物体

通用情景

特定物体

特定情景

抽象物体

抽象情景

更进一步的例子：

图1中图片的内容可以依照观察者的背景知识被分为多层：

户外场景；

一辆车、一条街道、建筑、人、天空；

一个小镇；

一场汽车比赛、一个商业区；

一辆F1、…

这些描述中可以引入多层次关系，本文引入一下几种符号描述这些关系。

设

表示两个类别之间的Is-A关系：

B表示A是B，例如，任何A类别中的物体同样也属于B类别。

表示PART-OF关系：

B表示A是B的一部分，并且^表示co-occurrence关系，A^B表示AB同时出现在一幅图片中。

例如图1中的例子：

●迈凯轮梅赛德斯F1

赛车汽车。

●有摩天大楼的现代小镇

小镇。

●赛车^观众

赛车。

●建筑^街道

描述一幅图片的内容一直是档案保管员的研究课题。

人类进行标注时，也不能直接确定标注什么、如何标注。

一幅图片可以再多个通用层次或者是语义精确度层次进行描述并且可以遵循多个路径或者是方面进行描述。

何种描述层更为优秀取决于用户的目标。

换句话说，何种描述层用户更感兴趣。

本文将调研多名用户并试图在一下章节中给出这个问题的解决方案。

2.2用户、用户的目标、用户的上下文

到目前为止，可以了解到一幅图片可以在不同的语义描述层（通用/特定）和不同的抽象层（About-ness/Of-ness或客观/主观）进行解释。

那一层具有意义取决于用户的上下文。

Hollink等人[48]指出，第一种上下文特征是应用领域。

搜索哪一个数据库？

是否覆盖一个广泛的领域？

是否处理较大的词汇库？

用户的专业能力也是一项重要的影响因素。

Enser和Sandom[28]在工作中区分了大众和专家。

Hollink等人[48]在以上两种类型之间增加了更多的分类，并且这些区分都依赖于领域。

Jaimes[50]阐述了用户的目标和用户的查询之间的关系：

一名用户搜索特定物体会使用特定关键词，因此，如果用户只有一个粗略的想法，则用户会使用浏览的方式进行查找（遵循数据库的组织结构，例如，从菜单中选择一个类别并浏览缩略图）。

从多项研究中可以获得以上结论，例如，Markula和Sormunen[67]以及Frost等人[38]。

Markkula和Sormunen[67]通过观察发现记者在搜索通用概念时很难找到合适的关键词，所以更倾向于采用浏览的方式进行寻找。

由档案管理员给出的关键词标注更适合于特定搜索。

Frost等人[38]发现对数据库内容不甚了解的用户也会选择浏览方式。

下一个取决于用户的方面是搜索模式。

实际上，用户搜索图片的模式高度取决于要搜索的图片的内容。

Hollink等人[48]列出了几种图像搜索模式：

浏览、基于关键词、使用结合逻辑操作符的关键词、全文检索（free-text）、基于例子或是基于草图。

Eakins[25]给出了不同种类的查询（只限于文本）：

1.使用图像原语（例如“寻找具有一圈黄色星星的图片”），

2.使用逻辑属性，只需要最少的图像解释（例如“寻找一辆火车穿过桥梁的图片”），

3.使用抽象属性，需要基于图像内容的复杂的推理（例如“寻找有关于‘自由’的图片”）。

大多数现有软件主要在第一层对内容进行搜索。

目前的研究表明用户的查询大多位于第二层并且许多查询位于第三层[5][25]。

Jaimes[50]更加深入地描述了用户行为。

给定一种搜索方式，用户可以采用不同的搜索行为，例如：

探索性行为，发出越来越详细的查询；

直觉性的行为；

更有目的性的行为，心中已经有了详细的查询；

等等。

最终，通过任务引导用户行为。

Hollink等人[48]将这种行为描述成数据极和对象极之间的范围（spectrum），数据极表示多信息的图片并且对象极图片中用作装饰性的一面。

Eakins等人[26]描述了七种不同的任务类型。

本文使用了与Eakins等人不同的排序方法，按照“信息量大小”在数据极和对象极进行排序：

信息处理，在这里数据本身具有最高的重要性（例如，X射线图片）

信息传播，在这里数据需要被传输给其他人（例如，警方的入案照片）

说明，在这里图片通常伴随着其他媒体（例如，新闻图片的文字描述）

想法的产生，在这里图片是创新过程的起点（例如，建筑学）

学习，在这里图片被用于获取知识（例如，在艺术中或是历史中）

情感，在这里用户对于图片的反应是最重要的（例如，广告）

在对象极发现审美价值，在这里图片被用于装饰。

对于不同的图片用途，可以发现只有非常少的用途与低层图像特征有关（甚至审美价值也不能完全通过低层图像特征完全描述并且审美价值是部分主观性的）。

因此，能够从图像中推断语义概念对于图像数据库的组织、索引以及搜索非常重要。

所以图像的标注非常关键。

另外，部分研究表明，标注应该是多角度（例如，从不同的看法/观点）和多层次的，同样需要尽可能注意用户的需求。

3关于语义分析

3.1语义鸿沟

在大多数情况下，自动标注遵循两个步骤：

（1）低层次视觉特征的提取；

（2）将这些特征解释成高层次概念。

在文献中，将低层特征（例如，数字数据）和高层概念（例如，语义元数据）之间的联系问题称为语义鸿沟。

对于人类来说如何链接这种语义鸿沟是与生俱来的，但是对于机器来说仍然非常困难，远远达不到要求。

Smeulderset等人[88]给出了以下定义：

意义鸿沟是从视觉数据中提取的信息和获得的解释之间，在一定情况对于用户来说下缺少的一致性。

人类大脑中的视觉识别包含以下功能：

视网膜中获得的图像与记忆中存储的信息之间的关联[97]。

研究者对视觉处理的初期阶段进行了大量的研究，并且视觉处理的初期阶段已经被很好地理解。

人类识别的过程是如何进行的至今仍然不是那么明确，同样的物体和概念的在记忆中的语言表达也不是非常明确。

因此，对于识别的模仿非常难以做到。

人类的大脑对于大量的物体可以做到及时识别并利用语言进行描述，但是至今机器仍然难以做到如此不可思议的识别过程。

研究者在图像处理领域中广泛使用语义的概念以在某些处理阶段指定处理自然语言的自动过程，替代无实际含义的数字数据。

大多数研究者并不关注概念性质的哲学辩论或是知识和含义之间的关系。

本文也不会涉及这种辩论，而是关注与词汇的习惯性浅显用法，例如，本文将描述图片的自然语言词汇称为语义。

意义分析指的是任何将图像描述成语言表述的方法。

多个研究团体通过不同的方法，对语义分析问题进行了研究。

研究人工智能的学者依赖于使用具有本体（ontologies）构成的复杂词汇的知识库。

计算机视觉团队广泛使用统计学方法，并使用简单的词汇库（规模可以很大，但是通常没有结构）。

在索引以及图像检索问题中，通常需要更多地考虑用户的输入并且需要研究语言和统计方法的结合。

在接下来的章节中，本文介绍了图像语义分析中常见的具有不同结构的词汇库并介绍了目标识别的基本内容。

3.2目标识别和受控词汇

除了语义解释的层次的定义可能不明确之外，目标识别本身也是一个复杂的问题。

原因如下：

●世界非常复杂：

包含许多不同的物体。

例如，一个人可以轻松认识数以千计类别的物体，数以万计的种类的物体[12]。

●视觉上不同类别之间的差异可能非常小（例如，从远处观察一只鸟和一架飞机），然而同一种类之中的物体的区别可能非常大（特别是人造物体，例如不同种类的椅子；

或者是自然界的物体，例如不同种类的蝴蝶）。

●照片拍摄的环境通常无法预测并且拍摄出的照片所呈现出的画面也不尽相同。

同一物体从不同视角观察可能完全不一样。

光照条件、背景、遮挡都会影响图片外观从而改变图片的解释。

●单一物体可能会改变其外观。

例如，人类的脸部可以呈现出不同的表情，动物可以改变姿势。

因此，及时不考虑复杂的意义，对于简单目标的机器识别仍然非常困难。

在特定情况下，可以解决目标识别问题，例如特殊的工业应用。

通用目标识别仍然是非常难以解决的问题。

认知心理学表明目标识别最初发生在基本的类别层上，这种类别层被称为基本类别（详细内容见[82][73][54]）。

然后使用更为详细的视觉外观分析，以识别超类和子类，特别需要首先识别类别然后查看细节内容。

在做出更多特定的设想之前，在基础层测试识别是非常合理的。

在目标分类中，一幅图片与一个可以描述图片中物体的唯一术语相关联，这个术语来自于具有固定大小K的词汇库（

，表示可以识别的类别表）。

受控词汇指的是具有固定大小的参考词汇，主要用于索引。

这些词汇可以具有结构，例如，同义词库（thesaurus）、分类（taxonomy）或是本体（ontology）。

Gilchrist[42]对以上三种结构化词汇库进行了研究，主要研究了这些词汇库的定义以及不同领域的科学家对他们的用法。

Garshol[40]给出了这些词汇库的详细定义，在本文接下来的部分引用了这些定义。

术语taxonomy最初是在生命科学中用于表示物种分类的树状结构。

在计算机科学中，这个术语通常用于描述物体之间的任何层次结构，一般表述为Is-A层次结构，例如，子类型/超类型关系，也被称为下义关系/上义关系。

如，汽车是车辆的下义关系，而车辆是汽车的上义关系。

Taxonomy和thesaurus之间的区别仍然不是非常明确，表现出这两个术语在使用上的模糊性。

实际上，这两个术语来自于两个完全不同的领域：

生物学和档案学，使用场景也完全不相关。

本文将thesaurus定义为taxonomy的扩展。

Thesaurus除了描述上义关系/下义关系之外，还需要联系同义词，并解释词语的使用、词语等价以及优先级。

另外，还需要给出相关术语，例如，属于同一个领域的词汇。

通常词汇库中的词语意义还会拥有一个简短的定义。

Ontology是概念的正式描述模型[40]，由概念（物体）之间的一组类型（概念的）、属性和关系所定义。

正式模型应该是机器可读的。

Ontology中的关系类型比thesaurus中更加多样化，并且理论上可以被任何类型标记。

本文使用语义网络作为thesauri和ontology之间的中间体，能够描述比thesauri多的关系并且没有ontology正式。

图4中展示了具有多个类型关系的语义网络表示法，这种表示通常用于视觉领域。

图中包含两种节点：

表示物体种类的概念节点（例如“汽车”），以及表示物体实例的实例节点，例如，事件（比如“Jimmy的汽车”）。

在图4中，为了更加清晰易辨，种类和部件的的概念节点的表示方法不同。

在接下来的章节中，本文主要关注概念而不是实例，例如，关系：

IS-A-KIND-OF并不在本文的研究范围之内。

当概念之间存在层次化关系时，使用术语“语义层次”和更加通用的“语义结构”来表述。

到目前为止，在语义分析中，目标识别主要使用简单的平面受控词汇，例如，非结构化的，尺寸较小的受控词汇。

本文阐述了以下不同的问题：

●目标检测（决定一个特定物体类别是否出现在一幅图片中）

●定位（目标是给出特定物体的位置以及大小，通常与目标检测相关联）

●分类（从固定大小的标签表中选择一个标签，并将这个标签作为全局标签指定给图片）

●识别（通常用于对子类别中的物体进行分类并且识别一个特定的物体实例（例如，“Jane的汽车”））

●标注（从一个固定的词汇库中选择一组标签并指定给图片）

●匹配（也称为区域标注，主要将单词与图像区域相关联（与区域标注类似））

所有以上问题都互相关联：

例如，匹配主要用于分类（特别是场景），分类用于标注。

通常，在分类完成之后进行识别。

解决这些问题主要依赖于图像处理技术以及机器学习技术。

图4目标识别中概念之间的关系的语义网络举例

在过去的数十年内，大量研究分析了语义分析问题以及如何连接语义鸿沟的问题。

实际上，整个计算机视觉领域可以被看作是试图给予极其图像识别能力的问题。

从最开始，目标识别就成为了图像识别的关键目的：

从最简单的单目标识别，到目标分类与全局场景描述。

在Mundy[72]的文章中可以找到目前最新的目标识别技术，Pinz[77]则给出了历史上出现过的目标分类技术的综述，Bosch[14]给出了场景识别的综述。

新兴的图像检索和多媒体数据管理则培养了对于语义层次分析技术的需求。

在最近几十年，在基于内容的图像检索[84][88]研究中，出现了多篇相关文献。

Eakins[25]认为在这个领域中需要更多地使用人工智能技术。

Liu等人[64]在最近的综述中，提倡了图像检索中的语义方面的内容的引入，并且Datta等人[21]在图像检索领域进行了广泛的研究，他们的综述提供了这个领域中的不同问题以及未来的发展方向。

理解图像内容或者是桥接语义鸿沟问题已经成为了图像检索领域中共同的问题。

在接下来的章节中，我们区分两种不同的图像语义分析方法：

（a）传统方法，主要寻找图像数字数据和平面词汇库之间的映射关系；

（b）采用预先设置好的结构化词汇库的方法。

在接下来的章节中，本文主要关注于依赖平面数据库的语义分析方法（第4章）。

本文然后介绍了层次化方法，并且对依赖于结构化词汇库的方法进行了研究（第5章）。

4使用非结构化词汇库的语义图像分析

在所有的经典方法中，常用的几类方法如下：

1.直接方法，使用简单的数据表达和统计学方法。

2.语言学方法，主要基于原始数字数据和高层次语义之间的媒介：

视觉词汇库。

3.构造方法，在整个图像或者其中部分被标注之前，先识别图像的每个部分（通常使用分割方法）

4.结构化方法，利用图像部件之间的几何关系。

5.层次化构造方法，构建层次化的图像部件关系，然后进行识别。

6.传递方法，不同的类别之间需要共享数据。

7.层次化方法，寻找类别之间的层次化关系。

8.多标签方法，对一幅图片同时指定多个全局标签。

第一类以及第二类方法——直接方法以及语言学方法——通常并不引入丰富的语义。

在接下来的章节中，本文主要关注其他类型方法，并试图强调如何引入多层次以及多方面标注方法。

4.1构造方法

构造方法通过对图片的每个部分标注而不是整幅图片进行标注，从而引入了更为丰富的语义信息。

Barnard和Forsyth[10]首先对图片进行了分割，使用层次化的生成模型将标签映射到区域，并且对图片指定了一个全局标签。

Duygulu等人[24]将以上模型扩展成“翻译模型”，将区域映射到单词，并依照区域的相似性来分组单词。

Jeon等人[52]从翻译模型出发，一直双射约束（bijectionconstraint），并提出了跨媒体关联模型（cross-mediarelevancemodel）。

Fan等人[33]使用了类似的基于分割的方法，检测显著性物体然后标注图片。

Vogel和Schiele[99]则提出了一种不同的方法：

将图像分割成较小的方块表示“局部概念”。

所有局部概念的直方图被用于描述全局图片并将图片按照场景分类。

在他们的研究中显示出使用语义概念远比使用视觉单词（visualwords）高效。

并且参考Rosch等人[82]的理论（某些目标实例在其分类中比其他实例更加典型），他们使用这种表述方式对场景的典型性进行度量。

4.2结构化方法

许多研究者的工作中强调了在图片部件之间使用几何约束的重要性[35][36][39]。

即使没有直接标注，他们仍然发现获得的视觉“单词”与语义概念相关联（例如，当描述汽车是他们获得单词：

轮子，等等）。

有些工作使用了标记区域之间的关系。

Aksoy等人[2]试图在场景识别中通过将图像区域（而不是物体部分）之间的空间关系纳入考虑并使用视觉语法以减小语义鸿沟。

在最初的步骤中，他们通过分类器将标签指定给区域，然后使用语法对图片进行场景分类。

Datta等人[19]也使用区域之间的联系来标注图片。

Gupta和Davis[45]通过利用物体标签和介词（例

展开阅读全文