研究方法论课程论文DOC.docx

上传人:b****7 文档编号:11064541 上传时间:2023-02-24 格式:DOCX 页数:10 大小:159.50KB
下载 相关 举报
研究方法论课程论文DOC.docx_第1页
第1页 / 共10页
研究方法论课程论文DOC.docx_第2页
第2页 / 共10页
研究方法论课程论文DOC.docx_第3页
第3页 / 共10页
研究方法论课程论文DOC.docx_第4页
第4页 / 共10页
研究方法论课程论文DOC.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

研究方法论课程论文DOC.docx

《研究方法论课程论文DOC.docx》由会员分享,可在线阅读,更多相关《研究方法论课程论文DOC.docx(10页珍藏版)》请在冰豆网上搜索。

研究方法论课程论文DOC.docx

研究方法论课程论文DOC

研究方法论课程论文(DOC)

LT

相似性比较检索。

然而图像的底层特征,并不能很好地揭示其内在的本质。

图像的概念层语义信息没有得到表达。

由于在传统的基于内容的图像检索(CBIR)中,计算机通过底层特征匹配得到的图像与用户对图像信息的理解存在着不一致。

人们所感知到的图像与用底层特征来表述的图像之间有着很大的差距。

人们看一幅图像,不仅仅会看到图像的颜色、形状、纹理之类的视觉特征,还会看到图像底层特征后面的语义和情感,这是在CBIR系统中无法很好描述出来的高层图像语义,即在图像的语义和底层特征之间存在着“语义鸿沟”。

由于图像的底层特征与高层语义之间的不一致性,所以它们并不能很好地揭示图像内在的本质,图像深层的语义内容不能得到很好的反映。

因此我们需要对图像进行语义解释,在图像中加入高层语义特征,这样才能使计算机更好的理解图像。

而图像的标注词能够很好地表达出图像的内在含义,它能够缩小底层特征和高级语义之间的“语义鸿沟”。

因此,基于语义的图像标注和检索越来越受到人们的重视,越来越多的研究人员投入了这方面的工作。

通过基于语义的图像标注,给图像附加上语义层次上的信息,能使图像检索更加的有效。

在早期的研究中,图像检索的主要方式有两种:

基于文本的图像检索和基于内容的图像检索。

基于文本的图像检索是通过手工对图像进行文本注释,使图像与文本建立关联,然后用成熟的文本检索技术与进行图像检索。

这种检索方式存在很多问题,首先用手工标注图像工作量太大;其次,个人对图像的理解具有主观性,有时可能存在截然不同的理解,这使得基于手工标注的图像检索系统的效率很低。

因此,传统的基于文本的图像检索已不能完全满足人们的要求。

1研究现状

传统的基于语义的图像标注方法主要分为三大类:

利用机器学习中的算法在图像特征与图像的文本词语之间建立联系;利用统计转换模型在分割后的图像块与文本词语之间建立对应关系;采用分类方法实现图像标注。

在第一类方法中,首先利用机器学习算法在图像特征与图像的文本词语之间建立联系,然后用这些学习到的相关性去预测一些未知图像的文本词语,作为对图像语义内容的描述,典型代表是Co-occurrence模型[4]。

这类模型把图像标注看作是从视觉特征到文本关键词的转换过程。

第二种方法是利用统计转换模型在图像的分割块和文本之间建立对应关系[5],代表模型是LDA(LatentDirichletAllocator)[6]

和CorrespondenceLDA[7]。

这类模型的性能在很大程度上依赖于图像分割的质量。

采用分类方法也可以实现图像标注。

分类方法把每一个标注词语(或者每一个语义分类)看作一个独立的类别,然后为每一个文本关键词创建不同的图像分类模型。

这个方法的典型代表是ALIPS(automaticlinguisticindexingofpicture)[8]。

在ALIPS模型中,假设训练图像集合是已经分类好的,并且每一个类别用一个二维的多级隐马尔可夫模型(HierarchicalHiddenMarkovModel,HHMM)进行建模。

但是,这类模型的缺点是它假设标注文本在语义上是相互独立的,这个假设没有实际意义。

在很多情况下,图像和文本文档对用户查询来说都是有意义的,如在Web搜索环境下。

在这些情景下,多模态(Multimodal)图像检索有较为广阔的发展前景,如利用文本信息来提高图像的检索性能,满足用户的查询要求。

人对图像的高层语义特征的理解可以利用文本描述出来。

但是每个用户对图像语义的主观理解不尽相同,这大大增加了获取高层语义特征的难度[9]。

如果没有一个标准的方法用来描述人对图像的理解,那么基于语义的检索系统就不会具有较好的检索性能。

MPEG-7,又叫多媒体内容描述接口,旨在解决对多媒体信息进行标准化描述的问题,并将描述信息与多媒体内容相联系。

MPEG-7标准采用XML文档存储描述信息,目前XML己经成为数据描述和交换的标准,因此针对XML的半结构化特性,可以获得比传统图像检索方法更好的检索效果。

2图像检索的进展

图像等多媒体信息急剧膨胀,推动了图像检索技术的不断发展。

传统的检索技术,如基于文本的图像检索,己不能完全满足人们的要求,基于内容的检索方式的出现,解决了人们对图像视觉特征所代表的特征语义,但不能完全解决高层语义的图像检索。

而人们更渴望获取高层语义内容,如两个队进行篮球比赛,人们关注的是各队的表现和球艺水平,而不是颜色、纹理等视觉特征。

图像所蕴含的高层语义与底层特征之存在着较大的差距,这个巨大的差距影响了基于内容的图像检索的效果,因而建立图像的语义表示和检索机制势在必行。

图像检索涉及了数据库管理、计算机视觉、图像处理、模式识别、信息检索和认知心理学等诸多学科。

考虑到计算机视觉和模式识别的发展水平,目前图像检索系统的高性能还必须建立在人机交互的基础上。

图1是一种可能的图像检索系统结构。

 

图1图像检索模型结构

Fig.1Structureofimageretrievalmodel

2.1基于文本的图像检索

早期的图像检索技术主要是基于文本的图像检索[10],它是通过手工对图像进行文本注释,使图像与文本建立关联,用成熟的文本检索技术来进行图

像检索。

但这种检索方式存在很多问题,首先用手工标注图像工作量太大,需要采用自动化或者半自动化的注释方式;其次,个人对图像的理解可能不一样,容易产生歧义,有时存在截然不同的理解,这也使得手工注解存在很大问题:

再者,人们对图像的需求不仅仅是图像本身,还应包括图像所包含的更深层次的语义。

一般来说,基于文本的图像检索过程可以用图2表示:

 

图2基于文本的图像检索过程

fig.2Text-basedimageretrieval

2.2基于内容的图像检索

进入20世纪90年代后,随着多媒体检索技术的发展与广泛应用,早期的文本检索技术已不能满足用户的需求。

人们迫切需要一种新技术来进行图像检索。

基于内容的图像检索[11]应运而生。

CBIR是指根据媒体和媒体对象的内容及相互关系进行检索。

它的研究目标是利用循序渐进的学习方法自动识别或理解图像的重要特征。

当前,基于内容的图像检索可以直接从图像信息源中获得视觉内容特征,如颜色、纹理、形状等来判断图像之间的相似性。

CBIR需要利用图像处理、模式识别、信息技术等领域知识来实现图像内容特征的提取、表示和检索。

现在CBIR己成功地应用于许多领域,如指纹与头像识别、商标检索等。

图3为基于内容图像检索的一个检索模型。

知识辅助

图3基于内容的图像检索模型

fig.3Content-basedimageretrievalmodel

2.3基于语义的图像检索

在实际应用中,用户往往事先对所需的图像只存在有关图像描述的对象、事件以及表达的情感等含义上的概念,用户需要的是图像含义的查询,而不是颜色、纹理、形状等特征。

这些图像的含义就是图像的高层语义特征,它包含了人们对图像内容的理解,这种理解是无法直接从图像的视觉特征获得的,而要根据人们的认知知识来判断。

因而,基子语义的图像检索[12]需要综合应用多媒体技术、人工智能、信息科学、认知科学等多学科知识来实现图像语义特征的提取、表示和检索。

图4为基于语义的图像检索的过程。

图4基于语义的图像检索过程

fig.4Semantic-basedimageretrieval

基于语义的图像检索方法和传统方法相比具有以下特点:

(l)检索结果不是孤立的图像列表,而是基于语义的相关图像或图像碎片的聚合;

(2)用户可以根据语义链确定的路径浏览图像,并进行推理。

目前,基于语义的Web图像检索方法已经在信息网格和知识网格平台得到实现,正交的语义空间进一步提高了图像检索的效果和智能性。

要使图像检索技术真正满足普通用户的需求,必须利用更多的语义信息,一个理想的检索系统应该提供基于内容的检索和基于语义的检索方法。

基于语义的图像检索系统的构建包括以下几方面的工作:

(1)图像语义提取,即如何从视觉特征映射到高层语义;

(2)设计高层语义的描述方式;

(3)语义检索系统的实现。

3图像检索研究的三个方向

无论是基于文本的检索还是基于内容的图像检索,这两者一个共同的缺陷就是没有考虑人类的认知模型和原理,而把语义特征和视觉特征割裂开来。

未来的图像检索系统应该能够满足以下几个要求:

一、能够满足语义检索的要求,也就是说用户提交检索(不仅可以是样例图像,还可以是语言描述)请求后,系统能够分析用户的检索请求后进行检索,返回的结果图像不仅在视觉表征上先关,而且在语义表征上也相关。

二、图像特征表示不仅包含视觉特征而且包含语义特征,而且视觉特征和语义特征可以相互作用。

三、有效的知识库指导,具有智能决策能力,主要包括:

视觉特征和语义特征之间的有效映射规则、视觉特征内部和语义特征内部的有效联想规则、在线学习用户检索偏好的机制、用户的智能交互和相关反馈机制。

因此出现了图像和语义的混合检索模型。

是结合文本和内容,进行融合性研究。

发挥各自的优势促进图像的高效、简单检索方式的实现,尤其是网络环境下,结合图像所在web文档的投特征分析,推断图像的特征,同时结合对图像的内容分析,共同标引达到对图像的分析和检索。

不仅构造了从文本到图像的映射和从图像到文本的映射,而且在文本特征和内容表征内部也构造了联想结构,使我们可以综合语义特征和视觉特征进行检索。

进一步,我们可以通过用户交互和相关反馈提高检索结果。

总之,结合文本和内容的混合检索不仅具有比较坚实的认知心理学理论基础,而且它更加符合人类的检索习惯,友好的人机交互和智能行为也会大大提高系统的性能。

综合图像视觉特征和语义特征的混合检索代表着图像检索技术发展的方向。

4图像标注存在的问题

图像自动标注(AIA)[13]是一个非常具有挑战性的研究领域。

在AIA研究中有几个问题:

一、高维特征分析。

目前,所有现存的特征都在描述图片时都具有局限性。

没有任何一种方法可以表示任何自然图片。

在应用中,采取结合多种特征的方法来表示更多的图片。

然而这种处理和分析方法需要高维特征,处理非常复杂。

由于高维特征的存在,分类器的运行效率极大下降。

因此,需要对降低特征维度,并选择正确数目的特征和正确的特征来进行标注。

二、如何构建有效的标注模型。

大多数现有的AIA模型都是从低级图像特征中学习获得的。

然而由于用于构建标注模型的图片的“组合爆炸”问题,样本图片的数量并不足以训练处足够准确地模型。

因此,需要采用文本信息或者元数据来提升标注的准确性。

然而,元数据并不准确也不充足。

如何结合低级视觉信息和高级文本信息到一致性模型中成为了一个挑战性的课题。

三、目前,多标签标注方法中的标签以及排序需要在线同时完成。

对于图像检索来说这种方法并不高效。

另一种方法是标签离线也就是首先利用概念/分类对图想进行标注并离线进行排序。

一旦突破完成离线标注和排序,可以进行图像检索。

四、如何利用单标签技术中获得的分类对图片进行排序来提升枷锁准确性。

由于每个分类中图片具有某种分布模式,高斯混合模型以及MAP排序时一个可行的解决方案。

五、缺少标准词汇库以及词典来进行标注。

AIA文献中使用了随机词汇库。

如何分类图片仍然是未知的。

需要一个分层模型对图片语义进行建模来分类图片。

分层词典不但标准化了标注词汇并且允许更加使用的分布标注。

在上述讲到的图像标注问题的最终问题是,现在并不存在通用的图像数据库进行AIA训练和评估。

所有的AIA方法需要大量的预先标记图像样本来训练模型。

此时,不同的AIA方法使用不同的图片集进行训练和评估,使得不同方法之间的性能对比评估非常困难。

数据库与词典问题息息相关。

如果有一个标准图像语义词典,就可以建立一个标准数据库。

上述讲的这些问题都指出了AIA领域未来的研究方向。

结论

本文对于急于内容和语义的图像标注和检索中的相关问题作了初步的综述,基于语义的图像检索原型系统中用到的基于wordNet的词相关性标注校正模型有待改进。

现在的模型只是根据wordNet、主区域、辅区域构建出标注向量,再权衡标注向量的权重;而在实际场景中,wordNet并不能完全描述词之间的相关性,基于内容和语义的图像检索。

怎么把两者更好地结合起来,给用户提供更好地检索,也是个待研究的问题。

无论是基于手工标注的关键字检索还是基于内容的图像检索,这两者一个共同的缺陷就是没有考虑人类的认知模型和原理,而把语义特征和视觉特征分割开来。

而目前研究趋势出现的三个方向:

立足于文本,对图像进行检索、立足于图像内容,对图像进行分析和检索、结合文本和内容,进行融合性研究。

可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进图像检索技术向前更进一步。

参考文献:

[1]PENTLANDA,PICARDRW,SCLAROFFS.Photobook:

Content-basedmanipulationofimagedatabases[C].SPIE:

StorageanRetrievalforImageandVideoDatabasesII.1994:

34–47.

[2]FALOUTSOSC,BARBERR,FLICKNERMetal.Efficientandeffectivequeryingbyimagecontent:

theQBICsystem[J].JournalofIntelligentInformationSystems,1994,3(3):

231-262.

[3]HAMPAPURA,GUPTAA,HOROWITZBetal.Viragevideoengine[C].ProceedingsoftheSPIE-TheInternationalSocietyforOpticalEngineering.1997:

188-197.

[4]Mori,Y.,Takahashi,H.,Oka,R.mage-to-wordtransformationbasedondefiningandvectorquantizingimageswithwords.[C].TheFirstInternationalWorkshoponMultimediaIntelligentStorageandRetrievalManagement.1999:

65-72.

[5]Barnard,K.,Duygulu,P.,deFreitas,N.,etal.Matchingwordsandpictures.[J].MachineLearn.2003,3:

1107-1135.

[6]Blei,D.,Ng,A.,Jordan,M.Dirichletallocationmodels.[C].TheInternationalConferenceonNeuralInformationProcessingSystems,2001:

150-157.

[7]Blei,D.,Jordan,M.Modelingannotateddata.[C].The26thInternationalConferenceonResearchandDevelopmentinInformationRetrieval(SIGIR),2003:

211-218.

[8]Li,J.,Wang,J.Z.Automaticlinguisticindexingofpicturesbyastatisticalmodelingapproach.[J].IEEETrans.PAMI,2003,25(9):

41-48.

[9]SuZ,MaSP,ZhangHJ.Featuresubspacesextractionforcontent-basedimageretrieval.[J].JournalofSoftware,2003,14

(2):

190-193.

[10]阿斯艳·哈米提,阿不都热西提·哈米提.基于文本的图像检索与基于内容的图像检索技术的比较研究[J].首都师范大学学报(自然科学版),2012,04:

6-9.

[11]曾奇森.基于内容的图像检索相关技术研究[D].南京理工大学,2007.

[12]张玉峰,蔡昌许.基于语义的图像检索系统研究[J].中国图书馆学报,2004,05:

68-71.

[13]鲍泓,徐光美,冯松鹤,须德.自动图像标注技术研究进展[J].计算机科学,2011,07:

35-40.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 商务科技

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1