大学本科理工科毕业论文基于内容的图像检索Word文件下载.docx

资源描述

大学本科理工科毕业论文基于内容的图像检索Word文件下载.docx

《大学本科理工科毕业论文基于内容的图像检索Word文件下载.docx》由会员分享，可在线阅读，更多相关《大学本科理工科毕业论文基于内容的图像检索Word文件下载.docx（32页珍藏版）》请在冰豆网上搜索。

大学本科理工科毕业论文基于内容的图像检索Word文件下载.docx

首先，文字描述只是一种特定的抽象，图象所表现出来的丰富内容是很难用文字表现出来的。

图象的获取日期、文件名、标引词等虽然可以提供有用的索引线索，但都不能完全抓取图象的视觉信息。

事实上，图象内容带给人的信息是多方面的，人们是通过图象的内容特征比如颜色、纹理、目标形状、分布位置等来记忆图象的，没有人是仅借助标号、文件名来记忆图象的。

其次，图象标引存在很大的主观性，不同的观察者或同一个观察者在不同条件下对同一幅图象有不同的描述，因而文本标注不够客观，可能会出现用户输入的关键词和数据库中的关键词不一致或该关键词根本不存在的情况，这就造成查询的失败。

另外，目前图象的标引仍由人工完成，随着图象数据的来源越来越广泛，数量越来越大，这种费时费力的方法犹如杯水车薪，不能满足日益增长的需要。

为了解决以上问题，就需要全面的、客观的来提取图象内容。

事实上，人们利用图象不仅仅是利用其视觉质量，更重要的是利用其视觉内容，所有只有根据内容进行检索才可能有效地获得所需的视觉信息。

例如，商标是否雷同主要看商标的图案，仅仅靠商标的文字标签是不能解决问题的，把商标的图案信息提取出来才可能有效地比较不同的商标。

综上所述，只有根据图象的内容来检索，才可能有效的获取所需要的信息，同时只有在掌握图象内容的基础上，图象数据库中的信息才可以得到有效的管理。

基于内容的图象检索技术就是在这样的需求下被逐步重视起来的。

基于内容的图象检索技术涉及数学、心理学等学科，涉及图象处理、计算机、数据库等信息技术，有着广阔的应用前景，并且仍有许多关键技术没有解决或不够完善，因此，研究该项技术既有深远的意义，也将面临巨大的挑战。

基于内容的图象检索（ContentBasedImageRetrieval,CBIR）的概念

基于内容的图像检索（CBIR）就是一项从图像数据库中找出与检索式内容相似的图像的检索技术。

它利用从图像中自动抽取出来的底层特征，如颜色、纹理、轮廓和形状等特征，进行计算和比较，检索出符合用户需求的结果图像集，且其检索结果可以借鉴文本检索技术中的相关反馈技术得到优化提高。

目前图像检索系统技术实现的基础是对底层特征信息的计算和比较，也即是“视觉相似”。

[3]

图像的内容包括图像的视觉信息等物理特征，还包括视觉特征所带来的高层语义特征。

物理特征属于低层视觉信息，主要包括颜色、纹理、形状；

语义信息属于图像的高层视觉信息，主要包括对象、空间关系、场景、行为、情感等图像内容。

基于内容的图像检索的目的一般可为三类：

（1）准确查询，找出一致的复制件；

（2）范围查询，找出与输入图像特征相差在一定范围内的图像；

（3）K-最近邻查询，根据输入图像与待检测图像的相似度对检索结果进行排序[2]。

基于内容的图象检索的应用

对图像内容检索的研究起步于二十世纪80年代，到了网络技术逐渐普及的90年代才取得较大的突破，多种成果开始转化为应用技术，而日益增长的应用需求反过来推动其研究向更高的层次发展。

如下领域开始应用和驱动图像检索技术的发展。

防止犯罪等司法部门。

应用人脸识别技术，根据专家对犯罪嫌疑人的头像特征的描绘图像，定位犯罪人的真实面目。

军事领域。

可以用于武器的精确制导，通过实时获取的图像信息，对其进行解译，保证打击的准确性。

版权保护领域。

针对商标与设计专利类的图像进行检索，防止专利纠纷的产生。

建筑和工程设计。

通过对建筑及工程设计物体的图像检索，可以聚类相同风格特色的建筑及工程设计产品。

广告业、艺术设计。

应用图像检索，可以找到需要的各种素材，进行艺术设计的再创造。

医学领域。

对各种医学透视CT图像进行检索，可以快速定位类似病例，及时快速的帮助病人找到病因，会对临床、医学研究、远程医疗、异地会诊乃至医学教育等方面产生积极和深远的影响。

古生物学、考古学。

通过对古生物化石图像的解释，确定古生物所属类型等信息，便于发现新的物种；

应用于古文物的图像检索，通过对比，签定文物的真伪、所属历史时期等。

地理信息系统和遥感。

对遥感图像的检索，主要是解译影像数据中的建筑、村庄、耕地等不同种类地物信息，制作实时、准确、逼真效果的专题图件，应用于地理信息系统中矢量处理模块。

安全技术。

应用指纹、眼膜识别技术，对用户的指纹或者眼膜提取图像特征进行匹配，鉴定用户真实身份。

总之，CBIR技术是一项快速发展的颇具发展潜力的前瞻性技术，在许多领域都具有很高的应用价值。

国内外研究热点及现状

近年来，CBIR已经成为一个非常活跃的研究领域，各国科研机构与公司已陆续推出了一些CBIR系统的产品[4]，有的已经成功应用到医学、商标、专利检索等领域。

1）QBIC[5,6]

的QBIC（QueryByImageContent）是第一个商业性的CBIR系统。

它提供了基于颜色、纹理、形状和手绘草图的图像索引方法。

颜色特征的表达采用了平均色和颜色直方图两种方法；

纹理特征的表达采用了纹理的粗糙度、对比度和方向性三者的综合。

目前,QBIC系统的基于内容检索技术已经在IBM数字图书馆中得到了应用，实现了自动索引、归并、对比、特征抽取和翻译功能。

2）VisualSeek&

WebSeek[7]

大学的VisualSEEK提供了基于色彩和纹理的索引方法.在VisualSEEK中,整幅图像色彩的分布使用了全局色彩直方图,区域色彩的索引采用二进制色彩集表达方法.它采用基于小波变换的方法来表示图像的纹理特征.为加快检索速度,还开发出了基于二叉树的索引算法.该系统具有Java浏览器,可以在SGL、SUN和IBMPC平台上运行。

3）PhotoBook[8,9]

是麻省理工学院（MIT）媒体实验室开发的一套检索、浏览图像的交互式工具,它包含三个子系统分别提取形状、纹理和人脸特征,用户可以分别做基于上述一种特征的检索.由于目前还没有一种特征可以很好地对图像建模,在PhotoBook的最新版本FourEyes中,Picard等提出将人也包括在图像的标注和检索过程中，实验结果显示这种方法对图像的自动标注很有效。

4）MARS[10,11]

（multimediaanalysisandretrievalsystem）系统由美国UIUC大学开发,其不同之处在于用到了很多领域的知识:

计算机视觉、数据库管理系统和信息检索.MARS系统的注重点不在于单个的最佳特征表示，而在于如何将不同的视觉特征组织成有意义的检索体系,以动态适应不同的用户及应用场合。

MARS系统是正式提出相关反馈的系统,它将相关反馈技术集成到检索的不同层次过程中。

5）CORE

新加坡国立大学开发的一个基于内容的图像检索系统，其显著技术特色包括：

多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。

6）ImgRetr[12]

虽然国内在图像检索技术方面的研究起步较晚，但是清华大学、中国科学技术大学等院校都先后取得一定的研究成果。

其中清华大学的ImgRetr结合了多种组织方法，能提供基于主色、纹理、直方图、颜色分布、框架等多种方式的检索。

中国科学技术大学计算机系研制的用于个性化图像检索和服装设计的情感信息获取系统于2002年12月顺利通过安徽省科技厅鉴定。

基于内容的图象检索面临的挑战和问题　

1.5.1高维索引技术

一幅图像的特征多种多样，而且某些特征的索引无法用一个量化值来表示，必须应用多维矢量，导致在综合多特征的检索中，特征矢量更是高达102量级，大大多于常规数据库的索引能力，因此，需要研究新的索引结构和算法，以高效地支持多特征、异构特征、权重、主键特征方面的查询要求[1]。

1.5.2缺乏客观的评价标准

目前基于内容检索结果的评价方法采用的是传统信息检索领域的查全率和查准率。

人在使用系统时采取的检索手段十分有限，人对图像内容认知上的主观性使得很难定义一个客观的标准，因而很难定义一个好的评价方法。

同时，对于检索效率的评价也将是今后研究中需要解决的问题。

1.5.3计算机视觉、模式识别技术

在上述提到的基于形状和基于对象及其空间关系等高层语义检索中，如何识别图像上的各个对象是检索的基础，这涉及到图像处理、图像理解等计算机视觉和人工智能领域的模式识别技术，由于这些技术本身仍然不成熟，导致检索陷入尴尬的境地，无法深入开展下去。

1.5.4Web环境下的通用检索方法

网络环境下，图像文件的自动获取与普通HTML文档的抓取没有什么本质区别，不同之处在于网络环境下存在着不同格式、大小、类型及不同领域内的海量多元图像，这决定了CBIR系统中索引过程的复杂性，同时从用户体验的角度讲，网络环境下用户对响应时间的要求比较苛刻。

寻找一个高效、通用的检索方法，以及符合用户交互习惯的检索流程，是Web环境下CBIR系统必须解决的问题。

1.5.5综合检索手段

基于图像低层视觉特征的检索和基于图像语义特征的检索等方面均有了一定的成果，如何实现融合低层视觉特征和高层语义特征的多特征综合检索将是今后研究的重点。

解决从低层视觉特征到高层语义的映射，缩短人机之间对相似图像理解的差距。

此外，系统应该具有自适应学习能力，能够在检索交互中理解用户的语意，及使检索性能更接近人类视觉的特性。

本文的主要研究工作

本文深入研究了国内外CBIR技术的历史发展、最新进展及应用状况，对基于内容的图象检索系统进行了介绍，分析和研究了图象检索中的基本技术，包括各种特征提取、相似性度量、检索模式、相关反馈、性能评介及其系统结构设计。

图象特征提取技术和相似性度量技术都属于基于内容的图象检索技术的核心问题。

本文主要针对这两个问题，研究如何描述图象内容，准确、自动的提取特征，以及精确的对图象内容进行相似性度量。

本文提出了一种基于颜色和形状特征的图象检索方法。

实验证明这种方法比基于颜色特征的图象检索和基于形状特征的图象检索具有明显的优越性；

另外，本文提出了一种适合本文的形状的相似性度量方法，大量的实验证明了该方法的有效性。

作者根据上述的检索方法设计了一个简单的图象检索系统，该系统可视性好，检索直观、方便，可支持浏览查询和示例查询。

论文的结构

本文共分五章，组织结构如下：

第一章介绍CBIR技术的来龙去脉，包括其背景、研究意义、概念和应用，以及国内外的研究的热点和现状、面临的挑战和问题。

第二章从宏观角度介绍CBIR的几项基本技术模块，指出其关键技术所在。

第三章从微观角度和技术本身介绍几种具体的检索技术，包括基于颜色、纹理和形状特征的检索算法，并比较它们各自的优缺点。

第四章研究综合检索手段下的CBIR技术，并提出一种基于颜色和形状特征的图象检索技术。

介绍基于颜色和形状特征的图象检索系统的总体设计和具体实现，并组织了测试图像数据库，进行了多项实验比较，给出了测试结果及分析。

第五章是对全文的总结，分析了CBIR技术的特点，总结了本文的创新点，展望了CBIR技术未来的发展趋势。

2基于内容的图象检索的基本技术

CBIR的基本技术包括：

特征提取、相似性度量、检索模式、相关反馈和性能评价、系统结构设计几个方面[13-19]。

特征提取

与文本检索相比，CBIR技术使用了完全不同的检索策略。

图象内容的特征信息预先提取出来存入特征数据库，检索时通过匹配示例图象和库中图象的特征信息来判断二者的相似程度。

所以，如何准确有效地抽取图象的特征信息是CBIR技术的重点。

特征抽取的好坏将直接影响图象的匹配和检索效果。

作为一幅静态图像，它有许多可以用来进行检索的特征，这些特征内容可以理解为一个简化了的层次模型[20]。

如图所示，第一层是图像的底层物理特征，如颜色、纹理、轮廓和形状等；

第二层是逻辑语义特征，反映了图像所描述对象的标识及其空间关系等；

第三层是抽象语义特征，是人们对图像内容在认知层次的概括和描述。

图图像特征的层次模型

根据图像特征的层次模型，Eakins把用户的检索需求也分为三个层次[21]：

第1个层次：

根据图像的颜色、纹理、形状或轮廓等原始特征构成检索式。

这样的检索例子为：

“查找一张蓝色占60%的图片”，或“检索一张含有椭圆状物体的图片”，或者“检索一张和这张图像相似的图片”等。

第2个层次：

根据图像的逻辑特征信息，包括图像所含对象及其相互关系来构成检索式。

这个层次的检索需求可以是检索一个既定类型的物体，比如“找一张航天飞机的图片”，也可以是检索一个独一无二的人或物，比如“找一张自由女神像的图片”。

这个层次的检索需求要比第1层次的更容易碰到，要回答这一类检索需求，就必须获得图像逻辑特征在计算机内部的适当表示，这就需要存储在图像外部的知识信息了。

第3个层次：

根据图像的抽象特征构成检索式，包括物体或场景的描述以及由此推理出来的场景语义、行为语义和情感语义，这个层次的检索需求可以是检索被命名的事件或活动，比如“查找苏格兰民间舞蹈的照片”，也可以是检索具有情绪特点的图像，比如“查找一张描述痛苦的图片”。

要回答这一类检索需求，就需要复杂的推理和主观判断，需要抽象的描述图像内容。

这类推理和判断往往建立在知识学习的基础之上，需要用到机器学习和人工智能等方面的知识。

此类检索需求常见于报纸和图书馆领域。

许多学者把第2和第3层次的图像检索概括为“语义层次”的图像检索，而把第1层次和“语义层次”之间的距离称作图像检索的“语义鸿沟”。

目前CBIR技术的特征提取技术仍然集中在颜色、纹理、形状、轮廓等底层物理特征的基础上。

相似性度量

图像的特征信息被抽取出来后将以向量的形式存放在索引库中，向量的每个值代表图像的某一个特征值，这样一幅图像的特征就可以用一个N维特征空间里的向量来表示。

同时，查询向量也可以表达为特征空间中的点，称为查询点，从而图像之间的相似性计算就转化为特征向量之间的相似性计算。

要计算向量形似性程度，需要一定的计量或测量方法。

常用的距离函数主要是欧氏距离De，和城区距离Dc。

式（）

De和Dc都可看作是如下Minkowsky距离

的特例。

在具体的检索应用系统中，采用哪种距离度量方法要视具体情况而定，上述Minkowsky距离因为其计算简单效果好而比较常用。

具体的应用还可以将不同的距离测度方式组合起来构成复合测度以增强应用的灵活性。

例如求加权和、最大值、最小值等，通常在不同的应用需求下有不同的相似性计算法则。

检索模式

对用户来讲，基于内容图像检索系统的查询方式多种多样，许多商业性和研究性的系统都提供了以下一种或几种方式的组合：

按特征查询、按示例查询、按关键字查询、浏览查询和草图查询。

按特征查询。

用户提供图像的具体特征，这些特征包括颜色、纹理、形状、轮廓、空间关系等，可以是单个的也可以是复合的特征，各种特征还可以附加不同的权值。

例如，“查找蓝色占50%，红色占50%的图片”。

这种方式在IBM的QBIC系统[5]里得到了较好的实现。

按示例查询。

这种方式需要用户提供一幅示例图像，查询系统根据示例图像自动提取其特征，然后在图像库中找出与示例相似的图像。

这种方式为用户提供了一种简便的方式来表达图像的内容。

按关键字查询。

用户可以把关键字作为检索入口，把检索结果中感兴趣的目标作为检索图像再进行示例查询。

这种方式需要对图像做文本索引，需要文本检索技术和内容检索技术的有机结合来实现。

浏览查询。

当用户要查找的图像比较含糊、不熟悉其具体内容时，可以先按系统的分类体系浏览图像库，待发现感兴趣的目标后再做示例查询。

草图查询。

系统提供一个可以画草图的窗口，用户将想要查找的图像以草图的形式画出来并染上相应的颜色，系统从中抽取特征进行检索。

这种方式能提供给用户更大的想象和发挥空间，QBIC系统中提供了这种查询方式。