计算机毕业设计102aspnet中图像的检索技术毕业设计Word下载.docx

资源描述

计算机毕业设计102aspnet中图像的检索技术毕业设计Word下载.docx

《计算机毕业设计102aspnet中图像的检索技术毕业设计Word下载.docx》由会员分享，可在线阅读，更多相关《计算机毕业设计102aspnet中图像的检索技术毕业设计Word下载.docx（14页珍藏版）》请在冰豆网上搜索。

计算机毕业设计102aspnet中图像的检索技术毕业设计Word下载.docx

（3）资源消耗太大，系统需要将HTML文件传送至本地然后分析，大量占用昂贵的网络带宽和CPU资源，增加被搜索结点的负担。

另外由于现有的搜索引擎一般是集中式的，所以搜索引擎服务器本身的硬件配置也极高，才能处理庞大的数据量和及时地响应用户的查询请求；

（4）不能有效解决索引失效问题，很多时候，搜索引擎会返回无效的查询结果；

（5）各检索工具各行其事，不能相互协作，在一定意义上讲是一种资源的浪费。

1.2现有的图像检索技术

近年来随着用户对网上图像搜索要求的不断增长，各种图像搜索引擎应运而生，它们各自以不同的工作方式为用户提供各种检索途径，使网上图像信息的搜索变得非常简单，尽管还不很完善，却已经可以满足用户的大多数要求。

1.2.1搜索引擎的工作原理

最基本的搜索引擎的结构，是由Spider不停地从Web网上收集数据，存放在搜索引擎的数据库中。

用户通过搜索引擎服务器上的Web接口，提出搜索请求，WebServer通过CGI或其它技术访问数据库，并将用户的搜索请求转换成相应的数据存取语句，送给数据库引擎处理，并把查询结果通过网页显示给用户。

网络搜索的基本原理是通过网络机器人定期在web网页上爬行，然后发现新的网页，把它们取回来放到本地的数据库中，用户的查询请求可以通过查询本地的数据库来得到。

一般来说网络信息检索的实现机制一般有两种，一种是通过手工方式对网页进行索引，它的缺点是Web的覆盖率比较低，同时不能保证最新的信息。

查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配，而不是通过全文的匹配进行的。

第二种是对网页进行自动的索引，这种能实现自动的文档分类，实际上采用了信息提取的技术。

但是在分类准确性上可能不如手工分类。

在现在所有运行的搜索工具来说，一般都有一个Robot定期的访问一些站点，来检查这些站点的变化，同时查找新的站点。

一般站点有一个robot.txt文件用来说明服务器不希望Robot访问的区域，Robot都必须遵守这个规定。

如果是自动索引的话，Robot在得到页面以后，需要对该页面根据其内容进行索引，根据它的关键字的情况把它归到某一类中。

页面的信息是通过元数据的形式保存的，典型的元数据包括标题、IP地址、一个该页面的简要的介绍，关键字或者是索引短语、文件的大小和最后的更新的日期。

尽管元数据有一定的标准，但是很多站点都采用自己的模板。

文档提取机制和索引策略对Web搜索引擎的有效性有很大的关系。

高级的搜索选项一般包括：

布尔方法或者是短语匹配和自然语言处理。

一个查询所产生的结果按照提取机制被分成不同的等级提交给用户。

最相关的放在最前面。

每一个提取出来的文档的元数据被显示给用户。

同时包括该文档所在的URL地址。

另外有一些关于某一个主题的专门的引擎，它们只对某一个主题的内容进行搜索和处理，这样信息的取全率和精度相对就比较高。

目前，图像搜索引擎主要通过以下两种方法识别图像：

（1）自动查找图像文件。

通过两个HTML标签，即IMGSRC和HREF来检测是否存在可显示的图像文件，IMGSRC表示“显示下面的图像文件”，导向的是嵌入式图像；

而HREF则表示“下面是一个链接”，导向的是被链接的图像。

搜索引擎通过检查文件扩展名来判断其导向的是否为图像文件，如果文件扩展名是.gif或.jpg，即是一个可显示的图像。

（2）人工干预找出图像。

进行分类，由人工对网上的图像及站点进行选择。

这种方法可以产生准确的查询体系，但劳动强度太大，因此要限制处理图像的数量。

由于图像不同于文本，需要人们按照各自的理解来说明其蕴含的意义，因此图像检索比文本的查询和匹配要困难得多。

1.2.2图像搜索引擎的检索途径

1.关键词检索

传统的图像检索技术是基于关键字的精确匹配检索，系统内的图像用关键字标识，检索线索是与标识相一致的关键字，即输入是关键字，输出是图像。

它又包括两种途径：

（1）基于图像外部信息进行检索。

即根据图像的文件名或目录名、路径名、链路、ALT标签以及图像周围的文本信息等外部信息进行检索，这是目前图像搜索引擎采用最多的方法。

在找出图像文件后，图像搜索引擎通过查看文件名或路径名确定文件内容，也可以通过查看图像的标题来匹配检索词。

（2）基于手工标注的检索。

手工对图像的内容（如物体、背景、颜色等）进行描述并分类，将其标注为一系列关键字，并建立索引。

检索时，将主要在这些描述词中搜索用户输入的关键字。

这种查询方式是比较准确的，一般可以获得较好的查准率，但需人工参与，劳动强度大，因而限制了可处理的图像数量。

另外，由于图像所包含的信息量庞大，不同用户对于同一张图像的看法又不尽相同，导致了对图像的标注缺乏统一标准。

2.图像可视属性的检索

而基于图像内容的检索主要是由图像分析软件自动抽取图像的颜色、形状、纹理等特征，建立特征索引库，其输入为用户要查找的图像的大致特征描述或示例，通过一定相似性匹配规则，输出为与之具有相近特征的图像，按相似程度排列，供用户选择，从而把在传统图像检索技术中一般用户难以完成的图像特征描述、提取与识别等难题，交由系统去解决。

这是一种基于图像本身特征层次的检索，特别适用于检索目标明确的查询要求，但目前这种较成熟的检索技术主要应用于图像数据库的检索。

在图像搜索引擎中应用这种检索技术还有一定困难，但己有部分图像搜索引擎尝试了这种检索方法。

1.2.3对几个基本引擎的分析

（1）InfoSeek是一个简单但是功能强大的索引，它的一个优点是有一个面向主题搜索的可扩展的分类。

你可以把你的搜索短语和相似的分类目录的主题短语相互参照，而那些主题短语会自动加到你的查询中去。

使你的搜索有更好的主题相关性。

同时它也支持对图象的查询。

它能够漫游Web,Usenet,UsenetFAQs等等。

不支持布尔操作，但是可以使用符号"

和"

。

（2）AltaVista是一个大容量的，基于Robot索引的SearchEngine。

它能帮你在WWW网上搜索你所需要的网页，新闻组，图像，视频音频片段。

AltaVista还支持多种语言和简单的自然语言查询。

AltaVista覆盖面约为WWW网上可索引的网页的30%

（3）Scour成立于1998年，自称是第一个基于web的多媒体搜索引擎。

虽严格讲，它并非是一个图像搜索引擎，但可以将检索限制在图像搜索上。

它的工作原理是在文件名、路径名或ALT标签中搜索检索词。

主要使用关键词检索，可以用"

＋"

或"

－"

来增加或排除关键词，使用尽可能少的关键词会更有效。

在高级检索中，可以将检索结果图像限制在GIF、BMP、JPEG等格式中。

检索结果显示简图、图像类型（如GIF、BMP）、图像大小、最后被查找的日期、检索词的匹配数量、标引使用的关键词、成功下载的可靠程度等，并同时给出图像文件的URL和源站点的URL。

主要缺陷是标引深度不足，查准率较低，但查全率较好。

（4）这是由NCRTEC组织开发的一个"

真正人工建立的完全的关键词式索引"

AmazingPictureMachine后面的教师负责选择图像丰富的站点，然后对每幅选定的图像内容进行描述，给出关键词。

因此它的最大特点就是人工干预，关键词检索是主要的检索手段。

AmazingPictureMachine的搜索结果将显示一个简短的标题、有关图像的说明（如彩色或黑白）、文件的大小、文件类型及象素多少等，但不显示简图。

单击该标题可得到原图像，但需由该URL回溯才能找出源站点。

由于人工干预检索过程，它的查准率极好，但这也限制了它的查全率。

它的检索范围很有限，只包括web上人工选择的部分站点。

（5）Lycos对所收录的图像进行了详尽的内容描述，并支持短语检索，从而使其查准率大大提高。

它根据文件扩展名识别图像，在描述词、文件名、目录名或ALT字段中查询检索词。

结果显示的信息极为丰富，包括简图、图像大小、最后检索日期、图像文件名、图像内容描述词、图像所在页面等。

点击简图将得到原图及更多的信息，如著作权人和更多的相关图像。

比较而言它的检索效果很好，速度也很快。

1.2.4搜索引擎的基本要点

（1）索引文档的容量：

现在最大的搜索引擎可能包含了超过100,000,000个链接，但这也只是整个Web网上的一小部分。

因为收集资料的Robot，只能从“已知”的链接开始收集网页资料，而只有一小部分Web网页和这些“已知”的网页有连接；

现在还没有一个搜索引擎能够随网页内容的更新比较及时地更新索引；

（2）覆盖面：

地理覆盖面和主题覆盖面；

（3）索引更新频率：

不同的搜索引擎，索引更新频率相差很大，有的是几周，有的是一年。

索引更新频率有两种定义，一种比较少用的定义是新的网页能被收录进索引数据库中，另一种是同一页多少时间才被检查一次，有必要时更新索引。

有的搜索引擎会对经常更新的网页和多人访问的网页进行更频繁的重建索引工作；

（4）采集过程：

采集过程有宽度优先、深度优先两种算法；

一般认为宽度优先对扩大内容的覆盖面有利，深度优先算法有助于提供更多的细节资料；

（5）索引算法：

有的搜索引擎只处理元标记和一小部分文档内容，而有一些搜索引擎则是对全文进行索引；

（6）结果显示：

有的搜索引擎只显示网页的标题，有些则有更详细的一些信息，比如网页的内容，更新日期等；

（7）查询算法：

一个优秀的查询算法是很重要的，最基本的布尔查询，短语查询，有的搜索引擎还提供指定属性的查询，比如可以指定对网页的作者、主题进行查询。

另外有的搜索引擎还采用了相关度反馈、概念查询等算法；

（8）用户界面：

很多搜索引擎都提供了简单查询和高级查询两个界面。

并且提供了必要的帮助和范例。

1.3图像检索的发展方向

图像检索技术给用户提供了一个在互联网上搜索感兴趣图像资源的有效手段，基于文本和基于内容是图像检索发展的两个分支，不过从目前图像检索研究的趋势而言，尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中，出现了三个不同的研究着眼点。

（1）基于文本的检索研究

立足于文本，对图像进行检索。

试图将传统的文本检索技术移植于对多媒体信息的检索上，因为基于文本的检索技术发展已经成熟。

如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等，不仅技术发展较为成熟，同时分析和实现的难度略小。

但是因为受控词汇本身的局限，易歧义，更新慢，所以不太容易应对网络上日新月异的各类图像。

（2）基于内容的检索研究

立足于图像内容，对图像进行分析和检索。

相比而言，尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法，但是要突破对低层次特征的分析，实现更高语义上的检索，实现难度大，进展慢。

不过，基于内容的图像检索建立在多媒体信息的内容语

展开阅读全文