基于文本的Web图片搜索引擎的研究硕士研究生学位论文.docx

资源描述

基于文本的Web图片搜索引擎的研究硕士研究生学位论文.docx

《基于文本的Web图片搜索引擎的研究硕士研究生学位论文.docx》由会员分享，可在线阅读，更多相关《基于文本的Web图片搜索引擎的研究硕士研究生学位论文.docx（66页珍藏版）》请在冰豆网上搜索。

基于文本的Web图片搜索引擎的研究硕士研究生学位论文.docx

基于文本的Web图片搜索引擎的研究硕士研究生学位论文

硕士研究生学位论文

题目：

基于文本的Web图片搜索引擎的研究

任何收存和保管本论文各种版本的单位和个人，未经本论文作者同意，不得将本论文转借他人，亦不得随意复制、抄录、拍照或以任何方式传播。

否则，引起有碍作者著作权之问题，将可能承担法律责任。

毕业设计（论文）原创性声明和使用授权说明

原创性声明

本人郑重承诺：

所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。

尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。

对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。

作者签名：

　　　　　日　期：

指导教师签名：

　　　　　日　　期：

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：

按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。

作者签名：

　　　　　日　期：

学位论文原创性声明

本人郑重声明：

所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。

除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。

对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。

本人完全意识到本声明的法律后果由本人承担。

作者签名：

日期：

年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。

本人授权　　　　大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名：

日期：

年月日

导师签名：

日期：

年月日

指导教师评阅书

指导教师评价：

一、撰写（设计）过程

1、学生在论文（设计）过程中的治学态度、工作精神

□优□良□中□及格□不及格

2、学生掌握专业知识、技能的扎实程度

□优□良□中□及格□不及格

3、学生综合运用所学知识和专业技能分析和解决问题的能力

□优□良□中□及格□不及格

4、研究方法的科学性；技术线路的可行性；设计方案的合理性

□优□良□中□及格□不及格

5、完成毕业论文（设计）期间的出勤情况

□优□良□中□及格□不及格

二、论文（设计）质量

1、论文（设计）的整体结构是否符合撰写规范？

□优□良□中□及格□不及格

2、是否完成指定的论文（设计）任务（包括装订及附件）？

□优□良□中□及格□不及格

三、论文（设计）水平

1、论文（设计）的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意？

设计是否有创意？

□优□良□中□及格□不及格

3、论文（设计说明书）所体现的整体水平

□优□良□中□及格□不及格

建议成绩：

□优□良□中□及格□不及格

（在所选等级前的□内画“√”）

指导教师：

（签名）单位：

（盖章）

年月日

评阅教师评阅书

评阅教师评价：

一、论文（设计）质量

1、论文（设计）的整体结构是否符合撰写规范？

□优□良□中□及格□不及格

2、是否完成指定的论文（设计）任务（包括装订及附件）？

□优□良□中□及格□不及格

二、论文（设计）水平

1、论文（设计）的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意？

设计是否有创意？

□优□良□中□及格□不及格

3、论文（设计说明书）所体现的整体水平

□优□良□中□及格□不及格

建议成绩：

□优□良□中□及格□不及格

（在所选等级前的□内画“√”）

评阅教师：

（签名）单位：

（盖章）

年月日

教研室（或答辩小组）及教学系意见

教研室（或答辩小组）评价：

一、答辩过程

1、毕业论文（设计）的基本要点和见解的叙述情况

□优□良□中□及格□不及格

2、对答辩问题的反应、理解、表达情况

□优□良□中□及格□不及格

3、学生答辩过程中的精神状态

□优□良□中□及格□不及格

二、论文（设计）质量

1、论文（设计）的整体结构是否符合撰写规范？

□优□良□中□及格□不及格

2、是否完成指定的论文（设计）任务（包括装订及附件）？

□优□良□中□及格□不及格

三、论文（设计）水平

1、论文（设计）的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意？

设计是否有创意？

□优□良□中□及格□不及格

3、论文（设计说明书）所体现的整体水平

□优□良□中□及格□不及格

评定成绩：

□优□良□中□及格□不及格

（在所选等级前的□内画“√”）

教研室主任（或答辩小组组长）：

（签名）

年月日

教学系意见：

系主任：

（签名）

年月日

摘要

本文研究工作是针对Web图片搜索引擎的应用背景，以构建大型Web图片搜索引擎为目标，提出基于文本检索方式的Web图片搜索引擎设计方案。

文中介绍和研究了一系列与Web图片搜索引擎相关的技术，包括网页抓取、相关性排序（VSM和LSI）、信息提取、信息索引等，这些技术将被应用到文中提出的系统设计方案中。

本文重点地研究如何从HTML文档中提取图片相关信息，保证高效和准确的实现图片检索。

在对真实数据进行实验和分析的基础上，提出了若干关键技术，用于系统的设计，现归纳如下：

1）本文提出的方法通过细致地分析HTML文件的标记、标记、网页标题、网页的超链接文本、图片URL、标记、关联的和结构、

结构、图片周围文本等部分的结构特点，并利用真实数据进行实验验证，总结了9条提取模式，用于从这些结构中提取与图片相关的信息，以保证提取到的信息相关性程度较高。

研究了三种具体的提取方法：

基于DOM的方法、基于字符串的方法和基于Wrapper的方法。

2）提出了过滤无用图片的方法，提高了系统中图片的可用度。

该方法将图片文件大小小于某一阈值，图片的长或宽小于某一阈值，图片的长宽比例超过某一阈值以及同一网页内通过引用次数超过某一阈值的图片作为无用图片剔除。

3）通过统计分析总结出HTML文件中表现出的一些潜在规律，比如JPG和GIF的区别、和标记的不同意义以及图片引用次数的不同意义。

得到如下结论：

JPG重要性大于GIF；标记来源图片的重要性大于标记的图片；引用次数越高的图片重要性越高，而引用次数高的图片需要经过过滤才能保证重要性较高。

4）粗略地探讨了将LSI算法应用于图片搜索引擎来整合文字和内容信息的方法，并通过简单实验进行了效果验证。

5）设计并实现了一个基于文本的Web图片搜索引擎，给出了系统的总体结构图，并对获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引和提供查询这6个工作流程进行了详细的描述，最后对系统的使用效果和性能进行了简单评测。

关键词：

Web图片搜索引擎图像检索基于文本基于内容信息提取

Abstract

Inthethesis,weformaschemetodesignalarge-scaleWebimagesearchenginesystemusingmainlytext-basedtechnology.

WeintroduceandresearchaseriesoftechniquesrelatedtoWebimagesearchengine,suchascrawling,relevanceranking（VSMandLSI）,informationextractionandindexing.Thosetechniqueswillbeusedinoursystemdesign.

WeconcentrateonhowtoextractinformationrelevanttoimagesfromHTMLdocumentsmoreeffectivelyandprecisely.Accordingtoexperimentsandanalysisonrealdata,weproposeseveralkeytechniquesasbelowfordesigningthesystem:

1）WeanalyzecarefullythestructureofHTMLcomponentsincludingtag,tag,titleofwebpage,anchortextofwebpage,URLofimage,tag,

tag,surroundingtextoftagetc.Andsumupnineextractionpatternstofetchinformationrelevanttoimages.Wealsoresearchthreeextractingmethods:

DOMbasedmethod,StringbasedmethodandWrapperbasedmethod.

2）Weproposesomemethodstofilteruselessimagesaccordingtofilesize,widthandheightofimagesandreferredcountofimagesbytags.

3）ThroughstatisticsofmassofHTMLdocuments,Weconcludesomelatentrules,suchasthedifferencebetweenJPGandGIF,thedifferencebetween tagandtag,thedifferencebetweendifferentreferredcountofimages.

4）WeSimplyresearchtheapplicationmethodofLSItointegratehigh-levelandlow-levelinformationofimages.

5）Wedesignandimplementatext-basedWebimagesearchengine.Theglobalstructureofoursystemandrelationsofthecomponentsofsystemareintroduced.Somecomponentsaredetailedinfunctionandimplementation.Finallyasimpleevaluationaboutsearchingeffectandperformanceisgiven.

Keywords:

Webimagesearchengine,text-based,content-based,informationextraction

3.3.4基于Wrapper的提取方法28

图表3网页的内容分类情况（按多媒体形式）2

目前的Internet应用已经取得了长足的发展，随着网络带宽和终端计算能力的不断增强，图片被越来越多的应用于内容的表达和信息的承载，特别是在Web的应用上更是不可或缺。

Web已经成为一个巨大的、分布的、动态的、快速增长的资源库。

然而，Internet本身是一个极度分散的系统，数以亿计的图片分布在Internet的各个角落，人工寻找并获取需要的图片已经变得越来越困难，因此，如何通过自动化的手段有效的获取和再利用这些图片资源成为信息共享的一个重要课题。

图片的再利用问题涉及到图片信息的收集和检索问题。

图片的信息是指图片的内容所表征的意义，这种的信息承载方式与传统的文本的信息是不一样的。

由于文本的直观性和简单性，文本的信息即包含于本身；而图片的信息可以通过图片本身的内容传达出来，也可以通过相关文字的描述传达出来，于是图片便有了双重的信息载体。

因而，图片在信息的获取上便有了不同于文本的技术。

按照图片信息来源的载体的不同，图片信息的获取技术被分为两大类：

基于内容和基于文本。

基于内容的技术是对图片的内容本身（像素）进行分析和检索，而基于文本的技术利用图片的相关文字信息作为分析对象，并提供类似于传统文本检索的工作方式。

Internet的边缘化特点使得信息组织非常自由化，大量的图片文件被按照不同的方式，不同的风格组织到不同的地方。

文字和图片之间几乎是可以按照完全随意的方式自由安置。

但是统计的结果显示，大量的组织方式具有某些共同的特点，这些特点符合人类获取信息的习惯。

这就为提供一个通用的信息提取框架提供了可能。

在Internet上，通常图片和文本被有机的组织在一起，最常见的组织形式就是HTML网页，于是通过HTML挖掘可以获取到大量的关于图片的信息。

HTML网页是Web上应用最广泛的信息组织方式，是搜索引擎获取信息的最主要来源。

Internet上HTML网页数量及其所包含的多媒体资源相当丰富。

根据CNNIC的《2003中国互联网络信息资源数量调查报告》[1]显示（截至到2003年12月31日）：

从以上统计数字可以看到，目前国内的Web信息资源数量已经相当可观，并且随着IT业在2003年的逐渐复苏，网页数量比2002年增长了一倍。

网络上的多媒体内容绝大部分以图像的形式存在，这对于图片搜索引擎的资源获取无疑具有相当的价值。

Web搜索引擎技术已经被广泛的引用到Internet上，每天要抓取海量的HTML网页，这是一个宝贵的资源库，但目前Web搜索基本上只利用到其中的文本信息。

如果充分的挖掘资源库中的潜在价值，可以建构出很多增值的搜索系统，比如图片搜索，mp3搜索，Flash搜索等等。

因此，本文的切入点就是如何有效的利用这些HTML网页来构建Web图片搜索引擎。

1.2图片检索系统概述

1.2.1系统应用领域

随着图片使用的日趋广泛和图片搜索技术的不断发展，图片检索系统的应用范围变得越来越广。

目前使用最广泛的是通用Web图片搜索引擎，比如Google图片搜索，它面向通用领域的用户提供服务。

除此之外，有大量的专用领域使用到了图片检索，比较常见的领域有：

医药领域。

图片检索技术能够有效的用于这类信息的表示、存储、传输和分析，针对该领域的研究主要集中在图像处理上，例如边界或者特征检测，可用于跟踪肿瘤的生长等。

该领域已经有成功的系统使用案例。

图形设计领域。

对于已有的设计的重用，可以为该领域的工作者提供大量的素材和灵感，图片检索系统可以为这些工作提供大量帮助，同时，对于用户寻找特定要求的作品也提供了很大的便利。

出版领域。

出版社、报社、杂志社等机构对于图片的需求是相当多的，基本上都有自己的图片库，传统方式利用多种归类方式来进行存储和查找。

该领域的工作者需要花费大量的时间来查找和挑选合适的图片，利用图片检索系统能够提供有效的帮助。

其它的一些领域还包括建筑设计、天文学、地理学、历史研究、犯罪取证等。

1.2.2用户检索方式

在检索方式上，图片检索相对于网页检索来说，有很大的不同。

目前的网页检索系统几乎仅有关键字查询一种，因为当前考虑范围内用于网页内容的唯一描述只有文字。

因此，图片通常具有多种检索方式，从用户检索的角度看，可以分为如下几类：

◆目录式检索：

yahoo的图片搜索集成了其网页搜索的特点，将图片进行分类，用户按照分类结构逐渐细化查询范围。

目录式检索方式经常需要人工来进行大部分的分类工作，因此代价是相当高的。

◆关键字查询：

目前使用中的大型图片搜索引擎使用的方式。

关键字检索方式最显著的优点是其检索速度非常快，并且基于文本的索引技术已经很成熟。

信息和文字的匹配上有两种方法，一种是人工标引，一种是自动提取。

人工标引对于信息的准确度方面是效果比较好的。

但是也面临几个主要的缺点：

一是人工标引工作量太大，在海量系统中几乎是不现实的。

二是人工标引的信息主观性比较强，有时候不能恰当的反映图片的真实信息或者反映的信息不完全（后者几乎总是存在）。

自动提取方法的难点在于如何为图片提取正确的文字信息。

由于信息组织的多样化以及难于判定具体的组织方式，很难确定哪些信息是与图片相关的。

这种方法通常采用启发式规则来进行信息提取，使用比较常用的模式来获取信息，并通过无用信息过滤等技术来尽可能的提高信息的准确性。

◆实例式检索：

目前的基于内容的图片搜索引擎大多是这一类。

方法是提供一张图片实例或者由用户绘制一个大概的形状，系统根据某些可视特征去寻找在该特征上相似的图片。

这种检索方式的优势在于发现相似图片的效果比较好，缺点在于需要用户提供图片实例，这一点通常使系统变得很不友好。

虽然基于内容的检索系统可以提供一些分类信息，但也仅限于户内或者户外，风景或者人物等粒度比较大的分类。

◆属性式检索：

这种检索方式多用于小规模的专门的图片数据库，比如摄影图片库，用户可以根据作者，拍摄日期等一些图片的外在特征来进行检索。

该类数据库具有集中式管理的特点，信息往往比较规范，建立索引和检索过程都相对简单，可以使用现有的关系数据库来实现。

1.2.3系统评价

检索系统中很重要的系统评价指标是查准率（Precision）和查全率（Recall）。

假设对于特定的查询，D+为整个文档集合中相关文档的数量，R为查询结果文档集合，R+为结果文档中相关文档集合，则查准率和查全率可以形式化的定义为：

查准率：

查全率：

在图片检索系统中，对于这两项指标的度量比较困难，因为对于图片与文本的相关性评价是相当主观的，基本上只能得到一个很粗略的统计结果。

除了以上两项指标以外，还有一个评价指标是性能，即系统提供服务的能力度量，可以包含系统的吞吐量，响应时间等。

系统的可扩展性也是需要考虑的，当查询数量和频率增加以后，可以通过增加服务的主机数来满足性能的要求。

比较好的期望是系统能够接近线性可扩展性。

1.3研究现状

基于文本的图片检索最早可以追溯到20世纪70年代早期，当时的检索系统使用人工对图片的内容进行文字信息标引，利用DBMS存储文字信息，并利用文本检索技术提供查询。

当时的研究多集中在数据建

展开阅读全文