基于文本的Web图片搜索引擎的研究硕士研究生学位论文.docx-资源下载

基于文本的Web图片搜索引擎的研究硕士研究生学位论文.docx

1、基于文本的Web图片搜索引擎的研究硕士研究生学位论文硕士研究生学位论文题目：基于文本的Web图片搜索引擎的研究版权声明任何收存和保管本论文各种版本的单位和个人，未经本论文作者同意，不得将本论文转借他人，亦不得随意复制、抄录、拍照或以任何方式传播。否则，引起有碍作者著作权之问题，将可能承担法律责任。毕业设计（论文）原创性声明和使用授权说明原创性声明本人郑重承诺：所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对

2、本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。作者签名：日期：指导教师签名：日期：使用授权说明本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。作者签名：日期：学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论

3、文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名：日期：年月日导师签名：日期：年月日指导教师评阅书指导教师评价：一、撰写（设计

4、）过程1、学生在论文（设计）过程中的治学态度、工作精神优良中及格不及格2、学生掌握专业知识、技能的扎实程度优良中及格不及格3、学生综合运用所学知识和专业技能分析和解决问题的能力优良中及格不及格4、研究方法的科学性；技术线路的可行性；设计方案的合理性优良中及格不及格5、完成毕业论文（设计）期间的出勤情况优良中及格不及格二、论文（设计）质量1、论文（设计）的整体结构是否符合撰写规范？优良中及格不及格2、是否完成指定的论文（设计）任务（包括装订及附件）？优良中及格不及格三、论文（设计）水平1、论文（设计）的理论意义或对解决实际问题

5、的指导意义优良中及格不及格2、论文的观念是否有新意？设计是否有创意？优良中及格不及格3、论文（设计说明书）所体现的整体水平优良中及格不及格建议成绩：优良中及格不及格（在所选等级前的内画“”）指导教师：（签名）单位：（盖章）年月日评阅教师评阅书评阅教师评价：一、论文（设计）质量1、论文（设计）的整体结构是否符合撰写规范？优良中及格不及格2、是否完成指定的论文（设计）任务（包括装订及附件）？优良中及格不及格二、论文（设计）水平1、论文（设计）的理论意义或对解决实际问题的指导意义优良中及格不及格2、论文的观念是否有新意？

6、设计是否有创意？优良中及格不及格3、论文（设计说明书）所体现的整体水平优良中及格不及格建议成绩：优良中及格不及格（在所选等级前的内画“”）评阅教师：（签名）单位：（盖章）年月日教研室（或答辩小组）及教学系意见教研室（或答辩小组）评价：一、答辩过程1、毕业论文（设计）的基本要点和见解的叙述情况优良中及格不及格2、对答辩问题的反应、理解、表达情况优良中及格不及格3、学生答辩过程中的精神状态优良中及格不及格二、论文（设计）质量1、论文（设计）的整体结构是否符合撰写规范？优良中及格不及格2、是否完成指定的论文（设计）任务（

7、包括装订及附件）？优良中及格不及格三、论文（设计）水平1、论文（设计）的理论意义或对解决实际问题的指导意义优良中及格不及格2、论文的观念是否有新意？设计是否有创意？优良中及格不及格3、论文（设计说明书）所体现的整体水平优良中及格不及格评定成绩：优良中及格不及格（在所选等级前的内画“”）教研室主任（或答辩小组组长）：（签名）年月日教学系意见：系主任：（签名）年月日摘要本文研究工作是针对Web图片搜索引擎的应用背景，以构建大型Web图片搜索引擎为目标，提出基于文本检索方式的Web图片搜索引擎设计方案。文中介绍和研究了一系列与Web图片

8、搜索引擎相关的技术，包括网页抓取、相关性排序（VSM和LSI）、信息提取、信息索引等，这些技术将被应用到文中提出的系统设计方案中。本文重点地研究如何从HTML文档中提取图片相关信息，保证高效和准确的实现图片检索。在对真实数据进行实验和分析的基础上，提出了若干关键技术，用于系统的设计，现归纳如下：1) 本文提出的方法通过细致地分析HTML文件的标记、标记、网页标题、网页的超链接文本、图片URL、标记、关联的和结构、结构、图片周围文本等部分的结构特点，并利用真实数据进行实验验证，总结了9条提取模式，用于从这些结构中提取与图片相关的信息，以保证提取到的信息相关性程度较高。研究了三种具体的提取方法：基

9、于DOM的方法、基于字符串的方法和基于Wrapper的方法。2) 提出了过滤无用图片的方法，提高了系统中图片的可用度。该方法将图片文件大小小于某一阈值，图片的长或宽小于某一阈值，图片的长宽比例超过某一阈值以及同一网页内通过引用次数超过某一阈值的图片作为无用图片剔除。3) 通过统计分析总结出HTML文件中表现出的一些潜在规律，比如JPG和GIF的区别、和标记的不同意义以及图片引用次数的不同意义。得到如下结论：JPG重要性大于GIF；标记来源图片的重要性大于标记的图片；引用次数越高的图片重要性越高，而引用次数高的图片需要经过过滤才能保证重要性较高。4) 粗略地探讨了将LSI算法应用于图片搜索引擎来

10、整合文字和内容信息的方法，并通过简单实验进行了效果验证。5) 设计并实现了一个基于文本的Web图片搜索引擎，给出了系统的总体结构图，并对获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引和提供查询这6个工作流程进行了详细的描述，最后对系统的使用效果和性能进行了简单评测。关键词：Web图片搜索引擎图像检索基于文本基于内容信息提取AbstractIn the thesis, we form a scheme to design a large-scale Web image search engine system using mainly text-based technolo

11、gy. We introduce and research a series of techniques related to Web image search engine, such as crawling, relevance ranking (VSM and LSI), information extraction and indexing. Those techniques will be used in our system design.We concentrate on how to extract information relevant to images from HTM

12、L documents more effectively and precisely. According to experiments and analysis on real data, we propose several key techniques as below for designing the system:1) We analyze carefully the structure of HTML components including tag, tag, title of web page, anchor text of web page, URL of image, t

13、ag, tag, surrounding text of tag etc. And sum up nine extraction patterns to fetch information relevant to images. We also research three extracting methods: DOM based method, String based method and Wrapper based method.2) We propose some methods to filter useless images according to file size, wid

14、th and height of images and referred count of images by tags.3) Through statistics of mass of HTML documents, We conclude some latent rules, such as the difference between JPG and GIF, the difference between tag and tag, the difference between different referred count of images.4) We Simply research

15、 the application method of LSI to integrate high-level and low-level information of images.5) We design and implement a text-based Web image search engine. The global structure of our system and relations of the components of system are introduced. Some components are detailed in function and implem

16、entation. Finally a simple evaluation about searching effect and performance is given.Keywords: Web image search engine, text-based, content-based, information extraction目录第1章引言 11.1 背景 11.2 图片检索系统概述 31.2.1 系统应用领域 31.2.2 用户检索方式 31.2.3 系统评价 41.3 研究现状 51.4 现有图片检索系统简介 51.5 本文的主要工作 8第2章相关技术 102.1 网页抓

17、取技术 102.1.1 基本原理 102.1.2 大型Spider的问题 102.2 相关性排序技术 112.2.1 VSM 122.2.2 VSM的改良：LSI 132.3 信息提取技术 152.3.1 基于内容的提取技术 152.3.2 基于文本的提取技术 172.4 信息索引技术 172.4.1 索引方式 182.4.2 提高索引的性能 192.5 其它相关技术 202.6 本章小结 21第3章 Web上的图片信息提取 223.1 HTML简介 223.2 图片信息提取模式 233.3 HTML信息提取方法 273.3.1 HTML文档的规范化 273.3.2 基于DOM的提取方法 27

18、3.3.3 基于字符串的提取方法 283.3.4 基于Wrapper的提取方法 283.4 无用图片过滤 303.5 挖掘HTML的潜在规律 313.5.1 GIF和JPG的区别 313.5.2 和的不同意义 323.5.3 图片引用次数的分析 323.6 基于文本和基于内容的整合模式 343.7 本章小结 37第4章 Web图片搜索引擎的设计和实现 384.1 系统简介 384.2 系统详细工作流程 404.2.1 获取网页 404.2.2 提取信息 404.2.3 图片抓取和死链检查 424.2.4 生成缩略图 424.2.5 建立索引 434.2.6 提供查询 474.3 系统评测 50

19、4.4 本章小结 51第5章总结和展望 525.1 主要工作总结 525.2 技术发展方向 52参考文献 54致谢 58图表图表1 网页数及网页字节数情况 2图表2 近三年中国网页数对比 2图表3 网页的内容分类情况（按多媒体形式） 2图表4 关于GIF和JPG的重要性调查 31图表5 不同来源标记的图片统计 32图表6 不同来源标记的引用统计 33图表7 不同来源标记的统计折线图 33图表8 系统总体结构图 38图表9 系统工作过程 39图表10 网页库访问模式 40图表11 图片内容重复百分比统计 43图表12 建索引流程图 46图表13 内容相同图片的拉链结构 47图表14

20、查询过程 47图表15 查询线程流程图 49第1章引言1.1 背景目前的Internet应用已经取得了长足的发展，随着网络带宽和终端计算能力的不断增强，图片被越来越多的应用于内容的表达和信息的承载，特别是在Web的应用上更是不可或缺。Web已经成为一个巨大的、分布的、动态的、快速增长的资源库。然而，Internet本身是一个极度分散的系统，数以亿计的图片分布在Internet的各个角落，人工寻找并获取需要的图片已经变得越来越困难，因此，如何通过自动化的手段有效的获取和再利用这些图片资源成为信息共享的一个重要课题。图片的再利用问题涉及到图片信息的收集和检索问题。图片的信息是指图片的内容所表征的

21、意义，这种的信息承载方式与传统的文本的信息是不一样的。由于文本的直观性和简单性，文本的信息即包含于本身；而图片的信息可以通过图片本身的内容传达出来，也可以通过相关文字的描述传达出来，于是图片便有了双重的信息载体。因而，图片在信息的获取上便有了不同于文本的技术。按照图片信息来源的载体的不同，图片信息的获取技术被分为两大类：基于内容和基于文本。基于内容的技术是对图片的内容本身（像素）进行分析和检索，而基于文本的技术利用图片的相关文字信息作为分析对象，并提供类似于传统文本检索的工作方式。Internet的边缘化特点使得信息组织非常自由化，大量的图片文件被按照不同的方式，不同的风格组织到不同的地方。文

22、字和图片之间几乎是可以按照完全随意的方式自由安置。但是统计的结果显示，大量的组织方式具有某些共同的特点，这些特点符合人类获取信息的习惯。这就为提供一个通用的信息提取框架提供了可能。在Internet上，通常图片和文本被有机的组织在一起，最常见的组织形式就是HTML网页，于是通过HTML挖掘可以获取到大量的关于图片的信息。HTML网页是Web上应用最广泛的信息组织方式，是搜索引擎获取信息的最主要来源。Internet上HTML网页数量及其所包含的多媒体资源相当丰富。根据CNNIC的2003中国互联网络信息资源数量调查报告1显示（截至到2003年12月31日）：网页数全国网页总数311,864,5

23、90个其中：静态网页数226,725,557个动态网页数85,139,033个静动态网页数比例2.66:1平均每个网站的网页数523.7个网页字节数全国网页总字节数6,059,431,526KB每个网页平均字节数19.43KB平均每个网站的网页字节数10,174.51KB图表1 网页数及网页字节数情况图表2 近三年中国网页数对比图像97.9%音频0.5%视频1.6%图表3 网页的内容分类情况（按多媒体形式）从以上统计数字可以看到，目前国内的Web信息资源数量已经相当可观，并且随着IT业在2003年的逐渐复苏，网页数量比2002年增长了一倍。网络上的多媒体内容绝大部分以图像的形式存在，这对于图

24、片搜索引擎的资源获取无疑具有相当的价值。Web搜索引擎技术已经被广泛的引用到Internet上，每天要抓取海量的HTML网页，这是一个宝贵的资源库，但目前Web搜索基本上只利用到其中的文本信息。如果充分的挖掘资源库中的潜在价值，可以建构出很多增值的搜索系统，比如图片搜索，mp3搜索，Flash搜索等等。因此，本文的切入点就是如何有效的利用这些HTML网页来构建Web图片搜索引擎。1.2 图片检索系统概述1.2.1 系统应用领域随着图片使用的日趋广泛和图片搜索技术的不断发展，图片检索系统的应用范围变得越来越广。目前使用最广泛的是通用Web图片搜索引擎，比如Google图片搜索，它面向通用领域的用

25、户提供服务。除此之外，有大量的专用领域使用到了图片检索，比较常见的领域有：医药领域。许多的医学和健康相关的专业需要使用例如X光、扫描影像之类的一些可视信息资料，用于诊断和检测疾病。图片检索技术能够有效的用于这类信息的表示、存储、传输和分析，针对该领域的研究主要集中在图像处理上，例如边界或者特征检测，可用于跟踪肿瘤的生长等。该领域已经有成功的系统使用案例。图形设计领域。对于已有的设计的重用，可以为该领域的工作者提供大量的素材和灵感，图片检索系统可以为这些工作提供大量帮助，同时，对于用户寻找特定要求的作品也提供了很大的便利。出版领域。出版社、报社、杂志社等机构对于图片的需求是相当多的，基本上都有自

26、己的图片库，传统方式利用多种归类方式来进行存储和查找。该领域的工作者需要花费大量的时间来查找和挑选合适的图片，利用图片检索系统能够提供有效的帮助。其它的一些领域还包括建筑设计、天文学、地理学、历史研究、犯罪取证等。1.2.2 用户检索方式在检索方式上，图片检索相对于网页检索来说，有很大的不同。目前的网页检索系统几乎仅有关键字查询一种，因为当前考虑范围内用于网页内容的唯一描述只有文字。而图片可以有相关的文字描述，同时图片本身还具有自描述性（内容本身提供了语义信息）。因此，图片通常具有多种检索方式，从用户检索的角度看，可以分为如下几类：目录式检索：yahoo的图片搜索集成了其网页搜索的特点，将图

27、片进行分类，用户按照分类结构逐渐细化查询范围。目录式检索方式经常需要人工来进行大部分的分类工作，因此代价是相当高的。关键字查询：目前使用中的大型图片搜索引擎使用的方式。用户给出与所需的图片相关的文字，系统根据之前建立的文字到图片的匹配来查找包含有查询词的文本对应的图片。关键字检索方式最显著的优点是其检索速度非常快，并且基于文本的索引技术已经很成熟。信息和文字的匹配上有两种方法，一种是人工标引，一种是自动提取。人工标引对于信息的准确度方面是效果比较好的。但是也面临几个主要的缺点：一是人工标引工作量太大，在海量系统中几乎是不现实的。二是人工标引的信息主观性比较强，有时候不能恰当的反映图片的真实信

28、息或者反映的信息不完全（后者几乎总是存在）。自动提取方法的难点在于如何为图片提取正确的文字信息。由于信息组织的多样化以及难于判定具体的组织方式，很难确定哪些信息是与图片相关的。这种方法通常采用启发式规则来进行信息提取，使用比较常用的模式来获取信息，并通过无用信息过滤等技术来尽可能的提高信息的准确性。实例式检索：目前的基于内容的图片搜索引擎大多是这一类。方法是提供一张图片实例或者由用户绘制一个大概的形状，系统根据某些可视特征去寻找在该特征上相似的图片。这种检索方式的优势在于发现相似图片的效果比较好，缺点在于需要用户提供图片实例，这一点通常使系统变得很不友好。虽然基于内容的检索系统可以提供一些分

29、类信息，但也仅限于户内或者户外，风景或者人物等粒度比较大的分类。属性式检索：这种检索方式多用于小规模的专门的图片数据库，比如摄影图片库，用户可以根据作者，拍摄日期等一些图片的外在特征来进行检索。该类数据库具有集中式管理的特点，信息往往比较规范，建立索引和检索过程都相对简单，可以使用现有的关系数据库来实现。1.2.3 系统评价检索系统中很重要的系统评价指标是查准率（Precision）和查全率（Recall）。查准率表示查询结果中相关的文档数所占结果文档总数的比例；查全率表示查询到的相关文档数占整个文档集合中所有相关文档数的比例。假设对于特定的查询，D+为整个文档集合中相关文档的数量，R为查询

30、结果文档集合，R+为结果文档中相关文档集合，则查准率和查全率可以形式化的定义为：查准率：查全率：在图片检索系统中，对于这两项指标的度量比较困难，因为对于图片与文本的相关性评价是相当主观的，基本上只能得到一个很粗略的统计结果。除了以上两项指标以外，还有一个评价指标是性能，即系统提供服务的能力度量，可以包含系统的吞吐量，响应时间等。系统的可扩展性也是需要考虑的，当查询数量和频率增加以后，可以通过增加服务的主机数来满足性能的要求。比较好的期望是系统能够接近线性可扩展性。1.3 研究现状基于文本的图片检索最早可以追溯到20世纪70年代早期，当时的检索系统使用人工对图片的内容进行文字信息标引，利用DBMS存储文字信息，并利用文本检索技术提供查询。当时的研究多集中在数据建

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？