论文评语Word文件下载.docx
《论文评语Word文件下载.docx》由会员分享,可在线阅读,更多相关《论文评语Word文件下载.docx(42页珍藏版)》请在冰豆网上搜索。
传统的搜索引擎是基于文本的搜索引擎,通过分析网页中的文本信息来确定网页的内容。
但是,对图片等媒体文件,仅适用文本使无法准确描述其内容的,这样就为精确检索和定位这些文件造成了困难。
解决的方法,就是构造基于内容的图像搜索引擎。
该项工作的难度很大,在目前的初步研究工作中,我们采取缩小检索范围,从某类商标图案入手的办法来降低难度。
本文选取汽车商标作为分类和检索的对象。
主要工作包括:
1)基于内容的图片搜索引擎重点难点问题分析,以及对现有的基于内容的检索技术的分析和研究;
2)常用图片特征及其提取技术研究;
3)对于商标图案检索的初步研究。
包括商标图案的特征研究,网络图片特征研究,商标的切割定位算法实现以及特征提取和对比。
我们采用二值化图片作为商标图片的特征,用点对点对比的方式进行了对比;
4)商标图片检索初步试验。
商标分类实验采用5种汽车商标作为我们的识别对象,对两组实验集进行分类和识别。
以上工作中,商标的切割定位和使用二值化图片作为特征是我们最具创造性的工作。
通过对商标图片检索的初步试验,我们发现使用二值化图片作为商标图案的特征描述方式具有一定的有效性,能够将大部分测试图片进行正确的分类。
关键词:
内容,搜索引擎,特征提取,对比算法,二值化图片
Abstract
WiththerapidprogressingoftheInternet,thefilesontheInternetareincreasinginhighspeed,bothinquantityandcategory.HowtohelptheuserstosearchandlocateinmediafilesontheInternethasbecomeoneofthemostimportantquestionsinthefieldofsearchengine.
Thetraditionalcontent-basedsearchengineishelplesswhensolvingthepreviewsproblem,becauseitisdifficulttodescribethecontentofmediafilesaccuratelybyonlytext.Peoplearelookingforwardtothecontent-basedsearchengine.Toreducethedifficultiesduringourstartingperiod,wechosesomekindsofautomobiletrademarksasourgoalofrecognition.Ourresearchcontainsthefollowingparts:
1)Theanalysistothemainproblemwewillfaceinfiledofcontent-basesearchengine;
2)Researchtothegeneralfeatureusedinpicturerecognitionandtheirextractiontechnique.
3)Ourintroductoryresearchtothesearchenginebasedonautotrademarks,includingtheresearchtothefeaturesofthetrademarkimagesandnetimages,thelocationandcuttingalgorithmofthetrademarkimages,featureextractionandcomparing.Weusebinaryimagesofthetrademarksasthedescriptortotheirshapefeatures.
4)Theexperimentontrademarksrecognitionusingouralgorithm.
Thelocationandcuttingalgorithmandrecognitionalgorithmusingbinaryimagesarethemostoriginalpartsinourwork.Theefficiencyofourapproachisprovedbyourexperiment.
Keywords:
content,searchengine,featureextraction,comparingalgorithm,binaryimages
目录
第一章引言5
1.1基于内容的图片搜索引擎研究背景5
1.2基于内容的图片搜索引擎研究现状9
1.3主要工作和创新19
1.4论文组织19
第二章图像中相关特征的研究20
2.1颜色特征20
2.2纹理特征23
2.3形状特征25
2.4其他特征29
第三章基于商标的图像搜索引擎初步研究29
3.1前期准备工作29
3.2商标和网络图片特征研究33
3.3商标图案分割定位35
3.4形状特征提取和表示38
3.5比对算法研究39
第四章试验设计和结果41
4.1试验设计41
4.2试验结果及分析43
第五章结论和未来工作展望47
参考文献49
致谢50
第一章引言
1.1基于内容的图片搜索引擎研究背景
1.1.1搜索引擎发展现状
随着互联网的普及,如何快速而有效地在存有海量信息的网络上寻找到用户需要的资料成为了互联网发展的一个重要课题.目前,传统的文字搜索引擎技术,在结合了网络技术和数据库技术之后,已经趋于成熟.许多大型的文本搜索引擎,如著名的GOOGLE,雅虎,XX等,都已经能够非常准确而迅速地为用户提供基于文本的因特网内容检索服务.这些搜索引擎都是让用户以文本的形式输入他们的查询目标,输出结果为网页链接和相关文字简介.
同时,互联网上的图片和其他数据类型的信息越来越多,帮助用户查找这类资料也成了搜索引擎的一项重要功能.就图片搜索引擎来说,目前GOOGLE,雅虎和XX都有自己的图片搜索引擎。
除了以上通用搜索引擎外,还有一些专业的图片和多媒体搜索引擎,如AltaVista,Lycos,PicSearch等.它们都需要用户输入所需图片的文字说明,比如图片的文件名或者关于图片内容的文字描述等,输出检索到的图片和相关链接.这些图片搜索引擎只能分析网络上图片的文件名和图片周围的文字,希望它们之中能够含有关于用户需要的图片的信息.这样做虽然具有一定的准确度,但是忽略了图片本身所能够表达的信息,并且由于互联网上图片命名的复杂和不规则性,以及纷繁的网页组织结构,文件名和图片周围的文字在很多时候并不能表达图片本身的内容,使得这种以文本为基础的图片搜索引擎准确率十分有限.
另一方面,由于只能用文本的方式表达用户的搜索意图,从而限制了搜索引擎的功能.如果用户不知道怎样用文字描述图片中的信息,则无法使用搜索引擎来寻找互联网上的帮助信息.例如,用户有一张某种未知商品的图片,他希望知道商品的品名,品牌,价格和生产厂商等信息,则他无法借助目前的图片搜索引擎,达到查出图片中商品信息的目的.可是,如果可以让用户提交这幅图片,而搜索引擎可以通过分析图片本身的信息,然后在网络上查找具有类似商品的图片,并给出相应链接,则用户就有很大可能查找到他所需要的信息.通过基于图片内容的搜索引擎,我们可以改变用户使用搜索引擎的方式.用户不仅可以使用文字来表达自己搜索意图,还可以用图片来表达一些自己未知的内容,从而扩大搜索引擎的应用范围.
1.1.2搜索引擎分类
对于众多已经得到实际运用的搜索引擎,可以从搜索方式,搜索内容和搜索范围来分类。
1.1.2.1:
根据搜索方式分类
由搜索意图的表达方式,可以将搜索引擎分为以下几类:
(a):
基于文本的搜索引擎
这一类搜索引擎以文字方式来描述用户的搜索意图,并且分析网页html文件中的文本信息,通过对这些文本信息的分类和索引来建立网络内容数据库。
用户使用时,需要提交对搜索意图的文本描述,搜索引擎根据用户提交的文本,经过词汇切割,匹配和索引来输出用户需要的网页和信息。
这类搜索引擎是目前被最广泛应用的搜索引擎,如著名的GOOGLE,YAHOO等。
不论是使用它们搜索网页还是图片及音频等多媒体文件,都需要提交关于内容的文本描述,不能对图片和视/音频等文件本身的内容进行分析。
对于网页中含有的图片、视频及音频资料,这类搜索引擎一般是通过对图片、音频和视频的文件名以及他们周围文本的分析来确定其内容,无法利用其本身含有的丰富信息。
同时,由于网络上的图片、视频及音频等文件命名十分地不规范,以及网页结构的复杂性,利用文件名和周围文字来判断这些文件的内容,其准确率就会受到极大的限制。
目前这类基于文本搜索引擎技术发展已经十分成熟,而这类搜索引擎的准确度除了依赖于搜索引擎系统的网页信息存储量和词汇切割的准确度以外,用户所搜寻的目标文件也是影响其准确度的一个重要因素。
如果用户着重于搜索文本形式的文件,则此类搜索引擎的准确率已经很高。
但是,如果用户希望搜索的是图片、音频或者视频类无法在网页中只用文本就能精确描述其内容的文件,则其准确率就会受到限制。
(b):
基于内容的搜索引擎
除了上述基于文本的搜索引擎外,基于内容的搜索引擎是目前搜索引擎技术发展的一个重要课题。
传统的基于文本搜索引擎只能分析网页中的文本内容,从而无法满足用户对互联网上越来越多的多媒体文件的搜索查询需求。
基于内容的搜索引擎尝试直接分析图片、视频及音频等媒体文件,将它们根据其特征分类。
用户可以通过提交一幅图片或者一段音频、视频资料来表达自己的搜索意图(比如用户希望能够搜索到含有类似图片的网站),搜索引擎系统通过对用户提交的多媒体文件进行分析、比对,输出检索到的信息。
基于内容的搜索引擎还处在探索阶段,目前没有能得到广泛运用的通用搜索引擎。
有一些研究机构正在尝试从事特定范围的基于内容的搜索引擎研究,如针对特定的媒体资料库建立搜索引擎,或者对特定类型的图片、视频及音频资料进行检索等。
1.1.2.2:
根据搜索内容分类
根据搜索引擎所面向的搜索内容的不同,可以将搜索引擎分为以下几类:
(a):
通用搜索引擎
这类搜索引擎针对的对象包含了多种类型的文件,如网页、图片、音乐等各种数据。
目前最著名的通用搜索引擎GOOGLE搜索引擎()和YAHOO搜索引擎()。
(b):
专业搜索引擎
媒体文件搜索引擎分为两类:
一类是通用搜索引擎的文件站,如GOOGLE搜索引擎图片站(