元搜索基础知识.docx

上传人:b****7 文档编号:25474349 上传时间:2023-06-09 格式:DOCX 页数:10 大小:92.19KB
下载 相关 举报
元搜索基础知识.docx_第1页
第1页 / 共10页
元搜索基础知识.docx_第2页
第2页 / 共10页
元搜索基础知识.docx_第3页
第3页 / 共10页
元搜索基础知识.docx_第4页
第4页 / 共10页
元搜索基础知识.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

元搜索基础知识.docx

《元搜索基础知识.docx》由会员分享,可在线阅读,更多相关《元搜索基础知识.docx(10页珍藏版)》请在冰豆网上搜索。

元搜索基础知识.docx

元搜索基础知识

元搜索

元搜索引擎又称多搜索引擎,通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。

(搜索引擎分类:

全文搜索引擎、目录索引、元搜索引擎)

元搜索引擎的另外一个定义:

元搜索引擎(MetasearchEngine),是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母(Themotherofsearceengines)”。

在这里,“元”(Meta)为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。

相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”(sourceEngine),或“搜索资源”(searcingresources),整合、调用、控制和优化利用源搜索引擎的技术,称为“元搜索技术”(Meta-searchingtechnique),元搜索技术是元搜索引擎的核心。

世界上最早的元搜索是metacrawler,它是infospaceinc.的一部分,初始网上运行时间为1995年,是由华盛顿大学的学生erik和教授orenetzin共同开发研制的。

它是万维网搜索引擎metacrawler的姐妹引擎,是一个并行式的元搜索引擎。

具有同时调用Google、Yahoo、AskJeevesAbout、LookSmart、TeomaOverture、FindWhat等搜索引擎的功能,然后按相关度给出精确,详细的结果。

它可以对网页、图像、音频、多媒体、新闻、购物等进行选择检索,还提供了如下高级检索功能:

提高你检索的品质(QualifyYourSearch):

你可以创建一个特定的检索,查询一个精确的字段,或者排除包含特定词的页面。

使用布尔逻辑符检索(UseBooleanTerms):

在关键词中使用and,or和not布尔逻辑检索符,使得检索结果更精确。

最后更新页面(LastPageUpdate):

使用After来查询特定日期后更新的结果,使用Before来查询在特定日期千更新的结果。

同时选择After和Before,将检索出两个日期之间的结果。

域名过滤(DomainFilter):

可以排除以.com、.gov、.edu结尾的域名,你也可以包括一个特殊的包含.com的域名。

成人过滤(AdultFilter):

可以包含或者过滤掉Web检索结果中的成人内容。

语言选择(LanguageSelection):

可以选择返回结果所用的语言。

结果展示(ResultsDisplay):

可以选择检索结果排序的方式,按与检索词的相关性排序或者按搜索引擎展示结果的顺序排序。

一个真正的元搜索引擎由三部分组成,即:

检索请求提交机制、检索接口代理机制、检索结果显示机制。

"请求提交"负责实现用户"个性化"的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。

"接口代理"负责将用户的检索请求"翻译"成满足不同搜索引擎"本地化"要求的格式。

"结果显示"负责所有源搜索引擎检索结果的去重、合并、输出处理等元搜索引擎的出现,对于那些需要连续地使用不同的搜索引擎重复相同的检索的人来说,是一个福音。

使用元搜索引擎同时对几个搜索引擎进行检索,获得分级编排的检索结果。

我们可将元搜索引擎看成具有双层客户机/服务器结构的系统。

用户向元搜索引擎发出检索请求,元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求,搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户。

当然,某些元搜索引擎具有略微不同的机制。

简单搜索(SimpleSearch)指输入一个单词(关键词),提交搜索引擎查询,这是最基本的搜索方式。

词组搜索(PhraseSearch)指输入两个单词以上的词组(短语),提交搜索引擎查询,也叫短语搜索。

现有的搜索引擎一般都约定把词组或短语放在引号“”内表示。

语句搜索(SentenceSearch)指输入一个多词的任意语句,提交搜索引擎查询,这种方式也叫任意查询。

不同搜索引擎对语句中词与词之间的关系的处理方式不同。

目录搜索(CatalogSearch)指按搜索引擎提供的分类目录逐级查询,用户一般不需要输入查询词,而是按照查询系统所给的几种分类项目,选择类别进行搜索,也叫分类搜索(ClassifiedSearCh)。

高级搜索(AdvanceSearch)指用布尔逻辑组配方式查询,也叫定制搜索。

常用的逻辑运算为AND(和)、OR(或)和NOT(非)。

上述前3种搜索方式可以合称为词语搜索(WordSearch),与高级搜索和目录搜索一起构成3类常见搜索方式。

在所有搜索方式中,还可使用通配符,就像DOS文件系统用“*”作为通配符一样,通配符用于指代一个串字符,不过,每个搜索引擎所用的通配符不完全相同,大多用“*”或“?

”,少数用“$”。

不少搜索引擎还支持加(+)、减(-)词操作。

元搜索引擎(Meta-searchengine)其英文原意是搜索引擎之后或之上的搜索引擎,即可以同时查询多个搜索引擎的WWW站点。

虽然元搜索引擎依赖其他独立搜索引擎而存在,但它们集成了不同性能和不同独立的搜索引擎并发展了一些新的查询功能,查一个元搜索引擎就相当于查多个独立搜索引擎,可以收到事半功倍的效果,故值得选用。

元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。

著名的国外元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有比比猫搜索引擎、搜星搜索引擎。

在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

国外对元搜索的开发应用很早,目前在美国使用元搜索引擎[1]和使用Google一样普遍,当然Google仍然占据美国绝对市场,但元搜索引擎也一样生机勃勃,财源滚滚。

相比国内,起步很晚,中国首家元搜索引擎是比比猫(bbmao),于2005年成立,在2006年获得RedHerring亚洲100强奖,从而拉开国内对元搜索的真正关注和探索。

比较优秀的元搜索引擎有搜魅网(someta),整合了XX、谷歌、雅虎等多家主流搜索引擎的结果,并且独创网站查询。

整体来讲,国外元搜索引擎已自成体系,而国内真正长期坚持致力于开发独特用户体验的元搜索网站并不多。

主要元搜索引擎列表

国内:

 ·搜魅网(someta)

集合了XX、google、搜狗、雅虎多家主流搜索引擎的结果,提供网页、资讯、网址导航等聚合查询。

另外,搜魅网突破了元搜索引擎没有自己的蜘蛛的瓶颈,提供了网站查询的功能。

·比比猫(Bbmao)

独创国际领先的聚类和去重技术。

搜索结果汇集各大搜索引擎结果,搜索结果智能分类整理,去掉重复搜索结果,并拥有直接搜寻文档和强大网络收藏夹等多元功能。

对于记者、教授、高管等知性、高端且惜时如金的人群比较适用,支持中英文搜索。

·全博元搜索(QOOPOO)

聚合搜索的力量,已经运行多年,2006年格林斯潘曾接触这家公司,后劲比较强劲。

·Xooda元搜索引擎

支持本地搜索,一次输入,返回多个搜索引擎结果,并对结果进行重新的优化排序。

·佐意综合搜索(Chinazss)

集主流搜索引擎为一体,分类详细,强大的搜索功能。

让搜索变得更方便!

国外:

 Vivisimo:

是美国Vivisimo公司最新开发的一个具有对搜索结果自动进行分类功能的搜索引擎!

它能非常快速地将不同类型的网站进行分类整理并将结果呈现在你眼前!

它在搜索结果页面左侧增加了一个搜索结果目录栏。

不足之处在于搜索结果精准度不是很高。

ProFusionProFusion:

是并行式元搜索引擎,拥有智能化的搜索技术、对查询的实用提示和非常宝贵的个人化搜索服务,它是很优秀的元搜索引擎,可同时调用9个独立万维网搜索引擎—AltaVista、Excite、HotBot、InfoSeek、Lycos、Magellan、OpenText、Webcrawler和Yahoo。

MetaCrawlerMetaCrawler:

是独立万维网搜索引擎WebCrawler的姐妹引擎,也是一个并行式元搜索引擎,它条理清晰,组织结构完美,可以同时调用AltaVista、Excite、Infoseek、Lycos、WebCrawler和Yahoo6个独立引擎,是简单搜索或中度复杂搜索的最佳网点。

DogpileDogPile:

是性能较好的并行式元搜索引擎之一,它可以同时调用Web搜索引擎、Usenet搜索引擎和FTP搜索引擎等25个搜索引擎,其中,Web搜索引擎14个。

DigisearchDigisearch:

是能同时调用独立搜索引擎较多的并行式元搜索引擎,它可以同时调用AltaVista、Excite、Infoseek、Lycos、WebCrawler、Yahoo、OpenText和Magellen等18个独立万维网搜索引擎,DejaNews等3个Usenet搜索引擎和Fourll等3个个人信息和商界信息搜索引擎。

Highway61Highway61:

是并行式元搜索引擎,可以同时调用AltaVista、Excite、Infoseek、Lycos、WebCrawler和Yahoo等6个独立引擎,并将它们传回的结果进行排序,显示给用户。

MammaMamma:

是并行式元搜索引擎,它自称是所有搜索引擎之母(MotherofallSearchEngines),它可以同时调用AltaVista、Excite、Infoseek、Lycos、WebCrawler和Yahoo等独立引擎,并且可以查新闻组、商业黄负和发布新闻。

运行流程

用户通过统一的查询界面输入查询请求,元搜索引擎对查询进行一定的预处理。

元搜索引擎根据成员搜索引擎调度机制,选择若干成员搜索引擎。

元搜索引擎根据选择的成员搜索引擎的查询格式,对原始查询请就进行本地化处理,转换为成员搜索引擎要求的查询格式串。

向各个成员搜索引擎发送经过格式化的查询请求,等待返回结果。

收集各个独立搜索引擎的返回结果。

对返回结果进行综合处理,例如,消除重复链接,死链接等,形成最终结果。

以一定的格式将最终结果返回给用户。

特点

没有独立的网页数据库。

能够根据用户的需求综合特定的搜索引擎的搜索结果。

能够索引特定类型的搜索,例如图片、文档、网页、视频等等。

发展趋势

元搜索引擎是为弥补传统搜索引擎的不足而出现的一种辅助检索工具,有着传统搜索引擎所不具备的许多优势。

但是,元搜索引擎依赖于数据库选择技术、文本选择技术、查询分派技术和结果综合技术等。

用户界面的改进、调用策略的完善、返回信息的整合以及最终检索结果的排序,仍然是未来元搜索引擎研究的重点。

元搜索引擎的技术研发的研究需要用到了信息检索、人工智能、数据库、数据挖掘、自然语言理解等领域的理论和技术,具有综合性和挑战性。

一个理想的元搜索引擎应该具备以下功能要求:

涵盖较多的搜索资源,可随意选择和调用独立搜索引擎,还可根据一定调度策略进行自动调度。

具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、软件、FTP、MP3、Flash、图像、影视等)选择、等待时间控制、返回结果数量控制、结果时段选择、过滤功能选择、结果显示方式选择等。

强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自然语言检索等)和不同搜索引擎间检索语法规则、字符的转换功能(如对不支持“NEAR”算符的搜索引擎,可自动实现由“NEAR”向“AND”算符的转换等)。

详尽全面的检索结果信息描述(如网页名称、URL、文摘、源搜索引擎、结果与用户检索需求的相关度等)。

支持多种语言检索,比如提供中英文搜索等。

可对结果进行自动分类,如按照域名、国别、资源类型、区域等进行分类整理。

可以针对不同用户提供个性化服务。

在已有的独立搜索引擎的基础上建立一个高效的元搜索引擎能够扩展独立搜索引擎的处理能力,提高检索的查全率,并且有可能进一步提高查准率。

但是各个成员搜索引擎的自治性引起了集成的困难,困难主要来自:

检索界面的差异、文档索引方法的不同、相关函数的差异、查询参数的不同、检索功能的强弱等。

对搜索引擎检索效果的评价机制;成员搜索引擎的自动调度机制;设计了搜索引擎描述文件方法,使系统具有良好的可扩展性;给出了自己的结果融合算法;可以更踪用户的使用,接受用户反馈进行自主学习和调整,使系统具有自适应性。

看了上面的介绍是不是对于元搜索有一定了解,国内做比较好的元搜索只有比比猫,综合了包括XX、谷歌、雅虎、搜狗、中搜、有道、Live在内的众多中文搜索引擎;国外的元搜索引擎我推荐大家可以看下Dogpile、Clusty。

布尔逻辑检索

布尔逻辑检索也称作布尔逻辑搜索,严格意义上的布尔检索法是指利用布尔逻辑运算符连接各个检索词,然后由计算机进行相应逻辑运算,以找出所需信息的方法。

它使用面最广、使用频率最高。

布尔逻辑运算符的作用是把检索词连接起来,构成一个逻辑检索式。

逻辑“与”

用“AND”或“*”表示。

可用来表示其所连接的两个检索项的交叉部分,也即交集部分。

如果用AND连接检索词

A和检索词B,则检索式为:

AANDB(或A*B):

表示让系统检索同时包含检索词A和检索词B的信息集合C。

如:

查找“胰岛素治疗糖尿病”的检索式为:

insulin(胰岛素)anddiabetes(糖尿病)。

逻辑“或”

用“OR”或“+”表示。

用于连接并列关系的检索词。

用OR连接检索词A和检索词B,则检索式为:

AORB(或A+B)。

表示让系统查找含有检索词A、B之一,或同时包括检索词A和检索词B的信息。

如:

查找“肿瘤”的检索式为:

cancer(癌)ortumor(瘤)orcarcinoma(癌)orneoplasm(新生物)。

[1]复制搜索

逻辑“非”

用“NOT”或“—”号表示。

用于连接排除关系的检索词,即排除不需要的和影响检索结果的概念。

用NOT连接检索词A和检索词B,检索式为:

ANOTB(或A—B)。

表示检索含有检索词A而不含检索词B的信息,即将包含检索词B的信息集合排除掉。

如:

查找“动物的乙肝病毒(不要人的)”的文献的检索式为:

hepatitisBvirus(乙肝病毒)nothuman(人类)。

[1]

邻近度算符With

用“With”表示。

用于表示同时出现在同一文献的一个字段的两个词,用With连接检索词A和检索词B,检索式为:

“AwithB”。

表示检索词A和检索词B不仅要同时出现在一条记录中,还要同时出现在一个字段里的文献才是命中文献。

如:

drug(药物)withabuse(滥用),检索出的是同一个字段中同时出现这两个词的记录。

[

邻近度算符Near

用“Near”表示。

用于表示不仅要同时出现在一条记录的同一字段里,还必须在同一个子字段(一句话)里的两个词,用With连接检索词A和检索词B,检索式为:

“ANearB”。

表示检索词A和检索词B不仅要同时出现在一条记录中的同一个字段里,还要同时出现在同一个子字段(一句话)里的文献才是命中文献。

如:

drug(药物)Nearabuse(滥用),检索出的是同一句话中同时出现这两个词的记录。

(也可说成是两个词之间没有句号的文献)。

[1]

邻近度算符Near#

用“Near#”表示。

其中“#”代表一个常数,,用Near#连接检索词A和检索词B,检索式为:

“Anear#B”表示检索词A和检索词B之间有0~#个单词的文献(A和B在同一记录、同一字段里)。

在near后加一个数字,指定两个词的邻近程度,且不论语序。

如:

information(信息检索)near2retrieval(数据),表示检索词information和retrieval同时出现在一个句子中,且这两个检索词之间的单词数不超过两个的那些文献为命中文献

逻辑运算次序

在一个检索式中,可以同时使用多个逻辑运算符,构成一个复合逻辑检索式。

复合逻辑检索式中,运算优先级别从高至低依次是not、and、near、with、or,可以使用括号改变运算次序。

如:

(AorB)andC先运算(AorB),再运算andC

检索中逻辑算符使用是最频繁的,逻辑算符使用的技巧决定检索结果的满意程度。

用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。

另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。

[1]

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 设计艺术

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1