农业信息垂直搜索引擎研究报告文档格式.docx

资源描述

农业信息垂直搜索引擎研究报告文档格式.docx

《农业信息垂直搜索引擎研究报告文档格式.docx》由会员分享，可在线阅读，更多相关《农业信息垂直搜索引擎研究报告文档格式.docx（15页珍藏版）》请在冰豆网上搜索。

农业信息垂直搜索引擎研究报告文档格式.docx

3.2.2向量空间模型15

3.2.3潜在语义模型15

结语16

参考文献17

第一章垂直搜索引擎综述

1.1搜索引擎的发展

搜索引擎（SearchEngines）就是指在Web环境中能够响应用户提交的搜索请求，返回相应的查询结果信息的技术和系统，是在互联网上可以查询网站或网页信息的工具。

它包括信息抓取、信息处理和用户查询三部分。

搜索引擎的服务方式分为两种：

目录服务和关键字检索服务。

目录服务是由分类专家将网络信息按照主题分成若干个大类，用户可以根据分类清晰地找到自己所需要的内容；

关键字检索服务可以查找包含一个或多个特定关键字或词组的WWW站点。

搜索引擎是互联网的第二大核心技术，涉及到信息检索、人工智能!

计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技。

所以具有综合性和挑战性"

1990年以前，没有任何人能实现搜索互联网的功能。

互联网发展早期，信

息量较少，互联网用户多为专业人士，那时查找信息要相对容易。

伴随互联网爆

炸性的发展，普通网络用户想找到所需的资料简直如同大海捞针。

这时为满足大

众信息检索需求的搜索引擎便应运而生了。

所有搜索引擎的祖先，都可以追溯到

1990年由蒙特利尔MeGill大学学生AlanEmtage，PeterDeutseh，Billwheelan发明的Arehie（ArehieFAQ）。

虽然当时WorldWideWeb还未出现，但因为当时网络的主要用途是传输文件，网络中的文件传输还是相当频繁。

由于大量的文件散布在各个分散的FTP主机中，查询起来非常不便，因此AlanEmtage想到了开发一个可以以文件名查找文件的系统于是便有了Archie。

1993年，美国内华达SystemComputingServiCeS大学开发了一个与Arehie

非常相似的搜索工具，这个搜索工具既能够检索文件也能够检索网页。

1994年4月，斯坦福（Stanford）大学的两名博士生：

DavidFilo和美籍华人杨致远（GerryYang）共同创办了超级目录索引Yahoo，并成功地使搜索引擎的概念深入人心，从此搜索引擎进入了高速发展时期。

1998年，斯坦福大学的两位博士生LarryPage和SergeyBrin开发出了现在世界上最大的搜索引擎一代：

oogle。

通过对20多亿网页进行整理，Google可为世界各地的用户提供所需的搜索结果，而且搜索时间通常不到半秒，现在，Google每天需要为世界各国用户提供1.5亿次查询服务。

1997年10月29日，北大天网正式在CERNET上向广大Internet用户提供

Web信息导航服务，它是由北大计算机系网络与分布式系统研究室开发的国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果。

受到学术界广泛好评。

2000年1月，两位北大校友，前工nfoseek资深工程师李彦宏与加州大学伯

克利分校博士后徐勇在北京中关村创立了XX（Baidu）公司，历经5年的高速发展后，在近两年时间里，XX高居全球网站流量前八名的位置，已经成为全球十大网站之一。

XX每天接受着超过一亿人次来自各个方面的内容检索请求。

中国9400万网民几乎每天使用1次XX。

“有问题XX一下”已经成为中国网络流行语之一。

2002年，中国搜索（原慧聪搜索）正式进入中文搜索引擎市场，在一年多的时间里，就发展为全球著名的中文搜索引擎服务商，为新浪、搜狐、网易、TOM

等知名门户网站提供搜索引擎技术。

慧聪搜索引擎的优势是从人工审核网站信息

源和设置禁查词两个方面入手，有效地过滤了不良信息，降低了垃圾信息的含量。

在互联网实时新闻搜索方面，慧聪也实现了网络新闻的实时检索。

目前，出现了

大量多方向的搜索引擎系统，搜索引擎进入了快速发展阶段。

1.2搜索引擎工作原理

从结构上分析来看，一个搜索引擎由抓取器、索引器、检索器和用户接口等

四个部分组成。

1.抓取器

抓取器的功能是在互联网中漫游，发现和搜集信息。

它常常是一个计算机程

序，日夜不停地运行。

它要尽可能多、尽可能快地搜集各种类型的新信息。

同时

因为互联网上的信息更新很快，所以还要定期更新已经搜集过的旧信息，以避免

死连接和无效连接。

抓取器搜集的信息类型多种多样，包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。

抓取器的实现常常用分布式、并行计算技术，以提高信息发现和更新的速度。

商业搜索引擎的信息发现可以达到每天几百万网页。

2.索引器

索引器的功能是理解抓取器所抓取的信息，从中抽取出索引项，用于表示文

档以及生成文档库的索引表。

索引项有客观索引项和内容索引项两种：

客观项与文档的语意内容无关，如

作者名、URL、更新时间、编码、长度、链接流行度（LinkPopularity）等等；

内容索引项是用来反映文档内容的：

如关键词及其权重、短语、单字等等。

内容索引项可以分为单索引项和多索引项（或称短语索引项）两种。

单索引项对于英文来讲是英语单词，比较容易提取，因为单词之间有天然的分隔符（空格）；

对于中文等连续书写的语言，必须进行词语的切分。

在搜索引擎中，一般要给单索引项赋与一个权值，以表示该索引项对文档的

区分度，同时用来计算查询结果的相关度。

使用的方法一般有统计法、信息论法

和概率法。

而多索引项的提取方法有统计法、概率法和语言学法。

索引表一般使用某种形式的倒排表（InversionLISt），即由索引项查找相应的文档。

索引表也可能要记录索引项在文档中出现的位置，以便检索器计算索引项之间的相邻或接近关系（proximity）。

索引器可以使用集中式索引算法或分布式索引算法。

当数据量很大时，必须

实现即时索引（InstantJndexing），否则不能够跟上信息量急剧增加的速度。

索引算法对索引器的性能（如大规模峰值查询时的响应速度）有很大的影响。

一个搜索引擎的有效性在很大程度上取决于索引的质量。

3.检索器

检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询

的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。

4.用户接口

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

主要的目的是方便用户使用搜索引擎，高效率、多方式地从搜索引擎中得到有效、

及时的信息。

用户接口的设计和实现使用人机交互的理论和方法，以充分适应人

类的思维习惯。

从搜索引擎的工作流程来看看，可以看做三步：

从互联网上抓取网页一建立

索引数据库一在索引数据库中搜索排序。

从互联网上抓取网页

利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集存放到URL库中。

建立索引数据库

由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括

网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然

后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序

当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

因为所有相关网页针对该关键词的相关度早己算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。

最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

1.3垂直搜索引擎定义

垂直搜索引擎概念的提出，就是相对前面介绍的通用搜索引擎的信息量大、

查询不准确、深度不够等提出来的新的搜索引擎服务模式，通过针对性的为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。

可以简单的说成是搜索引擎领域的行业化分工。

垂直搜索引擎本身的特点是“专、精、深”，且具有行业色彩，相比较通用

搜索引擎的海量信息无序化，垂直搜素引擎则显得更加专注、具体和深入。

垂直搜索引擎已成为新的研究、开发领域，并将向智能化、个性化、精确化、专业化、交叉语言检索、多媒体检索等适应不同用户需求的方向发展，目前已经引起了世界各国计算机科学界和信息产业界的高度关注。

垂直搜索引擎为用户提供的并不是上百甚至上千万相关网页，而是范围极为缩小、极具针对性的具体信息。

因此，特定行业的用户更加青睐垂直搜索引擎，是垂直搜索引擎的长期、稳定的群体。

由于垂直搜索引擎专注于服务行业用户，拥有广泛!

精深的行业资源，所以

具有很好的经济价值和广泛发展前景。

在应用上，垂直搜索引擎呈现出面向主题

垂直搜索引擎发展趋势，特点是：

分类细致明确、数据全面深入、更新及时。

针对某一特定行业或某一主题进行目录的细化分类，结合机器抓取只与行业

相关的信息、力求做到本行业信息多而精。

1.4垂直搜索引擎的特点

从采集方式看，通用搜索引擎以被动方式为主，搜索引擎和被采集的网页没有约定的、标准的格式。

企业搜索则以主动方式为主，被采集的各种数据等都和企业搜索引擎有着约定好的采集接口和安全接口；

垂直搜索引擎采用被动和主动相结合的方式，通过主动方式，有效采集网页中标引的元数据，整合上下游网页资源或者商业数据库，提供更加准确的搜索服务。

从采集深度，动态网页采集的优先级数据库信息采集来看，通用搜索引擎采用广度优先的策略，所以采集深度要求不高，而垂直搜索和企业搜索需要挖掘出行业内所有相关的网页信息，所以往往采用深度优先的策略，同时由于行业内的一些有商业价值的信息采用动态发布的方式，如供求信息等，所以垂直搜索对动态网页的采集优先级较高。

由于信息在互联网是海量的，非结构化的信息需要经过结构化的梳理后才能更好的展现。

而垂直搜索引擎和普通的网页搜索引擎最大的区别是对网页信息进行了结构化信息抽取，也就是将网页的非结构化数据抽取成特定的结构化信息数据，例如网页搜索是以网页为最小单位，视频搜索则是以视频为最小单位，而垂直搜索是以结构化数据为最小单位。

然后将这些数据存储到数据库，进行进一步的加工处理，例如；

去重、分类、合并等，最后分词、索引再以搜索的方式满足用户的需求。

整个过程，数据由非结构化数据抽取成结构化数据，经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。

从信息检索看，垂直搜索引擎不但能对网页信息中结构化信息进行检索，而且能提供结构化和非结构化信息结合的检索方式。

从检索结果的排序方式看，通用搜索主要通过PageRank算法来实现;

企业搜索大多采用检索内容和检索词的