农业信息垂直搜索引擎研究报告文档格式.docx

上传人:b****6 文档编号:18860739 上传时间:2023-01-01 格式:DOCX 页数:15 大小:338.33KB
下载 相关 举报
农业信息垂直搜索引擎研究报告文档格式.docx_第1页
第1页 / 共15页
农业信息垂直搜索引擎研究报告文档格式.docx_第2页
第2页 / 共15页
农业信息垂直搜索引擎研究报告文档格式.docx_第3页
第3页 / 共15页
农业信息垂直搜索引擎研究报告文档格式.docx_第4页
第4页 / 共15页
农业信息垂直搜索引擎研究报告文档格式.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

农业信息垂直搜索引擎研究报告文档格式.docx

《农业信息垂直搜索引擎研究报告文档格式.docx》由会员分享,可在线阅读,更多相关《农业信息垂直搜索引擎研究报告文档格式.docx(15页珍藏版)》请在冰豆网上搜索。

农业信息垂直搜索引擎研究报告文档格式.docx

3.2.2向量空间模型15

3.2.3潜在语义模型15

结语16

参考文献17

第一章垂直搜索引擎综述

1.1搜索引擎的发展

搜索引擎(SearchEngines)就是指在Web环境中能够响应用户提交的搜索请求,返回相应的查询结果信息的技术和系统,是在互联网上可以查询网站或网页信息的工具。

它包括信息抓取、信息处理和用户查询三部分。

搜索引擎的服务方式分为两种:

目录服务和关键字检索服务。

目录服务是由分类专家将网络信息按照主题分成若干个大类,用户可以根据分类清晰地找到自己所需要的内容;

关键字检索服务可以查找包含一个或多个特定关键字或词组的WWW站点。

搜索引擎是互联网的第二大核心技术,涉及到信息检索、人工智能!

计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技。

所以具有综合性和挑战性"

1990年以前,没有任何人能实现搜索互联网的功能。

互联网发展早期,信

息量较少,互联网用户多为专业人士,那时查找信息要相对容易。

伴随互联网爆

炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针。

这时为满足大

众信息检索需求的搜索引擎便应运而生了。

所有搜索引擎的祖先,都可以追溯到

1990年由蒙特利尔MeGill大学学生AlanEmtage,PeterDeutseh,Billwheelan发明的Arehie(ArehieFAQ)。

虽然当时WorldWideWeb还未出现,但因为当时网络的主要用途是传输文件,网络中的文件传输还是相当频繁。

由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此AlanEmtage想到了开发一个可以以文件名查找文件的系统于是便有了Archie。

1993年,美国内华达SystemComputingServiCeS大学开发了一个与Arehie

非常相似的搜索工具,这个搜索工具既能够检索文件也能够检索网页。

1994年4月,斯坦福(Stanford)大学的两名博士生:

DavidFilo和美籍华人杨致远(GerryYang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心,从此搜索引擎进入了高速发展时期。

1998年,斯坦福大学的两位博士生LarryPage和SergeyBrin开发出了现在世界上最大的搜索引擎一代:

oogle。

通过对20多亿网页进行整理,Google可为世界各地的用户提供所需的搜索结果,而且搜索时间通常不到半秒,现在,Google每天需要为世界各国用户提供1.5亿次查询服务。

1997年10月29日,北大天网正式在CERNET上向广大Internet用户提供

Web信息导航服务,它是由北大计算机系网络与分布式系统研究室开发的国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果。

受到学术界广泛好评。

2000年1月,两位北大校友,前工nfoseek资深工程师李彦宏与加州大学伯

克利分校博士后徐勇在北京中关村创立了XX(Baidu)公司,历经5年的高速发展后,在近两年时间里,XX高居全球网站流量前八名的位置,已经成为全球十大网站之一。

XX每天接受着超过一亿人次来自各个方面的内容检索请求。

中国9400万网民几乎每天使用1次XX。

“有问题XX一下”已经成为中国网络流行语之一。

2002年,中国搜索(原慧聪搜索)正式进入中文搜索引擎市场,在一年多的时间里,就发展为全球著名的中文搜索引擎服务商,为新浪、搜狐、网易、TOM

等知名门户网站提供搜索引擎技术。

慧聪搜索引擎的优势是从人工审核网站信息

源和设置禁查词两个方面入手,有效地过滤了不良信息,降低了垃圾信息的含量。

在互联网实时新闻搜索方面,慧聪也实现了网络新闻的实时检索。

目前,出现了

大量多方向的搜索引擎系统,搜索引擎进入了快速发展阶段。

1.2搜索引擎工作原理

从结构上分析来看,一个搜索引擎由抓取器、索引器、检索器和用户接口等

四个部分组成。

1.抓取器

抓取器的功能是在互联网中漫游,发现和搜集信息。

它常常是一个计算机程

序,日夜不停地运行。

它要尽可能多、尽可能快地搜集各种类型的新信息。

同时

因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免

死连接和无效连接。

抓取器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。

抓取器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。

商业搜索引擎的信息发现可以达到每天几百万网页。

2.索引器

索引器的功能是理解抓取器所抓取的信息,从中抽取出索引项,用于表示文

档以及生成文档库的索引表。

索引项有客观索引项和内容索引项两种:

客观项与文档的语意内容无关,如

作者名、URL、更新时间、编码、长度、链接流行度(LinkPopularity)等等;

内容索引项是用来反映文档内容的:

如关键词及其权重、短语、单字等等。

内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。

单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);

对于中文等连续书写的语言,必须进行词语的切分。

在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的

区分度,同时用来计算查询结果的相关度。

使用的方法一般有统计法、信息论法

和概率法。

而多索引项的提取方法有统计法、概率法和语言学法。

索引表一般使用某种形式的倒排表(InversionLISt),即由索引项查找相应的文档。

索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(proximity)。

索引器可以使用集中式索引算法或分布式索引算法。

当数据量很大时,必须

实现即时索引(InstantJndexing),否则不能够跟上信息量急剧增加的速度。

索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。

一个搜索引擎的有效性在很大程度上取决于索引的质量。

3.检索器

检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询

的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

4.用户接口

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、

及时的信息。

用户接口的设计和实现使用人机交互的理论和方法,以充分适应人

类的思维习惯。

从搜索引擎的工作流程来看看,可以看做三步:

从互联网上抓取网页一建立

索引数据库一在索引数据库中搜索排序。

从互联网上抓取网页

利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集存放到URL库中。

建立索引数据库

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括

网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然

后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

因为所有相关网页针对该关键词的相关度早己算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

1.3垂直搜索引擎定义

垂直搜索引擎概念的提出,就是相对前面介绍的通用搜索引擎的信息量大、

查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对性的为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。

可以简单的说成是搜索引擎领域的行业化分工。

垂直搜索引擎本身的特点是“专、精、深”,且具有行业色彩,相比较通用

搜索引擎的海量信息无序化,垂直搜素引擎则显得更加专注、具体和深入。

垂直搜索引擎已成为新的研究、开发领域,并将向智能化、个性化、精确化、专业化、交叉语言检索、多媒体检索等适应不同用户需求的方向发展,目前已经引起了世界各国计算机科学界和信息产业界的高度关注。

垂直搜索引擎为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。

因此,特定行业的用户更加青睐垂直搜索引擎,是垂直搜索引擎的长期、稳定的群体。

由于垂直搜索引擎专注于服务行业用户,拥有广泛!

精深的行业资源,所以

具有很好的经济价值和广泛发展前景。

在应用上,垂直搜索引擎呈现出面向主题

垂直搜索引擎发展趋势,特点是:

分类细致明确、数据全面深入、更新及时。

针对某一特定行业或某一主题进行目录的细化分类,结合机器抓取只与行业

相关的信息、力求做到本行业信息多而精。

1.4垂直搜索引擎的特点

从采集方式看,通用搜索引擎以被动方式为主,搜索引擎和被采集的网页没有约定的、标准的格式。

企业搜索则以主动方式为主,被采集的各种数据等都和企业搜索引擎有着约定好的采集接口和安全接口;

垂直搜索引擎采用被动和主动相结合的方式,通过主动方式,有效采集网页中标引的元数据,整合上下游网页资源或者商业数据库,提供更加准确的搜索服务。

从采集深度,动态网页采集的优先级数据库信息采集来看,通用搜索引擎采用广度优先的策略,所以采集深度要求不高,而垂直搜索和企业搜索需要挖掘出行业内所有相关的网页信息,所以往往采用深度优先的策略,同时由于行业内的一些有商业价值的信息采用动态发布的方式,如供求信息等,所以垂直搜索对动态网页的采集优先级较高。

由于信息在互联网是海量的,非结构化的信息需要经过结构化的梳理后才能更好的展现。

而垂直搜索引擎和普通的网页搜索引擎最大的区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,例如网页搜索是以网页为最小单位,视频搜索则是以视频为最小单位,而垂直搜索是以结构化数据为最小单位。

然后将这些数据存储到数据库,进行进一步的加工处理,例如;

去重、分类、合并等,最后分词、索引再以搜索的方式满足用户的需求。

整个过程,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。

从信息检索看,垂直搜索引擎不但能对网页信息中结构化信息进行检索,而且能提供结构化和非结构化信息结合的检索方式。

从检索结果的排序方式看,通用搜索主要通过PageRank算法来实现;

企业搜索大多采用检索内容和检索词的

相关度来实现;

而垂直搜索的排序要求更加多样化,例如:

按时间排序、按相关

度排序等。

垂直搜索引擎是专门用来检索某一主题范围或某一类型信息,追求专业性与

服务深度是它的特点。

这种高度目标化、专业化的搜索引擎的优势在于针对性强,

对特定范围的网络信息的覆盖率相对较高,有明确的检索目标定位,有效地弥补

了综合性搜索引擎对专门领域及特定主题信息覆盖率过低的问题。

同时,能够把

具有相同兴趣点的人们集中在一个主题内,不仅集中提供各种专业资源,而且给

大家提供一个相互交流、共享经验和教训的场所,展望行业发展前景的机会和场

合。

相比较综合搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。

1.5垂直搜索引擎的典型列子

(1)爱看图标网,中文图标搜索引擎( 

目前收录了10000多个图标,功能还不错,可以按照图标系列、分类、色系、关键字、图标标题等搜索;

你可以查看每一个图标的作者信息、尺寸大小、图像文件格式、色系、所属分类等信息。

每一张图标都提供png格式下载,大多数图标同时还提供ico格式下载。

(2)豆丁网,中文文档搜索引擎(

豆丁网号称收录了一亿多文档,是最大的中文文档库,提供针对文档标题、简介、内容的关键字检索功能,并且支持Word、PDF、PPT、Jpg等30多种文件格式。

第二章农业信息垂直搜索引擎

2.1国内外发展现状

随着信息高速的发展,搜索引擎成为人们获取信息的重要途径。

随着农业信息化进程的推进,农业信息资源开发日显重要。

作为国家信息资源的重要组成部分,农业信息资源是一种基础行、战略性的资源,对推动我国农业信息发展尤

为重要。

要从众多农业信息中寻找自己所需要的信息部分,最便捷的方式就是提供一个搜索引擎,农业搜索引擎便应运而生。

谷歌、XX等综合搜索引擎经过20多年的发展已经达到了很高的水平,其搜索结果基本上可以满足用户需求,且这些搜索引擎的性能仍在根据用户的需要在进行不断优化。

对于农业方面的信息,这2种搜索引擎都能提供海量的信息,供农业领域查询。

但这2种搜索引擎在搜索时的信息量大、查询不准确、深度不够以及专业化、智能化等方面存在弊端。

针对这种情况,一些人提出了垂直搜索引擎的新概念,垂直搜索引擎是搜索引擎的细分和延伸,是对行业信息资源、结构化和非结构化数据、专业业务需求进行深层次整合,定向分字段抽取数据进行加工处理后形成有价值的信息,再将这些信息以专业化个性化的服务提供给用户。

农业搜索引擎就是利用垂直搜索引擎这项新技术而发展起来的专门针对农业领域而开发的系统,通过农业搜索引擎查询到的农业信息会更直接、更快捷、更专业。

2.1.1国外农业搜索引擎的研究现状与发展

全世界范围来说,农业搜索引擎多种多样,下面以美国为例介绍几种比较重要的农业搜索引擎:

美国农业网络信息中心;

WEB-AgriSeareh;

AgrisurfSeareh和AgriseapeSeareh。

美国农业网络信息中心AGNIC是美国国家农业图书馆与一些大学、研究机构以及政府机构自愿组成的联合体。

AGNIC建有多个较为系统和完整的与农业相关的数据库,并将数据库分为WWW、GOPHER、FTP3种格式,并提供简单检索、高级检索和词表检索3种检索方式。

WEB-AgriSeareh创建于1998年,它开设的网站主要提供农业搜索引擎、农业期刊导航和农业站点导航。

AgrisurfSeareh是美国一家专门从事农业搜索引擎服务的网站。

该网站除了提供农业搜索引擎服务外,还提供关于农业的新闻组服务、农业政策信息服务。

AgriseapeSeareh创建于1994年的美国普林斯顿主要提供农业与相关产业的导航服务。

其目标是发展成为农业信息、农业贸易和农业技术的信息中心。

国外众多的农业搜索引擎的出现与发展,为我国农业搜索搜索引擎的发展与进步提供了众多借鉴和参考经验。

2.1.2国内农业搜索引擎的研究现状与发展

我国的农业搜索引擎起步较晚,但发展迅速。

目前国内农业搜索引擎主要有:

“农搜”()、搜农(www.S)、华农在线(www.Chinanong.Com)、中国农业科技信息网农业网站搜索引擎(www.Castnetcn/ssyq)等。

2007年国内首个农业搜索引擎——农搜(www.agri-sou.com)上线,“农搜”拥有600万个农业合作网站,是目前全球数据量最大的中文农业搜索引擎,它实现了全文检索+语义检索的智能检索引擎。

而搜农(www.Sounong.net)是第1个面向我国农业企业、农民大户、农业专业技术协会以及广大农业科技人员提供专题搜索服务的垂直搜索引擎。

与传统的搜索引擎相比,它能更加贴近农业领域的需求,更加符合农业用户的需求信息。

中国“搜农”采用了基于网页主体内容的索引,极大地提高了其数据更新速度,同时也大大提高了查全率和查准率。

华农在线利用HNC自然语言语义分析技术实现信息处理的应用,实现了在农业行业的垂直搜索应用,将互联网设计到的各行业各类主管部门的农业信息进行整合,为涉农人员提供了精确化、智能化的信息服务,号称农业网站中的导盲犬。

除以上几种较晚专业的农业搜索引擎外,我国还出现了一些农业搜索的网站,例如农业搜索——中国农业电子商务网(http:

//www.3nong.cc/wz/search.asp)、超农网农业搜索(http:

//www.086ny.com/soso/)、中国农业信息化——中国农村致富网(http:

//www.chinannn.com/)、环球农业搜索(http:

//www.ny188.com/search/company.html)、农业搜索安徽农网(http:

//so.ahnw.gov.cn/)、农业搜索(http:

//www.sonong.cn/)、三农搜索网(http:

//www.3nss.com/Portal/De-faul.taspx)等,这些网站都为农业信息检索提供了便利条件。

2.2农业信息搜索引擎主要特点

(1)搜索内容主要关注农业相关信息领域,利用“三农”相关的词汇表进行信息检索控制,并对农业相关的关键词进行信息挖掘。

极大的提高了农业信息检索的命中率。

(2)由于采用农业相关信息的过滤算法,使检索到的信息专业性比较强,而且信息数量更少,从而可以对引擎检索到的信息进行分类标引和进一步的整理,提高搜索引擎信息检索的质量,据此建立一个农业相关的高质量的主题索引

数据库。

(3)由于采用农业主题信息过滤,采集的数,据规模较小#缩短了用户检索信息的平均等待时间,同时搜索引擎可以采用比通用引擎更加复杂的检索和信息挖掘算法,进一步提高了用户搜索农业相关信息的准确度。

2.3农业信息搜索引擎结构

农业信息搜索引擎的结构主要分为网页信息采集、内容识别、内容评价、信息存储和检索服务五个部分。

首先由网络机器爬虫负责Internet上有关农业信息相关网页的采集工作。

在对农业相关信息数据收集的开始阶段,根据专家提供的农业相关网站,编辑网络机器爬虫的初始种子站点列表。

并站点列表加入到网络机器爬虫的URL链接队

列中。

然后由网络机器爬虫根据侦测到的当前网络状况,使用多个爬虫和多线程的方式同步下载网页信息,并保存为爬虫的特定网页文本文件。

网页文件下载完成后,根据域名对所有采集的网页文本进行信息分析和处理。

首先提取其中的网页文本信息和URL链接,然后把URL作为新的种子信息再添加到网络机器爬虫的搜索对列末尾。

针对提取的网页文本信息,使用相关的算法进行农业主题内容的识别和评价,在该项处理过程中,预先设定了一些关键词,并针对这些关键词分配了相应的权重,通过特定算法并根据关键词和关键词的权重对网页文本信息内容进行相关度计算,对于符合农业信息相关的网页文本保存到农业信息搜索引擎的数据库中。

最后系统提供Web搜索服务,用户输入相应的搜索关键字,系统在数据库中搜索相应的内容,然后显示在搜索结果中。

软件结构及数据流程图如图所示。

农业信息搜索引擎结构及数据流图

各模块说明如下:

(1)网页信息采集模块

网页信息的自动采集是利用网络爬虫软件程序,从一个给定的初始的URL(UniformResourceLocator)链接地址为基础,使用Internet网络标准协议(如http协议)发出请求,访问相关网页,并将网页下载到本地服务器中进行分析处理。

对于所有搜索到的网页中的链接,网络爬虫可以访问更多的网页,这个过程就叫爬行。

这些网页中的网址会被存入数据库等待抓取,所以跟踪网页链接是搜索引擎网络爬虫发现新网址的最基本方法。

(2)内容识别模块

页面内容识别模块是将上述利用网络爬虫获取的网页进行在加工#提取出网页中的文字内容和超文本连接(URL)并将相关的超文本连接反馈到网络爬虫的URL对列中,以便进一步扩大网页的搜索范围。

(3)页面内容评价模块

页面内容评价模块对于获取的网页内容,利用布尔模型或代数模型对所获得的网页与主题目标进行相关程度评价,识别出与农业信息相关的有价值的网页内容。

在对网页内容进行评价时,依照事先设定的农业信息相关的关键词表和权重,针对每一个网页内容中的关键词进行相关度计算,评价过程中的关键词匹配算法选用KMP算法,该算法结构简单,效率高,时间复杂度为O(m+n)。

算法利用模式字符串串T的Next函数,求T在主字符串串中第pos字符之后的位置,其中T非空,pos大于等于1,并且pos小于等于字符串S的长度,算法函数描述如下。

对每个关键词,通过

公式计算出该关键字的加权值,其中Ci表示关键词表中第i个元素在该网页内容中出现的次数,Wi表示关键词的权重。

对于网页内容信息与农业信息主题的相关度计算使用公式r=t/(t+1),如果计算的相关度数值大于0.5时,表示该网页内容与农业相关,否则视为无关。

(4)信息存储模块

上述已经完成内容相关度计算的网页信息,使用倒排的形式建立索引,这种索引记录了关键词在不同网页中出现的频度,然后按照相应的技术规范,把索引和网页相关信息保存到搜索引擎数据库,以便搜索服务提取数据。

(5)Web检索服务

Web检索服务也就是搜索引擎的用户界面,当用户在搜索页面输入关键词查找农业相关信息时,搜索引擎会在上面保存的农业信息数据库中进行查找,如果找到与用户请求的内容相关的网站时,使用一定的算法根据网页中关键词的匹配程度计算出各网页内容信息的相关程度,然后根据此信息排序,按顺序将搜索到的所有网页链接和描述返回给用户.

第三章农业信息垂直搜索引擎的关键技术

垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,然后将这些数据存储到数据库,进行进一步的加工处理。

整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方

式返回给用户。

其核心是信息抽取和信息过滤。

3.1信息抽取技术

信息抽取技术也有多种分类方式,根据各种工具采用的原理可分为基于自然语言处理方式的信息抽取、包装器处理归纳方式的信息抽取、基于Ontolgoy方式的信息抽取和基于HTML结构的信息抽取4类。

以下着重介绍一下面向农业主题的信息抽取。

对于自由式文档,多数采用了自然语言处理的方法,这些技术通常以词性标注和语义标注作为过滤器,来构建短语与句子成分间的关系,并以此导出基于句法语义约束条件的过滤规则。

这些约束条件有助于判断同一个文档中的相关信息。

以NLP为基础的工具通常适合提取主要由类似电报风格的自由文本组成的网页,例如蔬菜列表、种子出售广告、研讨会通知等。

包装器的归纳工具从一组训练样例中归纳出基于分隔符的抽取规则。

这些工具和基于NLP的工具之间最大的差别在于,它们并不依赖于语言约束,而是依赖于数据的格式化特征。

这个特点决定了这种工具比基于NLP的工具更适合于抽取HTML文档。

基于Ontolgoy方式的信

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 其它课程

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1