搭建自己的搜索引擎.docx

上传人:b****3 文档编号:27330388 上传时间:2023-06-29 格式:DOCX 页数:28 大小:461.09KB
下载 相关 举报
搭建自己的搜索引擎.docx_第1页
第1页 / 共28页
搭建自己的搜索引擎.docx_第2页
第2页 / 共28页
搭建自己的搜索引擎.docx_第3页
第3页 / 共28页
搭建自己的搜索引擎.docx_第4页
第4页 / 共28页
搭建自己的搜索引擎.docx_第5页
第5页 / 共28页
点击查看更多>>
下载资源
资源描述

搭建自己的搜索引擎.docx

《搭建自己的搜索引擎.docx》由会员分享,可在线阅读,更多相关《搭建自己的搜索引擎.docx(28页珍藏版)》请在冰豆网上搜索。

搭建自己的搜索引擎.docx

搭建自己的搜索引擎

今天我就在这里借光年论坛在这里献丑下,写篇几篇关于自己搭建搜索引擎的文章。

所采用的是开源搜索引擎nutch,考虑到大部份的SEOER所以主要是在WINDOWS平台进行搭建。

1,Nutch简介Nutch是一个刚刚诞生开放源代码(open-source)的web搜索引擎.  尽管Web搜索是漫游Internet的基本要求,但是现有web搜索引擎的数目却在下降.并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户.  Nutch为我们提供了这样一个不同的选择.相对于那些商用的搜索引擎,Nutch作为开放源代码搜索引擎将会更加透明,从而更值得大家信赖.现在所有主要的搜索引擎都采用私有的排序算法,而不会解释为什么一个网页会排在一个特定的位置.除此之外,有的搜索引擎依照所付的费用,而不是根据它们本身的价值进行排序.与它们不同,Nucth没有什么需要隐瞒,也没有动机去扭曲搜索的结果.Nutch将尽自己最大的努力为用户提供最好的搜索结果.  Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:

 

 每个月取几十亿网页 

 为这些网页维护一个索引 

 对索引文件进行每秒上千次的搜索 

 提供高质量的搜索结果 

 以最小的成本运作

2,安装2.1安装准备所需软件:

(如果以下网址不能下载,请自行搜索)

JDK1.6

下载地址:

.java./zh_CN/

Tomcat7.0.x

下载址:

http:

//apache.etoak.//tomcat/tomcat-7/v7.0.4-beta/bin/apache-tomcat-7.0.4.exe

Cygwin

下载地址:

.cygwin./setup.exe

Nutch1.0

下载地址:

http:

//mirror.bjtu.edu./apache//nutch/nutch-1.0.tar.gz

2010-11-1006:

26上传

下载附件(34.9KB)

2.2安装:

2.2.1

JDK安装

2010-11-1006:

32上传

下载附件(14.7KB)

(我这里用的是默认的安装)

2010-11-1006:

32上传

下载附件(20.57KB)

2010-11-1006:

32上传

下载附件(18.98KB)

接下来可以按默认的安装2.2.2

添加JDK环境变量:

右击我的电脑——>属性——>高级——>环境变量->系统变量

2010-11-1006:

27上传

下载附件(44.36KB)

Path添加C:

\ProgramFiles\Java\jdk1.6.0_22\bin;

2010-11-1006:

28上传

下载附件(20.98KB)

JAVA_HOME=C:

\ProgramFiles\Java\jdk1.6.0_22(JDK安装的目录)

2010-11-1006:

33上传

下载附件(17.85KB)

classpath=

.;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar;

2010-11-1006:

36上传

下载附件(19.18KB)

添加好环境变量后、我们可以输入

JAVAC来看是否安装成功如:

看到下面图所示的容那么就安装成功了

2010-11-1006:

38上传

下载附件(22.66KB)

搭建自己的搜索引擎

(1)

搭建自己的搜索引擎

(2)

搭建自己的搜索引擎(3)

搭建自己的搜索引擎(4)

 

这下面的图片是没用的,不知怎么出来的

+++++++++++++++++++++++++++++++++++++

image007.png(17.85KB,下载次数:

0)

2010-11-1006:

35上传

下载次数:

0

image043.gif(2.48KB,下载次数:

0)

2010-11-1007:

56上传

下载次数:

0

image044.gif(13.55KB,下载次数:

0)

2010-11-1007:

56上传

下载次数:

0

image046.gif(12.94KB,下载次数:

0)

2010-11-1007:

56上传

下载次数:

0

image050.gif(5.77KB,下载次数:

0)

2010-11-1007:

57上传

下载次数:

0

image051.gif(22.55KB,下载次数:

0)

2010-11-1007:

57上传

下载次数:

0

2.2.3安装Tomcat7.0(除了选择安装目录外,别的我都选择了默认的安装)

2010-11-1007:

02上传

下载附件(31.62KB)

 

2010-11-1007:

03上传

下载附件(17.15KB)

2010-11-1007:

03上传

下载附件(16KB)

2.2.4安装Cygwin(因为NUTCH的自带命令必需要在LINUX的环境,所以必需要安装Cygwin来模拟这种环境)

2010-11-1007:

04上传

下载附件(15.38KB)

点击下一步

进入安装式的选择界面

2010-11-1007:

06上传

下载附件(13.65KB)

上图所示Cygwin有三种安装式

1,InstallfromInternet:

直接从Internet上下载并立即安装(安装完成后,下载好的安装文件并不会被删除,而是仍然被保留,以便下次再安装)。

2,DownloadWithoutInstalling:

只是将安装文件下载到本地,但暂时不安装。

3,InstallfromLocalDirectory:

不下载安装文件,直接从本地某个含有安装文件的目录进行安装。

如果你的网速还可以你可以选前两种,不过我们这里选的是第三种,因为我已经把文件下载下来了

我这里也提供了一个打包文件,你们也可从这里下载,速度具定要快很多而且下载途中不会出错

.retu123./Cygwin_dow.rar

2010-11-1007:

07上传

下载附件(16.85KB)

上图指定安装目录(也就是把程序安装在哪的意思)点击下一步

2010-11-1007:

08上传

下载附件(14.1KB)

上图是设定安装源的目录(也就是我们下载的那个些文件)如果你没有你可以这里下载

2010-11-1007:

07上传

下载附件(19.28KB)

上图,选择安装包容

如选择呢?

只需用鼠标点击每个安装包名后面那个循环箭头图标即可:

图标后面的文字是表示究竟对该安装包采取种安装式

[p=23,null,left]安装式共有这么几类:

(1)Default:

这是默认选择,表示只下载/安装该包的缺省安装项(可点击包左边的+号展开,看看缺省安装究竟是些什么容)。

(2)Install:

表示要下载/安装该包的全部容。

所要求的空间也最大。

(3)Reinstall:

表示重新下载/安装该包的容(以上一次正常下载/安装时所选择的容为准)。

这个选项非常有用,稍后在下篇中会有说明。

(4)Uninstall:

这个就不用解释了吧。

可根据自己的实际需要,来准定究竟安装哪些容。

推荐选择“Install”式,一步到位,免得日后被各种这样那样的问题所困扰。

[p=23,null,left]至于窗口顶部那些“Keep”、“Prev”、“Curr”、“Exp”等等选项,只是用来改变当前树结构的显示式的,对安装没有什么影响。

然后点击“下一步”,就要开始啦。

2010-11-1007:

09上传

下载附件(12.62KB)

上图这个过程会有几分钟时间,

2010-11-1007:

09上传

下载附件(13.44KB)

上图表示安装完成了,你要以在桌面上弄一个快捷式

这样就便多了

从桌面上启动Cygwin

输入date命令看下

2010-11-1007:

10上传

下载附件(9.42KB)

如上所示:

Cygwin安装成功

2.2.5安装Nutch1.0

Nutch只要解压到指定的目录就可以了。

这里我把他解压在了k盘(k:

\nutch-1.0)

2010-11-1007:

13上传

下载附件(18.22KB)

 

然后再新建环境变量:

NUTCH_JAVA_HOME=C:

\ProgramFiles\Java\jdk1.6.0_22

再在环境变量中添加PATH变时值

2010-11-1007:

13上传

下载附件(22.59KB)

 

安装完后,启动桌面的Cygwin

输入命令cd/cygdrive/k/nutch-1.0(我把untch-1.0解压在K盘了,你可做相应的更改)

2010-11-1007:

14上传

下载附件(6.41KB)

上图表示,我已进入了nutch-1.0的目录了

然后再输入命令:

bin/nutch

2010-11-1007:

14上传

下载附件(8.12KB)

看到如上所示,说明nutch已功安装

爬取

首选在k:

/nutch-1.0目录下建一个名为url.txt的文本文件,我这里输入的是

.qq./然后保存

指定爬虫规则

进入nutch-1.0\conf

打开crawl-urlfilter.txt找到

2010-11-1008:

10上传

下载附件(2.3KB)

打开nutch-site.xml

http.agent.name

mynutchbot

http.agent.version

1.0

放在

与之间

我们启动Cygwin

输入命令cd/cygwin/k/nutch-1.0转到nutch-1.0目录下

2010-11-1008:

11上传

下载附件(2.48KB)

输入命令:

bin/nutchcrawlurl.txt–drbothm–depth3>&cr.log

此时爬虫就开始爬了,运行一会后就可会爬行完毕

如果你想看到爬过程

不把日志输出到文件就可以了:

bin/nutchcrawlurl.txt–dirbothtm–depth2

2010-11-1008:

11上传

下载附件(13.55KB)

crawl命令有几个参数,他们是:

-dir    指定抓取后容及索引的存放目录

-depth  指定抓取的层数

-delay  指定连接目标延迟时间

-threads指定程式运行的线程数,以提高抓取速度。

nutch命令详解:

.gnbase./thread-115-1.html

nutch命令参考:

.gnbase./thread-80-1.html

查询页面:

将nucth-1.0下的nutch-1.0.war拷同到

Tomcat7.0的WEBAPPS目录下:

如我的:

是在I:

\tcat\Tomcat7.0\webapps

启动tomcat

2010-11-1008:

11上传

下载附件(12.94KB)

一般情况下会自动解压nutch-1.0.war

如:

2010-11-1008:

11上传

下载附件(15.83KB)

打开:

webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml

之间添加如下容

searcher.dir

K:

\nutch-1.0\bothtm//注意这里是索引的文件夹这里不要留用空格

2010-11-1008:

11上传

下载附件(5.77KB)

添加后保存,然后重启Tomcat7

在浏览器中输入http:

//127.0.0.1:

8080/nutch-1.0/

结果如下

2010-11-1008:

11上传

下载附件(22.55KB)

如果大家在安装时有什么不明白的,可在此留言,或给我发短信息

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工作范文 > 制度规范

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1