搭建自己的搜索引擎Word格式.docx

上传人:b****1 文档编号:15309965 上传时间:2022-10-29 格式:DOCX 页数:26 大小:545.55KB
下载 相关 举报
搭建自己的搜索引擎Word格式.docx_第1页
第1页 / 共26页
搭建自己的搜索引擎Word格式.docx_第2页
第2页 / 共26页
搭建自己的搜索引擎Word格式.docx_第3页
第3页 / 共26页
搭建自己的搜索引擎Word格式.docx_第4页
第4页 / 共26页
搭建自己的搜索引擎Word格式.docx_第5页
第5页 / 共26页
点击查看更多>>
下载资源
资源描述

搭建自己的搜索引擎Word格式.docx

《搭建自己的搜索引擎Word格式.docx》由会员分享,可在线阅读,更多相关《搭建自己的搜索引擎Word格式.docx(26页珍藏版)》请在冰豆网上搜索。

搭建自己的搜索引擎Word格式.docx

下载附件(34.9KB)

2.2安装:

2.2.1

JDK安装

32上传

下载附件(14.7KB)

(我这里用的是默认的安装)

下载附件(20.57KB)

下载附件(18.98KB)

接下来可以按默认的安装2.2.2

添加JDK环境变量:

右击我的电脑——>

属性——>

高级——>

环境变量->

系统变量

27上传

下载附件(44.36KB)

Path添加C:

\ProgramFiles\Java\jdk1.6.0_22\bin;

28上传

下载附件(20.98KB)

JAVA_HOME=C:

\ProgramFiles\Java\jdk1.6.0_22(JDK安装的目录)

33上传

下载附件(17.85KB)

classpath=

.;

%JAVA_HOME%\lib\tools.jar;

%JAVA_HOME%\lib\dt.jar;

36上传

下载附件(19.18KB)

添加好环境变量后、我们可以输入

JAVAC来看是否安装成功如:

看到下面图所示的内容那么就安装成功了

38上传

下载附件(22.66KB)

搭建自己的搜索引擎

(1)

搭建自己的搜索引擎

(2)

搭建自己的搜索引擎(3)

搭建自己的搜索引擎(4)

 

这下面的图片是没用的,不知怎么出来的

+++++++++++++++++++++++++++++++++++++

image007.png(17.85KB,下载次数:

0)

35上传

下载次数:

0

image043.gif(2.48KB,下载次数:

2010-11-1007:

56上传

image044.gif(13.55KB,下载次数:

image046.gif(12.94KB,下载次数:

image050.gif(5.77KB,下载次数:

57上传

image051.gif(22.55KB,下载次数:

2.2.3安装Tomcat7.0(除了选择安装目录外,别的我都选择了默认的安装)

02上传

下载附件(31.62KB)

03上传

下载附件(17.15KB)

下载附件(16KB)

2.2.4安装Cygwin(因为NUTCH的自带命令必需要在LINUX的环境,所以必需要安装Cygwin来模拟这种环境)

04上传

下载附件(15.38KB)

点击下一步

进入安装方式的选择界面

06上传

下载附件(13.65KB)

上图所示Cygwin有三种安装方式

1,InstallfromInternet:

直接从Internet上下载并立即安装(安装完成后,下载好的安装文件并不会被删除,而是仍然被保留,以便下次再安装)。

2,DownloadWithoutInstalling:

只是将安装文件下载到本地,但暂时不安装。

3,InstallfromLocalDirectory:

不下载安装文件,直接从本地某个含有安装文件的目录进行安装。

如果你的网速还可以你可以选前两种,不过我们这里选的是第三种,因为我已经把文件下载下来了

我这里也提供了一个打包文件,你们也可从这里下载,速度具定要快很多而且下载途中不会出错

07上传

下载附件(16.85KB)

上图指定安装目录(也就是把程序安装在哪的意思)点击下一步

08上传

下载附件(14.1KB)

上图是设定安装源的目录(也就是我们下载的那个些文件)如果你没有你可以这里下载

下载附件(19.28KB)

上图,选择安装包内容

如何选择呢?

只需用鼠标点击每个安装包名后面那个循环箭头图标即可:

图标后面的文字是表示究竟对该安装包采取何种安装方式

[p=23,null,left]安装方式共有这么几类:

(1)Default:

这是默认选择,表示只下载/安装该包的缺省安装项(可点击包左边的+号展开,看看缺省安装究竟是些什么内容)。

(2)Install:

表示要下载/安装该包的全部内容。

所要求的空间也最大。

(3)Reinstall:

表示重新下载/安装该包的内容(以上一次正常下载/安装时所选择的内容为准)。

这个选项非常有用,稍后在下篇中会有说明。

(4)Uninstall:

这个就不用解释了吧。

可根据自己的实际需要,来准定究竟安装哪些内容。

推荐选择“Install”方式,一步到位,免得日后被各种这样那样的问题所困扰。

[p=23,null,left]至于窗口顶部那些“Keep”、“Prev”、“Curr”、“Exp”等等选项,只是用来改变当前树结构的显示方式的,对安装没有什么影响。

然后点击“下一步”,就要开始啦。

09上传

下载附件(12.62KB)

上图这个过程会有几分钟时间,

下载附件(13.44KB)

上图表示安装完成了,你要以在桌面上弄一个快捷方式

这样就方便多了

从桌面上启动Cygwin

输入date命令看下

10上传

下载附件(9.42KB)

如上所示:

Cygwin安装成功

2.2.5安装Nutch1.0

Nutch只要解压到指定的目录就可以了。

这里我把他解压在了k盘(k:

\nutch-1.0)

13上传

下载附件(18.22KB)

然后再新建环境变量:

NUTCH_JAVA_HOME=C:

\ProgramFiles\Java\jdk1.6.0_22

再在环境变量中添加PATH变时值

下载附件(22.59KB)

安装完后,启动桌面的Cygwin

输入命令cd/cygdrive/k/nutch-1.0(我把untch-1.0解压在K盘了,你可做相应的更改)

14上传

下载附件(6.41KB)

上图表示,我已进入了nutch-1.0的目录了

然后再输入命令:

bin/nutch

下载附件(8.12KB)

看到如上所示,说明nutch已功安装

爬取网站

首选在k:

/nutch-1.0目录下建一个名为url.txt的文本文件,我这里输入的是

然后保存

指定爬虫规则

进入nutch-1.0\conf

打开crawl-urlfilter.txt找到

2010-11-1008:

下载附件(2.3KB)

打开nutch-site.xml

<

property>

name>

http.agent.name<

/name>

value>

mynutchbot<

/value>

/property>

http.agent.version<

1.0<

放在

configuration>

与<

/configuration>

之间

我们启动Cygwin

输入命令cd/cygwin/k/nutch-1.0转到nutch-1.0目录下

11上传

下载附件(2.48KB)

输入命令:

bin/nutchcrawlurl.txt–drbothm–depth3>

&

cr.log

此时爬虫就开始爬了,运行一会后就可会爬行完毕

如果你想看到爬过程

不把日志输出到文件就可以了:

bin/nutchcrawlurl.txt–dirbothtm–depth2

下载附件(13.55KB)

crawl命令有几个参数,他们是:

-dir 

 

指定抓取后内容及索引的存放目录

-depth 

指定网站抓取的层数

-delay 

指定连接目标网站延迟时间

-threads指定程式运行的线程

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 军事政治

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1