搭建自己的搜索引擎Word格式.docx
《搭建自己的搜索引擎Word格式.docx》由会员分享,可在线阅读,更多相关《搭建自己的搜索引擎Word格式.docx(26页珍藏版)》请在冰豆网上搜索。
下载附件(34.9KB)
2.2安装:
2.2.1
JDK安装
32上传
下载附件(14.7KB)
(我这里用的是默认的安装)
下载附件(20.57KB)
下载附件(18.98KB)
接下来可以按默认的安装2.2.2
添加JDK环境变量:
右击我的电脑——>
属性——>
高级——>
环境变量->
系统变量
27上传
下载附件(44.36KB)
Path添加C:
\ProgramFiles\Java\jdk1.6.0_22\bin;
28上传
下载附件(20.98KB)
JAVA_HOME=C:
\ProgramFiles\Java\jdk1.6.0_22(JDK安装的目录)
33上传
下载附件(17.85KB)
classpath=
.;
%JAVA_HOME%\lib\tools.jar;
%JAVA_HOME%\lib\dt.jar;
36上传
下载附件(19.18KB)
添加好环境变量后、我们可以输入
JAVAC来看是否安装成功如:
看到下面图所示的内容那么就安装成功了
38上传
下载附件(22.66KB)
搭建自己的搜索引擎
(1)
搭建自己的搜索引擎
(2)
搭建自己的搜索引擎(3)
搭建自己的搜索引擎(4)
这下面的图片是没用的,不知怎么出来的
+++++++++++++++++++++++++++++++++++++
image007.png(17.85KB,下载次数:
0)
35上传
下载次数:
0
image043.gif(2.48KB,下载次数:
2010-11-1007:
56上传
image044.gif(13.55KB,下载次数:
image046.gif(12.94KB,下载次数:
image050.gif(5.77KB,下载次数:
57上传
image051.gif(22.55KB,下载次数:
2.2.3安装Tomcat7.0(除了选择安装目录外,别的我都选择了默认的安装)
02上传
下载附件(31.62KB)
03上传
下载附件(17.15KB)
下载附件(16KB)
2.2.4安装Cygwin(因为NUTCH的自带命令必需要在LINUX的环境,所以必需要安装Cygwin来模拟这种环境)
04上传
下载附件(15.38KB)
点击下一步
进入安装方式的选择界面
06上传
下载附件(13.65KB)
上图所示Cygwin有三种安装方式
1,InstallfromInternet:
直接从Internet上下载并立即安装(安装完成后,下载好的安装文件并不会被删除,而是仍然被保留,以便下次再安装)。
2,DownloadWithoutInstalling:
只是将安装文件下载到本地,但暂时不安装。
3,InstallfromLocalDirectory:
不下载安装文件,直接从本地某个含有安装文件的目录进行安装。
如果你的网速还可以你可以选前两种,不过我们这里选的是第三种,因为我已经把文件下载下来了
我这里也提供了一个打包文件,你们也可从这里下载,速度具定要快很多而且下载途中不会出错
07上传
下载附件(16.85KB)
上图指定安装目录(也就是把程序安装在哪的意思)点击下一步
08上传
下载附件(14.1KB)
上图是设定安装源的目录(也就是我们下载的那个些文件)如果你没有你可以这里下载
下载附件(19.28KB)
上图,选择安装包内容
如何选择呢?
只需用鼠标点击每个安装包名后面那个循环箭头图标即可:
图标后面的文字是表示究竟对该安装包采取何种安装方式
[p=23,null,left]安装方式共有这么几类:
(1)Default:
这是默认选择,表示只下载/安装该包的缺省安装项(可点击包左边的+号展开,看看缺省安装究竟是些什么内容)。
(2)Install:
表示要下载/安装该包的全部内容。
所要求的空间也最大。
(3)Reinstall:
表示重新下载/安装该包的内容(以上一次正常下载/安装时所选择的内容为准)。
这个选项非常有用,稍后在下篇中会有说明。
(4)Uninstall:
这个就不用解释了吧。
可根据自己的实际需要,来准定究竟安装哪些内容。
推荐选择“Install”方式,一步到位,免得日后被各种这样那样的问题所困扰。
[p=23,null,left]至于窗口顶部那些“Keep”、“Prev”、“Curr”、“Exp”等等选项,只是用来改变当前树结构的显示方式的,对安装没有什么影响。
然后点击“下一步”,就要开始啦。
09上传
下载附件(12.62KB)
上图这个过程会有几分钟时间,
下载附件(13.44KB)
上图表示安装完成了,你要以在桌面上弄一个快捷方式
这样就方便多了
从桌面上启动Cygwin
输入date命令看下
10上传
下载附件(9.42KB)
如上所示:
Cygwin安装成功
2.2.5安装Nutch1.0
Nutch只要解压到指定的目录就可以了。
这里我把他解压在了k盘(k:
\nutch-1.0)
13上传
下载附件(18.22KB)
然后再新建环境变量:
NUTCH_JAVA_HOME=C:
\ProgramFiles\Java\jdk1.6.0_22
再在环境变量中添加PATH变时值
下载附件(22.59KB)
安装完后,启动桌面的Cygwin
输入命令cd/cygdrive/k/nutch-1.0(我把untch-1.0解压在K盘了,你可做相应的更改)
14上传
下载附件(6.41KB)
上图表示,我已进入了nutch-1.0的目录了
然后再输入命令:
bin/nutch
下载附件(8.12KB)
看到如上所示,说明nutch已功安装
爬取网站
首选在k:
/nutch-1.0目录下建一个名为url.txt的文本文件,我这里输入的是
然后保存
指定爬虫规则
进入nutch-1.0\conf
打开crawl-urlfilter.txt找到
2010-11-1008:
下载附件(2.3KB)
打开nutch-site.xml
将
<
property>
name>
http.agent.name<
/name>
value>
mynutchbot<
/value>
/property>
http.agent.version<
1.0<
放在
configuration>
与<
/configuration>
之间
我们启动Cygwin
输入命令cd/cygwin/k/nutch-1.0转到nutch-1.0目录下
11上传
下载附件(2.48KB)
输入命令:
bin/nutchcrawlurl.txt–drbothm–depth3>
&
cr.log
此时爬虫就开始爬了,运行一会后就可会爬行完毕
如果你想看到爬过程
不把日志输出到文件就可以了:
bin/nutchcrawlurl.txt–dirbothtm–depth2
下载附件(13.55KB)
crawl命令有几个参数,他们是:
-dir
指定抓取后内容及索引的存放目录
-depth
指定网站抓取的层数
-delay
指定连接目标网站延迟时间
-threads指定程式运行的线程