信息检索技术实验张莹127129Word文档下载推荐.docx

资源描述

信息检索技术实验张莹127129Word文档下载推荐.docx

《信息检索技术实验张莹127129Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《信息检索技术实验张莹127129Word文档下载推荐.docx（15页珍藏版）》请在冰豆网上搜索。

信息检索技术实验张莹127129Word文档下载推荐.docx

实验过程3

nutch环境的搭建3

文件设置3

安装JDK3

设置环境变量3

安装wampServer5

数据检索6

检索6

评分详解7

查看索引分词结果8

命令输入8

luke主界面8

数据采集10

安装TeleportPro10

抓取网站10

观察nutch目录下的变化12

布尔搜索13

检索“学生”13

检索“教师”14

检索“学生or教师”14

检索“学生and教师”15

结果分析15

实验心得15

实验目的

通过搭建nutch搜索系统来熟悉该软件的使用。

通过观察检索内容、抓取网站结果、分词流程分析、数据布尔搜索、算法分析等步骤，实现对信息检索技术理论的深入了解。

实验过程

nutch环境的搭建

文件设置

将nutch-0.9，tomcat,paoding-analysis-2.0.4-alpha2，apache-ant-1.8.3拷备至D：

\test\目录，同时对Tomcat\webapps\nutch-0.9\WEB-INF\classes中的nutch-site.xml文件进行修改，其中value=D:

\test\nutch-0.9\crawl\的值必须对应你所采集到的文件。

安装JDK

安装jdk，安装目录为：

\ProgramFiles\Java\jdk1.7.0

设置环境变量

右击我的电脑->

属性->

高级->

环境变量，如下图：

图1环境变量

环境变量配置如下：

作用域

环境变量

值

用户变量

PATH

\test\apache-ant-1.8.3\bin;

\ProgramFiles\Java\jdk1.7.0\bin

系统变量

ANT_HOME

\test\apache-ant-1.8.3

CATALINA_HOME

\test\Tomcat

CLASSPATH

\test\nutch-0.9\src\plugin\lib-paoding-analyzers\paoding-analysis.jar;

\ProgramFiles\Java\\jdk1.7.0\lib

NUTCH_JAVA_HOME

PAODING_DIC_HOME

\test\paoding-analysis-2.0.4-alpha2\dic

JAVA_HOME

安装wampServer

安装wampServer，启动服务，查看http:

//localhost/如下图：

测试80端口是否可用，如下图：

图2运行界面

数据检索

检索

在搜索栏中输入关键字：

成绩，点击搜索后出现以下结果：

图3数据检索csdn

评分详解

点击“评分详解”可以看到以下结果：

图4评分详解

查看索引分词结果

命令输入

命令行输入以下命令：

图5启动luke

luke主界面

选择路径crwal之后，打开luke，可以看到如下画面：

图6luke界面

图7luke界面

我们可以在luke搜索栏中进行检索，选择“search”选项卡，输入“成绩”二字就可以看到以下检索结果：

图8检索结果

数据采集

安装TeleportPro

官网上下载安装包，直接运行即可：

图9cygwin安装界面

抓取网站

创建一个新的项目

图10创建项目

保存项目

图11保存项目

运行项目

图12运行项目

观察nutch目录下的变化

抓取网站后后，在nutch目录下生成一个crawl文件夹，里面包含如下内容：

crawldb

1/②crawldb/linkdb：

weblink目录，存放url及url的互联关系，作为爬行与重新爬行的依据，页面默认30天过期（可以在nutch-site.xml中配置），此处使用的是默认参数。

index

2index：

lucene的索引目录（nutch是基于lucene的，在nutch-0.9\lib下可以看到lucene-core-2.1.0.jar，最后有luke工具的简单使用方法），是indexs里所有index合并后的完整索引，注意索引文件只对页面内容进行索引，没有进行存储，因此查询时要去访问segments目录才能获得页面内容

indexes

3indexes：

索引目录，我运行时生成了一个”part-00000”的文件夹

segments

4segments：

一存放抓取的页面，与上面链接深度depth相关，depth设为4则在segments下生四个个以时间命名的子文件夹，比如”20121124124804”，打开此文件夹可以看到，它下面还有6个子文件夹，分别是：

crawl_generate：

namesasetofurlstobefetched

crawl_fetch：

containsthestatusoffetchingeachurl

content：

containsthecontentofeachurl

parse_text：

containstheparsedtextofeachurl

parse_data：

containsoutlinksandmetadataparsedfromeachurl

crawl_parse：

containstheoutlinkurls,usedtoupdatethecrawldb

布尔搜索

检索“学生”

图17检索“学生”

检索“教师”

图18检索“教师”

检索“学生or教师”

检索“学生and教师”

结果分析

经验算，17+5-22=0，符合布尔检索结果

实验心得

试验步骤分为：

环境搭建、数据检索、查看索引分词、数据采集、分词流程分析、算法分析和布尔搜索等几部分。

首先是环境搭建。

关于服务器软件，个人偏好wampServer。

集成Apache,PHP,MySQL，免去了开发人员将时间花费在繁琐的配置环境过程。

设置环境变量很简单，利用谷歌或者XX搜索就能很轻松地了解到配置方法。

需要注意的是，环境变量需要增量更新，而不是全量更新。

并且注意使用英文半角分号，而不是全角符号。

采集数据时，偏好使用TeleportPro软件。

拥有汉化版本，叫“网站整站下载器”。

唯一缺点是，需要收费。

数据检索中输入关键字进行检索却没有数据，通过重启操作操作系统，再重启nutch服务后，数据正常加载，可以检索。

分词流程是我过去所知之甚少的理论知识，通过这次试验，我向班内专业做搜索引擎的同学询问，他热情的向我讲解专业化的理论知识，并提供给我一些专业化的文档，供我完成分词流程的分析工作，使我在理论上明白了分词的奥秘。

总的来说，计算机技术日新月异，发展很快。

我们不但要学习最新的技术、软件，同事，我们需要打好基础知识，学习技术原生的形态，这有利于我们掌握技术的发展方向。

展开阅读全文