信息检索技术实验张莹127129Word文档下载推荐.docx

上传人:b****5 文档编号:21664221 上传时间:2023-01-31 格式:DOCX 页数:15 大小:529.41KB
下载 相关 举报
信息检索技术实验张莹127129Word文档下载推荐.docx_第1页
第1页 / 共15页
信息检索技术实验张莹127129Word文档下载推荐.docx_第2页
第2页 / 共15页
信息检索技术实验张莹127129Word文档下载推荐.docx_第3页
第3页 / 共15页
信息检索技术实验张莹127129Word文档下载推荐.docx_第4页
第4页 / 共15页
信息检索技术实验张莹127129Word文档下载推荐.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

信息检索技术实验张莹127129Word文档下载推荐.docx

《信息检索技术实验张莹127129Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《信息检索技术实验张莹127129Word文档下载推荐.docx(15页珍藏版)》请在冰豆网上搜索。

信息检索技术实验张莹127129Word文档下载推荐.docx

实验过程3

nutch环境的搭建3

文件设置3

安装JDK3

设置环境变量3

安装wampServer5

数据检索6

检索6

评分详解7

查看索引分词结果8

命令输入8

luke主界面8

数据采集10

安装TeleportPro10

抓取网站10

观察nutch目录下的变化12

布尔搜索13

检索“学生”13

检索“教师”14

检索“学生or教师”14

检索“学生and教师”15

结果分析15

实验心得15

实验目的

通过搭建nutch搜索系统来熟悉该软件的使用。

通过观察检索内容、抓取网站结果、分词流程分析、数据布尔搜索、算法分析等步骤,实现对信息检索技术理论的深入了解。

实验过程

nutch环境的搭建

文件设置

将nutch-0.9,tomcat,paoding-analysis-2.0.4-alpha2,apache-ant-1.8.3拷备至D:

\test\目录,同时对Tomcat\webapps\nutch-0.9\WEB-INF\classes中的nutch-site.xml文件进行修改,其中value=D:

\test\nutch-0.9\crawl\的值必须对应你所采集到的文件。

安装JDK

安装jdk,安装目录为:

C:

\ProgramFiles\Java\jdk1.7.0

设置环境变量

右击我的电脑->

属性->

高级->

环境变量,如下图:

图1环境变量

环境变量配置如下:

作用域

环境变量

用户变量

PATH

D:

\test\apache-ant-1.8.3\bin;

\ProgramFiles\Java\jdk1.7.0\bin

系统变量

ANT_HOME

\test\apache-ant-1.8.3

CATALINA_HOME

\test\Tomcat

CLASSPATH

\test\nutch-0.9\src\plugin\lib-paoding-analyzers\paoding-analysis.jar;

C:

\ProgramFiles\Java\\jdk1.7.0\lib

NUTCH_JAVA_HOME

PAODING_DIC_HOME

\test\paoding-analysis-2.0.4-alpha2\dic

JAVA_HOME

安装wampServer

安装wampServer,启动服务,查看http:

//localhost/如下图:

测试80端口是否可用,如下图:

图2运行界面

数据检索

检索

在搜索栏中输入关键字:

成绩,点击搜索后出现以下结果:

图3数据检索csdn

评分详解

点击“评分详解”可以看到以下结果:

图4评分详解

查看索引分词结果

命令输入

命令行输入以下命令:

图5启动luke

luke主界面

选择路径crwal之后,打开luke,可以看到如下画面:

图6luke界面

图7luke界面

我们可以在luke搜索栏中进行检索,选择“search”选项卡,输入“成绩”二字就可以看到以下检索结果:

图8检索结果

数据采集

安装TeleportPro

官网上下载安装包,直接运行即可:

图9cygwin安装界面

抓取网站

创建一个新的项目

图10创建项目

保存项目

图11保存项目

运行项目

图12运行项目

观察nutch目录下的变化

抓取网站后后,在nutch目录下生成一个crawl文件夹,里面包含如下内容:

crawldb

1/②crawldb/linkdb:

weblink目录,存放url及url的互联关系,作为爬行与重新爬行的依据,页面默认30天过期(可以在nutch-site.xml中配置),此处使用的是默认参数。

index

2index:

lucene的索引目录(nutch是基于lucene的,在nutch-0.9\lib下可以看到lucene-core-2.1.0.jar,最后有luke工具的简单使用方法),是indexs里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容

indexes

3indexes:

索引目录,我运行时生成了一个”part-00000”的文件夹

segments

4segments:

一存放抓取的页面,与上面链接深度depth相关,depth设为4则在segments下生四个个以时间命名的子文件夹,比如”20121124124804”,打开此文件夹可以看到,它下面还有6个子文件夹,分别是:

crawl_generate:

namesasetofurlstobefetched

crawl_fetch:

containsthestatusoffetchingeachurl

content:

containsthecontentofeachurl

parse_text:

containstheparsedtextofeachurl

parse_data:

containsoutlinksandmetadataparsedfromeachurl

crawl_parse:

containstheoutlinkurls,usedtoupdatethecrawldb

布尔搜索

检索“学生”

图17检索“学生”

检索“教师”

图18检索“教师”

检索“学生or教师”

检索“学生and教师”

结果分析

经验算,17+5-22=0,符合布尔检索结果

实验心得

试验步骤分为:

环境搭建、数据检索、查看索引分词、数据采集、分词流程分析、算法分析和布尔搜索等几部分。

首先是环境搭建。

关于服务器软件,个人偏好wampServer。

集成Apache,PHP,MySQL,免去了开发人员将时间花费在繁琐的配置环境过程。

设置环境变量很简单,利用谷歌或者XX搜索就能很轻松地了解到配置方法。

需要注意的是,环境变量需要增量更新,而不是全量更新。

并且注意使用英文半角分号,而不是全角符号。

采集数据时,偏好使用TeleportPro软件。

拥有汉化版本,叫“网站整站下载器”。

唯一缺点是,需要收费。

数据检索中输入关键字进行检索却没有数据,通过重启操作操作系统,再重启nutch服务后,数据正常加载,可以检索。

分词流程是我过去所知之甚少的理论知识,通过这次试验,我向班内专业做搜索引擎的同学询问,他热情的向我讲解专业化的理论知识,并提供给我一些专业化的文档,供我完成分词流程的分析工作,使我在理论上明白了分词的奥秘。

总的来说,计算机技术日新月异,发展很快。

我们不但要学习最新的技术、软件,同事,我们需要打好基础知识,学习技术原生的形态,这有利于我们掌握技术的发展方向。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1