网络爬虫设计与实现毕业论文.docx

资源描述

网络爬虫设计与实现毕业论文.docx

《网络爬虫设计与实现毕业论文.docx》由会员分享，可在线阅读，更多相关《网络爬虫设计与实现毕业论文.docx（58页珍藏版）》请在冰豆网上搜索。

网络爬虫设计与实现毕业论文.docx

毕业设计（论文）说明书

题目：

网络爬虫设计与实现

毕业设计（论文）任务书

题目：

网络爬虫设计与实现

独创声明

本人郑重声明：

所呈交的毕业设计（论文），是本人在指导老师的指导下，独立进行研究工作所取得的成果，成果不存在知识产权争议。

尽我所知，除文中已经注明引用的内容外，本设计（论文）不含任何其他个人或集体已经发表或撰写过的作品成果。

对本文的研究做出重要贡献的个人和集体均已在文中以明确方式标明。

本声明的法律后果由本人承担。

作者签名:

二〇一〇年九月二十日

毕业设计（论文）使用授权声明

本人完全了解滨州学院关于收集、保存、使用毕业设计（论文）的规定。

本人愿意按照学校要求提交学位论文的印刷本和电子版，同意学校保存学位论文的印刷本和电子版，或采用影印、数字化或其它复制手段保存设计（论文）；同意学校在不以营利为目的的前提下，建立目录检索与阅览服务系统，公布设计（论文）的部分或全部内容，允许他人依法合理使用。

（保密论文在解密后遵守此规定）

作者签名:

二〇一〇年九月二十日

一、原始依据（包括设计或论文的工作基础、研究条件、应用环

境、工作目的等。

）

互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。

搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。

但是，这些通用性搜索引擎也存在着一定的局限性。

不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。

所以需要一个能基于主题搜索的满足特定需求的网络爬虫。

为了解决上述问题，参照成功的网络爬虫模式，对网络爬虫进行研究，从而能够为网络爬虫实现更深入的主题相关性，提供满足特定搜索需求的网络爬虫。

二、参考文献

[1]Winter．中文搜索引擎技术解密：

网络蜘蛛[M]．北京：

人民邮电出版社，

2004年．

[2]Sergey等．TheAnatomyofaLarge-ScaleHypertextualWebSearchEngine

[M]．北京：

清华大学出版社，1998年．

[3]Wisenut．WiseNutSearchEnginewhitepaper[M]．北京：

中国电力出版社，2001年．

[4]GaryR.WrightW.RichardStevens．TCP-IP协议详解卷3：

TCP事务协议，

HTTP，NNTP和UNIX域协议[M]．北京：

机械工业出版社，2002年1月.

[5]罗刚王振东．自己动手写网络爬虫[M]．北京：

清华大学出版社，2010年10

月.

[6]李晓明，闫宏飞，王继民．搜索引擎：

原理、技术与系统——华夏英才基金学术文库[M]．北京：

科学出版社，2005年04月.

三、设计（研究）内容和要求（包括设计或研究内容、主要指标与技术参数，并根据课题性质对学生提出具体要求。

）

本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满足的是具有一定的性能，要考虑到网络爬虫的各种需求。

网络爬虫应用宽度搜索技术。

对url进行分析，去重。

网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。

网络爬虫要实现对特定主题的爬取。

网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来:

新闻、电子图书、行业信息等。

对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。

研究网络爬虫的原理并实现爬虫的相关功能。

最终实现的网络爬虫应该能根据设定的主题，从设定的url进行一定深度的搜索，并最终得到需要的数据。

指导教师（签字）

年月日

审题小组组长（签字）

年月日

天津大学本科生毕业设计（论文）开题报告

课题名称

网络爬虫设计与实现

学院名称

软件学院

专业名称

软件工程

学生姓名

张凤龙

指导教师

陈锦言

（内容包括：

课题的来源及意义，国内外发展状况，本课题的研究目标、研究内容、研究方法、研究手段和进度安排，实验方案的可行性分析和已具备的实验条件以及主要参考文献等。

）

一．课题的来源及意义

互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。

搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。

但是，这些通用性搜索引擎也存在着一定的局限性。

不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。

为了解决这个问题，一个灵活的爬虫有着无可替代的重要意义。

二．国内外发展状况

对于网络爬虫的研究从上世纪九十年代就开始了，目前爬虫技术已经趋见成熟，网络爬虫是搜索引擎的重要组成部分。

网络上比较著名的开源爬虫包括

Nutch，Larbin，Heritrix。

网络爬虫最重要的是网页搜索策略（广度优先和最佳度优先）和网页分析策略（基于网络拓扑的分析算法和基于网页内容的网页分析算法）。

三．研究目标

本论文主要研究搜索引擎的搜索器（网络爬虫程序）的设计与实现,实现简单的可在后台自动运行的爬虫程序。

1.可以多线程进行抓取。

2.可以进行面向主题的抓取。

四．研究内容

本课题研究的内容是如何使网络爬虫灵活高效。

1.如何具备更强的抓取能力。

2.如何分辨重复的网页内容。

3.如何确定主题相关性。

4.对于网络时延等的处理。

五．研究方法

网络爬虫应用宽度搜索技术。

对url进行分析，去重。

网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。

网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来新闻等信息。

对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。

研究网络爬虫的原理并实现爬虫的相关功能。

六．研究手段

参考网上开源的网络爬虫和各种网络爬虫相关的书籍，在windows系统环境下开发。

五．本课题进度安排：

2010.12.20

—2011.03.10查阅资料完成任务书，完成开题报告

2011.03.11

—2011.03.12开题报告会

2011.03.13

—2011.04.24查阅资料，进行论文基本章节的写作，完成初稿，

并完成进行代码编写

2011.04.25 —2011.04.30毕业设计中期报告会

2011.05.01 —2011.05.22系统设计结束并再次检查系统的可靠性。

2011.05.23—2011.06.22完成论文及答辩

六．本课题可行性分析

网络爬虫目前已经比较普遍，国内外有众多对网络爬虫的研究成果，大部分的技术难题已经有解决方案。

所以本课题的可行性较高。

八．实验条件

Windows操作系统；互联网九．主要参考文献

[1]Winter．中文搜索引擎技术解密：

网络蜘蛛[M]．北京：

人民邮电出版社，

2004年．

[2]Sergey等．TheAnatomyofaLarge-ScaleHypertextualWebSearchEngine

[M]．北京：

清华大学出版社，1998年．

[3]Wisenut．WiseNutSearchEnginewhitepaper[M]．北京：

中国电力出版社，2001年．

[4]GaryR.WrightW.RichardStevens．TCP-IP协议详解卷3：

TCP事务协议，

HTTP，NNTP和UNIX域协议[M]．北京：

机械工业出版社，2002年1月.

[5]罗刚王振东．自己动手写网络爬虫[M]．北京：

清华大学出版社，2010年10

月.

[6]李晓明，闫宏飞，王继民．搜索引擎：

原理、技术与系统——华夏英才基金学术文库[M]．北京：

科学出版社，2005年04月.

选题是否合适：

是□否□课题能否实现：

能□不能□

选题是否合适：

是□否□课题能否实现：

能□不能□

指导教师（签字）

年月日

审题小组组长（签字）

年月日

摘要

本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满足的是具有一定的性能，考虑到网络爬虫的各种需求。

网络爬虫应用宽度搜索技术。

对url进行分析，去重。

网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。

对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。

为了适应不同需求，使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。

研究网络爬虫的原理并实现爬虫的相关功能。

关键词：

网络爬虫；面向主题；多线程

ABSTRACT

Themainpurposeofthisprojectistodesignsubject-orientedwebcrawlerprocesswhichisalsorequiredtomeetcertainperformance,takingintoaccountthediverseneedsofwebcrawlers.

WebCrawlerusesthetechnology.ofBreadth-firstsearch.Webcrawlerusesmulti-threadedtechnology,sothatspiderscrawlcanhavemorepowerfulcapabilities.SetconnectiontimeandreadtimeofthewebconnectionoftheWebcrawler,toavoidunlimitedwaiting.Inordertomeetdifferentneeds,sothatcrawlerscanachievepre-setthemecrawlingaspecifictopic.Researchtheprinciplewebcrawlerandandrealizetherelatedfunctions.

Keywords：

Webcrawler;subject-oriented;multi-threading

天津大学2007届本科生毕业设计（论文）

第一章概述 1

1.1课题背景 1

1.2网络爬虫的历史和分类 1

1.2.1网络爬虫的历史 1

1.2.2网络爬虫的分类 2

1.3网络爬虫的发展趋势 3

第二章相关技术背景 5

2.1网络爬虫的定义 5

2.2网页搜索策略介绍 5

2.2.1广度优先搜索策略 5

2.2.2最佳优先搜索策略 6

2.3判断相关度算法 6

第三章网络爬虫模型的分析和概要设计 8

3.1网络爬虫的模型分析 8

3.2网络爬虫的搜索策略 8

3.3网络爬虫的主题相关度判断 9

3.4网络爬虫的概要设计 11

第四章网络爬虫模型的设计和实现 14

4.1网络爬虫总体设计 14

4.2网络爬虫具体设计 14

4.2.1爬取网页 14

4.2.2分析网页 15

展开阅读全文