网络爬虫设计与实现毕业论文文档格式.docx

资源描述

网络爬虫设计与实现毕业论文文档格式.docx

《网络爬虫设计与实现毕业论文文档格式.docx》由会员分享，可在线阅读，更多相关《网络爬虫设计与实现毕业论文文档格式.docx（71页珍藏版）》请在冰豆网上搜索。

网络爬虫设计与实现毕业论文文档格式.docx

为了解决上述问题，参照成功的网络爬虫模式，对网络爬虫进行研究，从而能够为网络爬虫实现更深入的主题相关性，提供满足特定搜索需求的网络爬虫。

二、参考文献

[1]Winter．中文搜索引擎技术解密：

网络蜘蛛[M]．北京：

人民邮电出版社，

2004年．

[2]Sergey等．TheAnatomyofaLarge-ScaleHypertextualWebSearchEngine

[M]．北京：

清华大学出版社，1998年．

[3]Wisenut．WiseNutSearchEnginewhitepaper[M]．北京：

中国电力出版社，2001年．

[4]GaryR.WrightW.RichardStevens．TCP-IP协议详解卷3：

TCP事务协议，

HTTP，NNTP和UNIX域协议[M]．北京：

机械工业出版社，2002年1月.

[5]罗刚王振东．自己动手写网络爬虫[M]．北京：

清华大学出版社，2010年10

月.

[6]李晓明，闫宏飞，王继民．搜索引擎：

原理、技术与系统——华夏英才基金学术文库[M]．北京：

科学出版社，2005年04月.

三、设计（研究）内容和要求（包括设计或研究内容、主要指标与技术参数，并根据课题性质对学生提出具体要求。

本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满足的是具有一定的性能，要考虑到网络爬虫的各种需求。

网络爬虫应用宽度搜索技术。

对url进行分析，去重。

网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。

网络爬虫要实现对特定主题的爬取。

网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来:

新闻、电子图书、行业信息等。

对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。

研究网络爬虫的原理并实现爬虫的相关功能。

最终实现的网络爬虫应该能根据设定的主题，从设定的url进行一定深度的搜索，并最终得到需要的数据。

指导教师（签字）

年月日审题小组组长（签字）

年月日

天津大学本科生毕业设计（论文）开题报告

课题名称

学院名称

软件学院

专业名称

软件工程

学生姓名

张凤龙

指导教师

陈锦言

（内容包括：

课题的来源及意义，国内外发展状况，本课题的研究目标、研究内容、研究方法、研究手段和进度安排，实验方案的可行性分析和已具备的实验条件以及主要参考文献等。

一．课题的来源及意义

为了解决这个问题，一个灵活的爬虫有着无可替代的重要意义。

二．国内外发展状况

对于网络爬虫的研究从上世纪九十年代就开始了，目前爬虫技术已经趋见成熟，网络爬虫是搜索引擎的重要组成部分。

网络上比较著名的开源爬虫包括

Nutch，Larbin，Heritrix。

网络爬虫最重要的是网页搜索策略（广度优先和最佳度优先）和网页分析策略（基于网络拓扑的分析算法和基于网页内容的网页分析算法）。

三．研究目标

本论文主要研究搜索引擎的搜索器（网络爬虫程序）的设计与实现,实现简单的可在后台自动运行的爬虫程序。

1.可以多线程进行抓取。

2.可以进行面向主题的抓取。

四．研究内容

本课题研究的内容是如何使网络爬虫灵活高效。

1.如何具备更强的抓取能力。

2.如何分辨重复的网页内容。

3.如何确定主题相关性。

4.对于网络时延等的处理。

五．研究方法

网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来新闻等信息。

六．研究手段

参考网上开源的网络爬虫和各种网络爬虫相关的书籍，在windows系统环境下开发。

五．本课题进度安排：

2010.12.20

—2011.03.10查阅资料完成任务书，完成开题报告

2011.03.11

—2011.03.12开题报告会

2011.03.13

—2011.04.24查阅资料，进行论文基本章节的写作，完成初稿，

并完成进行代码编写

2011.04.25 —2011.04.30毕业设计中期报告会

2011.05.01 —2011.05.22系统设计结束并再次检查系统的可靠性。

2011.05.23—2011.06.22完成论文及答辩

六．本课题可行性分析

网络爬虫目前已经比较普遍，国内外有众多对网络爬虫的研究成果，大部分的技术难题已经有解决方案。

所以本课题的可行性较高。

八．实验条件

Windows操作系统；

互联网九．主要参考文献

选题是否合适：

是□否□课题能否实现：

能□不能□

审题小组组长（签字）

摘要

本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满足的是具有一定的性能，考虑到网络爬虫的各种需求。

为了适应不同需求，使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。

关键词：

网络爬虫；

面向主题；

多线程

ABSTRACT

Themainpurposeofthisprojectistodesignsubject-orientedwebcrawlerprocesswhichisalsorequiredtomeetcertainperformance,takingintoaccountthediverseneedsofwebcrawlers.

WebCrawlerusesthetechnology.ofBreadth-firstsearch.Webcrawlerusesmulti-threadedtechnology,sothatspiderscrawlcanhavemorepowerfulcapabilities.SetconnectiontimeandreadtimeofthewebconnectionoftheWebcrawler,toavoidunlimitedwaiting.Inordertomeetdifferentneeds,sothatcrawlerscanachievepre-setthemecrawlingaspecifictopic.Researchtheprinciplewebcrawlerandandrealizetherelatedfunctions.

Keywords：

Webcrawler;

subject-oriented;

multi-threading

天津大学2007届本科生毕业设计（论文）

第一章概述 1

1.1课题背景 1

1.2网络爬虫的历史和分类 1

1.2.1网络爬虫的历史 1

1.2.2网络爬虫的分类 2

1.3网络爬虫的发展趋势 3

第二章相关技术背景 5

2.1网络爬虫的定义 5

2.2网页搜索策略介绍 5

2.2.1广度优先搜索策略 5

2.2.2最佳优先搜索策略 6

2.3判断相关度算法 6

第三章网络爬虫模型的分析和概要设计 8

3.1网络爬虫的模型分析 8

3.2网络爬虫的搜索策略 8

3.3网络爬虫的主题相关度判断 9

3.4网络爬虫的概要设计 11

第四章网络爬虫模型的设计和实现 14

4.1网络爬虫总体设计 14

4.2网络爬虫具体设计 14

4.2.1爬取网页 14

4.2.2分析网页 15

4.2.3判断相关度 16

4.2.4保存网页信息 17

4.2.5数据库设计和存储 17

4.2.6多线程的实现 17

4.2.7附加功能 18

4.2.8整体流程 18

第五章测试 20

第六章总结和展望 24

第一章概述

1.1课题背景

网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。

另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。

网络检索功能起于互联网内容爆炸性发展所带来的对内容检索的需求。

搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容.如何使搜索引擎能时刻满足人们的需求。

最初的检索功能通过索引站的方式实现，而有了网络机器人，即网络爬虫这个技术之后，搜索引擎的时代便开始一发不

展开阅读全文