ImageVerifierCode 换一换
格式:DOCX , 页数:71 ,大小:204.99KB ,
资源ID:13195946      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/13195946.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(网络爬虫设计与实现毕业论文文档格式.docx)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

网络爬虫设计与实现毕业论文文档格式.docx

1、为了解决上述问题,参照成功的网络爬虫模式,对网络爬虫进行研究,从而能够为网络爬虫实现更深入的主题相关性,提供满足特定搜索需求的网络爬虫。二、参考文献1 Winter中文搜索引擎技术解密:网络蜘蛛M 北京:人民邮电出版社,2004 年2 Sergey 等The Anatomy of a Large-Scale Hypertextual Web Search Engine M北京:清华大学出版社,1998 年3 WisenutWiseNut Search Engine white paper M北京:中国电力出版社,2001 年4 Gary R.Wright W.Richard StevensTC

2、P-IP 协议详解卷 3:TCP 事务协议,HTTP,NNTP 和 UNIX 域协议M 北京:机械工业出版社,2002 年 1 月. 5 罗刚 王振东自己动手写网络爬虫M北京:清华大学出版社,2010 年 10月. 6 李晓明,闫宏飞,王继民搜索引擎:原理、技术与系统华夏英才基金学术文库M北京:科学出版社,2005 年 04 月. 三、设计(研究)内容和要求(包括设计或研究内容、主要指标与技术参数,并根据课题性质对学生提出具体要求。本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有一定的性能,要考虑到网络爬虫的各种需求。网络爬虫应用宽度搜索技术。对 url 进行分析,去重。网络

3、爬虫使用多线程技术,让爬虫具备更强大的抓取能力。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来:新闻、电子图书、行业信息等。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。最终实现的网络爬虫应该能根据设定的主题,从设定的 url 进行一定深度的搜索,并最终得到需要的数据。指导教师(签字)年月日审题小组组长(签字)年月日天津大学本科生毕业设计(论文)开题报告课题名称学院名称软件学院专业名称软件工程学生姓名张凤龙指导教师陈锦言(内容包括:课题的来源及意义,国内外发展状况,本课题的研究目标、研究内容、研究方法

4、、研究手段和进度安排,实验方案的可行性分析和已具备的实验条件以及主要参考文献等。一课题的来源及意义为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。二国内外发展状况对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括Nutch,Larbin,Heritrix。网络爬虫最重要的是网页搜索策略(广度优先和最佳度优先)和网页分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)。三研究目标本论文主要研究搜索引擎的搜索器(网络爬虫程序)的设计与实现,实现简单的可在后台自动运行的爬虫程序。1. 可以多线程进行抓

5、取。2. 可以进行面向主题的抓取。四研究内容本课题研究的内容是如何使网络爬虫灵活高效。1. 如何具备更强的抓取能力。2. 如何分辨重复的网页内容。3. 如何确定主题相关性。4. 对于网络时延等的处理。五研究方法网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来新闻等信息。六研究手段参考网上开源的网络爬虫和各种网络爬虫相关的书籍,在 windows 系统环境下开发。五本课题进度安排: 2010.12.202011.03.10 查阅资料完成任务书 ,完成开题报告 2011.03.112011.03.12 开题报告会 2011.03.132011.04.24 查阅资料,进行论文基本章节的写作,

6、完成初稿, 并完成进行代码编写 2011.04.252011.04.30 毕业设计中期报告会 2011.05.012011.05.22 系统设计结束并再次检查系统的可靠性。2011.05.232011.06.22 完成论文及答辩六本课题可行性分析网络爬虫目前已经比较普遍,国内外有众多对网络爬虫的研究成果,大部分的技术难题已经有解决方案。所以本课题的可行性较高。八实验条件Windows 操作系统 ;互联网九主要参考文献选题是否合适: 是 否 课题能否实现: 能 不能审题小组组长(签字)摘 要本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有一定的性能,考虑到网络爬虫的各种需求。为

7、了适应不同需求,使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。关键词:网络爬虫;面向主题;多线程ABSTRACTThe main purpose of this project is to design subject-oriented web crawler process which is also required to meet certain performance, taking into account the diverse needs of web crawlers.Web Crawler uses the technology. of Breadth-first s

8、earch.Web crawler uses multi-threaded technology, so that spiders crawl can have more powerful capabilities.Set connection time and read time of the web connection of the Web crawler , to avoid unlimited waiting.In order to meet different needs, so that crawlers can achieve pre-set theme crawling a

9、specific topic.Research the principle web crawler and and realize the related functions.Key words:Web crawler; subject-oriented; multi-threading 天津大学 2007 届本科生毕业设计(论文)目录第一章概述1 1.1 课题背景1 1.2 网络爬虫的历史和分类1 1.2.1 网络爬虫的历史1 1.2.2 网络爬虫的分类2 1.3 网络爬虫的发展趋势3第二章相关技术背景52.1 网络爬虫的定义5 2.2 网页搜索策略介绍5 2.2.1 广度优先搜索策略5 2

10、.2.2 最佳优先搜索策略6 2.3 判断相关度算法6第三章网络爬虫模型的分析和概要设计83.1 网络爬虫的模型分析8 3.2 网络爬虫的搜索策略8 3.3 网络爬虫的主题相关度判断9 3.4 网络爬虫的概要设计11第四章网络爬虫模型的设计和实现144.1 网络爬虫总体设计14 4.2 网络爬虫具体设计14 4.2.1 爬取网页14 4.2.2 分析网页15 4.2.3 判断相关度16 4.2.4 保存网页信息17 4.2.5 数据库设计和存储17 4.2.6 多线程的实现17 4.2.7 附加功能18 4.2.8 整体流程18第五章测试20 第六章总结和展望24 第一章概述1.1 课题背景 网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。 网络检索功能起于互联网内容爆炸性发展所带来的对内容检索的需求。搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容.如何使搜索引擎能时刻满足人们的需求。最初的检索功能通过索引站的方式实现,而有了网络机器人,即网络爬虫这个技术之后,搜索引擎的时代便开始一发不

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1