1、为了解决上述问题,参照成功的网络爬虫模式,对网络爬虫进行研究,从而能够为网络爬虫实现更深入的主题相关性,提供满足特定搜索需求的网络爬虫。二、参考文献1 Winter中文搜索引擎技术解密:网络蜘蛛M 北京:人民邮电出版社,2004 年2 Sergey 等The Anatomy of a Large-Scale Hypertextual Web Search Engine M北京:清华大学出版社,1998 年3 WisenutWiseNut Search Engine white paper M北京:中国电力出版社,2001 年4 Gary R.Wright W.Richard StevensTC
2、P-IP 协议详解卷 3:TCP 事务协议,HTTP,NNTP 和 UNIX 域协议M 北京:机械工业出版社,2002 年 1 月. 5 罗刚 王振东自己动手写网络爬虫M北京:清华大学出版社,2010 年 10月. 6 李晓明,闫宏飞,王继民搜索引擎:原理、技术与系统华夏英才基金学术文库M北京:科学出版社,2005 年 04 月. 三、设计(研究)内容和要求(包括设计或研究内容、主要指标与技术参数,并根据课题性质对学生提出具体要求。本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有一定的性能,要考虑到网络爬虫的各种需求。网络爬虫应用宽度搜索技术。对 url 进行分析,去重。网络
3、爬虫使用多线程技术,让爬虫具备更强大的抓取能力。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来:新闻、电子图书、行业信息等。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。最终实现的网络爬虫应该能根据设定的主题,从设定的 url 进行一定深度的搜索,并最终得到需要的数据。指导教师(签字)年月日审题小组组长(签字)年月日天津大学本科生毕业设计(论文)开题报告课题名称学院名称软件学院专业名称软件工程学生姓名张凤龙指导教师陈锦言(内容包括:课题的来源及意义,国内外发展状况,本课题的研究目标、研究内容、研究方法
4、、研究手段和进度安排,实验方案的可行性分析和已具备的实验条件以及主要参考文献等。一课题的来源及意义为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。二国内外发展状况对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括Nutch,Larbin,Heritrix。网络爬虫最重要的是网页搜索策略(广度优先和最佳度优先)和网页分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)。三研究目标本论文主要研究搜索引擎的搜索器(网络爬虫程序)的设计与实现,实现简单的可在后台自动运行的爬虫程序。1. 可以多线程进行抓
5、取。2. 可以进行面向主题的抓取。四研究内容本课题研究的内容是如何使网络爬虫灵活高效。1. 如何具备更强的抓取能力。2. 如何分辨重复的网页内容。3. 如何确定主题相关性。4. 对于网络时延等的处理。五研究方法网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来新闻等信息。六研究手段参考网上开源的网络爬虫和各种网络爬虫相关的书籍,在 windows 系统环境下开发。五本课题进度安排: 2010.12.202011.03.10 查阅资料完成任务书 ,完成开题报告 2011.03.112011.03.12 开题报告会 2011.03.132011.04.24 查阅资料,进行论文基本章节的写作,
6、完成初稿, 并完成进行代码编写 2011.04.252011.04.30 毕业设计中期报告会 2011.05.012011.05.22 系统设计结束并再次检查系统的可靠性。2011.05.232011.06.22 完成论文及答辩六本课题可行性分析网络爬虫目前已经比较普遍,国内外有众多对网络爬虫的研究成果,大部分的技术难题已经有解决方案。所以本课题的可行性较高。八实验条件Windows 操作系统 ;互联网九主要参考文献选题是否合适: 是 否 课题能否实现: 能 不能审题小组组长(签字)摘 要本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有一定的性能,考虑到网络爬虫的各种需求。为
7、了适应不同需求,使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。关键词:网络爬虫;面向主题;多线程ABSTRACTThe main purpose of this project is to design subject-oriented web crawler process which is also required to meet certain performance, taking into account the diverse needs of web crawlers.Web Crawler uses the technology. of Breadth-first s
8、earch.Web crawler uses multi-threaded technology, so that spiders crawl can have more powerful capabilities.Set connection time and read time of the web connection of the Web crawler , to avoid unlimited waiting.In order to meet different needs, so that crawlers can achieve pre-set theme crawling a
9、specific topic.Research the principle web crawler and and realize the related functions.Key words:Web crawler; subject-oriented; multi-threading 天津大学 2007 届本科生毕业设计(论文)目录第一章概述1 1.1 课题背景1 1.2 网络爬虫的历史和分类1 1.2.1 网络爬虫的历史1 1.2.2 网络爬虫的分类2 1.3 网络爬虫的发展趋势3第二章相关技术背景52.1 网络爬虫的定义5 2.2 网页搜索策略介绍5 2.2.1 广度优先搜索策略5 2
10、.2.2 最佳优先搜索策略6 2.3 判断相关度算法6第三章网络爬虫模型的分析和概要设计83.1 网络爬虫的模型分析8 3.2 网络爬虫的搜索策略8 3.3 网络爬虫的主题相关度判断9 3.4 网络爬虫的概要设计11第四章网络爬虫模型的设计和实现144.1 网络爬虫总体设计14 4.2 网络爬虫具体设计14 4.2.1 爬取网页14 4.2.2 分析网页15 4.2.3 判断相关度16 4.2.4 保存网页信息17 4.2.5 数据库设计和存储17 4.2.6 多线程的实现17 4.2.7 附加功能18 4.2.8 整体流程18第五章测试20 第六章总结和展望24 第一章概述1.1 课题背景 网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。 网络检索功能起于互联网内容爆炸性发展所带来的对内容检索的需求。搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容.如何使搜索引擎能时刻满足人们的需求。最初的检索功能通过索引站的方式实现,而有了网络机器人,即网络爬虫这个技术之后,搜索引擎的时代便开始一发不
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1