网络爬虫毕业论文.docx

资源描述

网络爬虫毕业论文.docx

《网络爬虫毕业论文.docx》由会员分享，可在线阅读，更多相关《网络爬虫毕业论文.docx（66页珍藏版）》请在冰豆网上搜索。

网络爬虫毕业论文.docx

网络爬虫毕业论文

抓取网页中所有链接Java代码

摘要

因特网目前是一个巨大、分布广泛、全球性的信息服务中心，它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。

但Internet所固有的开放性、动态性与异构性，使得准确快捷地获取网络信息存在一定难度。

本文的目的就是对网站内容进行分析，解析其中的超链接以及对应的正文信息，然后再通过URL与正文反馈网站内容，设计出抓取网页链接这个程序。

抓取网页中的所有链接是一种搜集互联网信息的程序。

通过抓取网页中的链接能够为搜索引擎采集网络信息，这种方法有生成页面简单、快速的优点，提高了网页的可读性、安全性，生成的页面也更利于设计者使用。

关键词:

网页解析;JAVA;链接;信息抽取

ScrapingofthepagealllinksintheJavacode

Abstract

TheInternetisalarge,widelydistributed,globalinformationservicecenter,itinvolvesnews,advertisement,consumptioninformation,financialmanagement,education,government,electroniccommerceandmanyotherinformationservices.ButtheInternetinherentintheopen,dynamicandheterogeneoussex,makequicklyandaccuratelyobtainthenetworkinformationhascertaindifficulty.

Thepurposeofthisarticleistoanalyzethecontentofthewebsite,whichresolvesthehyperlinkandthecorrespondingtextmessage,andthenthroughthewebsiteURLandthetextcontentofthefeedback,designthescrapingofthepagelinkstothisprogram.

ScrapingofthepagealllinksisaprogramtocollectinformationontheInternet.Collectedbysearchenginescancrawltheweblinkinthenetworkinformation,thisapproachhasgeneratedpageissimple,quickadvantage,improvethereadabilityofwebsecurity,generatedpagesarealsomoreconducivetothedesignertouse.

Keywords:

Pageanalysis;JAVA;link;informationext

摘要........................................................................................................................................I

ABSTRACT..............................................................................................................................II

1绪论.....................................................................................................................................1

1.1课题背景.......................................................................................................................11.2网页信息抓取的历史和应用......................................................................................11.3抓取链接技术的现状...................................................................................................2

1.3.1网页信息抓取的应用...........................................................................................3

1.3.2网页信息提取定义...............................................................................................42系统开发技术和工具........................................................................................................72.1项目开发的工具...........................................................................................................7

2.1.1Tomcat简介...........................................................................................................7

2.1.2MyEclipse简介.....................................................................................................72.2项目开发技术...............................................................................................................8

2.2.1JSP简介.................................................................................................................8

2.2.2Servlet简介.........................................................................................................10

2.3创建线程....................................................................................................................11

2.3.1创建线程方式.....................................................................................................11

2.3.2JAVA中的线程的生命周期...............................................................................12

2.3.3JAVA线程的结束方式.......................................................................................12

2.3.4多线程同步..........................................................................................................123系统需求分析...................................................................................................................143.1需求分析.....................................................................................................................143.2可行性分析.................................................................................................................14

3.2.1操作可行性..........................................................................................................14

3.2.2技术可行性..........................................................................................................14

3.2.3经济可行性.........................................................................................................15

3.2.4法律可行性..........................................................................................................153.3业务分析.....................................................................................................................153.4功能需求.....................................................................................................................174概要设计...........................................................................................................................184.1运行工具.....................................................................................................................184.2抓取网页中所有链接的体系结构............................................................................18

4.3抓取网页中链接工作过程.........................................................................................194.4页面的设计...............................................................................................................20

4.4.1页面的配置..........................................................................................................20

4.4.2系统主页面..........................................................................................................215系统详细设计与实现......................................................................................................245.1抓取链接工作.............................................................................................................245.2URL解析....................................................................................................................255.3抓取原理.....................................................................................................................26

5.3.1初始化URL.........................................................................................................26

5.3.2读取页面..............................................................................................................27

5.3.3解析网页..............................................................................................................275.4URL读取、解析........................................................................................................29

5.4.1URL读取.............................................................................................................29

5.4.2URL解析.............................................................................................................306系统测试...........................................................................................................................336.1软件测试简介.............................................................................................................336.2软件测试方法.............................................................................................................336.3测试结果.....................................................................................................................34结论.........................................................................................................................................38

参考文献.................................................................................................................................39

致谢.........................................................................................................................................40

外文原文.................................................................................................................................41

外文译文.................................................................................................................................45

1绪论

1.1课题背景

随着互联网的飞速发展，网络上的信息呈爆炸式增长。

这使得人们在网上找到所需的信息越来越困难，为帮助互联网用户有效地发布与接收信息，众多的互联网搜索

[1]引擎如Baidu,Google,Yahoo等不断涌现，向众多互联网用户提供基本的信息搜索服务。

但进入九十年代后期，随着互联网开始进入正常发展时期，仅仅依靠搜索引擎己经无法满足人们对互联网信息服务的需求，因为随着互联网上信息量的不断增加，搜索引擎所能涵盖的网页占整个互联网网页总量的比例越来越小，更主要的原因是，随着搜索引擎所涵盖网页数量的不断增多，互联网用户将会发现越来越难有效地利用这些搜索引擎来帮助自己搜寻所需要的信息资源。

面对浩如烟海的互联网信息资源，仅仅依靠浏览器以及基于关键字检索查询的搜索引擎，己远不能满足互联网用户的信息

[2]需求。

如何帮助人们准确有效地在互联网上搜索自己所需要的有用信息，己经越来

[3]越迫切地摆在了互联网用户的面前。

信息提取是搜索引擎开发过程中最关键的一个步骤，怎么样从互联网这个信息大平台最精确的获得有用信息已成为当前搜索引擎研

[4]究的热点。

每个超链接都对应着相关的文本信息，通过对超链接的分析，可以得到本文想要的感兴趣信息。

抓取网页中所有链接是一个获取网页信息的程序。

本文对网站内容进行解析，提取出网站的链接信息，从而获取其中的文本信息，为下一步开发搜索引擎做准备。

网页内容分析包括分析网页内部的文本信息和对网页内容的结构进行识别两部分，最终

[5]的目的都是提取有效数据、过滤垃圾等信息。

抓取网页中所有链接主要用于分析HTML格式的Web网页，实现网页的内容提取。

从而提取出有用的信息。

它为搜索引擎从互联网上下载网页，是搜索引擎的重要组成部分。

1.2网页信息抓取的历史和应用

在互联网发展初期，网站相对较少，信息查找比较容易。

然而伴随互联网爆炸性的发展，普通网络用户想找到所需的资料简直如同大海捞针，这时为满足大众信息检索需求的专业搜索网站便应运而生了。

现代意义上的搜索引擎的祖先，是1990年由蒙特利尔大学学生AlanEmtage发明的Archie。

虽然当时WorldWideWeb还未出现，但网络中文件传输还是相当频繁的，而且由于大量的文件散布在各个分散的FTP主机中，查询起来非常不便，因此AlanArchie工作原理与现在的搜索引擎已经很接近，它依靠脚本程序自动搜索网上的文件，然后对有关信息进行索引，供使用者以一定的表达式查询。

由于Archie深受用户欢迎，受其启发，美国内华达SystemComputingServices大学于1993年开发了另一个与之非常相似的搜索工具，不过此时的搜索工具除了索引文件外，已能检索网页。

当时，“机器人”一词在编程者中十分流行。

电脑“机器人”（ComputerRobot）是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。

由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去，因此，搜索引擎的“机器人”程

序就被称为“蜘蛛”程序。

世界上第一个用于监测互联网发展规模的“机器人”程序是MatthewGray开发的WorldwideWebWanderer。

刚开始它只用来统计互联网上的服务器数量，后来则发展为能够检索网站域名。

与Wanderer相对应，MartinKoster于1993年10月创建了ALIWEB，它是Archie的HTTP版本。

ALIWEB不使用“机器人”程序，而是靠网站主动提交信息来建立自己的链接索引，类似于现在我们熟知的Yahoo。

随着互联网的迅速发展，使得检索所有新出现的网页变得越来越困难，因此，在MatthewGray的Wanderer基础上，一些编程者将传统的“蜘蛛”程序工作原理作了些改进。

其设想是，既然所有网

展开阅读全文