毕业设计（论文）-基于Python 的网络爬虫文档格式.docx

资源描述

毕业设计（论文）-基于Python 的网络爬虫文档格式.docx

《毕业设计（论文）-基于Python 的网络爬虫文档格式.docx》由会员分享，可在线阅读，更多相关《毕业设计（论文）-基于Python 的网络爬虫文档格式.docx（23页珍藏版）》请在冰豆网上搜索。

毕业设计（论文）-基于Python 的网络爬虫文档格式.docx

基于Python的网络爬虫

指导教师

职称

讲师

题目来源

□科研

□生产

□教学

□模拟

□其它

题目类别

□论文

□设计

所需学生专业

研究的目的和意义

近些年，随着以“淘宝”为首的电子商务技术快速发展，越来越多的线下交易逐渐走向线上，其中就包括非法野生动物制品贸易。

技术的进步，让大量的非法野生动物贸易成为可能，其灵活的展示方式和便捷的交易方式不仅让网络上相关的交易越发繁荣，相关信息的繁多与复杂也让仅通过人力查看监控变得越发艰难。

与之对应的是搜索引擎技术的发展。

比如google，百度。

虽然网络中的信息越来越多，越来越复杂，搜索引擎却可以针对某一个关键词对全网进行有效的搜索。

不过它们程序的技术内幕一般都不公开，此外庞大的搜索引擎最终显示的结果是全网络遍历结果的最优解，而很难做到有效搜索针对性网站针对关键词的搜索。

并且，搜索引擎为了节约搜索速度，多使用比较底层的高级语言编写，庞大且复杂，并不是很好的参考对象。

一方面是网络上越发猖獗的野生动物贸易，越来越多的交易使用黑话、特别的缩写在一些小众网站中形成稳定的供应链和交易圈。

另一方面搜索引擎技术虽然发展迅速却难以针对性的监测，不断变化的黑话和网站小众性的干扰更让批量抓取信息方便监测变得越发困难。

对于这种困境，使用针对性设计网络爬虫来监测相关的交易是一个相当不错的选择。

不同于搜索引擎，爬虫程序是一个自动获取网页的程序，可以对针对性的网页内容中的特定内容，做出有效的抓取，并按照设计保存在本地，方便使用。

并且，区别于传统的爬虫和引擎，我选择使用Python来编写爬虫。

不同于传统高级语言（C，Java等），Python相对简单易于完成小型项目，其丰富的模块和良好的兼容性也让用其成为编写爬虫程序的优秀选择之一。

主要工作内容和要求

（1）要收集有效的网络非法野生动物贸易信息，首先要确定这样的交易主要活跃在什么样的网站，网站中什么样的模块中。

由于这些交易并不合法，卖家和卖家都有一套并非正常表达的“行话”“黑话”来避免被搜索引擎直接搜索到，根据WWF下属的专门从事相关保护工作的Traffic提供的目标网址和关键词。

这些信息将有助于我们搜索到相关的交易信息，方便后续的抓取页面中信息的工作。

（2）确认了需要监测的网站和关键词之后，下一步就是其URL对应的网页内容进行抓取。

首先需要遍历整个网页的Html代码，需找其中有价值的信息，包括交易品名称，交易品链接，卖家信息，交易品照片信息以及交易发布时间。

特别是交易品的链接和照片，由于非法野生动物贸易品本身价值高昂，造假就成了普遍现象，最终的判断仍需要人肉眼进行鉴别，当然这是后话了，并不在本次毕业设计项目之中。

（3）完成了抓取之后，还需要将抓取的内容有效的排榜方便阅读。

更重要的是可以保存到本地，方便查看和反馈给WWF进一步追踪和查处。

最好的是可以一个关键词一个链接的输出，方便管理并避免重复作业。

工作进度

完成

VIII

文献资料要求

指导教师签字：

教研室主任签字：

本任务书双面打印，一式三份。

学生一份；

教研室一份，用于中期检查；

学院教学办公室一份，随学生论文（设计）保存。

电子信息11-1

指导老师

摘要

随着计算机技术的不断发展，新的编程语言层出不穷，Python，Html正是其中的佼佼者。

相比较早期普及的高级语言（Java,C语言）等，Python有着更加实用的模块和库，虽然牺牲了底层性，但却更加方便用于开发小型项目。

此外，Html也已经被普遍用于网站前端，标记语言的特性结合CSS丰富了网页内容和形式，某种意义上也促进了更加人性化的电子商务系统的发展。

本文的网络爬虫正式基于Python语言编写的，通过对Html抓取加工将数据可视化，以监测逐渐从线下转移到线上，并随着电子商务发展越发简单普遍难以追踪的非法野生动物贸易。

本文首先对计算器语言的发展，尤其是Python和Html的优势、基础概念以及性能进行介绍。

最后着重介绍可以实现检测网络上非法野生动物贸易的爬虫的设计和实现。

程序主要包括三个模块：

URL解析，Html抓取，本地输出。

Python的开发环境和工具分别是OSX和PyChramCE，主要调用了Python中的Urllib2，beautifulsoup模块。

最终的程序可以实现对指定网站，指定关键词抓取指定内容，保存内容到本地，以便于追踪和检测。

关键字：

Python，HTML，爬虫，非法野生动物贸易

Python-Based"

Illegalwildlifetrade"

Spider

Electronics&

InformationTechnologyProgram11-1

Supervisor

Abstract

Withthecontinuousdevelopmentofcomputertechnology,thenewprogramminglanguageafteranother,Python,Htmlistheoneofthebest.Comparedtotheearlypopularityofhigh-levellanguage（Java,Clanguage）,etc.,Pythonhasamorepracticalmodulesandlibraries,althoughattheexpenseoftheunderlyingproperty,butitismoreconvenientforthedevelopmentofsmall-scaleprojects.Inaddition,Htmlhasalsobeenwidelyusedwebfrontend,featurerichCSSmarkuplanguagebindingofwebcontentandform,inasensealsopromotedthedevelopmentofamoreuser-friendlye-commercesystem.Inthispaper,basedontheofficialwebcrawlerwritteninPython,Htmlcrawlingthroughthedatavisualizationprocesstomonitorthegradualshiftfromofflinetoonline,andwiththedevelopmentofelectroniccommercemoresimpleuniversaluntraceableillegalwildlifetrade.

Firstly,thedevelopmentofthecalculatorlanguage,especiallyPythonandHtmladvantages,basicconceptsandperformanceareintroduced.Thelastfocusesonthedesignandimplementationcanbeachievedillegalwildlifetradeonthereptiledetectionnetwork.Programincludesthreemodules:

URLparsing,Htmlcapture,datavisualizationoutput.PythondevelopmentenvironmentandtoolsareOSXandPyChramCE,mainlycallinPythonUrllib2,reandosmodule.

Thefinalprogramcanbespecifiedsitedesignatedkeywordtocrawlthespecifiedcontent,andoutputinPC,inordertotrackanddetect.

Keywords:

Python,Html,spider,Illegalwildlifetrade

基于Python的网络爬虫 I

Spider II

—绪论 1

1.1毕业设计背景与目的 1

1.2国内外研究状况 1

1.3论文结构和内容 1

二相关技术介绍 2

2.1Python语言 2

2.1.1Python语言的产生和发展历史 2

2.1.2Python语言的原理 3

2.1.3Python语言的特色 3

2.1.4python语言的缺点 4

2.2URL 4

2.2.1URL的定义 4

2.2.2URI和URL的对比和举例 4

2.2.3URL组成 4

2.3Html 5

2.3.1定义 5

2.3.2Html原理 5

2.3.3Html特点 5

2.4开发工具 5

2.4.1Chrome 5

2.4.2PycharmCE 6

2.4.3终端 6

三项目需求及设计 7

3.1输入板块分析 7

3.2需要抓取的内容 8

3.3本地输出 8

四项目分析及实现 9

4.1输入模块 9

4.1.1目标网站URL 9

4.1.2Urillib2模块 9

4.1.3伪装 9

4.2抓取模块 9

4.2.1URL与html 9

4.2.2BeautifulSoup库 9

4.2.3抓取方法 9

4.3输出模块 10

4.5最终效果 11

五项目测试 12

5.1抓取结果错误测试 12

5.2显示结果错误测试 12

5.3网络连接测试 12

六结论 13

6.1收获与成长 13

6.2不足与展望 13

致谢 14

参考文献 15

—绪论

1.1毕业设计背景与目的

虽然网络中的信息越来越多，越来越复杂，搜索引擎却可以针对某一个关键词对全网进行有效的搜索。

不过它们程序的技术内幕一般都不公开，此外庞大的搜索引擎最终显示的结果是全网

展开阅读全文