1、基于 Python 的网络爬虫指导教师职称讲师题目来源科研生产教学模拟其它题目类别论文设计所需学生专业研究的目的和意义近些年,随着以“淘宝”为首的电子商务技术快速发展,越来越多的线下交易逐渐走向线上,其中就包括非法野生动物制品贸易。技术的进步,让大量的非法野生动物贸易成为可能,其灵活的展示方式和便捷的交易方式不仅让网络上相关的交易越发繁荣,相关信息的繁多与复杂也让仅通过人力查看监控变得越发艰难。与之对应的是搜索引擎技术的发展。比如 google,百度。虽然网络中的信息越来越多,越来越复杂,搜索引擎却可以针对某一个关键词对全网进行有效的搜索。不过它们程序的技术内幕一般都不公开,此外庞大的搜索引擎
2、最终显示的结果是全网络遍历结果的最优解,而很难做到有效搜索针对性网站针对关键词的搜索。并且,搜索引擎为了节约搜索速度,多使用比较底层的高级语言编写,庞大且复杂,并不是很好的参考对象。一方面是网络上越发猖獗的野生动物贸易,越来越多的交易使用黑话、特别的缩写在一些小众网站中形成稳定的供应链和交易圈。另一方面搜索引擎技术虽然发展迅速却难以针对性的监测,不断变化的黑话和网站小众性的干扰更让批量抓取信息方便监测变得越发困难。对于这种困境,使用针对性设计网络爬虫来监测相关的交易是一个相当不错的选择。不同于搜索引擎,爬虫程序是一个自动获取网页的程序,可以对针对性的网页内容中的特定内容,做出有效的抓取,并按照
3、设计保存在本地,方便使用。并且,区别于传统的爬虫和引擎,我选择使用 Python 来编写爬虫。不同于传统高级语言(C,Java 等),Python 相对简单易于完成小型项目,其丰富的模块和良好的兼容性也让用其成为编写爬虫程序的优秀选择之一。主要工作内容和要求(1) 要收集有效的网络非法野生动物贸易信息,首先要确定这样的交易主要活跃在什么样的网站,网站中什么样的模块中。由于这些交易并不合法,卖家和卖家都有一套并非正常表达的“行话”“黑话”来避免被搜索引擎直接搜索到,根据 WWF 下属的专门从事相关保护工作的 Traffic 提供的目标网址和关键词。这些信息将有助于我们搜索到相关的交易信息,方便后
4、续的抓取页面中信息的工作。(2) 确认了需要监测的网站和关键词之后,下一步就是其 URL 对应的网页内容进行抓取。首先需要遍历整个网页的 Html 代码,需找其中有价值的信息, 包括交易品名称,交易品链接,卖家信息,交易品照片信息以及交易发布时 间。特别是交易品的链接和照片,由于非法野生动物贸易品本身价值高昂, 造假就成了普遍现象,最终的判断仍需要人肉眼进行鉴别,当然这是后话了, 并不在本次毕业设计项目之中。(3) 完成了抓取之后,还需要将抓取的内容有效的排榜方便阅读。更重要的是可以保存到本地,方便查看和反馈给 WWF 进一步追踪和查处。最好的是可以一个关键词一个链接的输出,方便管理并避免重复
5、作业。工作进度完成VIII文献资料要求指导教师签字: 教研室主任签字: 本任务书双面打印,一式三份。学生一份;教研室一份,用于中期检查;学院教学办公室一份,随学生论文(设计) 保存。电子信息 11-1指导老师摘要随着计算机技术的不断发展,新的编程语言层出不穷,Python,Html 正是其中的佼佼者。相比较早期普及的高级语言(Java,C 语言)等,Python 有着更加实用的模块和库,虽然牺牲了底层性,但却更加方便用于开发小型项目。此外,Html 也已经被普遍用于网站前端,标记语言的特性结合 CSS 丰富了网页内容和形式,某种意义上也促进了更加人性化的电子商务系统的发展。本文的网络爬虫正式基
6、于 Python 语言编写的,通过对 Html 抓取加工将数据可视化,以监测逐渐从线下转移到线上,并随着电子商务发展越发简单普遍难以追踪的非法野生动物贸易。本文首先对计算器语言的发展,尤其是 Python 和 Html 的优势、基础概念以及性能进行介绍。最后着重介绍可以实现检测网络上非法野生动物贸易的爬虫的设计和实现。程序主要包括三个模块:URL 解析,Html 抓取,本地输出。Python 的开发环境和工具分别是 OS X 和 PyChram CE,主要调用了 Python 中的 Urllib2,beautifulsoup 模块。最终的程序可以实现对指定网站,指定关键词抓取指定内容,保存内容
7、到本地,以便于追踪和检测。关键字:Python,HTML,爬虫,非法野生动物贸易Python-Based Illegal wildlife trade SpiderElectronics & Information Technology Program 11-1SupervisorAbstractWith the continuous development of computer technology, the new programming language after another, Python, Html is the one of the best. Compared to th
8、e early popularity of high-level language (Java, C language), etc., Python has a more practical modules and libraries, although at the expense of the underlying property, but it is more convenient for the development of small-scale projects. In addition, Html has also been widely used web front end,
9、 feature rich CSS markup language binding of web content and form, in a sense also promoted the development of a more user-friendly e-commerce system. In this paper, based on the official web crawler written in Python, Html crawling through the data visualization process to monitor the gradual shift
10、 from offline to online, and with the development of electronic commerce more simple universal untraceable illegal wildlife trade.Firstly, the development of the calculator language, especially Python and Html advantages, basic concepts and performance are introduced. The last focuses on the design
11、and implementation can be achieved illegal wildlife trade on the reptile detection network. Program includes three modules: URL parsing, Html capture, data visualization output. Python development environment and tools are OS X and PyChram CE, mainly call in Python Urllib2, re and os module.The fina
12、l program can be specified site designated keyword to crawl the specified content, and output in PC, in order to track and detect.Key words: Python,Html,spider,Illegal wildlife trade目录基于 Python 的网络爬虫I SpiderII 绪论11.1 毕业设计背景与目的11.2 国内外研究状况11.3 论文结构和内容1二 相关技术介绍22.1 Python 语言22.1.1 Python 语言的产生和发展历史22.
13、1.2 Python 语言的原理32.1.3 Python 语言的特色32.1.4 python 语言的缺点42.2 URL42.2.1 URL 的定义42.2.2 URI 和 URL 的对比和举例42.2.3 URL 组成42.3 Html52.3.1 定义52.3.2 Html 原理52.3.3 Html 特点52.4 开发工具52.4.1 Chrome52.4.2 PycharmCE62.4.3 终端6三 项目需求及设计73.1 输入板块分析73.2 需要抓取的内容83.3 本地输出8四 项目分析及实现94.1 输入模块94.1.1 目标网站 URL94.1.2 Urillib2 模块94.1.3 伪装94.2 抓取模块94.2.1 URL 与 html94.2.2 Beautiful Soup 库94.2.3 抓取方法94.3 输出模块104.5 最终效果11五 项目测试125.1 抓取结果错误测试125.2 显示结果错误测试125.3 网络连接测试12六 结论136.1 收获与成长136.2 不足与展望13致谢14参考文献15 绪 论1.1 毕业设计背景与目的虽然网络中的信息越来越多,越来越 复杂,搜索引擎却可以针对某一个关键词对全网进行有效的搜索。不过它们程序的技术内幕一般都 不公开,此外庞大的搜索引擎最终显示的结果是全网
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1