基于python的网页爬虫PPT格式课件下载.ppt

资源描述

基于python的网页爬虫PPT格式课件下载.ppt

《基于python的网页爬虫PPT格式课件下载.ppt》由会员分享，可在线阅读，更多相关《基于python的网页爬虫PPT格式课件下载.ppt（16页珍藏版）》请在冰豆网上搜索。

基于python的网页爬虫PPT格式课件下载.ppt

它是搜索引擎重要的组成部分。

网络爬虫,网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

爬虫的分类：

网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：

通用网络爬虫（GeneralPurposeWebCrawler）聚焦网络爬虫（FocusedWebCrawler）增量式网络爬虫（IncrementalWebCrawler）深层网络爬虫（DeepWebCrawler）,Storeofspiderandbigdata,爬虫能做什么,能做什么？

不能做什么？

CanCannot,EverythingonHTMLbasedinternet!

Badthings!

通常意义来说，爬虫是为了在互联网中获取各种各样的信息，如果说浏览器能完成的页面访问，那么爬虫工程师都可以做出相应的爬虫。

那么问题在于，爬虫开发的Cost和Benefit是否能平衡。

对于敏感和隐私的数据，除非本人组织同意，否者万万不要去尝试获取这些数据。

问题,为什么Scrapy是流行的爬虫开发框架？

ScrapyScratchpython,基于Python的快速、高层次的屏幕和Web抓去框架，用户专区Web站点（包括H5，移动端Wap站点）并从页面中提取结构化的数据。

Scrapy除了可以用来做爬虫，获取数据和数据监测；

另外还可以用作自动化测试框架！

Scrapy开发源码，可以做任意的修改，同时提供能各种类型的爬虫基类，如BaseSpider，sitemap，CrawlSpider，,使用Twisted异步网络库实现异步网络请求,十分灵活：

ScrapyEngine负责整体协调，可以任意增加南北接口，借鉴Django的Middleware概念容易控制：

良好的Html协议支持，并发数可控，开放性好,ScrapyEngine：

处理整个系统的数据流处理、触发事物Scheduler：

管理Request请求的出入栈；

去除重复的请求Downloader：

基于Twisted的异步下载器（不处理JS）Pipeline：

数据持久化，也可以在此添加验证和去重的功能DownloadMiddleware：

介于ScrapyEngine和下载器之间的middleware，处理两者这件的输入和输出请求SpiderMiddleware：

介于ScrapyEngine和Spider。

SchedulerMiddleware：

介于ScrapyEngine和Scheduler。

爬取简易流程,1.Engine从Scheduler取出一个Url2.Engine讲Url包装成Request，并交由Downloader3.Downloader收到Response后，由具体的爬虫解析后生成结构化的Item数据4.把Item扔给Pipeline，Pipeline最终复杂实现数据的存储,Scrapy的短板,不能完整的模拟浏览器。

目前不能执行JavaScript。

因为scrapy框架的DownloadMiddleware没有集成任何浏览器内核。

问题：

Scrapy不能执行JavaScript，怎么办？

学习Scrapy需要准备的知识,Scrapy支持Python2.x和3.x理解关键字yield了解Html协议基本熟悉xml解析和正则表达式,Soeasy？

来认识这位“爬虫”,新建工程：

scrapystartporject创建需要的Item、pipeline。

在spiders目录下完成.py运行scrapycrawl,

展开阅读全文