网页链接提取方法.docx

资源描述

网页链接提取方法.docx

《网页链接提取方法.docx》由会员分享，可在线阅读，更多相关《网页链接提取方法.docx（11页珍藏版）》请在冰豆网上搜索。

网页链接提取方法.docx

网页链接提取方法

网页提取方法

网页的提取是数据采集中非常重要的局部，当我们要采集列表页的数据时，除了列表标题的还有页码的，数据采集只采集一页是不够，还要从首页遍历到末页直到把所有的列表标题采集完，然后再用这些采集详情页的信息。

假设仅仅靠手工翻开网页源代码一个一个复制粘贴出来，太麻烦了。

掌握网页提取方法能让我们的工作事半功倍。

在进展数据采集的时候，我们可能有提取网页的需求。

网页提取一般有两种情况：

提取页面内的；提取当前页地址栏的。

针对这两种情况，八爪鱼采集器均有相关功能实现。

下面介绍一个网页提取方法。

一、八爪鱼提取页面内的超

在网页里点击需要提取的，选择“采集以下地址〞

网页提取方法1

二、八爪鱼提取当前地址栏的超

从左边栏拖出一个提取数据的步骤出来〔如果当前页已经有其他的提取字段，这一步可省略〕

点击“添加特殊字段〞，选择“添加当前页面网址〞。

可以看到，当前地址栏的超被抓取下来

网页提取方法2

而批量提取网页的需求，一般是指批量提取页面内的超。

以下是一个使用八爪鱼批量提取页面内超的完整例如。

采集：

//s.taobao./search?

initiative_id=tbindexz_20210918&ie=utf8&spm=a21bo.50862.202156-taobao-item.2&sourceId=tb.index&search_type=item&ssid=s5-e&mend=all&imgfile=&q=手表&suggest=history_1&_input_charset=utf-8&wq=&suggest_query=&source=suggest

步骤1：

\iknow\docshare\data\cur_work\jingyan.baidu\article\javascript:

;创立采集任务

1）进入主界面，选择自定义模式

网页提取方法3

2〕将上面网址的网址复制粘贴到输入框中，点击“保存网址〞

网页提取方法4

3〕保存网址后，页面将在八爪鱼采集器中翻开，红色方框中的商品url

是这次演示采集的信息

网页提取方法5

步骤2：

\iknow\docshare\data\cur_work\jingyan.baidu\article\javascript:

;创立翻页循环

1〕将页面下拉到底部，找到下一页按钮，鼠标点击，在右侧操作提示框中，

选择“循环点击下一页〞

网页提取方法6

步骤3：

商品url采集

1〕如图，移动鼠标选中列表中商品的名称，右键点击，需采集的内容会变成绿色，然后点击“选中全部〞

网页提取方法7

2〕选择“采集以下地址〞

网页提取方法8

3〕点击“保存并开场采集〞

网页提取方法9

4〕根据采集的情况选择适宜的采集方式，这里选择“启动本地采集〞

网页提取方法10

步骤4：

\iknow\docshare\data\cur_work\jingyan.baidu\article\javascript:

;数据采集及导出

1〕选择适宜的导出方式，将采集好的数据导出

网页提取方法11

通过以上操作，目标网页内的商品超就被批量采集下来了。

我们可以使用这些超，建立列表循环，来采集我们需要的其他字段数据，如下所示。

步骤5：

创立url列表采集任务

1〕重新创立一个采集任务，将导出后的商品复制，放到输入框中，点击“保存网址〞

网页提取方法12

注意：

输入框中的url列表数量不要超过2W个，超过的局部可以新建任务进展采集，url翻开的页面必须是一样样式相近的，否那么会导致数据采集缺失。

2〕在页面中点击需要采集的文本数据，点击“采集数据〞

网页提取方法13

3〕翻开流程图，修改采集字段名称，点击“保存并开场采集〞

网页提取方法14

注意：

点击右上角的“流程〞按钮，即可展现出可视化流程图。

4〕采集完成，点击“导出数据〞

网页提取方法15

5〕选择适宜的导出方式，将采集好的数据导出

网页提取方法16

注：

在八爪鱼中，要提取超，需要满足两个条件。

1、点击的字段在A标签，在网页源码中，A标签代表超，如果不是在A标签内，八爪鱼无法判断

2、A标签内有href属性，href属性里的就是点击之后转向的地址，属性里显示什么，八爪鱼就提取什么。

如果没有href属性，自然就没方法提取到。

这些都是八爪鱼自动判断的，其实看不懂也不影响操作。

只是如果发现提取不到的时候，也许就是因为没满足这两个条件，要看当前网页源码的特点，根据特点找别的方式提取数据。