三步掌握集搜客gooseeker网页抓取软件.docx

上传人:b****6 文档编号:7803051 上传时间:2023-01-26 格式:DOCX 页数:13 大小:937.10KB
下载 相关 举报
三步掌握集搜客gooseeker网页抓取软件.docx_第1页
第1页 / 共13页
三步掌握集搜客gooseeker网页抓取软件.docx_第2页
第2页 / 共13页
三步掌握集搜客gooseeker网页抓取软件.docx_第3页
第3页 / 共13页
三步掌握集搜客gooseeker网页抓取软件.docx_第4页
第4页 / 共13页
三步掌握集搜客gooseeker网页抓取软件.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

三步掌握集搜客gooseeker网页抓取软件.docx

《三步掌握集搜客gooseeker网页抓取软件.docx》由会员分享,可在线阅读,更多相关《三步掌握集搜客gooseeker网页抓取软件.docx(13页珍藏版)》请在冰豆网上搜索。

三步掌握集搜客gooseeker网页抓取软件.docx

三步掌握集搜客gooseeker网页抓取软件

集搜客入门——三步掌握集搜客

对集搜客功能按钮有一定了解后,下面将讲解集搜客的实操应用,我们先从最基本的入门,下面将通过定义一个简单的抓取规则,来感受一下集搜客是如何使用的。

按照以下三步走,就可以完成抓取规则的定义和抓取数据,如下图所示。

第一步:

用MS谋数台建立整理箱

∙确定目标网页和抓取内容

确定目标网页(即样本网址)和要抓取的网页信息(即抓取内容),根据网页信息的结构,建立一个整理箱,用于整理和存储网页上的信息。

1.样本网址:

2.采集内容:

采集网页中所有帖子的topic标题和replies回复数量。

3.网页分析:

样本网页是一个简单的列表结构,采集内容就是列表中的标题和回复数量,这样就可以确定整理箱里要存储的信息点了。

此外,为了完整抓取网页列表上的信息,还会用到MS谋数台的样例复制功能,此外,要抓取该网页的所有帖子,需要设置翻页抓取,但本章只详细讲解如何抓取网页列表信息,翻页的详细操作请学习教程集搜客如何翻页抓取网页数据。

4.规则:

集搜客_入门,想要深入了解如何操作可以到资源上下载集搜客_入门规则来查看和体验。

∙命名主题

加载样本网址,为该网页命名主题,以后就可以根据这个主题名查找和修改该网页的抓取规则,如图1。

图1:

命名主题

∙图1步骤分解:

1.点击火狐浏览器的“工具”菜单,打开MS谋数台。

2.在“网址框”中输入或复制粘贴样本网址,回车Enter后就会自动加载网页,加载完成后,状态栏会显示“完成”标志,“页面地址”也会自动填入当前样本网址,这两个就是完成网页加载的标志。

3.输入主题名,主题名可以是中文、英文、数字、字符的组合。

4.由于主题名要求是唯一的,所以,还要点击“查重”按钮来检查主题名是否唯一有效。

∙创建整理箱

根据要抓取的网页信息,建立存储这些信息的整理箱结构。

图2:

创建整理箱

∙图2步骤分解:

1.切换到“创建规则”窗口,点击整理箱操作区的“新建”创建一个整理箱,输入整理箱名称后确定,这是整理箱的顶层节点,用于包容新建的抓取内容。

2.右击整理箱空白处,弹出快捷菜单,选择“添加“->”包容“,输入抓取内容的名称,为顶层节点建立包容的抓取内容节点。

3.根据第2步方法,依次建立新的抓取内容。

4.对于网页上的关键信息(即网页上显示出来的并且可以采集到的信息),可以点击该抓取内容,并勾选“关键内容”,这是告诉DS打数机要重点采集这些信息。

第二步:

把网页信息映射到整理箱

∙为整理箱建立映射关系

要想从网页上抓数据,就得告诉软件,网页上哪个信息是抓取内容,这个过程叫做“映射”,看图3,把浏览器中的红框内容映射给整理箱的“标题”,为了准确抓取到目标信息,要在网页结构窗口中做映射操作,在浏览器窗口点击内容时,会在网页结构窗口自动定位,反过来在网页结构窗口点击HTML标签,也可以在浏览器窗口中看到红框闪烁(如果你能一只眼看上面,同时另一只眼看下面,这个联动效果就更加明显);把网页信息与整理箱的抓取内容建立映射关系,根据映射关系,MS谋数台会自动生成网页的提取程序即抓取规则,而这个规则就是告诉DS打数机要抓取网页哪些信息,如图3所示。

图3:

建立映射关系

∙图3步骤分解:

1.点击定位:

点击网页列表上的第一条标题,会弹出该信息的定位提示框,通常是定位到模块节点(即包含多个下层节点,可双击展开,例如A节点)

2.找出网页信息对应的HTML标签:

双击该节点展开下一层,找出包含标题的HTML标签,每个节点包含的信息可以在“文本内容框”中看到,一般网页上的文本信息是以#text节点显示。

3.内容映射:

右击节点弹出快捷菜单,选择“内容映射”->“对应整理箱的抓取内容”,映射后,抓取内容的DOM位置将由默认的-1更新为映射的节点位置。

4.按照这种方法,对整理箱的抓取内容都进行映射。

PS:

内容映射只可以映射#text节点和属性节点(以@开头的节点),关于如何映射模块节点将在后续章节讲解。

5.可对顶层节点映射一个范围节点,这样可以限制整个抓取范围,提高抓取准确率。

即:

找出包容目标信息的HTML标签并映射给整理箱的顶层节点,如果不进行人工映射的话,MS谋数台也会智能选择一个DOM节点范围,当然,人工映射就会更加精准。

∙样例复制

为了抓取完整的网页列表信息,还要对整理箱做样例复制,针对网页上结构相同的信息,利用样例复制功能,只需对网页列表的第一条信息定义与整理箱的映射关系,就可以把网页上相同结构的信息都抓取下来,如图4。

图4:

样例复制

∙图4步骤分解:

1.选中整理箱的“列表”节点,勾选“样例复制管理”框中的“启用”按钮,通过对“列表”节点做样例复制,就可以套用“标题”和“回复数量”这两个抓取内容的映射关系,从而把网页上具有相同结构的信息都提取下来。

PS:

通常选择整理箱中包容抓取内容的上层节点做样例复制,并且,做了“样例复制”的节点(如顶层节点“列表”)就不能再进行内容映射。

2.启用样例复制后,还要对网页上相同结构的两个样例做映射,这样,DS打数机就能根据两个样例的DOM位置关系,计算出其它信息的位置,从而,精确提取网页列表上的每一条信息。

3.点击网页列表上的第一条信息,找到包含整条信息的HTML标签(在定位基础上,逐个点击上层的HTML标签,当看到网页上有能框住整条信息的红框闪烁时,说明这就是可做样例复制的HTML标签),右击选择“样例复制”->“第一个”,把它映射给样例1,这样,“样例复制管理”框中的样例1就会映射上对应HTML标签的DOM编号。

4.点击第二条信息,找到包含整条信息的HTML标签,右击选择“样例复制”->“第二个”,映射给样例2,“样例复制管理”框中的样例2就会映射上对应HTML标签的DOM编号。

tips:

样例复制要怎么选择html节点来映射?

有个技巧就是可以找出框住整个列表的html节点,然后点击这个节点展开,就能看到一行行具有html标签名称的节点,如下图4-1,再来找到能框住整个样例的节点;当然技巧也要多练,这个就要自己多点击html标签来尝试,积累经验后就能准确快速地找到样例节点,而且也不是生搬硬套的,还要看具体的网页结构情况,对于入门用户来说,这个还是挺难的,但只要勇于摸索和实践,不懂的可以去查看html结构的基本知识,了解基本知识后再来操作效果会更好。

图4-1:

样例列表

∙测试规则有效性

定义好映射关系后,可以测试一下规则是否有效,是否能采集到目标信息,如图5。

图5:

测试

∙图5步骤分解:

1.点击“测试”按钮,马上就能验证规则的有效性和抓取内容的准确性。

2.如果整理箱与网页的映射关系没有错误的话,MS谋数台就会自动生成抓取规则,根据抓取规则自动提取网页信息,在“输出信息”窗口可以看到相应的采集信息。

PS:

每一条信息都会显示在之间。

∙保存规则

定义好映射关系后,点击“存规则”按钮,把规则保存到服务器中,这样,DS打数机就可以用这个规则来抓取网页上的信息,以后也可以通过MS谋数台查看和修改规则,如图6。

图6:

存规则

∙图6步骤分解:

1.点击“测试”按钮,查看输出数据是否有遗漏。

2.若无遗漏,就点击右上角的“存规则”按钮,保存规则后,就会把样本网址保存为一条线索,这就说明,每个规则保存后都只有一条等待抓取的线索网址,即样本网址。

3.若有遗漏或报错,就要调整整理箱与网页信息的映射关系。

4.点击“爬数据”按钮,抓取网页数据。

PS:

定义规则后,必须点击“存规则”按钮,否则,DS打数机无法抓取数据。

第三步:

用DS打数机抓取网页数据

∙启动DS打数机抓取网页数据

每个规则保存后都只有一条网址线索(即样本网址),要抓数据就要使用DS打数机,DS打数机就是一个网络爬虫,会根据定义好的抓取规则,执行网页数据提取操作,如图7。

图7:

启动DS打数机抓取网页数据

∙图7步骤分解:

1.存规则后,点击右上角的“爬数据”按钮,立即启动DS打数机,抓取当前网页数据。

PS:

“爬数据”按钮是DS打数机的快捷启动方式,也可以通过火狐浏览器的工具菜单来启动DS打数机。

2.数据抓取过程是在浏览器中进行的,抓取成功后,数据文件会在本地存储。

tips:

如何手工启动DS打数机抓取数据?

除了用“爬数据”快捷启动DS打数机外,还可以通过人工启动,人工操作可以实现更加便捷的数据抓取和查看规则的运行情况,具体方法如下:

1.在火狐浏览器的“工具”菜单中打开“DS打数机”。

2.在搜索框中输入规则名称,如果忘记了,可以输入*,或者右击选择“浏览主题”,这样就查看到自己的所有规则名称。

3.右击规则名称,选择“统计线索”,查看该规则还有多少条等待抓取的线索,这也可以用来查看该规则的抓取情况(即查看成功多少,失败多少),如图7-1。

4.然后点击“单搜”/“集搜”按钮,输入需要抓取的线索数量,确定就启动抓取任务了。

图7-1:

手工启动DS打数机

tips:

如何用同一个规则抓取多个网址的网页数据?

同一个规则可以用来抓取相同网页结构的网页,也就是说,针对京东的一个产品网页(如:

义了一个抓取规则,这个抓取规则还可以用来抓取京东上其它产品的网页数据,这样,就免去了对每一个网页都定义规则的重复工作,只需针对同类网页结构的一个网页定义出通用的抓取规则,就可以用一个规则来抓取所有同类网页的数据。

具体的操作方法如下:

1.在DS打数机搜索规则名称,如果忘记规则名称,可以在搜索框中输入*,或者右击选择“浏览主题”,就可以看到自己拥有的所有规则名称。

2.右击规则名称,选择“管理线索”->“添加”,然后把同类网页的网址输入进去,也可以用excel把网址整理好,然后直接粘贴,保存就会生成等待抓取的线索,如图7-2。

3.右击规则名称,选择“统计线索”,查看有多少等待抓取的线索网址,这就是表示可以用该规则抓取多少条网址的网页数据。

4.点击“单搜”/“集搜”按钮,输入需要抓取的线索数量(<=等待抓取的线索数量),这样就可以抓取多网页数据了。

图7-2:

添加线索

tips:

DS打数机报错“没有等待抓取的线索”是什么原因?

保存规则时都会把样本网址保存为线索网址,所以,每个规则在一开始都只有一条等待抓取的线索,“存规则”后再点击“爬数据”,DS打数机就会执行抓取任务,这样就会消耗掉这条线索网址(无论成功或失败),再想要抓就会提示没有等待抓取的线索了,也就是说“没有等待抓取的线索”表示已经抓取完所有等待抓取的线索网址了。

想要继续用该规则抓数据,可以在DS打数机通过下面的方法生成线索:

1.如果想要再次抓取相同网址的数据,可以右击规则名称,选择“管理线索”->“激活所有线索”,这样就会把抓过的所有线索网址都激活一遍,可以用来重新抓取数据。

2.如果只需抓取失败网页的数据,右击规则名称,选择“管理线索”->“激活失败线索”,这样就可以只激活失败的线索网址,单独再抓一遍这些网址,如图7-3。

3.如果想要抓取新的网页,可以通过添加线索实现,右击规则名称,选择“管理线索”->“添加”,输入新的网址,或者用excel整理后粘贴过去,这样就能添加新的线索网址。

当然,前提是要具有相同的网页结构,这步操作可以实现用同一个规则抓取多个网址的网页数据。

图7-3:

激活线索

∙查看数据文件

DS打数机成功抓取一个网页,就会生成一个XML文件,并且会存储在本地电脑中,如图8。

图8:

查看数据文件

∙图8步骤分解:

1.点击DS打数机的“文件”菜单->“存储路径”,弹出“自定义存储路径”会话框,在这里可以看到数据文件的存储路径。

PS:

也可以选择自己喜欢的文件夹作为存储路径。

2.根据这个存储路径,打开本地文件夹DataScraperWorks,就可以看到对应规则的文件夹,打开就可以看到成功抓取的数据文件。

3.数据文件是XML类型的,可以用记事本、浏览器打开,也可以用Excel打开,excel格式如图9,可参考文章“如何用Excel打开和查看XML文件”。

图9:

数据结果

扩展阅读:

∙HTML元素

∙HTML属性

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 面试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1