三步掌握集搜客gooseeker网页抓取软件.docx

资源描述

三步掌握集搜客gooseeker网页抓取软件.docx

《三步掌握集搜客gooseeker网页抓取软件.docx》由会员分享，可在线阅读，更多相关《三步掌握集搜客gooseeker网页抓取软件.docx（13页珍藏版）》请在冰豆网上搜索。

三步掌握集搜客gooseeker网页抓取软件.docx

三步掌握集搜客gooseeker网页抓取软件

集搜客入门——三步掌握集搜客

对集搜客功能按钮有一定了解后，下面将讲解集搜客的实操应用，我们先从最基本的入门，下面将通过定义一个简单的抓取规则，来感受一下集搜客是如何使用的。

按照以下三步走，就可以完成抓取规则的定义和抓取数据，如下图所示。

第一步：

用MS谋数台建立整理箱

∙确定目标网页和抓取内容

确定目标网页（即样本网址）和要抓取的网页信息（即抓取内容），根据网页信息的结构，建立一个整理箱，用于整理和存储网页上的信息。

1.样本网址：

2.采集内容：

采集网页中所有帖子的topic标题和replies回复数量。

3.网页分析：

样本网页是一个简单的列表结构，采集内容就是列表中的标题和回复数量，这样就可以确定整理箱里要存储的信息点了。

此外，为了完整抓取网页列表上的信息，还会用到MS谋数台的样例复制功能，此外，要抓取该网页的所有帖子，需要设置翻页抓取，但本章只详细讲解如何抓取网页列表信息，翻页的详细操作请学习教程集搜客如何翻页抓取网页数据。

4.规则：

集搜客_入门，想要深入了解如何操作可以到资源上下载集搜客_入门规则来查看和体验。

∙命名主题

加载样本网址，为该网页命名主题，以后就可以根据这个主题名查找和修改该网页的抓取规则，如图1。

图1：

命名主题

∙图1步骤分解：

1.点击火狐浏览器的“工具”菜单，打开MS谋数台。

2.在“网址框”中输入或复制粘贴样本网址，回车Enter后就会自动加载网页，加载完成后，状态栏会显示“完成”标志，“页面地址”也会自动填入当前样本网址，这两个就是完成网页加载的标志。

3.输入主题名，主题名可以是中文、英文、数字、字符的组合。

4.由于主题名要求是唯一的，所以，还要点击“查重”按钮来检查主题名是否唯一有效。

∙创建整理箱

根据要抓取的网页信息，建立存储这些信息的整理箱结构。

图2：

创建整理箱

∙图2步骤分解：

1.切换到“创建规则”窗口，点击整理箱操作区的“新建”创建一个整理箱，输入整理箱名称后确定，这是整理箱的顶层节点，用于包容新建的抓取内容。

2.右击整理箱空白处，弹出快捷菜单，选择“添加“->”包容“，输入抓取内容的名称，为顶层节点建立包容的抓取内容节点。

3.根据第2步方法，依次建立新的抓取内容。

4.对于网页上的关键信息（即网页上显示出来的并且可以采集到的信息），可以点击该抓取内容，并勾选“关键内容”，这是告诉DS打数机要重点采集这些信息。

第二步：

把网页信息映射到整理箱

∙为整理箱建立映射关系

要想从网页上抓数据，就得告诉软件，网页上哪个信息是抓取内容，这个过程叫做“映射”，看图3，把浏览器中的红框内容映射给整理箱的“标题”，为了准确抓取到目标信息，要在网页结构窗口中做映射操作，在浏览器窗口点击内容时，会在网页结构窗口自动定位，反过来在网页结构窗口点击HTML标签，也可以在浏览器窗口中看到红框闪烁（如果你能一只眼看上面，同时另一只眼看下面，这个联动效果就更加明显）；把网页信息与整理箱的抓取内容建立映射关系，根据映射关系，MS谋数台会自动生成网页的提取程序即抓取规则，而这个规则就是告诉DS打数机要抓取网页哪些信息，如图3所示。

图3：

建立映射关系

∙图3步骤分解：

1.点击定位：

点击网页列表上的第一条标题，会弹出该信息的定位提示框，通常是定位到模块节点（即包含多个下层节点，可双击展开，例如A节点）

2.找出网页信息对应的HTML标签：

双击该节点展开下一层，找出包含标题的HTML标签，每个节点包含的信息可以在“文本内容框”中看到，一般网页上的文本信息是以#text节点显示。

3.内容映射：

右击节点弹出快捷菜单，选择“内容映射”->“对应整理箱的抓取内容”，映射后，抓取内容的DOM位置将由默认的-1更新为映射的节点位置。

4.按照这种方法，对整理箱的抓取内容都进行映射。

PS：

内容映射只可以映射#text节点和属性节点（以@开头的节点）,关于如何映射模块节点将在后续章节讲解。

5.可对顶层节点映射一个范围节点，这样可以限制整个抓取范围，提高抓取准确率。

即：

找出包容目标信息的HTML标签并映射给整理箱的顶层节点，如果不进行人工映射的话，MS谋数台也会智能选择一个DOM节点范围，当然，人工映射就会更加精准。

∙样例复制

为了抓取完整的网页列表信息，还要对整理箱做样例复制，针对网页上结构相同的信息，利用样例复制功能，只需对网页列表的第一条信息定义与整理箱的映射关系，就可以把网页上相同结构的信息都抓取下来，如图4。

图4：

样例复制

∙图4步骤分解：

1.选中整理箱的“列表”节点，勾选“样例复制管理”框中的“启用”按钮，通过对“列表”节点做样例复制，就可以套用“标题”和“回复数量”这两个抓取内容的映射关系，从而把网页上具有相同结构的信息都提取下来。

PS：

通常选择整理箱中包容抓取内容的上层节点做样例复制，并且，做了“样例复制”的节点（如顶层节点“列表”）就不能再进行内容映射。

2.启用样例复制后，还要对网页上相同结构的两个样例做映射，这样，DS打数机就能根据两个样例的DOM位置关系，计算出其它信息的位置，从而，精确提取网页列表上的每一条信息。

3.点击网页列表上的第一条信息，找到包含整条信息的HTML标签（在定位基础上，逐个点击上层的HTML标签，当看到网页上有能框住整条信息的红框闪烁时，说明这就是可做样例复制的HTML标签），右击选择“样例复制”->“第一个”，把它映射给样例1，这样，“样例复制管理”框中的样例1就会映射上对应HTML标签的DOM编号。

4.点击第二条信息，找到包含整条信息的HTML标签，右击选择“样例复制”->“第二个”，映射给样例2，“样例复制管理”框中的样例2就会映射上对应HTML标签的DOM编号。

tips：

样例复制要怎么选择html节点来映射？

有个技巧就是可以找出框住整个列表的html节点，然后点击这个节点展开，就能看到一行行具有html标签名称的节点，如下图4-1，再来找到能框住整个样例的节点；当然技巧也要多练，这个就要自己多点击html标签来尝试，积累经验后就能准确快速地找到样例节点，而且也不是生搬硬套的，还要看具体的网页结构情况，对于入门用户来说，这个还是挺难的，但只要勇于摸索和实践，不懂的可以去查看html结构的基本知识，了解基本知识后再来操作效果会更好。

图4-1：

样例列表

∙测试规则有效性

定义好映射关系后，可以测试一下规则是否有效，是否能采集到目标信息，如图5。

图5：

测试

∙图5步骤分解：

1.点击“测试”按钮，马上就能验证规则的有效性和抓取内容的准确性。

2.如果整理箱与网页的映射关系没有错误的话，MS谋数台就会自动生成抓取规则，根据抓取规则自动提取网页信息，在“输出信息”窗口可以看到相应的采集信息。

PS：

每一条信息都会显示在和之间。

∙保存规则

定义好映射关系后，点击“存规则”按钮，把规则保存到服务器中，这样，DS打数机就可以用这个规则来抓取网页上的信息，以后也可以通过MS谋数台查看和修改规则，如图6。

图6：

存规则

∙图6步骤分解：

1.点击“测试”按钮，查看输出数据是否有遗漏。

2.若无遗漏，就点击右上角的“存规则”按钮，保存规则后，就会把样本网址保存为一条线索，这就说明，每个规则保存后都只有一条等待抓取的线索网址，即样本网址。

3.若有遗漏或报错，就要调整整理箱与网页信息的映射关系。

4.点击“爬数据”按钮，抓取网页数据。

PS：

定义规则后，必须点击“存规则”按钮，否则，DS打数机无法抓取数据。

第三步：

用DS打数机抓取网页数据

∙启动DS打数机抓取网页数据

每个规则保存后都只有一条网址线索（即样本网址），要抓数据就要使用DS打数机，DS打数机就是一个网络爬虫，会根据定义好的抓取规则，执行网页数据提取操作，如图7。

图7：

启动DS打数机抓取网页数据

∙图7步骤分解：

1.存规则后，点击右上角的“爬数据”按钮，立即启动DS打数机，抓取当前网页数据。

PS：

“爬数据”按钮是DS打数机的快捷启动方式，也可以通过火狐浏览器的工具菜单来启动DS打数机。

2.数据抓取过程是在浏览器中进行的，抓取成功后，数据文件会在本地存储。

tips：

如何手工启动DS打数机抓取数据？

除了用“爬数据”快捷启动DS打数机外，还可以通过人工启动，人工操作可以实现更加便捷的数据抓取和查看规则的运行情况，具体方法如下：

1.在火狐浏览器的“工具”菜单中打开“DS打数机”。

2.在搜索框中输入规则名称，如果忘记了，可以输入*，或者右击选择“浏览主题”，这样就查看到自己的所有规则名称。

3.右击规则名称，选择“统计线索”，查看该规则还有多少条等待抓取的线索，这也可以用来查看该规则的抓取情况（即查看成功多少，失败多少），如图7-1。

4.然后点击“单搜”/“集搜”按钮，输入需要抓取的线索数量，确定就启动抓取任务了。

图7-1：

手工启动DS打数机

tips：

如何用同一个规则抓取多个网址的网页数据？

同一个规则可以用来抓取相同网页结构的网页，也就是说，针对京东的一个产品网页（如：

义了一个抓取规则，这个抓取规则还可以用来抓取京东上其它产品的网页数据，这样，就免去了对每一个网页都定义规则的重复工作，只需针对同类网页结构的一个网页定义出通用的抓取规则，就可以用一个规则来抓取所有同类网页的数据。

具体的操作方法如下：

1.在DS打数机搜索规则名称，如果忘记规则名称，可以在搜索框中输入*，或者右击选择“浏览主题”，就可以看到自己拥有的所有规则名称。

2.右击规则名称，选择“管理线索”->“添加”，然后把同类网页的网址输入进去，也可以用excel把网址整理好，然后直接粘贴，保存就会生成等待抓取的线索，如图7-2。

3.右击规则名称，选择“统计线索”，查看有多少等待抓取的线索网址，这就是表示可以用该规则抓取多少条网址的网页数据。

4.点击“单搜”/“集搜”按钮，输入需要抓取的线索数量（<=等待抓取的线索数量），这样就可以抓取多网页数据了。

图7-2：

添加线索

tips：

DS打数机报错“没有等待抓取的线索”是什么原因？

保存规则时都会把样本网址保存为线索网址，所以，每个规则在一开始都只有一条等待抓取的线索，“存规则”后再点击“爬数据”，DS打数机就会执行抓取任务，这样就会消耗掉这条线索网址（无论成功或失败），再想要抓就会提示没有等待抓取的线索了，也就是说“没有等待抓取的线索”表示已经抓取完所有等待抓取的线索网址了。

想要继续用该规则抓数据，可以在DS打数机通过下面的方法生成线索：

1.如果想要再次抓取相同网址的数据，可以右击规则名称，选择“管理线索”->“激活所有线索”，这样就会把抓过的所有线索网址都激活一遍，可以用来重新抓取数据。

2.如果只需抓取失败网页的数据，右击规则名称，选择“管理线索”->“激活失败线索”，这样就可以只激活失败的线索网址，单独再抓一遍这些网址，如图7-3。

3.如果想要抓取新的网页，可以通过添加线索实现，右击规则名称，选择“管理线索”->“添加”，输入新的网址，或者用excel整理后粘贴过去，这样就能添加新的线索网址。

当然，前提是要具有相同的网页结构，这步操作可以实现用同一个规则抓取多个网址的网页数据。

图7-3：

激活线索

∙查看数据文件

DS打数机成功抓取一个网页，就会生成一个XML文件，并且会存储在本地电脑中,如图8。

图8：

查看数据文件

∙图8步骤分解：

1.点击DS打数机的“文件”菜单->“存储路径”，弹出“自定义存储路径”会话框，在这里可以看到数据文件的存储路径。

PS：

也可以选择自己喜欢的文件夹作为存储路径。

2.根据这个存储路径，打开本地文件夹DataScraperWorks，就可以看到对应规则的文件夹，打开就可以看到成功抓取的数据文件。

3.数据文件是XML类型的，可以用记事本、浏览器打开，也可以用Excel打开，excel格式如图9，可参考文章“如何用Excel打开和查看XML文件”。

图9：

数据结果

扩展阅读：

∙HTML元素

∙HTML属性

展开阅读全文