ImageVerifierCode 换一换
格式:DOCX , 页数:13 ,大小:937.10KB ,
资源ID:7803051      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/7803051.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(三步掌握集搜客gooseeker网页抓取软件.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

三步掌握集搜客gooseeker网页抓取软件.docx

1、三步掌握集搜客gooseeker网页抓取软件集搜客入门三步掌握集搜客对集搜客功能按钮有一定了解后,下面将讲解集搜客的实操应用,我们先从最基本的入门,下面将通过定义一个简单的抓取规则,来感受一下集搜客是如何使用的。按照以下三步走,就可以完成抓取规则的定义和抓取数据,如下图所示。第一步:用MS谋数台建立整理箱 确定目标网页和抓取内容确定目标网页(即样本网址)和要抓取的网页信息(即抓取内容),根据网页信息的结构,建立一个整理箱,用于整理和存储网页上的信息。1. 样本网址:2. 采集内容:采集网页中所有帖子的topic标题和replies回复数量。3. 网页分析:样本网页是一个简单的列表结构,采集内容

2、就是列表中的标题和回复数量,这样就可以确定整理箱里要存储的信息点了。此外,为了完整抓取网页列表上的信息,还会用到MS谋数台的样例复制功能,此外,要抓取该网页的所有帖子,需要设置翻页抓取,但本章只详细讲解如何抓取网页列表信息,翻页的详细操作请学习教程集搜客如何翻页抓取网页数据 。4. 规则:集搜客_入门,想要深入了解如何操作可以到资源上下载集搜客_入门规则来查看和体验。 命名主题加载样本网址,为该网页命名主题,以后就可以根据这个主题名查找和修改该网页的抓取规则,如图1。图1:命名主题 图1步骤分解:1. 点击火狐浏览器的“工具”菜单,打开MS谋数台。2. 在“网址框”中输入或复制粘贴样本网址,回

3、车Enter后就会自动加载网页,加载完成后,状态栏会显示“完成”标志,“页面地址”也会自动填入当前样本网址,这两个就是完成网页加载的标志。3. 输入主题名,主题名可以是中文、英文、数字、字符的组合。4. 由于主题名要求是唯一的,所以,还要点击“查重”按钮来检查主题名是否唯一有效。 创建整理箱根据要抓取的网页信息,建立存储这些信息的整理箱结构。图2:创建整理箱 图2步骤分解:1. 切换到“创建规则”窗口,点击整理箱操作区的“新建”创建一个整理箱,输入整理箱名称后确定,这是整理箱的顶层节点,用于包容新建的抓取内容。2. 右击整理箱空白处,弹出快捷菜单,选择“添加“-”包容“,输入抓取内容的名称,为

4、顶层节点建立包容的抓取内容节点。3. 根据第2步方法,依次建立新的抓取内容。4. 对于网页上的关键信息(即网页上显示出来的并且可以采集到的信息),可以点击该抓取内容,并勾选“关键内容”,这是告诉DS打数机要重点采集这些信息。第二步:把网页信息映射到整理箱 为整理箱建立映射关系要想从网页上抓数据,就得告诉软件,网页上哪个信息是抓取内容,这个过程 叫做“映射”,看图3,把浏览器中的红框内容映射给整理箱的“标题”,为了准确抓取到目标信息,要在网页结构窗口中做映射操作,在浏览器窗口点击内容时, 会在网页结构窗口自动定位,反过来在网页结构窗口点击HTML标签,也可以在浏览器窗口中看到红框闪烁(如果你能一

5、只眼看上面,同时另一只眼看下面,这个联动效果就更加明显);把网页信息与整理箱的抓取内容建立映射关系,根据映射关系,MS谋数台会自动生成网页的提取程序即抓取规则,而这个规则就是告诉DS打数机要抓取网页哪些信息,如图3所示。图3:建立映射关系 图3步骤分解:1. 点击定位:点击网页列表上的第一条标题,会弹出该信息的定位提示框,通常是定位到模块节点(即包含多个下层节点,可双击展开,例如A节点)2. 找出网页信息对应的HTML标签:双击该节点展开下一层,找出包含标题的HTML标签,每个节点包含的信息可以在“文本内容框”中看到,一般网页上的文本信息是以#text节点显示。3. 内容映射:右击节点弹出快捷

6、菜单,选择“内容映射”-“对应整理箱的抓取内容”,映射后,抓取内容的DOM位置将由默认的-1更新为映射的节点位置。4. 按照这种方法,对整理箱的抓取内容都进行映射。PS:内容映射只可以映射#text节点和属性节点(以开头的节点),关于如何映射模块节点将在后续章节讲解。5. 可对顶层节点映射一个范围节点,这样可以限制整个抓取范围,提高抓取准确率。即:找出包容目标信息的HTML标签并映射给整理箱的顶层节点,如果不进行人工映射的话,MS谋数台也会智能选择一个DOM节点范围,当然,人工映射就会更加精准。 样例复制为了抓取完整的网页列表信息,还要对整理箱做样例复制,针对网页上结构相同的信息,利用样例复制

7、功能,只需对网页列表的第一条信息定义与整理箱的映射关系,就可以把网页上相同结构的信息都抓取下来,如图4。图4:样例复制 图4步骤分解:1. 选中整理箱的“列表”节点,勾选“样例复制管理”框中的“启用”按钮,通过对“列表”节点做样例复制,就可以套用“标题”和“回复数量”这两个抓取内容的映射关系,从而把网页上具有相同结构的信息都提取下来。PS:通常选择整理箱中包容抓取内容的上层节点做样例复制,并且,做了“样例复制”的节点(如顶层节点“列表”)就不能再进行内容映射。 2. 启用样例复制后,还要对网页上相同结构的两个样例做映射,这样,DS打数机就能根据两个样例的DOM位置关系,计算出其它信息的位置,从

8、而,精确提取网页列表上的每一条信息。3. 点击网页列表上的第一条信息,找到包含整条信息的HTML标签(在定位基础上,逐个点击上层的HTML标签,当看到网页上有能框住整条信息的红框闪烁时,说明这就是可做样例复制的HTML标签),右击选择“样例复制”-“第一个”,把它映射给样例1,这样,“样例复制管理”框中的样例1就会映射上对应HTML标签的DOM编号。4. 点击第二条信息,找到包含整条信息的HTML标签,右击选择“样例复制”-“第二个”,映射给样例2,“样例复制管理”框中的样例2就会映射上对应HTML标签的DOM编号。tips:样例复制要怎么选择html节点来映射?有 个技巧就是可以找出框住整个

9、列表的html节点,然后点击这个节点展开,就能看到一行行具有html标签名称的节点,如下图4-1,再来找到能框住整个样 例的节点;当然技巧也要多练,这个就要自己多点击html标签来尝试,积累经验后就能准确快速地找到样例节点,而且也不是生搬硬套的,还要看具体的网页结 构情况,对于入门用户来说,这个还是挺难的,但只要勇于摸索和实践,不懂的可以去查看html结构的基本知识,了解基本知识后再来操作效果会更好。图4-1:样例列表 测试规则有效性定义好映射关系后,可以测试一下规则是否有效,是否能采集到目标信息,如图5。图5:测试 图5步骤分解:1. 点击“测试”按钮,马上就能验证规则的有效性和抓取内容的准

10、确性。2. 如果整理箱与网页的映射关系没有错误的话,MS谋数台就会自动生成抓取规则,根据抓取规则自动提取网页信息,在“输出信息”窗口可以看到相应的采集信息。PS:每一条信息都会显示在和之间。 保存规则定义好映射关系后,点击“存规则”按钮,把规则保存到服务器中,这样,DS打数机就可以用这个规则来抓取网页上的信息,以后也可以通过MS谋数台查看和修改规则,如图6。图6:存规则 图6步骤分解:1. 点击“测试”按钮,查看输出数据是否有遗漏。2. 若无遗漏,就点击右上角的“存规则”按钮,保存规则后,就会把样本网址保存为一条线索,这就说明,每个规则保存后都只有一条等待抓取的线索网址,即样本网址。3. 若有

11、遗漏或报错,就要调整整理箱与网页信息的映射关系。4. 点击“爬数据”按钮,抓取网页数据。PS:定义规则后,必须点击“存规则”按钮,否则,DS打数机无法抓取数据。第三步:用DS打数机抓取网页数据 启动DS打数机抓取网页数据每个规则保存后都只有一条网址线索(即样本网址),要抓数据就要使用DS打数机,DS打数机就是一个网络爬虫,会根据定义好的抓取规则,执行网页数据提取操作,如图7。图7:启动DS打数机抓取网页数据 图7步骤分解:1. 存规则后,点击右上角的“爬数据”按钮,立即启动DS打数机,抓取当前网页数据。PS:“爬数据”按钮是DS打数机的快捷启动方式,也可以通过火狐浏览器的工具菜单来启动DS打数

12、机。2. 数据抓取过程是在浏览器中进行的,抓取成功后,数据文件会在本地存储。tips:如何手工启动DS打数机抓取数据?除了用“爬数据”快捷启动DS打数机外,还可以通过人工启动,人工操作可以实现更加便捷的数据抓取和查看规则的运行情况,具体方法如下:1. 在火狐浏览器的“工具”菜单中打开“DS打数机”。2. 在搜索框中输入规则名称,如果忘记了,可以输入 * ,或者右击选择“浏览主题”,这样就查看到自己的所有规则名称。3. 右击规则名称,选择“统计线索”,查看该规则还有多少条等待抓取的线索,这也可以用来查看该规则的抓取情况(即查看成功多少,失败多少),如图7-1。4. 然后点击“单搜” / “集搜”

13、按钮,输入需要抓取的线索数量,确定就启动抓取任务了。图7-1:手工启动DS打数机tips:如何用同一个规则抓取多个网址的网页数据?同 一个规则可以用来抓取相同网页结构的网页,也就是说,针对京东的一个产品网页(如: 义了一个抓取规则,这个抓取规则还可以用来抓取京东上其它产品的网页数据,这样,就免去了对每一个网页都定义规则的重复工作,只需针对同类网页结构的一个 网页定义出通用的抓取规则,就可以用一个规则来抓取所有同类网页的数据。具体的操作方法如下:1. 在DS打数机搜索规则名称,如果忘记规则名称,可以在搜索框中输入 * ,或者右击选择“浏览主题”,就可以看到自己拥有的所有规则名称。2. 右击规则名

14、称,选择“管理线索”-“添加”,然后把同类网页的网址输入进去,也可以用excel把网址整理好,然后直接粘贴,保存就会生成等待抓取的线索,如图7-2。3. 右击规则名称,选择“统计线索”,查看有多少等待抓取的线索网址,这就是表示可以用该规则抓取多少条网址的网页数据。4. 点击“单搜” / “集搜”按钮,输入需要抓取的线索数量(“激活所有线索”,这样就会把抓过的所有线索网址都激活一遍,可以用来重新抓取数据。2. 如果只需抓取失败网页的数据,右击规则名称,选择“管理线索”-“激活失败线索”,这样就可以只激活失败的线索网址,单独再抓一遍这些网址,如图7-3。3. 如果想要抓取新的网页,可以通过添加线索

15、实现,右击规则名称,选择“管理线索”-“添加”,输入新的网址,或者用excel整理后粘贴过去,这样就能添加新的线索网址。当然,前提是要具有相同的网页结构,这步操作可以实现用同一个规则抓取多个网址的网页数据。图7-3:激活线索 查看数据文件DS打数机成功抓取一个网页,就会生成一个XML文件,并且会存储在本地电脑中,如图8。图8:查看数据文件 图8步骤分解:1. 点击DS打数机的“文件”菜单-“存储路径”,弹出“自定义存储路径”会话框,在这里可以看到数据文件的存储路径。PS:也可以选择自己喜欢的文件夹作为存储路径。2. 根据这个存储路径,打开本地文件夹DataScraperWorks,就可以看到对应规则的文件夹,打开就可以看到成功抓取的数据文件。3. 数据文件是XML类型的,可以用记事本、浏览器打开,也可以用Excel打开,excel格式如图9,可参考文章“如何用Excel打开和查看XML文件”。图9:数据结果扩展阅读: HTML元素 HTML属性

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1