评价采集器使用方法.docx

上传人:b****5 文档编号:4502630 上传时间:2022-12-01 格式:DOCX 页数:16 大小:3.91MB
下载 相关 举报
评价采集器使用方法.docx_第1页
第1页 / 共16页
评价采集器使用方法.docx_第2页
第2页 / 共16页
评价采集器使用方法.docx_第3页
第3页 / 共16页
评价采集器使用方法.docx_第4页
第4页 / 共16页
评价采集器使用方法.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

评价采集器使用方法.docx

《评价采集器使用方法.docx》由会员分享,可在线阅读,更多相关《评价采集器使用方法.docx(16页珍藏版)》请在冰豆网上搜索。

评价采集器使用方法.docx

评价采集器使用方法

评价采集器使用方法

评价的信息在互联网中越来越有价值,通过对大量的评价进行整理分析,能帮助我们快速地掌握舆情动向,定位用户关注的重点,及时优化反馈的问题,做出正确的引导。

下面以微博评价为例,介绍使用八爪鱼采集微博评论的方法。

采集网站:

使用功能点:

●分页列表及详细信息提取

●AJAX滚动教程

●八爪鱼7.0教程——AJAX点击和翻页教程

步骤1:

创建采集任务

1)进入主界面,选择“自定义模式”

(评价采集器使用方法图1)

2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”

(评价采集器使用方法图2)

步骤2:

创建翻页循环

1)系统自动打开网页,进入微博。

观察网页结构,当把页面下拉至底部的时候,会出现“正在加载中,请稍后”的字样,随着我们的下拉,页面会有新的数据加载出来。

经过2次下拉加载,此页面达到最底部,出现“下一页”按钮

(评价采集器使用方法图3)

此网页涉及Ajax下拉加载,需要对其进行一些高级选项的设置。

打开“高级选项”,勾选“页面加载完成后向下滚动”,设置滚动次数为“4次”,每次间隔“3秒”,滚动方式为“直接滚动到底部”,最后点击“确定”

(评价采集器使用方法图4)

注意:

这里的滚动次数及间隔时间,需要针对网站进行设置。

测试方法可以参考:

八爪鱼7.0教程——AJAX滚动教程

2)将页面下拉到底部,点击“下一页”按钮,在右侧的操作提示框中,选择“循环点击下一页”

(评价采集器使用方法图5)

与“打开网页”类似,此步骤同样涉及Ajax下拉加载。

打开“高级选项”,勾选“页面加载完成后向下滚动”,设置滚动次数为“4次”,每次间隔“3秒”,滚动方式为“直接滚动到底部”,最后点击“确定”

(评价采集器使用方法图6)

步骤3:

创建列表循环

1)移动鼠标,选中页面里的第一条微博链接。

选中后,系统会自动识别页面里的其他相似链接。

在右侧操作提示框中,选择“选中全部”

(评价采集器使用方法图7)

2)选择“循环点击每个链接”,以创建一个列表循环

(评价采集器使用方法图8)

3)系统会自动点击进入第一条微博的详情页。

观察网页结构,微博评论页面,需经过1次下拉加载,才会出现“查看更多”按钮。

此步骤也涉及Ajax下拉加载。

打开“高级选项”,勾选“页面加载完成后向下滚动”,设置滚动次数为“1次”,每次间隔“3秒”,滚动方式为“直接滚动到底部”,最后点击“确定”

(评价采集器使用方法图9)

步骤4:

提取微博信息

1)微博详情页中,我们想采集博主ID、发博时间、微博内容、微博URL和微博评论。

点击要采集的字段,在右侧的操作提示框中,选择“采集该元素的文本”(采集微博URL,则选择“采集该链接地址”)

(评价采集器使用方法图10)

2)字段信息选择完成后,选中相应的字段,可以进行字段的自定义命名。

完成后,点击“确定”

(评价采集器使用方法图11)

步骤5:

提取微博评论

1)下拉页面,找到并点击“加载更多”按钮。

在操作提示框中,选择“更多操作”

(评价采集器使用方法图12)

2)选择“循环点击单个元素”

(评价采集器使用方法图13)

由于此网页涉及Ajax技术,我们需要进行一些高级选项的设置。

选中“点击元素”步骤,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”

(评价采集器使用方法图14)

注:

AJAX即延时加载、异步更新的一种脚本技术,通过在后台与服务器进行少量数据交换,可以在不重新加载整个网页的情况下,对网页的某部分进行更新。

表现特征:

a、点击网页中某个选项时,大部分网站的网址不会改变;b、网页不是完全加载,只是局部进行了数据加载,有所变化。

验证方式:

点击操作后,在浏览器中,网址输入栏不会出现加载中的状态或者转圈状态。

3)选中页面中第一个评论区块,系统会自动识别出页面中的其他同类元素。

在操作提示框中,选择“选中全部”,以建立一个列表循环

(评价采集器使用方法图15)

4)我们可以看到,页面中所要采集的微博评论区块均被选中,变为绿色。

选择“采集以下元素文本”

(评价采集器使用方法图16)

5)字段选择完成后,选中相应的字段,可以进行字段的自定义命名。

完成后,点击“确定”

(评价采集器使用方法图17)

步骤6:

调整流程图结构

回顾采集过程,操作思路是:

打开要采集的网页>建立微博链接的翻页循环>建立微博链接的循环列表>点击微博链接,进入微博详情页>建立微博评论的翻页循环>建立微博评论的列表循环>提取微博评论

已有的流程图没有遵循此逻辑,我们需要手动调整一下流程图结构。

1)选中“循环”步骤(微博链接的循环列表),将其拖入到第1个“循环翻页”和到第2个“循环翻页”之间

(评价采集器使用方法图18)

2)选中“循环翻页”步骤(微博评论的循环翻页),将其拖入到“循环”(微博链接的循环列表)步骤中的“提取数据”后

(评价采集器使用方法图19)

3)选中“循环”步骤(微博评论的列表循环),将其拖入到“循环翻页”(微博评论的循环翻页)步骤后。

因为微博特殊的网页结构,我们需要先点击“查看更多”,将所有的评论加载出来,然后再提取评论。

如果不做调整,会出现很多重复数据

(评价采集器使用方法图20)

最终流程图,如图所示

(评价采集器使用方法图21)

4)点击左上角的“保存并启动”,选择“启动本地采集”

(评价采集器使用方法图22)

步骤7:

数据采集及导出

1)采集完成后,会跳出提示,选择“导出数据”。

选择“合适的导出方式”,将采集好微博发博数据导出

(评价采集器使用方法图23)

2)这里我们选择excel作为导出为格式,数据导出后如下图

(评价采集器使用方法图24)

相关采集教程:

1688商品信息以及买家评价采集:

大众点评商家团购评价数据的采集方法:

京东商品评价信息采集:

淘宝评价采集教程:

豆瓣电影评论采集的方法以及详细步骤:

如何使用八爪鱼采集器采集亚马逊买家评论:

新浪微博评论数据的抓取与采集方法:

亚马逊评论采集器:

东方财富网股吧评论数据采集:

蚂蜂窝旅游美食文章评论采集教程:

八爪鱼——90万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:

无需技术背景,会上网就能采集。

完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:

对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

3、云采集,关机也可以。

配置好采集任务后可关机,任务可在云端执行。

庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。

4、功能免费+增值服务,可按需选择。

免费版具备所有功能,能够满足用户的基本采集需求。

同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 动态背景

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1