阿里巴巴采集器使用方法Word文件下载.docx

资源描述

《阿里巴巴采集器使用方法Word文件下载.docx》由会员分享，可在线阅读，更多相关《阿里巴巴采集器使用方法Word文件下载.docx（14页珍藏版）》请在冰豆网上搜索。

阿里巴巴采集器使用方法Word文件下载.docx

●创建循环翻页

●商品URL采集提取

●创建URL循环采集任务

●修改Xpath

步骤1：

创建阿里巴巴数据采集任务

1）进入主界面，选择“自定义采集”

2）将要采集的阿里巴巴列表或搜索结果页URL复制粘贴到输入框中，点击“保存网址”

3）打开网页的时候页面需要向下滚动才会出现所有的数据，所以可以在这一步设置一个高级选项，在滚动页面这里设置页面加载完成向下滚动，滚动次数设置3秒，每次间隔3秒，滚动方式选择“直接滚动到底部”。

4）保存网址后，页面将在八爪鱼采集器中打开，红色方框中的商品url是这次演示采集的信息

步骤2：

创建翻页循环

1）将页面下拉到底部，找到下一页按钮，鼠标点击，在右侧操作提示框中，选择“循环点击下一页”

步骤3：

采集阿里巴巴商品URL

1）如图，移动鼠标选中列表中商品的名称，右键点击，需采集的内容会变成绿色，然后点击“选中全部”

2）选择“采集以下链接地址”

3）点击“保存并开始采集”。

根据采集的情况选择合适的采集方式，这里选择“启动本地采集”

说明：

本地采集占用当前电脑资源进行采集，如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能，云采集在网络中进行采集，无需当前电脑支持，电脑可以关机，可以设置多个云节点分摊任务，10个节点相当于10台电脑分配任务帮你采集，速度降低为原来的十分之一；

采集到的数据可以在云上保存三个月，可以随时进行导出操作

步骤4：

阿里巴巴商品数据采集及导出

1）采集完成后，会跳出提示，选择导出数据，导出后如下图

步骤5：

创建URL列表采集任务

1）重新创建一个采集任务，将导出后的阿里巴巴商品链接复制，放到输入框中，点击“保存网址”

注意：

输入框中的url列表数量不要超过2W个，超过的部分可以新建任务进行采集，url打开的页面必须是相同网站样式相近的，否则会导致数据采集缺失。

八爪鱼会自动去除重复和无效的网站。

2）在页面中点击需要采集的文本数据，比如厂家名称，点击“采集该元素文本”

3）打开流程图，修改采集字段名称，点击“保存并开始采集”

点击右上角的“流程”按钮，即可展现出可视化流程图。

步骤6:

修改Xpath

由于默认生成的Xpath定位不到所有的字段，所以需要修改，点开流程中的“点击元素”步骤，在右面的高级选项中把原来的Xpath“//A[text（）='

联系方式'

]

”改成“//A[contains（）='

]”。

5）高级选项设置，选择“点击元素”步骤，打开高级选项，设置执行前等待“15秒”，勾选Ajax加载，设置超时“15秒”

6）选择合适的导出方式，将采集好的数据导出采集完成，点击“导出数据”，一份完好的阿里巴巴数据（包括电话号码）就采集好了，导出后如下图