轻松采集京东等各大电商商品价格等信息.docx

上传人:b****3 文档编号:4943294 上传时间:2022-12-11 格式:DOCX 页数:15 大小:2.22MB
下载 相关 举报
轻松采集京东等各大电商商品价格等信息.docx_第1页
第1页 / 共15页
轻松采集京东等各大电商商品价格等信息.docx_第2页
第2页 / 共15页
轻松采集京东等各大电商商品价格等信息.docx_第3页
第3页 / 共15页
轻松采集京东等各大电商商品价格等信息.docx_第4页
第4页 / 共15页
轻松采集京东等各大电商商品价格等信息.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

轻松采集京东等各大电商商品价格等信息.docx

《轻松采集京东等各大电商商品价格等信息.docx》由会员分享,可在线阅读,更多相关《轻松采集京东等各大电商商品价格等信息.docx(15页珍藏版)》请在冰豆网上搜索。

轻松采集京东等各大电商商品价格等信息.docx

轻松采集京东等各大电商商品价格等信息

如何简单轻松采集京东商城中商品的信息

最近在采集中,遇到很多朋友对电商网站的采集一头雾水,因为电商的采集设计的东西较多,且很多我们需要的内容都是通过js加载出来的,也就会导致很多朋友不知道如何获取这些信息,因此,在这里做一个电商的采集演示示例,我们就用京东作为我们演示示例,其他的电商网站操作过程基本也是类似。

此次的教程需要用到的是熊猫采集软件,这是新一代的智能采集器,操作非常简单容易,不需要专业基础,新手首选。

且功能特别强悍复杂,只要是浏览器能看到的内容,都可以用熊猫批量的采集下来。

如各种电话号码邮箱,各种网站信息搬家,网络信息监控、网络舆情监测、股票资讯实时监控等等。

熊猫采集器是唯一拥有内容页面的深度嵌套访问功能的采集软件,对于本案例涉及到的京东商品信息,则必须使用内容页面的深度嵌套访问功能,才能一次性的采集完整。

有需要的看官可以去XX收索一个熊猫采集软件下载即可。

熊猫的免费版就包含实现本演示示例的所需要的全部功能。

好了,下面进入我们的采集环节吧!

首先,我们打开我们这次采集需要的工具,也就是熊猫采集器,点击新建项目(标准)

随便给我们的项目起一个名称,不输入也是可以的,如果没有输入的话系统默认会给我们的项目命名一个随机的名字,这里因为我是京东商城信息,我就起了京东采集作为我需要的项目名称,以方便我们的区分。

然后点击下一步

进入到标题列表页及其翻页设置,列表页是包含我们要采集内容的链接网址的页面,比如XX搜索一个关键词,会列出来很多网页,这些网页我们就可以认为是标题列表页面。

在京东我们也可以搜索我们要采集的商品,搜索出来的页面其实就是我们要的标题列表页面,这里我们就用京东搜索手机出来的页面作为我们的采集对象。

如下图所示的标题列表页面:

将此标题列表页面的网址拷贝到我们的熊猫中进行设置,

下面,点击预开始分析按钮:

这个提示框的意思是,如果我们需要采集多页,也就是翻页采集,那么我们选择是即可(注意,选择是的时候再极少情况下可能将我们的翻页设置设置的并不准确,这个时候我们就选择否,然后自行进行翻页设置),如果不需要,则选择否即可,这个可以根据我们的需要进行设置。

我们这里选择是的话,发现翻页并非我们想要,也就是设置的不准备,所以我需要手动设置一下。

这里我给大家说一下如何手动设置我们的翻页:

也就是在我们选择否的情况下,我们自行如何设置翻页。

首先,我们需要去我们采集的网站上面看一下,我们采集的网址,在浏览器中点击下一页的时候,网址有没有什么变化,第一页我们已经知道了它的网址,下面我们翻到第二页,

在翻到第三页,

我们发现,在我们进行翻页的时候,变化的page后面的数字而已,也就是说那个数字就是代表我们的现在在那一页上面,好,知道这个,我们就可以在软件中自行定义定义我们的翻页了。

首先选择翻页方式2,新增一个参数定义,

上面我们已经知道,数字就是代表我们在那一页,这个时候,我就用一对大括号将数字代替掉,并随意命名,如下图:

这个时候,我们的参数名称已经设置完毕,通过上面我们在浏览器中看如何翻页已经了解,我们的翻页是1,3,5呈递增的方式,这个时候我们就需要设置我们想从第几页开始采集,并采到那一页,且每次变化2即可,如下图:

那么,我们的翻页设置也已经全部完成,进入下一步设置,进入到选择内容页的设置中,随便选择一个我们要采集的链接,如果右边我们要采集的链接全部被红框框选起来了。

那么这里我们就不要进行调整,如下图:

这里我们要采集采集的内容页链接都被正确的包含起来,那么我么就直接下一步,进入到内容页面模板管理,这里系统默认会把我们在上一步选中的链接作为模板,在这里,我们也可以自己选择一个链接作为模板,只要把网址粘贴到添加新模板按钮左边的文本框里,点击添加新模板即可,如下图:

点击添加新模板之后会弹出一个设置模板的新窗口。

点击软件上方的开始分析,稍等片刻之后软件会询问你是否需要软件自动提取标题正文,一般情况下我们在这里都会选择否,如果你是采集新闻类的内容,这个地方你也可以选择是,也可以选择否,(选择是的话就软件就直接帮我们分析出来标题和正文了,操作就很简单,选择否就需要我们自己找到我们要采集的内容,这种操作会很灵活,由于选择是非常简单,我们这里就选择否了)如图:

这个时候,我们在只需在左边找到我们要采集的数据,选择,然后点击采集该项,就可以将信息采集下来,但是在京东等各大电商上面很多数据都是通过js加载的,我们并不能直接选中,例如价格,销量,我们在左边都是找不到的,而商品名称在左边却是可以找到,如图:

对这种js加载的数据,熊猫无法直接识别出来,我们需要通过第三方软件,也就是抓包工具,找到我们要采集的这些数据真实存在的地方(目前大部分浏览器是自带抓包的,不是很明白看客可以XX查看一下抓包的说明),然后利用熊猫的子页面嵌套访问功能,将我们要的数据采集下来。

这里我就利用浏览器抓包来获取我们要采集的部分数据了:

右击浏览器空白地方会有一个审查元素。

点击进入,如图:

然后我们刷新一下这个内容页面,也就是我们的模板页面,会发现出现很多网址,这时候我们要采集的东西就可以在这些网址里面进行查找;

比如像价格,就是隐藏在下图所示的网站网址中:

这时候我们需要到熊猫里面进行设置,将这个价格采集下来,首先,随便选择一个空白的地方,勾选上利用中介(标签)方式添加新的链接指向,如图:

之后利用中介方式,设置出我们要采集的网址链接,如图:

第一行代表我们在源码中找的一skuid:

为开头和以第一个逗号为结尾的中间内容,也就是这个商品的id号,我们用medi给他替换掉,然后把medi在赋值给第二行我们抓包找到的网址,因为每一个商品的价格都是在这个网址中,变化的就是没商品的编号而已,我们这里就是利用medi给它动态的替换,从而可以采集我们每一个商品的价格!

这时候我们点击添加按钮,会提示我们中介抽取的结果。

然后我们勾选上该链接为指向下级子页面的(间接或直接)链接,如图

点击分析该了链接指向的页面,进入下级页面。

然后分析一下下级页面的网址,会看见我们想要采集的价格:

勾选上采集即可。

当然我们需要对这个结果进行一些简单的修缮,

修缮规则如下:

到此,我们隐藏的价格设置就已经结束,同理评价等js加载的数据我们也可以按照同样的方法去进行设置。

下面是评价的网址:

按同样的方式设置

然后分析该页面,将结果采集下来并修缮:

修缮规则如下:

这里我们就将评价也设置完成,如果还有其他js加载的数据要采集,也可以通过抓包找到真实网址进行设置即可。

我们这里就演示这么多了。

下面保存我们的项目,点击确认出来我们的运行界面。

运行我们的项目,查看结果。

可以发现,我们要采集的信息已经被我们全部采集下来了,可以发现,熊猫采集获取我们要的的信息还是非常方便的,并不需要我们有网页设计的基础就可以达到我们信息的采集,最后,告诉各位看官,熊猫现在已经完全免费啦!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1