轻松采集京东等各大电商商品价格等信息.docx

资源描述

轻松采集京东等各大电商商品价格等信息.docx

《轻松采集京东等各大电商商品价格等信息.docx》由会员分享，可在线阅读，更多相关《轻松采集京东等各大电商商品价格等信息.docx（15页珍藏版）》请在冰豆网上搜索。

轻松采集京东等各大电商商品价格等信息.docx

轻松采集京东等各大电商商品价格等信息

如何简单轻松采集京东商城中商品的信息

最近在采集中，遇到很多朋友对电商网站的采集一头雾水，因为电商的采集设计的东西较多，且很多我们需要的内容都是通过js加载出来的，也就会导致很多朋友不知道如何获取这些信息，因此，在这里做一个电商的采集演示示例，我们就用京东作为我们演示示例，其他的电商网站操作过程基本也是类似。

此次的教程需要用到的是熊猫采集软件，这是新一代的智能采集器，操作非常简单容易，不需要专业基础，新手首选。

且功能特别强悍复杂，只要是浏览器能看到的内容，都可以用熊猫批量的采集下来。

如各种电话号码邮箱，各种网站信息搬家，网络信息监控、网络舆情监测、股票资讯实时监控等等。

熊猫采集器是唯一拥有内容页面的深度嵌套访问功能的采集软件，对于本案例涉及到的京东商品信息，则必须使用内容页面的深度嵌套访问功能，才能一次性的采集完整。

有需要的看官可以去XX收索一个熊猫采集软件下载即可。

熊猫的免费版就包含实现本演示示例的所需要的全部功能。

好了，下面进入我们的采集环节吧！

首先，我们打开我们这次采集需要的工具,也就是熊猫采集器，点击新建项目（标准）

随便给我们的项目起一个名称，不输入也是可以的，如果没有输入的话系统默认会给我们的项目命名一个随机的名字，这里因为我是京东商城信息，我就起了京东采集作为我需要的项目名称，以方便我们的区分。

然后点击下一步

进入到标题列表页及其翻页设置，列表页是包含我们要采集内容的链接网址的页面，比如XX搜索一个关键词，会列出来很多网页，这些网页我们就可以认为是标题列表页面。

在京东我们也可以搜索我们要采集的商品，搜索出来的页面其实就是我们要的标题列表页面，这里我们就用京东搜索手机出来的页面作为我们的采集对象。

如下图所示的标题列表页面：

将此标题列表页面的网址拷贝到我们的熊猫中进行设置，

下面，点击预开始分析按钮：

这个提示框的意思是，如果我们需要采集多页，也就是翻页采集，那么我们选择是即可（注意，选择是的时候再极少情况下可能将我们的翻页设置设置的并不准确，这个时候我们就选择否，然后自行进行翻页设置），如果不需要，则选择否即可，这个可以根据我们的需要进行设置。

我们这里选择是的话，发现翻页并非我们想要，也就是设置的不准备，所以我需要手动设置一下。

这里我给大家说一下如何手动设置我们的翻页：

也就是在我们选择否的情况下，我们自行如何设置翻页。

首先，我们需要去我们采集的网站上面看一下，我们采集的网址，在浏览器中点击下一页的时候，网址有没有什么变化，第一页我们已经知道了它的网址，下面我们翻到第二页，

在翻到第三页，

我们发现，在我们进行翻页的时候，变化的page后面的数字而已，也就是说那个数字就是代表我们的现在在那一页上面，好，知道这个，我们就可以在软件中自行定义定义我们的翻页了。

首先选择翻页方式2，新增一个参数定义，

上面我们已经知道，数字就是代表我们在那一页，这个时候，我就用一对大括号将数字代替掉，并随意命名，如下图：

这个时候，我们的参数名称已经设置完毕，通过上面我们在浏览器中看如何翻页已经了解，我们的翻页是1,3,5呈递增的方式，这个时候我们就需要设置我们想从第几页开始采集，并采到那一页，且每次变化2即可，如下图：

那么，我们的翻页设置也已经全部完成，进入下一步设置，进入到选择内容页的设置中，随便选择一个我们要采集的链接，如果右边我们要采集的链接全部被红框框选起来了。

那么这里我们就不要进行调整，如下图：

这里我们要采集采集的内容页链接都被正确的包含起来，那么我么就直接下一步，进入到内容页面模板管理，这里系统默认会把我们在上一步选中的链接作为模板，在这里，我们也可以自己选择一个链接作为模板，只要把网址粘贴到添加新模板按钮左边的文本框里，点击添加新模板即可，如下图：

点击添加新模板之后会弹出一个设置模板的新窗口。

点击软件上方的开始分析，稍等片刻之后软件会询问你是否需要软件自动提取标题正文，一般情况下我们在这里都会选择否，如果你是采集新闻类的内容，这个地方你也可以选择是，也可以选择否，（选择是的话就软件就直接帮我们分析出来标题和正文了，操作就很简单，选择否就需要我们自己找到我们要采集的内容，这种操作会很灵活，由于选择是非常简单，我们这里就选择否了）如图：

这个时候，我们在只需在左边找到我们要采集的数据，选择，然后点击采集该项，就可以将信息采集下来，但是在京东等各大电商上面很多数据都是通过js加载的，我们并不能直接选中，例如价格，销量，我们在左边都是找不到的，而商品名称在左边却是可以找到，如图：

对这种js加载的数据，熊猫无法直接识别出来，我们需要通过第三方软件，也就是抓包工具，找到我们要采集的这些数据真实存在的地方（目前大部分浏览器是自带抓包的，不是很明白看客可以XX查看一下抓包的说明），然后利用熊猫的子页面嵌套访问功能，将我们要的数据采集下来。

这里我就利用浏览器抓包来获取我们要采集的部分数据了：

右击浏览器空白地方会有一个审查元素。

点击进入，如图：

然后我们刷新一下这个内容页面，也就是我们的模板页面，会发现出现很多网址，这时候我们要采集的东西就可以在这些网址里面进行查找；

比如像价格，就是隐藏在下图所示的网站网址中：

这时候我们需要到熊猫里面进行设置，将这个价格采集下来，首先，随便选择一个空白的地方，勾选上利用中介（标签）方式添加新的链接指向，如图：

之后利用中介方式，设置出我们要采集的网址链接，如图：

第一行代表我们在源码中找的一skuid:

为开头和以第一个逗号为结尾的中间内容，也就是这个商品的id号，我们用medi给他替换掉，然后把medi在赋值给第二行我们抓包找到的网址，因为每一个商品的价格都是在这个网址中，变化的就是没商品的编号而已，我们这里就是利用medi给它动态的替换，从而可以采集我们每一个商品的价格！

这时候我们点击添加按钮，会提示我们中介抽取的结果。

然后我们勾选上该链接为指向下级子页面的（间接或直接）链接，如图

点击分析该了链接指向的页面，进入下级页面。

然后分析一下下级页面的网址，会看见我们想要采集的价格：

勾选上采集即可。

当然我们需要对这个结果进行一些简单的修缮，

修缮规则如下：

到此，我们隐藏的价格设置就已经结束，同理评价等js加载的数据我们也可以按照同样的方法去进行设置。

下面是评价的网址：

按同样的方式设置

然后分析该页面，将结果采集下来并修缮：

修缮规则如下：

这里我们就将评价也设置完成，如果还有其他js加载的数据要采集，也可以通过抓包找到真实网址进行设置即可。

我们这里就演示这么多了。

下面保存我们的项目，点击确认出来我们的运行界面。

运行我们的项目，查看结果。

可以发现，我们要采集的信息已经被我们全部采集下来了，可以发现，熊猫采集获取我们要的的信息还是非常方便的，并不需要我们有网页设计的基础就可以达到我们信息的采集，最后，告诉各位看官，熊猫现在已经完全免费啦！

展开阅读全文