火车头采集文档.docx
《火车头采集文档.docx》由会员分享,可在线阅读,更多相关《火车头采集文档.docx(17页珍藏版)》请在冰豆网上搜索。
![火车头采集文档.docx](https://file1.bdocx.com/fileroot1/2023-1/22/df18727e-2a39-44ba-ae0b-e590259eb1f5/df18727e-2a39-44ba-ae0b-e590259eb1f51.gif)
火车头采集文档
火车头采集教程
1.基本概念:
a)采集:
就是对页面上有用的信息进行抽取并下载的过程。
b)列表页:
有大量内容页面链接的页面,如下:
c)内容页:
由列表页点击进去的页面,也是真正需要采集的页面,如下:
内容页抽取的过程实质上也就是在源代码中找到需要的内容的开始和结束的字符串,系统进行自动匹配的过程,比如上图中”王宝强携….”这个标题,在源代码中的格式是这样的
因此,只需要把上图中的开始和结束字符串拷贝到软件中就可以了(详情见下)
2.基本步骤:
a)确定需要采集的网站
b)观察网站结构,找到列表页,做以下工作
i.观察列表页中需要的内容页的链接样式
ii.观察列表页第一页、第二页等等的链接样式。
c)对内容页进行模板编写
d)开始采集任务。
3.详细实例:
下面通过一个具体的例子来具体讲解火车头采集器的工作过程
这个例子尝试抓取这个页面的前5页的内容
a)打开程序
打开后如下图:
b)在站点任务列表树那里右键-》新建站点类似下图
保存
c)主界面中出现的标签,在这个标签上右键选择新建站点,如下:
出图如下:
点击向导添加,对列表页的链接地址进行描述,弹出窗口如下:
为了确定在这里填写什么,我们先到需要抓取的列表看看,也就是
然后鼠标在页面上浮动,观察它的链接样式,如下图
第一页
第二页
看到这里,我们可以发现,这里的列表页的规则是
…
即:
链接前面是不变的,只有后面的页码改变,因此现在我们可以知道上面的表单怎么填了,如下图:
这里的(*)代表通配符,系统会自动按照你的规则对这个字符进行替换。
比如,现在的规则是数字变化从0到4,间隔为1,因此,系统自动生成了如预览中的列表样式出来了。
预览中的链接样式确定没有问题后,点击添加。
然后点击完成。
d)现在又回到了这个页
好,现在我们还是打开
现在来观察我们需要的列表中的链接的样式,如下图:
从上面我们可以看到,所有的新闻的链接都类似于:
这个链接中这个部分是不变的,后面的可能会根据年月日,标签而改变,还记得我们之前讲的(*)的作用么,没错,这里我们可以这样描述它:
把这个填到上图中的文章内容页面的地址比如包含中去吧
你一定注意到了,这个表单还有个页面内选定区域采集网址应该怎么填呢。
现在来考虑下,根据我们之前做的规则,系统现在已经知道自动的去遍历0,1,2,3,4页的内容,然后从中间找出所有类似这样的链接去采集内容,但是还有一个问题,列表页面有类似链接的可能不止列表区域这一块,也有可能在导航、在页尾等等地方都存在,那这些地方的内容很可能是我们不需要的。
因此,如果必要的话,我们还需要让系统知道列表区域的范围。
如下图:
为了快速定位,打开firefox,用firebug定位,如下:
在源代码中搜索listCon,如下图
多查找几次,看源码中是否还有其余的地方存在这个字符串,确保你搜索的内容在整个源码中只出现了一次,这里,我们把作为整个内容的开头,继续在firebug中找尾部,如图
这里我们获得了divclass=”Barbgt”在我们需要的内容区域后面,源码中搜索Barbgt,运气不错,这个也只出现了一次,那么范围区域的结尾就确定了,是。
现在我们的表单是这样的
现在来验证下我们的工作成果吧,点击开始测试网址采集,结果如图:
如果点击前面的+号,如图:
目前为止,一切都很顺利。
如果你没有看到+号,那说明你在配置采集地址的地方犯了错误,你应该在仔细看看3.c的内容。
e)OK,现在第一步就搞定了,不要担心,实际上,整个做完只需要两步而已,而到目前为止,你已经获得了你需要知道的一切技巧了。
下面我们来对内容页进行处理,点击第二步,采集内容规则,如图:
双击标题,来对内容页的标题进行处理:
这里怎么填呢,还记得前面讲的firebug吧,对,先用它来确定标题在源码中出现的位置,当然,你也可以直接拿标题前几个字符在源码中搜,获得出现的位置。
在我这里是这样的。
非常清晰,那么头自然就是
了,没错,不过你这么干的话,测试的时候会发现什么都得不到,因为从到中间可能还有回车、空格等空白符,那怎么办?
还记得(*)么?
没错,管它是什么,直接写(*)就好,结束没什么好说的,只能是
了
好,现在看来是这样了
OK,就这样就可以了,很简单吧,点击确定回到前页
现在来测试下,在典型页面填
点击测试,结果如图:
标题已经顺利解析出来了
下面来进行内容的抽取
上图是已经配置好的结构,开始字符串和结束字符串这个很好理解,HTML标签排除是把内容不需要的html标签去掉,由于我们只需要正文中的img,
,因此其他标签都勾选上
下面的内容排除是把源码中不需要的内容去掉,比如
上图中划线部分我们是不需要的,因此需要把他去掉,要注意这里都是源码中的格式,当然,你懂的,你可以用(*)。
想必你已经发现了,这个内容页是分页的
在你对上面的表单配置完成后,点击确定,会回到这里
请仔细看我用红线圈起来的地方。
跟之前一样,上一页和末页是把分页的内容区域划出来,然后观察分页样式
链接样式都类似于
href=’5444_2’.html
分页网址中的[参数1]就是分页连接地址样式中的[参数].系统会自动替换。
注意:
i.在使用过程中,如果内容有多页,要记得在内容配置表单中把该标签在分页中匹配勾选上
ii.在第二步采集内容规则那里,测试的时候要观察列表中的url,如果这个url实际上是不存在的,则最后的文章实际上只是第一页的重复而已
f)现在可以试验下成果了
采集完后