1、火车头傻瓜教程火车头 2010 简单采集教程首先我们打开软件 红色的就是程序了接下来我们会进入到火车头的操作界面我上面有2个站点,一般火车头打开都会有一个测试站点。那么我们今天就直接用测试站点1. 选中 测试站点右键点击测试站点新建任务 就会出现如下的界面那么我们先写好任务名:我写的是尖尖的诊断2网站编码 因为我的目标站是http:/www.zg- 这个医院的站。那么我先查看这个站的源码 这里显示源码是 GB2312的,那么我在界面上也选择GB23122. 开始采集地址点击向导添加或者双击空白的地方可以进入 采集地址的界面因为我要采集的是整个栏目,所以我查看了一下栏目第一页的地址是http:/
2、www.zg-第二页的是http:/www.zg-最后一页是http:/www.zg-因此得出结论: 后面的是变量的。那么我们在添加地址的时候可以在变量数这里加入 通配符数字变化 默认是1 到5 但是我们要采集整个栏目所以写了21个,因为整个栏目有21页然后随便点击一个地址点击添加再完成 我们第3部就OK了。第4:文章内容页面地址必须包含我随便挑了一个列表的文章http:/www.zg-他的URL结构都是最后的8116这里变量,其他的都一致。那么我们就可以继续用通配符OK。 然后 第一步采集网址规则已经写好了。 是不是很简单呢。接下来 第二步 采集内容规则默认有很多标签但是我们只需要2个 标题
3、和内容所以其他的我们都可以删掉好的接下来我们来做一个 title的设置这里面的我想,应该都看的懂吧. 我就直接讲操作.我们打开之前的那个文章,然后查看源代码他们的标题后面都有 _北京尖锐湿疣医院_生殖器疱疹-北京湿疣疱疹医院所以我们在设置title的时候 就把这一段排除替换的话 自己看文章一些固定的东西,然后自己看着办接下来是内容这一段是 文章的代码 从中选择整个页面唯一的一段开头码填到下面的框里然后就是文章里面会残留一些代码 我们在这选择所有标签。然后确定第3步:我是保存到本地的 所以选择了保存为本地文件。 然后自己设置个文件夹就OK了第4步:很多都不用管。直接设置一个保存到文件夹 然后就OK。 接下来我们可以开始采集了开始采集好了。因为我也做昨天晚上刚学会用,所以还有很多地方有些问题。欢迎大家互讨论