采集器VIP10手册.docx
《采集器VIP10手册.docx》由会员分享,可在线阅读,更多相关《采集器VIP10手册.docx(25页珍藏版)》请在冰豆网上搜索。
采集器VIP10手册
一、安装要求
二、配置插件
三、添加采集规则
四、计划任务
五、同义词管理
本插件适用于php5.x版本。
本插件要求开启allow_url_fopen功能。
如果没有打开可以要求你空间的售后进行权限的开放。
查看方法,下载附件phpinfo.php,上传至你的空间,不限目录,访问此文件,搜索“allow_url_fopen”,如果是On表示已经启用,如果是Off,就是关闭了。
独立服务器或vps可以自行打开方法如下:
在php安装目录找到Php.ini文件,寻找allow_url_fopen,把off改为on。
allow_url_fopen=On
配置插件
进入插件文件夹,打开config_robot.php文件。
如下:
$robot_set['allow_uid']='1,3';//--------@robot_set['allow_uid']='1,2,3';允许哪些用户使用这个插件
$robot_set['robot_perpage']=5;//-------listrobot'snumberperpage界面设置:
采集器列表一页显示多个采集器
$robot_set['message_perpage']=5;//-----listmessage'snumberperpage文件列表一页显示多少个文件
$robot_set['thread_credittype']='extcredits2';//发表主题添加的积分项
$robot_set['thread_creditadd']=4;//发表主题添加的积分数
$robot_set['post_credittype']='extcredits2';//发表回复增加的积分项
$robot_set['post_creditadd']=2;//发表回复增加的积分数
$robot_set['views_addnum']=rand(10,50);//主题的浏览数设置
$robot_set['urlallowmon_num']=50;//为0,为不限制,检测历史文章url个数,按域名分类,并根据采集时间的降序检测,大大节约资源的占用。
$robot_set['subjectallowrepeat_num']=100;//为0,为不限制,检测历史标题个数,按域名分类,并根据采集时间的降序检测,防止访问数据库超时。
$robot_set['repeatolog_keepday']=3;//为0,为不限制,标题及URL记录保存天数。
用于计划任务,其实过多的记录作用也不大。
首次安装的请把config_robot.php配置好.已经安装过的,覆盖后在后台插件升级.
采集器管理界面
下面一一介绍。
标题栏:
默认就是浏览机器人
添加机器人:
跟刚才的一样。
导入机器人:
先看看导出来的规则文件:
就是横线下面这一大串字母了,把它复制到配置文件内容框里。
允许导入不同版本,如果选否,会检测插件的版本。
一般可以选“是”,导入完之后,其采集器的采集时间设为当前时间,这样就会默认显示到列表的第一位,方便进一步编辑。
目前兼容SS7.5版的采集规则,可以到官方网搜索,或者进入的采集器专版查找或提问。
现在返回浏览机器人界面。
进一步介绍:
采集器左边的选择框只针对最下面的批量操作有效。
点击采集名会进入采集器未导入文章的界面。
[导]自动导入
[图]图片下载到本地
[重]允许重复标题
[监]监测重复URL
右边的选择操作为单独操作一个采集器。
开始采集:
点击就开始采集
编辑配置:
编辑采集器规则
复制配置:
把当前的规则复制到新建机器人配置里,非常的方便好用哦。
导出配置:
请右击,选目标另存为。
方便备份和分享你的机器人。
查看结果:
查看当前机器人未自动导入的文章。
导出文章:
把文章列表导出到文本文件:
清空文章:
清空当前采集器未导入或已经导入但没有删除的临时文章。
删除机器:
删除后不可以恢复,会进一步提示确认。
批量操作:
在左边选好要操作的采集器,选上一个操作,点提交可以开始批量操作了。
很方便吧。
最下面是页码:
要是页数较多会出现一个跳转文本框,如下图
在框中填上你要去的页码,然后按回车就可以跳转过去了。
下面介绍采集器文章管理
下面一一介绍:
选择,未导入的文章还是导入的文章。
采集器列表,有相关文章的会在采集器名字后面标示出来。
点击名称会显示相关的文章。
有附件的会在标题前显示附件图标。
下面重点说说操作:
全选:
全部选择或全部不选。
导入:
导入到哪下面就会显示出导入界面。
这里要说明一点,要是想导入到门户并且保存图片,采集前应该在第一栏的分类选上门户,不然附件的位置会出错。
这里显示一下这个四级分类:
有群组的会在后面显示群组数,没有群组的为不可选。
这里设置是否包括这些临时文章。
不删除就会在已导入列表中显示。
如果你是选择某一采集器的文章,导入界面也是有所不同的。
如下图:
主要不同是多了一次性导入。
可以一次性把当前的采集器的未导入的文章全部导入到指定的地方。
已导入文章界面跟未导入文章相似
只是多了显示导进的地方。
采集计划任务
采用的是DZ的计划任务,这里已经把操作界面集成进来,所有机器人的任务都集中到一起显示,更方便操作。
这里要说明一些情况:
1、DZ的计划任务采用负载平衡技术,并不是每个时间点上的任务都会执行的。
为保证执行多设置几个时间点吧,不要与其它时间点重叠。
2、不用担心用户触发采集后关闭页面会导致采集中断,采集还会继续在服务器执行。
同义词库管理界面:
可以临时新增一组词,也可以用文本的方式批量导入。
同义词库4180组:
也可以自行编写同义词库文本。
单向默认用“→”
双向默认用“=”。
一行一组词。
如:
1.爱护=保护
2.安顿→安排
3.安全=平安
4.安适=安闲
5.安慰=抚慰
要求文本编码为ANSI,这也是记事本默认的编码。
其他编码会导致乱码。
一,添加机器人
一、基本设置
机器人名:
可根据采集内容定义
采集总个数:
就是采集一次的总个数
单次采集个数:
跳转一个页面所采集的个数,采集是个很耗资源的过程,为避免超时采用页面跳转。
若采用计划任务,此项最好跟总数设置成一样。
因为计划任务里是不会跳转页面的。
视网速而定,建议设置小一些,以免超时。
自动导入到:
选择分类,可以直接将采集的结果导入到站点。
想实现自动导入,必须选择具体的版块或栏目。
另外请注意,若采集到门户,但不打算自动导入,此项的第一个分类一定要选门户,否则附件将存放到论坛附件里,导致门户文章的附件地址出错。
图片是否加水印:
这里将取代站点的水印开关设置,但具体水印设置按后台的水印设置。
所以还是先要设置好站点后台的水印设置。
替换同义词:
这里是设置是否使用同义词库自动替换同义词,替换范围包括标题和内容。
对于纯图片的文章就没必要开启了。
支持单向和双向替换,举个例子。
供给->供应(单向):
文章中如果有“供给”这词就替换为“供给”,但如果是“供应”这词则不会替换为“供给”。
整洁<->整齐(双向):
文章中有“整洁”就会替换“整齐”,有“整齐”就会替换成“整洁”。
具体同义词库管理看后面的章节。
预定义发布时间:
若这里设置了时间,则发布时间为设置时间,若留空,则时间为采集当前时间。
列表页面采集设置
1
二、锁定要采集的内容和页面
1、打开QQ主页
2、根据自己的需要来进行相关内容的确定,这里以新闻中心为例。
点击进入
内容非常的丰富,也分很多类别,确定自己要采集的类别。
现在我的要找的是一个文章列表,目光焦点通常放到“更多”2个字上面。
这里很明显不合用,继续查看,先找到要的猎物。
发现目标,这里选择国内新闻为例。
点击国内进入。
同样类别非常的多,当然可以采集中间这个列表,但为了教程更通用,下面选择比较常见的列表形式。
这里选择时政要闻。
点击进入。
非常好,很直观的列表。
这里就找到了要用的列表地址:
继续观察列表的URL地址规律。
。
。
。
规律很明显。
下面再测试一下首页是否也符合这个规律。
根据规律写出地址:
发现打不开,说明首页跟其它页面不一样,这样就填写2个地方了。
填写到手工输入,然后点添加首页地址。
自动增长URL填写规律地址,一般是降序,根据自己需要设置。
继续,
自动调整开始地址:
目前只支持升序的列表,以后会完善。
这个功能就是根据每次采集的总个数和列表链接数进行自动更新采集的开始地址。
例:
列表页面有10个链接,每次采集总数为6,将在第二次采集后,把自动增长开始地址加1。
一个列表页面包含链接数:
开启自动调整此参数才有效。
文章倒序采集:
设为此项后列表中的文章将从列表最后面链接的开始采集
采集页面编码:
请输入要采集页面的编码。
比如:
gbk、utf-8、big5。
为空则不进行编码转换。
用程序辅助识别一下,一般被采集页面为GB2321,你的为GBK,则可以不转换。
继续
列表区域识别规则:
首先查看列表的源文件。
用搜索方式快速定位,这里搜索第一篇文章的标题。
下面,需要你有一定的HTML基础和编写规则的经验,当然经验是积累回来了。
继续观察。
我们要的是这个列表:
就是说在列表跳转列表的下面的,我们观察刚才定位到的地方往上一点的地方。
时政新闻