采集器VIP10手册.docx-资源下载

采集器VIP10手册.docx

1、采集器VIP10手册一、安装要求二、配置插件三、添加采集规则四、计划任务五、同义词管理本插件适用于php 5.x版本。本插件要求开启allow_url_fopen功能。如果没有打开可以要求你空间的售后进行权限的开放。查看方法，下载附件phpinfo.php，上传至你的空间，不限目录，访问此文件，搜索“allow_url_fopen”，如果是On表示已经启用，如果是Off，就是关闭了。独立服务器或vps可以自行打开方法如下：在php安装目录找到Php.ini文件，寻找allow_url_fopen，把off改为on。allow_url_fopen = On配置插件进入插件文件夹，打开c

2、onfig_robot.php文件。如下：$robot_setallow_uid = 1,3;/ - robot_setallow_uid = 1,2,3; 允许哪些用户使用这个插件$robot_setrobot_perpage = 5;/-list robots number perpage 界面设置：采集器列表一页显示多个采集器$robot_setmessage_perpage = 5;/-list messages number perpage 文件列表一页显示多少个文件$robot_setthread_credittype = extcredits2;/发表主题添加的积分项$robot

3、_setthread_creditadd = 4;/发表主题添加的积分数$robot_setpost_credittype = extcredits2;/发表回复增加的积分项$robot_setpost_creditadd = 2;/发表回复增加的积分数$robot_setviews_addnum = rand(10,50);/主题的浏览数设置$robot_seturlallowmon_num = 50; /为0，为不限制，检测历史文章url个数，按域名分类，并根据采集时间的降序检测，大大节约资源的占用。$robot_setsubjectallowrepeat_num = 100; /为0，为

4、不限制，检测历史标题个数,按域名分类，并根据采集时间的降序检测，防止访问数据库超时。$robot_setrepeatolog_keepday = 3; /为0，为不限制，标题及URL记录保存天数。用于计划任务，其实过多的记录作用也不大。首次安装的请把config_robot.php配置好.已经安装过的,覆盖后在后台插件升级.采集器管理界面下面一一介绍。标题栏：默认就是浏览机器人添加机器人：跟刚才的一样。导入机器人：先看看导出来的规则文件：就是横线下面这一大串字母了，把它复制到配置文件内容框里。允许导入不同版本，如果选否，会检测插件的版本。一般可以选“是”，导入完之后，其采集器的采集时间设为当前

5、时间，这样就会默认显示到列表的第一位，方便进一步编辑。目前兼容SS7.5版的采集规则，可以到官方网搜索，或者进入的采集器专版查找或提问。现在返回浏览机器人界面。进一步介绍：采集器左边的选择框只针对最下面的批量操作有效。点击采集名会进入采集器未导入文章的界面。导自动导入图图片下载到本地重允许重复标题监监测重复URL右边的选择操作为单独操作一个采集器。开始采集：点击就开始采集编辑配置：编辑采集器规则复制配置：把当前的规则复制到新建机器人配置里，非常的方便好用哦。导出配置：请右击，选目标另存为。方便备份和分享你的机器人。查看结果：查看当前机器人未自动导入的文章。导出文章：把文章列表导出到文本文件：清

6、空文章：清空当前采集器未导入或已经导入但没有删除的临时文章。删除机器：删除后不可以恢复，会进一步提示确认。批量操作：在左边选好要操作的采集器，选上一个操作，点提交可以开始批量操作了。很方便吧。最下面是页码：要是页数较多会出现一个跳转文本框，如下图在框中填上你要去的页码，然后按回车就可以跳转过去了。下面介绍采集器文章管理下面一一介绍：选择，未导入的文章还是导入的文章。采集器列表，有相关文章的会在采集器名字后面标示出来。点击名称会显示相关的文章。有附件的会在标题前显示附件图标。下面重点说说操作：全选：全部选择或全部不选。导入：导入到哪下面就会显示出导入界面。这里要说明一点，要是想导入到门户并且保存

7、图片，采集前应该在第一栏的分类选上门户，不然附件的位置会出错。这里显示一下这个四级分类:有群组的会在后面显示群组数，没有群组的为不可选。这里设置是否包括这些临时文章。不删除就会在已导入列表中显示。如果你是选择某一采集器的文章，导入界面也是有所不同的。如下图：主要不同是多了一次性导入。可以一次性把当前的采集器的未导入的文章全部导入到指定的地方。已导入文章界面跟未导入文章相似只是多了显示导进的地方。采集计划任务采用的是DZ的计划任务，这里已经把操作界面集成进来，所有机器人的任务都集中到一起显示，更方便操作。这里要说明一些情况：1、 DZ的计划任务采用负载平衡技术，并不是每个时间点上的任务都会执行的

8、。为保证执行多设置几个时间点吧，不要与其它时间点重叠。2、不用担心用户触发采集后关闭页面会导致采集中断，采集还会继续在服务器执行。同义词库管理界面：可以临时新增一组词，也可以用文本的方式批量导入。同义词库4180组：也可以自行编写同义词库文本。单向默认用“”双向默认用“=”。一行一组词。如：1. 爱护=保护2. 安顿安排3. 安全=平安4. 安适=安闲5. 安慰=抚慰要求文本编码为ANSI，这也是记事本默认的编码。其他编码会导致乱码。一，添加机器人一、基本设置机器人名：可根据采集内容定义采集总个数：就是采集一次的总个数单次采集个数：跳转一个页面所采集的个数，采集是个很耗资源的过程，为避

9、免超时采用页面跳转。若采用计划任务，此项最好跟总数设置成一样。因为计划任务里是不会跳转页面的。视网速而定，建议设置小一些，以免超时。自动导入到：选择分类,可以直接将采集的结果导入到站点。想实现自动导入，必须选择具体的版块或栏目。另外请注意，若采集到门户，但不打算自动导入，此项的第一个分类一定要选门户，否则附件将存放到论坛附件里，导致门户文章的附件地址出错。图片是否加水印：这里将取代站点的水印开关设置，但具体水印设置按后台的水印设置。所以还是先要设置好站点后台的水印设置。替换同义词：这里是设置是否使用同义词库自动替换同义词，替换范围包括标题和内容。对于纯图片的文章就没必要开启了。支持单向和双向

10、替换，举个例子。供给-供应（单向）：文章中如果有“供给”这词就替换为“供给”，但如果是“供应”这词则不会替换为“供给”。整洁整齐（双向）：文章中有“整洁”就会替换“整齐”，有“整齐”就会替换成“整洁”。具体同义词库管理看后面的章节。预定义发布时间：若这里设置了时间，则发布时间为设置时间，若留空，则时间为采集当前时间。列表页面采集设置1二、锁定要采集的内容和页面1、打开QQ主页2、根据自己的需要来进行相关内容的确定，这里以新闻中心为例。点击进入内容非常的丰富，也分很多类别，确定自己要采集的类别。现在我的要找的是一个文章列表，目光焦点通常放到“更多”2个字上面。这里很明显不合用，继续查看，先

11、找到要的猎物。发现目标，这里选择国内新闻为例。点击国内进入。同样类别非常的多，当然可以采集中间这个列表，但为了教程更通用，下面选择比较常见的列表形式。这里选择时政要闻。点击进入。非常好，很直观的列表。这里就找到了要用的列表地址：继续观察列表的URL地址规律。规律很明显。下面再测试一下首页是否也符合这个规律。根据规律写出地址：发现打不开，说明首页跟其它页面不一样，这样就填写2个地方了。填写到手工输入，然后点添加首页地址。自动增长URL填写规律地址，一般是降序，根据自己需要设置。继续，自动调整开始地址：目前只支持升序的列表，以后会完善。这个功能就是根据每次采集的总个数和列表链接数进行自动更新采集的

12、开始地址。例：列表页面有10个链接，每次采集总数为6，将在第二次采集后，把自动增长开始地址加1。一个列表页面包含链接数：开启自动调整此参数才有效。文章倒序采集：设为此项后列表中的文章将从列表最后面链接的开始采集采集页面编码：请输入要采集页面的编码。比如：gbk、utf-8、big5。为空则不进行编码转换。用程序辅助识别一下，一般被采集页面为GB2321，你的为GBK，则可以不转换。继续列表区域识别规则：首先查看列表的源文件。用搜索方式快速定位，这里搜索第一篇文章的标题。下面，需要你有一定的HTML基础和编写规则的经验，当然经验是积累回来了。继续观察。我们要的是这个列表：就是说在列表跳转列表的

13、下面的，我们观察刚才定位到的地方往上一点的地方。时政新闻<上一页1.a href= class=f12 href=a target=_blank href= 名称用“中国”“优惠”2000万 10月18日 15:41这里看到有个比较明显的开始标志：，在源文件中搜索，看看这个第一次出现的位置是不是我们要的位置，如果不是，再改用其它。很好这个只出现过一次。下面定位结束，同样快速定位到列表结束的地方。结束标志要注意的地方是你找到的标志字串的位置是不是刚才确定的开始标志的后面第一个出现的位置，如果不是则会出现列表不完整的问题。这个要好好观察了。很幸运，列表中没有出现过，所以我们就选择这

14、个作为结束标志串。结合起来就是list下面测试一下。效果非常的好，当然也要看看其它列表页面是否也符合这个规律。我们继续把测试的结果复制到一个文本中，方便下一步查看。a target=_blank href= 国税系统意外遇冷10月15日 14:57a target=_blank href= 包容性增长成亮点10月15日 14:55a target=_blank href=10月15日 14:43太多了这里摘选一部份。下面继续文章链接URL识别规则这里的列表太标准了，这个可以留空让程序自动识别。这里演示一下：a target=_blank href=url非常的简单吧。对于不标准的或带简介的，自

15、己多测试几下就可以。文章链接URL剔除规则功能:凡符合规则的链接不进行采集,区分大小写.用 * 来代替任意字符、换行、回车多个规则之间用 | 隔开。这里是直接填写关键词文章链接URL过滤规则功能:过滤掉链接中的字符串,可以用来整理链接,区分大小写.用 * 来代替任意字符、换行、回车多个规则之间用 | 隔开。这里是直接填写关键词文章链接URL补充前缀自动识别 (文章链接URL补充前缀为空时，程序自动补充前缀) ，根据测试情况自行设置，一般都不需要设置。文章链接URL补充后缀根据测试情况自行设置，一般都不需要设置。完成列表部分，下面进入内容部分。内容页面标题采集设置现在要进入到内容的页面，打

16、开一篇文章的地址。文章标题识别规则好了，查看源文件。快速定制标题位置。很好，很标准。再搜索文中还有没有其它地方出现，程序是以第一次出现的位置为标准。很好，没有其它位置出现，这里就得到标题的表达式。subject文章标题过滤规则用 * 来代替任意字符、换行、回车多个规则之间用 | 隔开。这里是直接填写关键词。文章标题文字替换直接填写互换的词语。多于一条就点添加，只有一条就不需要点添加。文章标题包含关键字设置该选项后，则只采集标题包含关键字的文章多个关键字之间用 | 隔开文章标题关键字剔除过滤设置该选项后，不会采集标题包含关键字的文章多个关键字之间用 | 隔开允许文章标题重复(如果启用自

17、动入库再启用此项文章标题不允许重复将加重数据库的负载)（后续会进一步完善SS7.5的这个不足。）完成标题部分，继续文章内容部分。内容页面内容采集设置文章内容识别规则同样观察源文件。这里跟识别列表差不多，比较识别列表更简单些。开始部分：日媒称反日游行引发日企不安在华销售或受影响2010年10月18日15:06环球网字号：T|T我们保留这个发布的时间，直接以为开始标志。下面找结束的。爱国热情转化为做好本职工作的实际行动，维护好改革、发展、稳定大局。更多精彩内容请登录环球网(A target=_blank href=只出现过一次就用它了。规则就是message，测试一下，很明显多了些我们不要的内

18、容，下面就过滤掉。文章内容过滤规则这些内容是多余我要评论(0)字号：T|T一些HTML的标签在下面的格式化中会去掉，这里就先不管。我们看看要过滤的内容规则怎么写。*，测试一下，没达到效果。再试*OK了。这里大家多测试就行了。当然做好内容的识别规则，这里也省事。文章内容文字替换这里跟上面的标题一样。文章内容包含关键字设置该选项后，则只采集文章内容包含关键字的文章多个关键字之间用 | 隔开文章内容关键字剔除过滤设置该选项后，不会采集文章内容包含关键字的文章多个关键字之间用 | 隔开文章内容格式化此操作将去除网页多余代码,并将文章内容按原有段落分段.格式化的过程为程序自动分析,会存在一些误差

19、.文章内容分页模式当选择上下页导航时,分页区域识别规则请将下一页配置成识别区域. 页码导航上下页导航这里不存在分页。我们再换个地址说明。文章内容分页区域识别规则这里换一个例子来说明。如图，是页码导航。这个是文章内的页码导航。第1页第2页第3页第4页很容易我们就得到要用的规则。pagearea 文章内容分页链接识别规则这个也很直观，可以直接写出来。链接规则请写准确，不然会出现“您当前的访问请求当中含有非法字符，已经被系统拒绝。”的提示。a href=page上下页导航：请将下一页配置成识别区域，不能包含其他链接，否则会不停重复采集。原理是不停采集下一页的url，直到没有。文章内容分页链接URL补充前缀自动识别 (文章内容分页链接URL补充前缀为空时，程序自动补充前缀) 文章内容分页链接URL补充后缀这个不常用，要用的时候观察一下就清楚了。继续信息来源识别规则这项导入到论坛或群组时用不上。写规则就像写标题规则一样，比较容易。说明也写得比较清楚，可以设置固定值。作者识别规则这项导入到论坛或群组时用不上。写规则就像写标题规则一样，比较容易。说明也写得比较清楚，可以设置固定值。发布者UID这个最好填上，为空时，手动采集时为当前操作者，自动采集时为触发计划任务的会员或游客。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？