互联网信息采集系统用户手册.docx
《互联网信息采集系统用户手册.docx》由会员分享,可在线阅读,更多相关《互联网信息采集系统用户手册.docx(32页珍藏版)》请在冰豆网上搜索。
互联网信息采集系统用户手册
互联网信息采集系统用户手册
用户手册[V5.0]
第一章:
系统介绍
1.1软件简介
信息采集是指利用运算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入的整个过程。
《军犬信息采集专家》是一款基于人工智能的自动学习技术,功能强大、简单有用的互联网信息采集与监控软件。
1.2互联网信息采集与挖掘
要求从互联网上对特定目标数据源或不特定目标数据源进行采集与监控,并对信息进行结构化抽取储存为本地结构化数据库,然后按业务流程需求与其它模块结合,导入与应用并服务于到电子行业平台。
互联网数据采集与挖掘技术是指利用运算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入,并按业务所需,进行数据公布、分析的整个过程。
1.3互联网采集系统流程图
第一步:
确定采集任务。
第二步:
每个采集任务,我们有多个目标数据源可供采集。
第三步:
针对不同的目标数据源,进行不同的采集配置,以确保能采集到数据。
第四步:
调度采集任务,与目标站点同步更新,增量采集。
第五步:
采集到数据结果,完成数据异构到同构的过程。
第六步:
通过公布服务器,将数据公布到应用平台。
1.4系统应用领域:
1、搜索引擎与垂直搜索
2、综合门户与行业门户
3、电子政务与电子商务
4、知识治理与知识共享
5、企业竞争情报系统
6、BI商业智能系统
7、信息咨询与信息增值
8、信息安全和信息监控
1.5软件特点
(1)、过滤洁净,智能化抽取正文,且图文关联
图:
采集的目标源
图:
采集后“洁净”的正文结果
(2)、数据导出接口丰富,能够将数据导出成各种主流关系型数据结构。
(3)、配置简单
关于新闻资讯采集,只需输入待采集目标网站的地址或某个主题页面地址,软件即会自动学习网站的风格,并自动提取网站的资讯,无需配置模板,目标网站风格发生变化,软件自动学习。
关于数据采集软件提供了通俗易明白的站点配置向导,爱护人员稍加培训即可配置出任何的信息采集。
关于复杂的采集过程,通过一张采集卡脚本即可实现信息的自动采集与监控。
图:
输入“网址”,完成配置工作
图:
支持关键字采集,直截了当输入关键字,一步设置输入“关键字”,完成配置工作
(4)、所采即所得,所采即可见
图:
所采即所得,所采即可见
(5)、增量采集与自动更新
增加采集:
关于初次采集目标网站,软件支持完全采集;而关于已采集过的站点支持增量采集。
支持自动更新:
自动检测站点是否发生更新,并可不能遗漏任何一个重要的信息。
(6)、采集结果自动排重
不是利用简单的规则判定,而是利用内容的相似性进行排重判定,准确性高,可不能因为标题或内容的少许变化而产生漏判,即使把标题进行了改头换面,系统也会正确判定。
(7)、内置强大的信息监控
能够通过一个关键字广域监控互联网上任何一个站点上的相关信息。
也能够通过设置监控频道监控任何站点所采集到含有关键字的信息。
关于数值字段能够设置监控误差监控数值显现在一定范畴内的信息。
信息监控达到字段级。
您能够对任何一个采集目标网站设置监控属性,监控周期达到了秒级。
关于发生变化的信息能够在短时刻内采集到本地。
图:
独有的监控功能,可能对采集后的结果进行进一步监控与过滤
强大的站点治理工具能够对所有采集对象进行集中治理和各种操作
图:
对所有采集对象进行集中治理和各种操作
图:
为所欲为自定义导航与分类
图:
综全的选项配置,提升采集的性能
图:
对采集后的结果能够赶忙进行修改与编辑
(8)、支持多种编码
支持多种网站的信息的编码,GBK、BIG5、UNICODE、UTF8,软件会自动转换成GBK码进行统一的处理。
软件即会自动识别网站的组织结构,自动识别网站的编码。
表单治理,为所欲为自定义表单,方便采集不同的内容,如采集软件用单独的表单,采集图片用图片表单。
(9)、信息导入导出为所欲为
提供信息导入导出与其它软件可作无缝连接,如CRMOA
软件提供有强大的信息记录导入导出功能,您能够对任何一个频道、一条记录进行导入与导出。
能够导成Excel/Access等,也能够直截了当导到指定的数据库。
与《信息公布服务器》结合使用能够将信息公布到任何一个地点。
(10)、支持阅读模板
任何一种信息类型,软件都会自动创建一个阅读模板方便了您快速阅读;
任何信息您能够对任何一种信息表单定制一款漂亮的阅读模板,也能够对任何一个频道设置不同的阅读模板。
(11)、支持多页面内容重组
关于目标数据源的一篇文章在目标网站上分页显示,系统能自动对其重组.
软件运行稳固、采集速度快、占用系统资源少
历经多次改造的软件采集底层模块运行稳固、采集速度快,点用系统资源少。
可多线程并发运行,而不占有过多的系统资源。
采集速度快到瞬时到位。
软件完全能够实现7*24小时不间断无人值守的信息采集。
更多细节功能有待于您在使用中去体验。
(12)、其它特点列表:
1、支持多种语言:
支持简体中文、繁体中文、英文、日文、韩文等多国语言
2、支持多种站点类型:
包括html与rss
3、支持登录、验证后采集
4、软件支持需要登录与需要验证码的网站信息采集,采集过程完全仿人工。
5、支持附件采集
包括图片附件采集、多媒体附件采集、音视频附件采集、附件与正文自动映射与关联
6、完全结构化抽取
将网页的非结构化数据抽取成特定的结构化信息数据。
网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,垂直搜索是以结构化数据为最小单位。
然后将这些数据储备到数据库,进行进一步的加工处理,如:
去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
整个过程中,数据由非结构化数据抽取成结构化数据,通过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
7、数据储存到本地,您能够随时查阅信息。
采集到信息自动储存到本地数据库,您能够随时查阅信息。
8、多线层、多任务
9、支持海量数据采集
10、软件有用、易用、功能强大
11、可移植、可扩展、可定制
1.6系统配置要求
✧需要WindowsNT4/Windows2000Server或更新的操作系统。
✧需要MicrosoftSQLServer7/2000或其它ODBC 接口
✧硬件平台:
intelxeon1G以上CPU,1000M以上RAM,硬盘空间40GM以上
1.7系统性能
●支持多线程采集。
●单机在数据采集在G级以上。
●数据与数据源同步更新小于10秒级。
●数据同步公布小于10秒级。
第二章:
使用手册
2.1综合设置
2.1.1数据库治理
新建数据库
通过“系统(S)”主菜单下的“新建数据库”功能菜单,您能够创建一个全新的信息采集与治理数据库。
新建的数据库,默认会创建一个『新闻表单』,该表单要紧用于文章、新闻等资讯信息治理,该表单不允被删除。
我们建议:
您在新建数据库时期望能将数据库文件储备在与操作系统不同的驱动盘下,如此数据库中的信息内容会更安全一些。
备份数据库
通过备份数据库的功能,您能够将当前正在使用的数据库压缩并备份到另一个名目下。
以备以后的使用。
压缩数据库
由于桌面版的软件版本使用了微软的ACCESS数据库,该数据库在您删除记录时可不能自动开释已删除记录所占用的空间。
因此需要您不定期地对当前正在使用的数据库进行压缩,以减少数据库占用硬盘资源的空间。
关于SQLServer版本的软件,则无需使用压缩数据库的功能。
软件也将该功能屏蔽。
2.1.2表单治理
表单的概念
《互联网信息采编发系统》中的表单等同于数据库中的表。
通俗地说需要为每种信息类型创建一个储备空间。
不同的是为了能够对数据库中的所有表单记录进行统一的治理,需要在各个表单中预置一些字段,通常这些字段含以下几个部分:
显示操纵信息字段:
密码字段、文字颜色字段、文字背景颜色字段、显示图标字段
后续跟踪信息字段:
信息来源地址字段
频道信息字段:
频道信息,监控频道信息
创建表单
下面以创建一个图书治理表单为例,逐步向您说明如何创建一个属于自己的治理表单。
找到主菜单栏中的“工具”=>"系统表单治理"菜单,在弹出的在表单治理器中点击“新建表单”按钮。
在“表单标题”编辑框中输入“图书表单”,在“表单名称”编辑框中输入“tblBookSheet”。
注意:
假如“表单名称”或“表单标题”为空将不能成功地创建表单。
点击“储存”按钮,这时系统会提示您已成功地创建了一个名称“图书表单”的表单,并在图书表单下下挂三个字段“记录编号”、“频道名称”、“源文地址”。
那个三个字段是软件中对一个表单中任何一条记录进行治理的必要的字段。
您不可删除或更换名称或属性。
记录编号用于标识表单中任何一条记录的唯独的标识。
频道名称用于标识该记录从属于哪个频道;而源文地址则用于标识信息来源于何处。
表单标题
该字段用于通俗易明白地标示表单。
[必须输入],我们建议您表单标题做到整个数据库是唯独的。
表单名称
该字段用于在数据库中创建对应表单的名称,该字段的值不能与数据库中其它的表单名称重复[需要在数据库中唯独]。
字段值长度不能超过20个汉字(40个英文字母),命名规则同Windows中的文件命名规则相同。
能够取与表单标题相同的名称,但建议采纳tblXXXSheet作为命名规范。
阅读模板
该字段用于标识该表单的信息内容阅读模板的路径,能够是文件路径名称如:
e:
\Quickreader\readmodel\tblbooksheet.html,也能够是网络上的某个路径名如:
:
//xxx/tblbooksheet.html。
也能够是相对路径,如:
readmodel\tblbooksheet.html(假如您将程序安装在:
c\ProgrameFiles\采集软件\QuickReader,那么该相对路径相当于c\ProgrameFiles\采集软件\QuickReader\readmodel\tblbooksheet.html)
假如没有该表单对应的阅读模板,“阅读模板”字段能够不输入任何值。
等最后创建完该表单所有字段后利用软件提供的“创建模板”进行创建。
添加字段
以创建图书信息治理表单为例,假设治理图图需要以下字段:
字段标题字段名称说明属性
图书名称fldBookName用于储存图书的名称字符型,长度40,查重键,主题键
作者fldBookAuthor图书作者字符型,长度30
购买日期fldPurchaseDate可用于操纵或统计日期型
图书价格fldBookPrice价格浮点型
借阅人fldUserName当前借阅用户名称字符型,长度40
借阅日期fldBrowDate借阅日期日期型
图书简介fldBookMemo有关该图书的说明备注型
选中刚才新建的“图书表单”后,点击“新建字段”按钮,将在“图书表单”下增加一个结点,编辑框中预输入了“新字段”,你能够在那个地点输入字段标题,也能够在列表中的“字段标题”中输入。
现在,在结点编辑中输入“图书名称”后,点击列表中的“字段名称”在编辑框中输入“fldBookName”。
选择“字段类型”为“字符”,“长度”输入40,“设为查重键”选择“是”,“承诺为空”选择“否”。
点击“储存”按钮。
假如没有报错说明系统已成功地图书表单上增加了“图书名称”字段。
可按照上述图书治理的需求表格,完成在图书表单的创建工作。
下面将对表单各个属性进行详细地说明。
字段标题
该字段用于通俗显式地标示字段的名称,在同一个表单中字段名称不能重复。
最大长度不能超过50个字节。
字段名称
该字段用于在表单中隐式地标示字段名称,在同一个表单中字段名称不能重复。
最大长度不能超过50个字节,命名规则同Windows中的文件命名。
建议采纳fldXXX作为该值的输入规范。
字段类型
目前字段类型有:
字符型、日期型、整型、浮点型和备注型5种字段类型,能够依照实际需要从这5种类型中选择。
不同类型的字段在输入字段值时将有不同的控件和限制。
能够在以后对其进行修改。
字段长度
字段长度只能“字符型”的字段有效,其它类型输入长度是无效的,关于字符型长度值默认为50个字节。
设为查重键
该字段能够选择为“是”或“否”。
可依照实际需要设置一些字段为查重键。
如我们在“图书表单”中设置“图书名称”为查重键,如此,以后在输入每一本书的属性时,系统将查找是否存在有相同图书名称的记录。
主题字段
该字段能够选择为“是”或“否”。
用于标识一条信息中的最要紧的信息的字段。
如新闻表单中的新闻标题。
我们在“图书表单”中能够设置“图书名称”为主题字段。
识别标签
该字段将用于文档识别、网络信息采集时对该字段值的自动识别。
如以后需要自动从文本中识别“图书名称”的值,则能够输入“图书名称;名称;图书;BOOKNAME;”等作为图书名称字段的识别标签,各个标签之间以“;”或“;”分隔。
默认值
该值将用于在识别、录入或采集时没有得到该字段的值是将用默认值填入。
如有字段“性别”,在没有识别到“性别”字段的值时,将用默认值“女”或“男”作为“性别”的值。
在列表中显示
用于操纵属性字段在概览表单内容时是否在列表中显示。
列表宽度
用于操纵属性字段在概览表单时显示在列表中的长度。
对齐格式
用于操纵属性字段在概览时在列表中的对齐格式,有三种选择:
左对齐、居中对齐和右对齐。
可选择往常的值
用于操纵在录入该表单的资讯时,该属性字段可否从往常录入的值中选择一个。
如有属性字段“民族”,则在录入记录信息时遇到该属性字段既能够手工输入也能够从往常的值中选取一个。
承诺为空
用于操纵属性字段是否承诺为空,假如设置不空时,在录入或采集该表单的资讯记录时,发觉该字段没有值的记录将被丢弃或要求录入该字段。
如“图书表单”中要求“图书名称”不为空,那么假如“图书名称”为空的话,该记录就变得没必要了。
修改属性
在使用表单的过程中,还能够表单的属性进行修改与编辑,但不能修改表单名称和字段名称。
修改后的属性能够赶忙在使用中生效。
专门提示:
在信息采集的过程中软件不承诺您对表单进行修改。
删除表单
通过“删除表单”按钮能够删除掉一些不再使用的表单。
注意:
删除表单时,表单中的所有记录将被同时删除,另外建立在该表单基础上的所有栏目也将被删除。
删除字段
通过“删除字段”按钮能够删除掉一些不再使用的属性字段。
注意:
删除字段时将同时删除表单中该字段的所有数据。
上移下移字段
您能够通过“上移”按钮将表单中的一个字段上移或下移到到一个指定的位置。
以改变字段在列表与阅读模板中显示顺序。
创建阅读模板
您能够随时使用“表单治理器”中的“创建模板”功能为某个表单创建一个由系统生成的阅读模板。
阅读模板要紧是便于您快速阅读信息。
您也能够自己一个漂亮的阅读模板。
如何创建阅读模板,请参照『阅读模板』一节。
远程表单治理
远程表单治理关于使用了《互联网信息采编发系统》的用户才会显示。
关于一般的用户可不能显示有该节点。
要紧用于治理远程公布服务器上的分配给指定用户承诺使用的公布表单。
只有在公布服务器上分配给用户承诺公布的表单后才会在该节点下显示有相关的表单信息。
用户能够通过表单治理器来扫瞄远程表单的信息。
但不能修改表单属性。
2.1.3频道治理
创建频道
选中一个结点作为新建频道的父名目,点击右键,在弹出的右键菜单上选择“新建频道”,在弹出的“频道属性”对话框中输入频道的名称,并选择一个表单,默认为“新闻表单”,我们选择前面表单治理中创建的“图书表单”。
假如存在有该频道的阅读模板,能够扫瞄输入模板的路径。
最后,还能够为该频道选择一个适合的图标。
假如图标列表中没有合适的图标,也能够找到一个合适的图标文件,并将图标文件放置于安装名目的Icon名目下。
重启软件,就能够更新该栏目的图标为您刚才放置的图标。
修改频道属性
能够通过右键菜单或双击某个频道,都能够弹出频道属性对话框,能够在属性对话框中修改频道的各个属性(不能修改栏目所对应的表单)后储存即可。
删除频道
通过右键菜单能够删除选中的频道,注意删除频道时将同时删除其子频道的所有信息。
假如该频道及其子频道下的记录比较多,删除可能需要一段时刻,请耐心等待。
隐藏频道
在频道较多的时候,能够通过隐藏频道功能隐藏一些栏目在导航树上的显示。
刷新频道
通过刷新频道,能够重新在导航树上显示那些被隐藏的子频道。
清空频道
清空频道,将会将频道中的所有记录都清空,但可不能阻碍到其子频道的信息。
设置频道密码
设置了频道密码后,能够操纵频道的访问权限,再次访问需要输入密码才能够访问。
设置标记
还能够将频道标记为重要(或一样)的状态,标记为重要状态的频道文字将以加粗的方式显示,相反标记为一样的频道则以非加粗的方式显示。
还能够设置或取消频道结点的文字颜色。
而也能够通过"取消所有文字颜色"来取消所有已设置文字显示颜色的频道的颜色。
拖动频道
通过将选中的频道拖动到其它频道下,能够改变频道的父结点。
下次生成导航树时将会把被拖动的频道显示在新的父频道下,以改变信息分类结构。
2.1.4模板治理
阅读模板的作用
通过阅读模板能够将表单中的信息内以网页的形式快速展现,以便让您快速阅读。
《互联网信息采编发系统》能够支持对每个频道定义一个不同的模板也能够是同一表单共用一个阅读模板。
如何设计模板
下面以一个新闻阅读模板作为示例,说明如何设计模板。
模板中必须包含您要为哪个信息表单中要快速阅读的字段设置的阅读模板。
如上述模板中要显示新闻作者,新闻来源,所属频道,收录日期和新闻内容以及新闻相关附件等。
设计好的模板中要紧在各位单元格中放置“表单治理”中各个要显示的字段的字段名称。
要紧放置id="字段名称"name="字段名称"。
那个地点要专门说明是放置字段名称,而非字段标题
2.2信息采集
2.2.1站点差不多属性
在增加或编辑站点属性时,需要设置站点的的第一步确实是设置采集站点的差不多属性。
站点差不多信息包括:
站点地址
站点地址设定了从该站点哪个页面开始采集。
能够一些网站的首页,能够是网站中某个主题的页面地址,也能够是某个论坛的地址。
还能够是某个RSS站点的链接地址。
站点名称
站点名称要紧用于显示地标识该站点,以便于以后站点爱护与治理。
专门说明:
当您在输入了站点的地址后,能够点击旁边的小球。
该功能既能够帮您取得站点的名称,也能够取得下面要说到的站点类型和站点编码。
站点类型
您能够手工设置站点的类型,也能够由软件自动识别。
目前有两种类型的站点类型:
一般HTML站点和聚类RSS站点。
目前大部的站点依旧一般的HTML站点,软件会自动识别出该站点上所有的信息链接;聚类RSS站点是近几年兴起的一种信息聚合方式,那个地点面可能包含了多个不同网站相同或相关主题的信息链接。
只要您输入一个地址,软件自动识别站点类型。
站点编码
站点编码用于显示地告诉软件该站点的网页采纳了哪种编码模式,如繁体网页一样采纳BIG5编码;一些网站的网页则采纳UTF8编码。
关于不同的编码网页软件需要进行统一的编码转换处理后再进行提取。
一样软件会自动识别网站的编码模式。
而关于不能识别出站点的编码模式,则需要用户手工设定采集站点的编码模式。
如此,能够最大地保证网站的信息采全。
需要使用代理
有些站点可能需要设置代理信息才能访问与采集,而且其它的站点并不需要代理。
而假如所有需采集的网站都需要通过代理,你只需设置"默认采集属性"中的代理信息后,以后增加每个站点都会自动采纳该代理。
不需使用代理的采集一样比使用代理采集速度要快。
该网站需要登录
在采集一些如论坛或其它需要您输入登录账号的站点时,需要设置登录用户名和密码。
登录时需要输入验证码
有些网站在采集时除了需要登录外,还要求登录时输入一个图片或文字形式的验证码才能采集。
那个地点就需要您设置如何提取与识别验证码。
需要使用代理、网站需要登录详见『登录目标网站』;登录时需要输入验证码,详见『验证码识别』
承诺自动周期检测该站的更新并采集
关于一些需要长期采集其公布的最新信息,适当地设置每个站点的更新周期,能够加快每次的更新速度。
因为有些站点是1个星期更新一次,而有些站点几分钟就更新一次。
通过设置的周期猎手能够快速检测并更新达到更新周期的站点。
2.2.2提交访问数据
什么缘故要提交数据
有些时候,我们为了准确地操纵采集页面,或是为了登录等的要求,需要在访问网页时提交一些数据给目标网站。
目标网站在解析了这些数据后就会按照数据中的要求返回相应的页面。
您只需把要提交的访问数据拷贝到该页面的顶端最大的编辑框中,软件就会自动解析这些数据。
您能够修改解析后的参数列表中的某些参数值。
比如
username=abcd&userpswd=134&classid=23&pageno=2
能够说明成如此的:
用户名:
abcd密码134要访问类别ID为23的第二页上的信息。
只要这些信息符合目标网站的要求,就会返回相应的页面。
如何获得访问数据
我们明白了访问数据的重要性,我们就要明白如何才能获得访问数据。
获得访问数据的方法有专门多,我们在此举荐一种最可靠最有效的猎取访问数据的方法。
您能够在互联网上下载一些捕包工具,然后先手工访问目标网站。
然后在捕包工具中找到需要提交的数据,并拷贝出来。
2.2.3站点链接预览
站点链接预览与设置
进入该页面后,软件会解析采集目标页面上所有的链接信息,并以树状的形式显示。
用户选择任何一点条记录后,点击右键,能够弹出操纵菜单。
复制链接地址拷贝当前选中的链接信息中的链接地址。
复制链接标题拷贝当前选中的链接信各的链接标题。
扫瞄原文件在网页扫瞄器中打开原文查看。
打开该链接将会在软件的链接预览窗口选中的链接下展开该链接记录的子链接信息。
设为典型页面设置为您要采集的感爱好的链接信息。
您能够多设置几个,以作后面的字段信息提取测试的测试页面。
采集深度
采集深度是指您要对该目标链接采集到第几层。
设置提取专门的链接地址
在采集过程中经常会遇到一些信息内容是在弹出式的窗口上显示的,其脚本类似于:
javascript:
privateWin('200708766')的链接地址,而该链接地址的实际地址可能是如此的:
:
//test/testsmth.asp?
id=200708766
那么那个时候您就要告诉软件说,您要提取出这类专门的链接地址,并把这些链接地址转换成真实的链接地址。
那么链接地址特点:
就输入:
:
privateWin('{1}')
真实的链接地址请输入:
:
//test/testsmth.asp?
id={1}
如此软件就会自动提取中所有链接中符合privateWin('')的链接变量,并转换成真实的链接地址。
这种情形,一样的用户能够跃过该节。
2.2.4采集过滤
采集过滤操纵设置
为了加快采集有效信息,直截了当过滤或不采集明显地无效信息,我们就需要在采集过滤操纵中设置一些过滤操纵条件。
您能够从“链接地址”、“链接标题”和“信息正文”中“包含”或“不包含”某个关键字的链接进行操纵,操纵动作有:
不采集,采集不提取,采集并提取。
如设置链接地址中包含有"123"的不采集。
而采集不提取的概念是,只采集到符合条件的链接地址的信息,并依照采集深度分析出子链接,但可不能提取该页面上的信息。
而采集并提取,则不但会分析子链接而且还会提取该页面的