国际互联网海量情报智能分析讲解.docx

资源描述

国际互联网海量情报智能分析讲解.docx

《国际互联网海量情报智能分析讲解.docx》由会员分享，可在线阅读，更多相关《国际互联网海量情报智能分析讲解.docx（29页珍藏版）》请在冰豆网上搜索。

国际互联网海量情报智能分析讲解.docx

国际互联网海量情报智能分析讲解

附件四

国际互联网海量情报智能分析系统介绍

白

皮

书

一项目背景1

二功能介绍1

1.词汇分析2

2.文档名分析3

3.预置关键词4

4.收藏夹5

5.网页白名单5

6.分析进度6

7.统计查询7

8.报警通知7

9.分析工具9

10.系统用户10

三模块组成11

1.数据采集系统11

1.1.系统构架说明13

2.全文检索系统16

2.1.功能简介16

2.2.智能分析引擎17

2.3.API检索接口17

2.4.数据存储18

3.WEB管理平台20

四工作流程20

五技术优势21

A.数据采集系统技术优势21

B．全文检索系统技术优势23

六维护管理监控25

七网页数据采集技术指标26

八系统环境要求26

一项目背景

互联网正成为舆论形成的新型重要大众媒介，也成为民意表达的新的重要平台。

网民的价值取向有时会表现出惊人的一致，因此所形成的影响力不可低估，政府应对互联网舆情建立汇集与分析机制，及时回应与疏导。

本系统侧重分析互联网社区中针对某些机构单位或者个人的言论。

可定制监控的社区网站范围，也可设定要重点关注的机构单位或者个人。

二功能介绍

登录界面如下：

主界面如下：

本系统使用B/S结构，不需要安装及维护客户端，方便用户的使用。

用户事先通过WEB管理平台设定敏感关键词组，后台服务模块对政府网站的文字信息进行过滤，发现可疑的网页，便进行记录，用户可以通过WEB管理平台进行查看。

具体功能列表如下：

1.词汇分析

分析结果

对事先设置的词汇进行过滤，中标后，显示在分析结果列表。

如图：

词汇管理

对词汇进行管理，可以对其进行增删改查操作。

对词汇可以设置权值，已经中标权值和报警权值，报警方式有短信和邮件。

如图：

2.机构单位分析

分析结果

对预设的机构单位进行全文匹配，只要匹配上一个就进行报警。

分析结果可以查询中标结果。

机构单位管理

对机构单位进行管理，可以对其进行增删改查操作。

每行输入一个机构单位，只要发现就算中标，报警方式有短信和邮件。

3.预置关键词

全文检索

使用预置的关键词组，对检测的网站群进行全文检索，可以指定检索结果中摘要的显示字数。

如图：

关键词管理

预置关键词的管理，对其进行增删改查。

如图

：

4.收藏夹

收藏管理

浏览个人收藏夹中收藏的可疑网页

如图：

收藏分类管理

管理收藏分类名称。

对收藏进行分类，便于浏览。

如图：

5.网页白名单

白名单管理

对中标后的网页，人工审核后，如果没有问题，可以加入白名单，后台不在进行分析。

如图:

6.分析进度

各区县进度

以地图的方式展示每个区县网页爬取的进度，以及中标网页的数量。

下图以北京市为例。

如图:

7.统计查询

全文检索统计

统计某个时间段内对某个关键词的查询次数

如图：

预置检索统计

统计某个时间段对预置关键词的查询次数

8.报警通知

历史报警记录

查询浏览历史报警记录。

如图：

参数设置

设定报警开关，报警方式，以及报警的手机号，邮箱地址。

如图：

9.分析工具

互联网搜索

互联网搜索引擎的比对工具，方便在不同搜索引擎之间切换，对比搜索结果。

如图：

词频分析

对文章进行分析，进行中文分词，然后统计词频，便于提取文章的核心词汇。

如图：

10.系统用户

创建用户

创建新用户，设置用户操作权限

如图：

用户管理

对用户账号，以及权限，进行增删改查。

如图：

三模块组成

11.数据采集系统

本模块提供对政府网站数据进行采集的服务。

根据用户事先配置好的规则（网页下载规则，数据块解析规则等），进行数据采集。

当对方网站数据进行了更新，或者添加新数据时，系统自动会进行检测，并进行采集，然后更新到全文检索数据库。

本模块采用分布式处理，可以通过采集管理平台把采集任务发布到不同的服务器，能够进行对大量数据源网站进行高频率的并行监控采集。

对服务器群管理方便快捷，通过采集管理平台进行统一管理，监控，统计，分析。

本模块采用插件方式，对采集来的数据可以进行修正。

对输出方式可以通过插件自由定制。

可扩展性高。

登录界面：

主界面截图：

11.1.系统构架说明

11.1.1工作过程描述

采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的数据库或其他的存储形式，这个过程需要做如下配置工作：

下载网页配置，解析网页配置，修正结果配置，数据输出配置。

如果数据符合自己要求，修正结果这步可省略。

配置完毕后，把配置形成任务（任务以XML格式描述），发布到采集服务器群组，采集爬虫按照任务的描述开始工作，最终把采集到的结果存储到结果存储服务器。

然后用户自己的信息处理系统就可以到结果存储服务器上取到数据，作为自己的数据源。

11.1.2采集管理服务器

运行采集管理平台，负责其他所有采集服务器的管理，监控，统计，分析和任务分配。

与其他采集服务器采用HTTP协议发送查询命令，然后返回要查询的相关信息。

11.1.3采集服务器群组

运行采集爬虫，每台服务器运行10个采集爬虫。

每个爬虫负责多个采集任务，任务越多，数据更新的频率就越低。

所以服务器越多，分配给每个进程的任务就越少，数据更新的频率就越高。

数据采集的效率就越高。

系统部署图如下：

工作流程图如下：

数据处理逻辑图：

12.全文检索系统

12.1.功能简介

全文检索系统采用全文智能分析技术，通过内容分析和概念匹配技术，实现对多种非结构化信息的智能识别处理，包括语义识别、关键信息提取、全文检索等几个部分。

全文检索系统的核心是动态智能分析引擎，动态智能分析引擎基于先进的自然语言处理技术，该技术采用高性能概率模型算法，可获取文档中的多种关键要素如时间、地点、任务、关键词组等信息，并具有可提炼文本含义的特性。

12.2.智能分析引擎

智能分析引擎对信息所含概念进行理解和分析，自动判断分类，不需要人工参与，这样就消除了所有手工成本。

另外，智能分析引擎为应用提供了理解概念信息的能力，这意味着来源迥异的并且采用不同方案标记的传统数据，可以自动被关联和检索。

智能分析引擎将文档、网页、邮件等文件，按照不同的分词，通过聚类、分类，插入到全文检索数据库中。

可以解决因为手工创建索引任务所引起的低效率及主要失败原因，此外，通过理解文件各种环境，给文件索引增加一个自动化智能层，这个智能层可以理解各种数据文件及其相关信息的内容和目的，并对其进行自动化处理，并可通过参数进行全方位的控制。

通常，表面看起来彼此没有联系的两个分类可能有很重要的关系。

而且，在很多情形之下，两个信息类别之间可能会有一定程度的雷同，因为该用户可能对两类信息都感兴趣。

全文检索系统定义的基本结构可以根据内容自动推断出其意义，随着数据数量的增加，全文检索系统充分利用其提供的自学习功能，自动的理解用户指定的语义和语境，为进一步的智能分析打下良好的基础，学习的过程不是单一的，而是各个分类一切协作的结果，全文检索系统会在统一的调配下不断的进步。

12.3.API检索接口

API检索接口提供不同的API，用户可调用检索器的API，获取想要的检索数据。

检索器分为以下几种：

词汇检索、分类检索、时间检索、分布式检索、关键信息提取、语义查重等。

第三方开发单位通过API接口将全文检索系统集成到软件系统中。

客户端API使用HTTP命令与全文检索系统服务器之间的通信，以及对返回结果集作简单处理。

12.4.数据存储

数据经过索引和自动分类处理后，存放到全文检索数据库中，数据存储是全文检索系统的核心，它物理地存储了经过索引器索引后的所有数据资料，全文检索系统可管理多个数据库，主要包含数据存储、文档存储、关键词存储、用户自定义数据存储、分类存储、词典存储、文档指纹库存储等多个模块。

12.5.数据存储

在数据存储中存放着各种文本及二进制数据，也可以是用户自定义的数据，该数据只提供存储的功能，没有建立索引不能够进行检索，可以在检索结果中进行快速访问。

12.6.文档存储

文档是全文检索系统对不同数据源进行存储和管理的主要载体，所有的查询操作都体现在相关的文档上，每个文档对象具有URL地址、日期时间、用户自定义键值、用户自定义全文检索字段、标题、内容、二进制文件、文本文件、音频文件、视频文件索引属性等多种属性，文档存储实现了对文档信息的存储以及快速索引访问。

12.7.关键词存储

关键词是全文检索系统索引的最小单位，所有的查询、索引操作都是在关键词的基础上进行的，每个关键词有长度、权重、位置、文档列表、相关度信息等多种属性。

12.7.1用户自定义数据存储

全文检索系统作为全文检索数据库，提供了用户自定义数据存储的功能，它不但可以存放全文检索相关的信息，还可以存放用户自定义的业务信息，用户在存储的时候可以选择该数据信息是否支持全文检索，在存储的时候会根据不同的选项进行相应的智能处理，或方便存储或快速索引访问。

12.7.2分类存储

全文检索系统提供自动分类的功能，可以通过训练让引擎学习分类的知识，并将知识整理、提炼形成断言存放在不同的分类中，可以减少人工参与的工作量，自动的将文档信息归类。

12.7.3文档指纹存储

对于大量的重复文章以及数据信息，全文检索系统通过文档指纹建立文档指纹信息库，可以将重复的信息进行剔除减少人员的阅读工作量。

12.7.4数据词典存储

全文检索系统全文检索不单是一种快速的字串匹配系统，要获得良好的检索效果，必须使用一系列知识词典，词典对象是全文检索系统中非常重要的基础资源，是按词索引和检索技术的根本依据。

Ø分词词典

系统自带的分词词典，提供常用词汇，对文档可以进行基本的切分工作，该词典不能由用户自行维护

Ø附加分词词典

引擎支持多个分词词典，分词词典在功能上和分词词典一样，该词典可以由用户自行维护。

Ø停用词典

系统自带的停用词典，包含一些常用词汇以及代词、虚词等没有实际检索意义的词汇，如不如、的、了、吧等。

Ø附加停用词词典

功能同系统自带的停用词典，用户可以自行添加。

Ø同义词典和反义词典

检索一个词，同时和它具有同义词和反义词也会被检索出来。

Ø单字词典

单字词典是用来决定按字索引时，哪些字需要单独建立索引的词典。

13.WEB管理平台

详细介绍见“功能介绍”。

四工作流程

数据采集系统，采用爬虫技术，负责把用户想监控的政府网站的所有网页文字信息抓取下来，把标题，全文，网址，时间等信息，输出到智能全文检索系统。

智能全文检索系统对网页文字信息进行分词，分类，文本挖掘，创建索引，形成最终的全文检索数据库。

同时提供HTTP协议方式的全文检索API，对WEB管理平台提供全面的检索服务。

WEB管理平台所有的检索功能，都是通过API的方式，对智能全文检索系统进行访问，并把最终的结果通过WEB的形式展示给用户。

流程图如下：

数据采集系统

智能全文检索系统

WEB管理平台

把采集到的网页文本信息输出到索引系统

通过API把查询结果在WEB管理平台上展示出来

五技术优势

A.数据采集系统技术优势

1.自动增量采集

当被采集网站出现新页面，或者原有页面有更新时，系统能够自动探测，并只抓取新增和更新的页面，旧有页面不再抓取，节省抓取时间和网络带宽，提高抓取效率。

2.支持分布式采集

支持多台服务器分布式采集，能够充分利用带宽，适用于大型网页数据的采集，缩短网站数据的更新时间。

3.功能齐全

1）跨平台，支持当前多数操作系统，Windows/Unix/Linux。

2）自动识别网页的编码格式，也可以人工设置编码格式。

3）支持图片，软件，音乐，视频，flash等多种格式资源的下载。

4）支持用户名与密码自动登录。

5）支持采集结果输出的多样性，可以使用不同输出插件进行输出，也可以自己开发输出插件。

6）采集配置分为三个部分：

网页爬虫配置，网页解析配置，采集任务配置。

以上三者可以自由搭配，便于重复利用已设置完毕的配置。

7）可定制的数据解析和抽取。

可以自由配置要采集的网络元数据，并可以对每个网络元数据自定义字段名。

便于后续信息处理。

8）海量信息采集和存储支持，分布式管理，多服务器集群和协作。

9）采集爬虫采用多任务、多数据源管理，同一个采集服务器下可以进行多个采集任务的运行。

10）每个任务下可以指定多个采集入口网站。

11）采集条件设置，可以针对不同任务下的入口网站设置采集路径、重点页面、采集网址过滤等控制条件。

控制条件采用正则表达式。

12）运行配置，采集运行过程中使用的爬虫名称、个数、数据更新频度等均可以由用户进行配置。

13）多用户，分权限进行管理。

14）自动识别文本中的图片信息，并且自动下载到本地，并替换文本中的图片URL为本地URL。

15）采用WEB的方式进行配置采集参数，然后把配置好的采集参数形成XML配置文件，作为任务发布到其他采集服务器，多台服务器进行后台分布式采集。

适用于大型项目对海量网页数据的抓取和分析。

是专为数据采集用户设计的专业级产品。

16）支持JavaScript脚本语言的解释执行，能够分析出javascript类型的链接，以及文本内容。

4.精确度高

用户可以按照自身需要自行选择、设定监测的目标网站和特定信息源，实施24小时不间断监测和采集，信息动态始终处于掌握之中。

系统支持将网页中的信息内容按日期、标题、作者、栏目进行提取，过滤网页中的无用信息。

扩展抓取采集范围可以精确到特定网站、特定栏目、特定页面、特定区域。

5.易用性好

系统参数设置简单，一次设置多次使用。

采用精确抓取时针对不同用户应用要求，可设定“所见即所得”的拖拽选取信息内容方式。

设置过程直观、便捷。

系统插件丰富，可以对信息进行不同的修正，输出到不同数据格式，多种数据库。

6.灵活性强

系统具有很强的灵活性，可按需选择目标站点，并根据形势的变化，随时更换目标站点。

用户可直接到某一网站抓取用户想要的特定栏目下的信息，它仅仅要求用户设定特定的抓取条件，用户需要的内容就会自动被抓取和保存下来，从而实现由用户上网找信息转变为信息自动流向用户的方式。

7.实施部署容易

系统用户界面友好，抓取服务器在任意平台下运行，实施部署过程简单，即装即用。

系统稳定性很高，可以在“7天×24小时”运行模式下长时间地运行。

8.采集内容全面

适应网站内容格式的多变性，能完整地获取需要采集的页面，遗漏少，网页采集内容的完整性在99%以上。

9.抓取速度快

系统支持多线程处理技术，支持运行多条线程的同时抓取。

可快速高效地对目标站点或栏目进行信息采集，大大加快了信息的抓取速度，保证在同等单位时间内信息的抓取量成倍数增长。

10.性能指标

如果以每台服务器运行10个采集进程，带宽在1M为准。

在数据源网站不存在带宽瓶颈的情况下，每小时采集大概7万个网页。

对于大量的数据，建议采用分布式的服务器群进行采集。

B．全文检索系统技术优势

全文检索系统不需要复杂的编程，通过配置即可实现全文检索系统的搭建，提供与开发语言无关的API接口，只需配置就可实现一套全文搜索引擎，用户的应用程序也可通过该接口自由支配和使用本产品，对结构化数据以及非结构化信息进行快速集成处理。

全文检索系统技术独特的优势包括：

1.自动化

全文检索系统技术为基于非结构化信息处理的操作提供了自动处理的功能,以前这些任务都是由手工来完成的。

全文检索系统提供了一套自动化解决方案，节省了人工成本，实现对非结构化信息的自动操作和管理。

非结构化信息不断增长，要想有效地管理海量的信息并从这些信息中获得有价值的情报线索，就必须将以往由手工完成的工作任务实现自动化。

2.准确性

全文检索系统可对用户的信息请求提供准确分析，利用概念相关性操作得到动态、实时的结果。

3.高性能

全文检索系统能解决许多关键性业务问题，满足多种业务需求和性能要求。

随着用户、数据的不断增长和操作的不断累加，全文检索系统性能已经超出了大多数企业对目前信息负载和性能的要求。

4.高扩展性

全文检索系统采用完全模块化和多线程的产品结构，可为内容开发提供高性能、高容量以及高可扩展性的平台。

它充分利用了高并发、SMP处理环境以及分布式服务器集群技术。

5.基于对自然语言的分析技术

按照自然语言的规律分析和处理文本数据，而不是通过简单的概率计算，更能理解语言本身的特性，特别是对中文的处理，在智能化处理中可以正确的理解数据内容，从而提炼出语义信息。

6.便于集成

借助全文检索系统强大易用的API接口，用户可以轻松集成全文检索系统，从而创建自己的定制应用，全文检索系统采用与语言无关的接口，甚至不需要任何编程语言，仅通过手工配置即可完成系统的集成工作。

7.支持多种内容格式

全文检索系统可整合来自任何数据源的数据内容，支持多种文本格式，如Word、PDF、XML、HTML、PPT等，并可访问结构化应用数据库系统，还可以实现对音频、视频的检索与管理。

六维护管理监控

　系统安装完毕后，维护主要通过基于WEB的采集管理平台。

可以通过管理平台创建分配采集任务，监控每台服务器的运行状态，采集数据的统计，以及性能分析。

根据分析结果可以调整服务器的运行配置，以便于更充分的利用硬件资源。

　数据源网站的采集配置采用分用户的管理方式，用户分三种角色:

采集配置角色，任务分配角色，系统管理角色。

采集配置角色

用户可以配置管理自己的采集工程，配置完成的工程才可以提交给任务分配角色。

任务分配角色

对采集配置角色提交上来的工程进行测试，测试成功后分配给采集服务器处理，否则驳回，另外具有服务器运行状态，

　　数据统计，性能分析等权限，可以根据分析结果进行采集任务分配。

系统管理角色

具有以上两者所有权限，并具有用户帐号管理，系统参数数据管理等所有权限。

另外对系统的稳定性和准确性采取如下措施：

进程监控：

对采集进程和管理进程的监控，采取在管理服务器定期对每个服务器进行检查的方式，

发送一个检查指令，判断某台采集服务器上这两个进程的运行状态，出现异常则报警。

采集监控：

为了防止目标网站的网页模板变化，采取对采集结果进行监控的方式，如果长时间没有数据采集成功，则进行报警。

　也可以通过命令服务进程检查每个采集任务的状态。

七网页数据采集技术指标

网页数据采集性能指标

每台采集服务器运行的爬虫数量：

具体跟服务器性能有关，性能越高，可以运行的爬虫数量越多

每个爬虫每小时采集网页数量（假如无带宽限制）：

20000

每台采集服务器每小时采集网页数:

60000

假如每个网页的平均大小为:

50K

每台采集服务器每小时采集数据量:

60000*50KB=3000000KB=2.9GB

每台采集服务器占用的带宽:

2.9GB/3600*8=6.7Mbps

网页数据采集性能计算公式

采集网页数=采集服务器数量*60000*采集小时数

采集数据容量=采集服务器数量*2.9GB*采集小时数

建议带宽=采集服务器数量*6.7Mbps

八系统环境要求

软件：

　　　　跨平台，对操作系统无要求，支持windows,unix,linux。

建议使用linux/unix操作系统，安全稳定可靠。

　　　　JVM5.0或以上。

　　硬件：

　　　　硬件要求低，能运行java虚拟机即可。

　　　　建议高带宽，内存4G以上，硬盘500G（根据采集站点的大小决定）以上。

支持多服务器分布式网页数据采集。

服务器越多，带宽越高，采集效率越高。

展开阅读全文