基于微博数据采集的Web信息集成系统研究.docx

资源描述

基于微博数据采集的Web信息集成系统研究.docx

《基于微博数据采集的Web信息集成系统研究.docx》由会员分享，可在线阅读，更多相关《基于微博数据采集的Web信息集成系统研究.docx（6页珍藏版）》请在冰豆网上搜索。

基于微博数据采集的Web信息集成系统研究.docx

基于微博数据采集的Web信息集成系统研究

　　摘要：

使用模块化构建了一种特定领域的Web信息集成系统，设计实现一种基于领域关键词的新闻、微博数据采集处理系统，通过用户提供的关键词，结合人工筛选进行关键词扩展，对全网相关新闻、微博数据进行采集与抽取。

设计实现了一种基于关键词和转发数的新闻排序方法，对特定领域采集的新闻数据进行处理排序，遴选重要信息进行定向推送。

以气候变化领域为例，设计了Web信息集成系统。

　　关键词：

Web信息集成；微博数据采集；气候变化；信息推送

　　中图分类号：

TN919?

34；TM417文献标识码：

A文章编号：

1004?

373X（2016）11?

0125?

　　Abstract：

AWebinformationintegrationsystemforaspecificfieldwasconstructedwithmodularization.Adataacquisitionandprocessingsystemofnewsandmicroblogbasedonfieldkeywordswasdesignedandimplemented，whichcanacquireandextracttherelatednewsofthewholenetworkandmicroblogdataincombinationwiththekeywordsprovidedbytheuserandkeywordsextensionwithmanualscreening.Anewssortingmethodbasedonkeywordsandforwardingquantitywasdesignedandimplementedtosortthenewsdataacquiredinaspecificfieldandselecttheimportantinformationforpushingdirectionally.TheWebinformationintegrationsystemwasdesignedbytakingthefieldofclimatechangeasanexample.

　　Keywords：

Webinformationintegration；microblogdataacquisition；climatechange；informationpush

　　0引言

　　近几年，伴随着Web信息的急剧膨胀，Web信息集成技术引起研究者的研究兴趣，在Web信息集成上进行了大量研究工作，取得了一定成果，但是Web信息集成仍然处于发展阶段，在设计实现自动化程度高、智能化Web信息集成系统上仍有很多关键困难没有克服。

本文研究的特定领域Web信息集成系统是针对某一领域Web信息的深度挖掘，将Web领域相关的新闻、微博数据采集下来进行集成，为领域学者、用户提供信息支持。

　　1特定领域的Web信息集成系统设计

　　1.1特定领域的Web信息集成系统

　　Web信息集成系统将Web上分散、异构、自治站点上的数据信息综合在一起，屏蔽一切数据源细节，只将用户查询的信息以统一格式返回给用户。

　　在设计特定领域Web信息集成系统时，首先要分析用户对信息集成系统需求。

用户关注某一领域，掌握这一领域内比较重要的Web站点，同时基于对该领域的研究，用户能够用一些领域本体关键词来描述这一领域的研究重点、新闻焦点、微博热点等。

图1描述了用户与特定领域Web信息集成系统的相互需求关系。

　　再进一步提炼Web信息集成系统内部的方法流程，输入关键词与目标站点，输出则为三种方式的信息推送，具体方法流程如图2所示。

　　1.2系统结构

　　本文在构建特定领域Web信息集成系统时，为降低系统设计的复杂性，采用模块化程序设计思想。

特定领域Web信息集成系统采用基于上述模块化程序设计思想进行设计，将整个系统划分为四个子模块：

用户模块、系统预处理模块、数据采集与处理模块、展示推送模块。

根据各个模块功能不同，每个模块又包含一个或多个子流程。

其详细系统功能结构如图3所示。

　　2关键技术

　　2.1新闻类Web信息数据采集

　　领域相关的新闻类信息数据主要来自由用户提供的目标Web站点，以基于关键词的全网新闻采集系统采集的新闻为增量辅助数据。

特定领域Web信息集成系统的爬虫负责下载领域相关的新闻网页源码。

主要是从系统维护的URL序列中有序取出URL，获取相应网页HTML源码，抽取其中的有用信息并存入数据库。

　　2.2Web微博信息数据的采集处理

　　通过对国内微博平台调研，选取了市场占有率最大的新浪微博作为特定领域Web信息集成系统的微博中文数据源，国外微博舆情则选定Twitter。

图4以新浪微博为例阐述本文提出的信息数据采集抽取方法。

　　2.3数据处理

（1）数据去重处理

　　由于面对全网信息采集，不可避免遇到数据重复问题。

分析重复信息得出主要重复数据来源：

一是同一新闻存在同一站点的不同板块，采集系统下载两次或两次以上；二是相同新闻内容在不同Web站点均有发布或转载，而且新闻内容变化不大。

　　针对上述情况设计了系统采集时去重和采集后离线数据去重两个模块。

采集时去重模块主要是针对相同新闻且URL地址也相同的情况。

针对第二种情况，在系统实现上采用基于句子的Simhash去重算法。

（2）数据过滤处理

　　在数据处理时需要对已经保存在数据库中的信息进行过滤处理，去除无关信息。

过滤方法对于微博内容中包含用户领域关键词，则认为是领域相关的微博，如果不包含，则删除该条微博信息。

　　（3）数据排序处理

　　新闻类Web信息数据排序原则是按照新闻内容领域相关性、时效性、内容重要性进行的综合排序。

　　①计算该条新闻内容的领域相关性权值。

在数据处理前，对领域关键词赋予相应的权值然后对新闻内容进行分词，并与领域关键词进行匹配，统计匹配领域关键词及其频率计算内容相关性权值：

　　②以该条新闻转发数为重要依据，计算新闻重要性权值。

　　③经过以上两步获得了每一条新闻相关性、重要性权值，再结合新闻时效性便可以对数据库中新闻数据进行很好的排序。

　　针对微博信息热点推荐，设计并实现了一种改进的短文本主题发现方法。

该方法满足大量微博数据的处理以及微博的传播特性，首先基于马尔科夫模型（HideenMarkovModel）进行新词发现。

然后利用新词发现结果构建LDA模型，实现微博热点挖掘，最后结合微博发布时间、转发数、评论数进行排序推荐。

　　2.4特定领域信息的监控与自动更新模块

　　为应对新闻类网页动态性较强，数据更新频率不固定这一问题，设计实现了新闻站点监控与自动更新模块。

通过监听目标网址，建立该网址信息快照，设置更新间隔及增益、下次更新时间，具体流程信息如下：

　　Step1：

对目标新闻网站索引页，从数据库中读取其网页快照更新间隔增益下次更新时间

　　Step2：

通过对比系统当前时间与索引页下次更新时间决定是否对索引页进行更新检查。

如果系统当前时间未到索引页下次更新时间则忽略该Web站点的更新检查；如果当前时间已过下次更新时间则调用系统Web爬虫，下载该索引页网页信息，获取其当前网页快照。

　　Step3：

对比当前网页快照与数据库中网页快照，判断该网页是否更新。

将第2步获取的索引页网页快照与从数据库读出的上次网页快照进行对比，如果两个网页快照完全一致，则说明该Web站点信息没有更新；如果两者不相同则说明该Web站点新闻信息已经更新，系统自动调用Web爬虫将更新数据下载到数据库中。

　　Step4：

经过第3步，可以判断出网页索引页信息是否更新，之后需要把对应的更新时间间隔进行修正，并计算下次更新时间。

对于没有任何更新的Web站点，需要动态增大更新间隔下次更新时间采用下述表达式：

　　上述监控程序每隔一段时间访问更新时间在当前时间之前的网址，与网页快照比较判断是否更新。

采用对更新间隔时间进行动态增减值，能保证数据库中更新时间间隔动态逼近真实的Web站点更新间隔，计算出的下次更新时间在其真实更新时间上下浮动。

这样Web信息集成系统可以按照预期的网站更新时间进行数据采集，合理利用有限资源，避免大量无关检索操作，提高采集效率。

　　2.5特定领域的可视化及推送

（1）动态网站展示及邮件推送。

通过网站展示，用户可以直观获取集成后自己所需的新闻内容或感兴趣的微博信息，但也存在局限性，用户一旦离开PC，就难以获取系统集成的信息。

（2）微信公众号信息推送。

微信公众平台在公众号开发菜单的高级功能中为移动开发者提供了两种微信公众号模式：

编辑模式和开发模式。

启用编辑模式的微信公众号，管理员可以综合用户关心的问题及自身服务内容，进行对应的公众号信息库配置。

开发模式则是腾讯推出的采用第三方服务器响应用户请求的微信公众号开发方式。

　　3Web信息集成系统实现及分析

　　3.1气候变化Web信息集成系统

　　气候变化Web信息集成系统能够根据用户设置一组Web新闻站点的索引页URL及气候变化领域相关的关键词词集，系统能自动将目标站点的全部新闻信息下载并抽取出正文等信息，同时基于领域关键词抓取微博上相关舆情信息，将这些气候变化领域相关新闻、舆情信息存入本地数据库，通过进一步数据分析处理，实现网站展示、邮件推送、微信公众号推送。

　　3.2气候变化Web信息集成系统设计及实现

（1）用户模块

　　气候变化Web信息集成系统的用户模块主要是气候变化领域专家、学者提供一些目标网站的新闻索引页。

使有与气候变化领域直接相关的Web数据源，确保抓取信息的准确性，避免了大量的Web信息判断，领域专家同时提供一个气候变化领域相关的关键词词集。

（2）预处理模块

　　在用户模块中专家提供的新闻索引页、气候变化领域关键词词集均为配置文件，系统在预处理模块中将这些配置文件载入系统，同时初始化数据库、网站展示、邮件推送订阅用户列表等。

在预处理阶段，依据用户提供的关键词和用户需求，可以针对性地扩大领域关键词词集，为后续数据采集与处理提供支持。

　　（3）数据采集与处理模块

　　①Web数据采集模块

　　气候变化领域Web信息集成系统数据源分为新闻类数据源和微博数据源，其中新闻类Web数据源主要采用用户定制方式指定领域相关的Web新闻站点，这样保证新闻准确性、相关性。

微博数据主要来源是新浪微博、Twitter，并将基于微博搜索引擎获取的腾讯微博、搜狐微博作为微博数据补充。

　　系统数据信息采集模块包括了领域新闻采集、微博舆情信息采集模块。

其中领域新闻信息采集分为基于气候变化领域相关的新闻Web站点索引页的新闻信息采集和基于气候变化领域关键词的全网新闻信息采集，通过索引页识别和网页翻页模块，采集抽取出新闻类网页链接地址URLs，然后采取正文抽取方法进行正文信息采集，再生成正文Simhash指纹，并与数据库中已下载数据Simhash指纹进行比较，判断该新闻数据是否存在，如不存在则存入数据库中。

两者主要区别是Web站点信息源不同，前者有学者、专家指定气候变化领域新闻网站，后者依赖搜索引擎对气候变化领域内的新闻信息进行全网检索。

后者主要作为前者信息的补充，同时通过关键词扩展，对于新闻事件检索有较好的效果。

两者在Web爬虫采集过程中对新闻进行URL去重，过滤到重复的新闻信息。

　　②Web数据处理模块

　　信息集成系统采集模块采集大量气候变化领域相关新闻、微博数据，存储在本地数据库中。

虽然经过采集过程中URL去重和Simhash指纹算法去重，这些数据仍然需要进一步综合处理，才能交于展示推送模块，推送给用户。

气候变化领域Web信息集成系统数据处理模块包含的几个子模块如图5所示。

　　③领域信息的监控与自动更新模块

　　Web上站点信息更新时间各不相同，通过监控与自动更新模块，可以使系统调用采集模块进行Web站点信息采集时间在对应站点信息更新时间的上下浮动，避免在目标站点更新周期内过于频繁进行采集操作，造成不必要资源浪费。

气候变化领域Web信息集成系统运行以后，监控与自动更新模块在采集某一Web站点的索引页时，为其建立网页快照，并设置默认更新间隔T、增益K，同时根据当前时间和更新间隔计算出下次S，并将这些数据保存到库下载任务表中。

　　（4）展示推送模块

　　为更好适应现代工作生活节奏，气候变化领域Web信息集成系统在展示推送模块设计上，采取多样性展示推送方式。

　　前台网站展示，数据由本系统数据采集与处理模块支持。

网站将数据库中信息，特别是新闻类信息依照分类模块计算出的类别分版块进行展示，适用PC用户，方便获取各种气候变化领域信息。

　　4结论

　　本文设计了一种模块化可定制可移植的特定领域Web信息集成系统框架，通过目标Web站点索引页、领域关键词等信息对系统进行定制，方便将系统迁移到不同领域，满足不同用户需求。

在采集用户设置目标站点的同时，系统能够对全网领域相关新闻、微博数据进行采集与处理，将相关信息存入数据库中，供展示推送模块调用。

在介绍系统设计的同时，阐述了各模块实现技术及功能，并针对其中关键技术进行了研究，提出基于XPath的索引页翻页方法、一种通用新闻类网页正文方法以及一种基于关键词领域新闻数据、微博舆情信息的采集系统等。

　　参考文献

　　[1]吴斌杰，徐子玮，虞飞华.基于API的微博信息采集系统设计与实现[J].电脑知识与技术，2013，9（17）：

4005?

4008.

　　[2]孙青云，王俊峰，赵宗渠，等.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展，2014，24（3）：

10.

　　[3]张彦超，刘云，李勇，等.基于自动生成模板的Web信息抽取技术研究[J].北京交通大学学报，2009，33（5）：

40?

45.

　　[4]欧健文，董守斌，蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版），2005，45（z1）：

1743?

1747.

　　[5]赵欣欣，索红光，刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究，2007，24（3）：

144?

145.

　　[30]CAID，YUSP，WENJR，etal.VIPS：

avision?

basedpagesegmentationalgorithm[R].Redmond：

MicrosoftCorporation，2003.

　　[6]LAENDERAHF，RIBEIRO?

NETOBA，DASILVAAS，etal.AbriefsurveyofWebdataextractiontools[J].ACMSIGMODrecord，2002，31

（2）：

84?

93.

　　[7]FLESCAS，MANCOG，MASCIARIE，etal.Webwrapperinduction：

abriefsurvey[J].AIcommunications，2004，17

（2）：

57?

61.

展开阅读全文