基于WEB数据挖掘的网络舆情分析研究.docx

资源描述

基于WEB数据挖掘的网络舆情分析研究.docx

《基于WEB数据挖掘的网络舆情分析研究.docx》由会员分享，可在线阅读，更多相关《基于WEB数据挖掘的网络舆情分析研究.docx（6页珍藏版）》请在冰豆网上搜索。

基于WEB数据挖掘的网络舆情分析研究.docx

基于WEB数据挖掘的网络舆情分析研究

　　一、网络舆情

　　网络舆情是由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合。

网络舆情形成迅速，对社会影响巨大。

随着因特网在全球范围内的飞速发展，网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”，网络成为反映社会舆情的主要载体之一。

网络环境下的舆情信息的主要来源有：

新闻评论、BBS、博客、聚合新闻（RSS）。

网络舆情表达快捷、信息多元，方式互动，具备传统媒体无法比拟的优势。

　　网络的开放性和虚拟性，决定了网络舆情具有以下特点：

（一）直接性，通过BBS，新闻点评和博客网站，网民可以立即发表意见，下情直接上达，民意表达更加畅通；

（二）突发性，网络舆论的形成往往非常迅速，一个热点事件的存在加上一种情绪化的意见，就可以成为点燃一片舆论的导火索；

　　（三）偏差性，由于发言者身份隐蔽，并且缺少规则限制和有效监督，网络自然成为一些网民发泄情绪的空间。

在现实生活中遇到挫折，对社会问题片面认识等等，都会利用网络得以宣泄。

因此在网络上更容易出现庸俗、灰色的言论。

　　二、数据挖掘技术

　　数据挖掘（DataMining，DM），又译为资料探勘、数据采矿。

它是数据库知识发现中的一个步骤。

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘是目前人工智能和数据库领域研究的热点问题。

数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。

知识发现过程由以下三个阶段组成：

1.数据准备，2.数据挖掘，3.结果表达和解释。

数据挖掘可以与用户或知识库交互。

（一）决策树。

决策树是数据挖掘分类算法的一个重要方法。

在各种分类算法中，决策树是最直观的一种。

每个决策树都表述了一种树型结构，它由它的分支来对该类型的对象依靠属性进行分类。

每个决策树可以依靠对源数据库的分割进行数据测试。

这个过程可以递归式的对树进行修剪。

当不能再进行分割或一个单独的类可以被应用于某一分支时，递归过程就完成了。

另外，随机森林分类器将许多决策树结合起来以提升分类的正确率。

　　决策树同时也可以依靠计算条件概率来构造。

　　决策树如果依靠数学的计算方法可以取得更加理想的效果。

数据库已如下所示：

　　（x，y）=（x1，x2，x3…，xk，y）

　　相关的变量Y表示我们尝试去理解，分类或者更一般化的结果。

其他的变量x1，x2，x3等则是帮助我们达到目的的变量。

（二）遗传算法。

遗传算法也是计算机科学人工智能领域中用于解决最优化的一种搜索启发式算法，是进化算法的一种。

这种启发式通常用来生成有用的解决方案来优化和搜索问题。

进化算法最初是借鉴了进化生物学中的一些现象而发展起来的，这些现象包括遗传、突变、自然选择以及杂交等。

遗传算法在适应度函数选择不当的情况下有可能收敛于局部最优，而不能达到全局最优。

　　（三）人工神经网络。

人工神经网络在结构上模仿生物神经网络，是一种通过训练来学习的非线性预测模型，在数据采掘中可用来进行分类、聚类、特征采掘等操作。

人工神经网络是并行分布式系统，采用了与传统人工智能和信息处理技术完全不同的机理，克服了传统的基于逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷，具有自适应、自组织和实时学习的特点。

　　（四）模糊逻辑。

模糊逻辑指模仿人脑的不确定性概念判断、推理思维方式，对于模型未知或不能确定的描述系统，以及强非线性、大滞后的控制对象，应用模糊集合和模糊规则进行推理，表达过渡性界限或定性知识经验，模拟人脑方式，实行模糊综合判断，推理解决常规方法难于对付的规则型模糊信息问题。

在数据采掘中，常用来进行证据合成置信度计算等。

　　（五）粗糙集理论。

粗糙集理论作为一种数据分析处理理论，在1982年由波兰科学家Z.Pawlak创立。

粗糙集理论作为一种处理不精确（imprecise）、不一致（inconsistent）、不完整（incomplete）等各种不完备的信息有效的工具，一方面得益于他的数学基础成熟、不需要先验知识；另一方面在于它的易用性。

由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理，从中发现隐含的知识，揭示潜在的规律，因此是一种天然的数据挖掘或者知识发现方法，它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法相比较，最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识，而且与处理其他不确定性问题的理论有很强的互补性。

　　（六）可视化技术。

可视化技术作为解释大量数据最有效的手段而率先被科学与工程计算领域采用，并发展为当前热门的研究领域――科学可视化。

可视化技术把数据转换成图形，给予人们深刻与意想不到的洞察力，在很多领域使科学家的研究方式发生了根本变化。

可视化技术的应用大至高速飞行模拟，小至分子结构的演示，无处不在。

在互联网时代，可视化与网络技术结合使远程可视化服务成为现实。

　　三、基于WEB的数据挖掘

　　基于WEB的数据挖掘，就是利用数据挖掘技术自动地从网络文档以及服务中发现和抽取信息的过程。

基于WEB的数据挖掘技术已经应用于解决多方面的问题，比如基于WEB内容和结构的挖掘极大的帮助了我们从巨量的网络资源中更加快速而准确的获取所需要的资料，而基于使用的数据挖掘的强大作用，更是为商业运作提供了有力的量化决策根据。

（一）基于WEB的数据挖掘特点

　　1.Web数据挖掘的对象是大量、异质、分布的Web文档web上的每一个站点就是一个数据源，每个数据源都是异构的，因而每一站点之间的信息和组织都不一样，这就构成了一个巨大的异构数据库环境。

如果想要利用这些数据进行数据挖掘，必须要研究站点之间异构数据的集成问题，只有将这些站点的数据都集成起来，提供给用户一个统一的视图，才有可能从巨大的数据资源中获取所需的东西。

　　2.web文档是半结构化或无结构的目前数据发掘多应用于关系和面向对象数据库，它们有完善的结构，按照预先定义的模式进行组织、存储和存取，而Web上的数据非常复杂，往往具有半结构化或非结构化特性，难以映射到一个固定的模式，使传统数据模型和数据库系统难以支持Web上的信息挖掘。

针对Web上的数据半结构化的特点，寻找一个半结构化的数据模型是解决问题的关键所在。

除了要定义一个半结构化数据模型外，还需要一种半结构化模型抽取技术，即自动地从现有数据中抽取半结构化模型的技术。

　　3.数据源具有很强的动态性，因特网中数据更新非常迅速，有些信息可能很快过时，针对当前状态的信息能快速更新知识，提供准确的决策支持要求数据发掘的动态性。

　　4.用户目标的模糊性，基于WEB的数据采掘用户往往只对要采掘的主题有一个粗浅的认识，提不出很明确的目标来。

这就需要数据采掘系统具有一定的智能性和学习机制，不断地跟踪用户的兴趣，清晰明白地阐述采掘结果。

（二）Web数据挖掘的分类

　　1.Web内容挖掘

　　Web内容挖掘是指从Web文档内容及其描述信息中获取潜在的、有价值的知识和模式的过程，主要包括对网页的内容特征进行提取、基于内容的网页分析/聚类、网页间内容的关联规则发现等。

网页的文本内容包含最丰富的信息，然而其表达方式复杂，不利于计算机理解。

Web内容挖掘可以有效地对大量文本内容进行总结、分类、聚类、关联分析以及利用Web文本进行趋势预测等。

Web内容挖掘是数据挖掘技术在网络信息处理中的应用，不仅能够处理来自数据库的结构化数据，还能够处理半结构化数据和无结构化的自由文本，还有图像、图形、视频、音频等多媒体数据，可以全方位、多角度地对舆情信息内容进行深入分析。

　　2.Web结构挖掘

　　在整个Web空间中，有用的知识不仅包含在Web页面内容中，也包含在Web页面结构和Web超链接结构中。

Web结构挖掘主要是通过分析Web组织结构和链接关系，挖掘出潜在的有用的知识，其目的是获得与主题高度相关的链接以及链接逻辑结构的语义知识，这些知识可以帮助舆情监管部门从中找到有价值的权威页面、中心页面。

Web结构挖掘应用于网络舆情分析系统中，能够帮助舆情监管部门获取与舆情信息发布者、传播者以及传播环境最相关的链接，可揭示权威网页之间的关联，揭示蕴涵在这些文档结构信息中的有用模式，有助于从多个维度和层面挖掘舆情信息。

　　3.Web使用挖掘

　　Web使用挖掘就是对用户访问Web时在服务器上留下的访问记录进行挖掘，获取用户访问Web页面的模式。

由于挖掘的对象是服务器上的日志信息，因此也称为Web日志挖掘。

这些信息包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等。

通过分析和探究Web日志记录中的规律，可以识别用户的访问模式和行为偏好，从而预测其行为。

　　四、基于WEB挖掘的网络舆情分析模型设计

　　针对WEB的特点，为了迅速准确了解互联网络舆情关注的热点，分析舆情发展的时间和空间分布，本文提出了一网络舆情分析框架模型，如上图所示。

（一）舆情信息采集模块

　　舆情信息采集的主要任务是选择性地从舆情传播的主要载体中对那些与预定义主题相关的页面进行自动化、智能化的收集，并进行有效的过滤和存储，为下一步的舆情挖掘与分析提供优质素材。

　　本模型采取构建包含公众集合、社会现象（问题）、态度情绪表象、舆论持续性、舆论的功能表现、舆论质量等多种因素的各个初始网页集合，实现具有领域词义的多维时空的分布式多点海量数据采集，结合适用舆情信息的数据预处理方法，利用网格技术实现数据集成，建立针对具体舆情问题的统一的数据存储格式。

设公众集合、社会现象（问题）、态度情绪表象、舆论持续性、舆论的功能表现、舆论质量的各个方面权威集合集分别为Pc、Sp、Em、Cn、Fu、Qu，不同的数据存储分别为SV1、SV2、SV3，利用网格技术实现数据共享，SV1、SV2作为数据采集器，SV3为舆情分析系统主机。

数据采集子系统数据流如下：

（二）舆情信息预处理模块

　　舆情信息预处理模块的主要功能是：

对采集到的相关网页进行去噪处理，如对广告、注释等噪声数据进行清理，然后用统一的结构化的格式进行文本表示，然后利用分词技术、特征提取技术、权重计算技术等进行特征选择，构建粮食数据仓库，利用分类器实现文本的分类。

文本分类技术是整个预处理模块的核心，其步骤描述如下：

　　步骤1舆情因素集合Pc、Sp、Em、Cn、Fu、Qu分别用类别集合S={S1，…Sm…Sn}表示，分别进行去重、去噪处理，并统一转化为XML格式，用分词系统分词。

　　步骤2计算词条t在文档d中的权重W（t），并构建文档d的特征矢量V（d）表示文本。

　　V（d）=（t1，Wn（t1）；t2，Wn（t2）；…tn，Wn（tn））

　　步骤3对于训练阶段转到步骤4；对于分类阶段转到步骤5。

　　步骤4统计S中类别m的所有文档的特征矢量V（Sm），用特征选函数F（x）进行特征选择，确定类别m的特征矢量V（Sm），评价分类结果，若需优化Wn（ti）和F（x），转到步骤2。

　　步骤5分类器函数计算待分类样本dn的特征矢量V（dn）与每个V（Sm）之间的相似度Sim（dn，sm），选取相似度最大的类别作为dn的类别；对于所有相似度都小于一定阀值的样本，则视为非舆情主题相关样本。

　　（三）舆情数据挖掘模块

　　数据挖掘模块主要由语义信息集成和Web挖掘引擎两部分组成，前者可为后者提供经预处理后的结构化信息，简化并加速Web挖掘处理。

　　1.语义信息集成由于舆情数据采集初始数据库的原始数据来自不同的媒介，在结构和语义上都存在较大的差别，需要对其进行统一处理，并根据需要利用自然语言理解等智能信息处理技术进行深层次的预分析，为提高挖掘引擎的效能和健壮性奠定基础。

借助XML或Ontology技术，在本体库、元数据库、文献知识库、语言知识库等基本知识库的协助下进行语义抽取、标注和描述，可将异构数据转换成具有统一语法和语义格式的通用数据模型，减少挖掘阻力及提高通用性。

　　2.Web挖掘引擎

　　Web挖掘引擎是整个舆情分析模型的动力所在，通过定义Web挖掘模型语言，选用合适的挖掘算法和工具，执行Web挖掘任务。

由于Web挖掘的主要目的在于从大量的网络舆情信息中提取出可理解的模式或规律，预测事件发展的趋势，因此，需要根据决策的需要和网络舆情信息源的特点，从多个维度和层面进行深层次的挖掘处理。

　　（四）网络舆情统计分析模块

　　利用统计学、模式识别、人工智能以及人工神经网络等多种数据分析模型的融合，利用实现海量网络信息舆情分析处理模块，形成网络舆情监控和预警机制。

模块包含三个方面职能。

　　第一，通过对舆情专题检测捕捉热点、敏感信息，并针对特定的专题主体，如情绪表达、热点持续性、舆论的功能等各个要素跟踪技术处理，同时设计融合各方面因素的分析策略，及时发现舆情安全隐患，并提供预警信息。

　　第二，对特定公共事件的公众所持观点和关注度的分析，掌握事件发生、发展和加强的可视化时间序列，开发基于区域性舆情的分别汇总，提供实时的空间和时间的网络舆情趋势信息保障，有利于决策者实施适当的措施。

　　第三，利用破坏性预测、分析和预防的决策系统，对多发性的、社会危害严重的舆情构建主动分析、及早预测和及时预警的机制，提供相关、相近主题的预防措施经验。

同时针对舆情引起的其他方面的问题进行关联分析，及时发现彼此存在的联系。

　　五、结束语

　　利用Web挖掘技术实现对网络舆情信息的监测，有利于充分挖掘海量的网络信息资源，能够及时发现舆情热点事件，为舆情产生的社会影响提供预警服务。

本文着重分析了当前网络舆情分析系统的特点和方法，提出了一种解决方案，构造了一个较完善的网络舆情分析架构。

通过各种算法的编码和改进，达到了动态预警和辅助决策的目的。

网络舆情信息分析系统是一个复杂而新颖的研究领域，仍需进一步的研究和深化。

　　基金项目：

　　本文系甘肃省教育科学“十二五”规划课题“数据挖掘网络系统的研究”研究成果，课题编号为：

GS?

z2013?

{GHB0836。

展开阅读全文