载人航天开源情报分析报告文案.docx

上传人:b****3 文档编号:1129767 上传时间:2022-10-17 格式:DOCX 页数:34 大小:2.93MB
下载 相关 举报
载人航天开源情报分析报告文案.docx_第1页
第1页 / 共34页
载人航天开源情报分析报告文案.docx_第2页
第2页 / 共34页
载人航天开源情报分析报告文案.docx_第3页
第3页 / 共34页
载人航天开源情报分析报告文案.docx_第4页
第4页 / 共34页
载人航天开源情报分析报告文案.docx_第5页
第5页 / 共34页
点击查看更多>>
下载资源
资源描述

载人航天开源情报分析报告文案.docx

《载人航天开源情报分析报告文案.docx》由会员分享,可在线阅读,更多相关《载人航天开源情报分析报告文案.docx(34页珍藏版)》请在冰豆网上搜索。

载人航天开源情报分析报告文案.docx

载人航天开源情报分析报告文案

载人航天开源数据舆情分析报告

【任务要求】

1.载人航天工程总体评价。

2.载人航天工程重大意义以及公众评价意见。

3.后续载人登月任务中长期发展规划(开展还是不开展,开展的意义如何)。

【文章结构】

一、问题背景

1.1研究意义

载人航天的发展现状

人民群众对载人航天事业的关注程度会影响国家在这个领域的投入

所以关心社会对载人航天的舆情现状

1.2网络数据舆情分析

大数据时代,借助信息手段解决问题

传统的问卷调查覆盖面窄、成本大、难实施

网络是扁平化结构,更有利于群众反映真实想法

1.3数据源选取

1.3.1数据源分类

主要选择了三大数据源,即新闻、论坛、微博。

图11数据源来源图

新闻数据主要反映了公众媒体的态度,新闻的数量则反映了媒体对这类事件的关注度,而不同的关键字又可以反映媒体对事件的关注点,本文选取了主流网络媒体门户:

新浪新闻、搜狐新闻、腾讯新闻。

论坛是主题性质的,可以反映大众对载人航天事业感兴趣的“话题”,并在每个话题板块下,对帖子的支持度进行统计、对帖子的情感态度进行划分。

本文选取了最热门的论坛有知乎、天涯、航空航天港等。

微博是最自下而上的自媒体形式,属于典型的社交网络,对微博容进行影响力统计和情感态度划分。

本文选取了国最具影响力的微博,新浪微博。

XX指数

1.3.2数据源特点

新闻类:

新闻时间、新闻题目

论坛类:

帖主、主题容、发布时间、回帖人、回帖容、回帖时间、点赞

微博类:

用户ID、微博容、发布时间、转发数

 

1.4主要研究工作

本文主要利用了web数据挖掘技术,发掘载人航天工程的网络舆情情况。

文章的容结构如图1-2。

图12本文的结构框架图

第一章是阐述问题背景,主要容包括本文的研究意义,研究对象的选取和主要研究工作。

第二章详细介绍了研究方法,只要容包括网络爬虫的方法,对采集的数据的处理方法,分词统计的方法,和文本情感分析的方法。

第三章是对三种不同来源的数据进行分析与处理,对于新闻数据部分采取了新闻数量统计分析和关键词统计分析;对于论坛数据部分采取了分词统计分析,文本情感分析和话题提取;对于微博数据部分采取了热词提取和文本情感分析。

第四章是结论分析,主要容是对第三章的分析结果做总结分析,得出结论。

二、研究方法

2.1网络数据挖掘

网络数据挖掘是指对Web页面容及后台交易数据库进行挖掘,从Web文档容及其描述中的容信息中获取有用知识的过程。

通过网络数据挖掘,海量的、及时的信息能够被采集下来,并且通过文本分类,统计学分析等手段分析出网络民众所关注的问题和持有的看法态度。

然而由于这些信息来自不同的不同的用户,那么其对应的结构位置不确定,信息格式没有固定标准,文本容用语各不相同,因此我们针对不同来源的信息采取不同的数据挖掘方式。

首先是数据的采集,对于新闻和论坛数据本文采用的是Java语言编写的网络爬虫程序,使用MySQL记录所要采集的网页的URL地址和页面所需容对应的Xpath结构信息,爬虫程序载入URL地址截取整个页面再遍历各个Xpath节点,获取所需的容,将获取的容以文本形式存入MySQL中,以供后续的数据处理与分析。

采集流程如图2-1所示,采集页面所需的URL和Xpath格式如表2-1。

图21网络数据采集流程图

表21数据采集格式

ID

sitename

keyword

URL

urlXpath

page

pubtimeXpath

titleXpath

contentXpath

usernameXpath

viewnumXpath

replynumXpath

replytimeXpath

replycontentXpath

replyerXpath

charset

2.2描述性统计

对于采集的新闻数据根据发布时间制作图表,分析新闻数量的变化趋势,得出网络媒体对载人航天工程的关注热度变化情况;对新闻数据按照不同关键词分类,分析网络媒体对载人航天工程的重点关注对象。

对于论坛数据按照发帖时间回复时间制作图表,分析帖子和回复数量的变化,分析网络民众对载人航天工程的关注变化情况;对网络民众情感态度变化进行分析,得出网络民众对载人航天工程的支持度变化情况;对不同论坛的热度和支持度变化进行比较,分析其异同。

对于微博数据按照发布时间和微博影响力制作图表,分析微博数量变化趋势,得出网络民众对载人航天工程的关注热度变化情况;对微博容情感态度变化情况进行分析,得出网络民众对载人航天工程的支持度变化情况;分析考虑影响力和不考虑影响了的民众关注热度和支持度的异同。

2.3分词统计

2.3.1分词方法

现在使用的分词方法主要有两种,一种是基于词典的分词,即对于一段文字我们将其各个汉字按照文字顺序组合分别与所给的分词词典对照,能在词典中找到即为一个词,并且要求最长的词才输出。

另一种是基于统计学的分词,选取大量的语料库,统计各个单字连续出现的概率,划定阈值,当几个字连续出现的概率大于某一阈值时则认为这几个字是一个词。

常见的算法有采用NaiveBayes法辅以极大似然估计来实现,也有采用神经网络算法的。

本文使用的ICTCLAS系统就是基于第一种分词方法,具体算法则采用的是正向与逆向最大匹配相结合的方法。

其中正向最大匹配方法的操作步骤是假定分词词典中的最长词有i个汉字字符,则用被处理文档前i个汉字作为匹配字段,查找字典。

若字典中存在这样的一个词,则匹配成功,匹配字段被作为一个词分出来。

如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字段重新进行匹配处理,不断重复,直到匹配成功,即切分出一个词或剩余字段的长度为1(单字词)为止。

这样就完成了一轮匹配,然后取切除了这个词的文档中下一个i个汉字字段进行匹配处理,直到文档被扫描完为止。

相对的逆向最大匹配法则是取最后i个汉字作为匹配字段,匹配方式与正向法一样,只是匹配失败时,将匹配字段中的第一个字去掉,对剩余字段进行匹配。

两者相结合的方法则是指:

若两种方法分词结果相同,则直接输出分词结果;若分词结果不同,则输出分词次数最小的结果。

2.3.2词频统计

利用Java中的Hashmap对分完词的语句进行词频统计并对其排序,剔除像是“我”,“和”,“这”,“那”等无实意的词后设定词频阈值,将关键词与对应词频输出,并利用R语言中的wordcloud程序包制作词云。

在本实验中认为词频越高,该词的重要性越高,通过发掘词频高的关键词,分析网络民众热点关注的对象。

2.4情感分析

情感分析是指由计算机对所给的文本进行分析,将文本中所反映的情感挖掘出来,目前国外研究主要集中于文本情感的正,负面分类,文本情绪的分类,情感词的提取等。

主要的研究方法大多是基于监督学习的情感分类,采用的算法也基本是朴素贝叶斯,k最近邻(k-NearestNeighbor),最大熵和支持向量机,改进方案也大多是对文本数据的预处理,如利用树状结构分解句子结构等;另外也有采用基于规则和无监督学习的情感分类。

本文在研究网络舆论情况时采用的就是文本情感的正面负面分类。

主要研究方法采用的是基于规则的情感分析,这涉及到词语级,句子级,段落级三种级别的情感分类问题。

Ø词语级:

直接使用已有的中文情感词及其特征值进行处理;

Ø句子级:

采用HOSDN模型,对于句子中的一个情感词寻找对应的主语和宾语、程度词与否定词,根据伪代码2.4-1所示算法计算句子的情感特征值;

Ø段落级:

根据一般说话或者写文章习惯,都会将重点或结论放在最前(总起)或者最后(总结),本文对句子所处文段的位置赋予不同的权重,越靠近第一句或最后句权重越高,另外当情感词观点的持有者是第一人称时,也赋予很高的权重。

句子权重的计算公式为:

(2.1)

而段落情感值的计算公式为:

(2.2)

具体计算流程见图22,而其中的符号意义见表2-2。

表22符号说明表

Sign

Meaning

Sign

Meaning

D

表示要分析情感的一段话

表示d的第i个句子

表示d中n个句子的集合

表示的第j个词

表示中m个词的集合

Ds

表示情感词的集合

H

表示观点持有者(holder)

O

表示观点对象(object)

D

表示程度词(degree)

N

表示否定词(negation)

表示第i句的情感特征值

表示第i句的权重

表示d的情感特征值

S

表示d的情感(1表示支持;0表示中立;-1表示反对)

令修饰情感词的词为c1,c2,令s(wij)为wij的情感值则SVi计算方法如下:

Ifc1=D,c2=null

ThenSVi=s(wij)*D

Elseifc1=D,c2=N

ThenSVi=-s(wij)*D*N

Elseifc1=N,c2=null

ThenSVi=-s(wij)/2

Elseifc1=N,c2=D

ThenSVi=s(wij)*D*N

ElseSVi=s(wij)

 

图2-2情感分析算法流程图

 

三、数据分析与处理

3.1新闻数据

3.1.1概述

在选取的新闻门户对挑选的与载人航天工程相关的关键词进行检索,利用2.1中提到的网络爬虫技术,将新闻的标题,发布时间,按照表3-1的格式存入到MySQL中。

表31新闻数据格式

新闻门户

检索关键词

新闻发布时间

新闻

新闻标题

然后对获取的新闻数据,按照新闻时间对新闻数量进行统计比较,分析不同时间网络媒体对于载人航天工程的关注热情,并分析出现这种结果的原因。

接着对获取的新闻数据,按照不同的新闻来源和不同的检索关键字进行统计比较,发掘网络媒体对于载人航天工程的关注点。

3.1.2新闻数据概览

本文收集了搜狐、新浪、腾讯三大新闻门户关于载人航天工程的新闻,作为主流媒体对载人航天工程关注度的分析依据,由于新浪和腾讯的新闻量相对较少,而新闻发布时间也只有2014年和2015年两年,分析效果不佳,所以在分析新闻关注度关于时间变化情况时候,本文只选取了搜狐新闻。

表32新闻发布时间数量表

2002

2003

2004

2005

2006

2007

2008

2009

2010

2011

2012

4

97

9

29

2

0

15

4

0

1

12

图31新闻数量时间变化图

图32新闻数量时间变化图

图3-1至3-2是自2002年至2015年间的搜狐新闻网关于载人航天的新闻数量变化的图,纵坐表代表数量。

由于该会删除早年的新闻,导致2014年前的新闻数量相对较少,所以本文将2002至2013年的数据进行比较,统计结果表明2003年的新闻量比其余时间多很多,2005,2008,2012这三年也相对较多。

根据资料得知2003年是神舟5号飞船发射的时间,媒体对载人航天工程的关注度空前的高。

而在其余神舟飞船成功发射的年份,新闻数量也相对于临近的年份来得多。

确实反映出媒体会在神舟飞船发射的时候,给予载人航天工程更多的关注。

3.1.3新闻热词分析

除了根据时间不同收集新闻的同时,在本实验中还根据不同不同关键词来收集,用以分析这些主流媒体分别对哪些相关新闻关注度高。

表33新浪网各关键词新闻数量表

新浪

神舟飞船

天宫计划

中国载人航天

载人登月

载人航天工程

神舟飞船

3

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1