舆情监控系统与新闻选稿系统技术方案建议书.docx

上传人:b****3 文档编号:24849795 上传时间:2023-06-02 格式:DOCX 页数:13 大小:26.23KB
下载 相关 举报
舆情监控系统与新闻选稿系统技术方案建议书.docx_第1页
第1页 / 共13页
舆情监控系统与新闻选稿系统技术方案建议书.docx_第2页
第2页 / 共13页
舆情监控系统与新闻选稿系统技术方案建议书.docx_第3页
第3页 / 共13页
舆情监控系统与新闻选稿系统技术方案建议书.docx_第4页
第4页 / 共13页
舆情监控系统与新闻选稿系统技术方案建议书.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

舆情监控系统与新闻选稿系统技术方案建议书.docx

《舆情监控系统与新闻选稿系统技术方案建议书.docx》由会员分享,可在线阅读,更多相关《舆情监控系统与新闻选稿系统技术方案建议书.docx(13页珍藏版)》请在冰豆网上搜索。

舆情监控系统与新闻选稿系统技术方案建议书.docx

舆情监控系统与新闻选稿系统技术方案建议书

舆情监控系统与新闻选稿系统二期技术方案建议书

2016年8月

陈伯达

一、概述

1.1项目名称

舆情监控系统与新闻选稿系统二期

1.2项目背景

移动设备迅猛发展,信息碎片化盛行,导致信息裂变式、指数级传播,每个单位、机构、个人等都时刻面临着舆情危机或社交危机。

社会化媒体的爆发式发展,为每个人提供主动话语权,当政府服务、企业产品没有达到民众预期,他们会怎样?

投诉、抱怨、诋毁…?

政府企业如何应对?

随着互联网逐渐成为新闻发布、信息披露的重要平台和人们交流思想、分享信息的主要渠道,网络舆情越来越受到政府和企业的重视;市场上也涌现出众多舆情软件企业提供舆情分析服务,通过爬取网络媒体、微博社区、博客网站等互联网渠道的信息,及时发现舆论热点,识别负面信息,支撑政府企业对敏感内容开展进一步的监管、控制和引导。

然而,发展至今,这种传统的舆情分析已然不能完全满足市场的需要:

一方面,微信、APP上信息规模日益扩大,政府企业对于移动互联网的分析需求愈发强烈,另一方面,面对丰富的互联网信息,政府企业也不再仅仅满足于热点和负面舆情的发现,新的分析需求被逐渐提出。

1.3目标和要求

●舆情监测(发现得了)

●舆情解读(分析得清)

●舆情公关(处理得好)

(1)网络舆情采集性能

支持站点数量

不限站点数量

采集最大线程数

支持200以上,视采集机器性能而定

站点数量

200个

更新频率

5分钟(用户可以根据自己的需求进行调整)

(2)网络舆情分析性能

舆情分析性能

10条/秒(视服务器性能会有调整)

(3)服务平台应用性能

并发用户数

300人(视服务器性能会有调整)

支持采集最大数据量

5000万

舆情搜索效率

响应时间<2秒(100万数据)

2、总体设计

2.1系统定位

本系统主要利用垂直搜索和信息挖掘技术,对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,针对用户的网络舆情监测和新闻专题追踪等信息需求,通过运营人员支撑服务,自动形成简报、报告、图表等分析结果,为客户决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据。

以政府、企事业单位或团体个人等用户关注的重点关键词、专题、舆情信息为核实,在互联网、移动互联网、行业细分领域等多渠道进行“地毯式”搜集,从杂乱无章的信息中,自动摘要有价值的信息资产并线索化、服务化,进一步聚集舆情热点、扑捉传播路径、跟踪发展趋势、清理信息脉络、分析用户反馈、挖掘潜在需求、监控舆论影响等,从而帮助政府、企业、团体个人及时规避风险、侦查竞争、认清自我、了解用户,辅助决策、强化管理、支撑运营的多方面需要。

2.2业务架构

2.3技术构架

2.4业务流程

 1.网络信息采集系统从互联网上采集新闻、论坛、博客、存储到舆情数据库中,并通过舆情搜索引擎对海量的舆情数据进行实时索引.

  2.舆情分析引擎负责对舆情数据库进行清洗、智能分析和加工.舆情分析引擎依赖于智能分析技术和舆情知识库.

  3.舆情服务平台把舆情数据库中经过加工处理的舆情数据发布到Web界面上并展示给用户.

4.用户通过舆情服务平台浏览舆情信息,通过简报生成等功能完成对舆情的深度加工和日常监管工作.

三、功能设计

3.1.舆情采集

3.1.1.采集配置

舆情词配置优化:

本部门不能新增相同的舆情词,跨部门允许有相同的舆情词。

普通账号只能查看和维护本部门及自己添加的舆情词,而管理员则可以查询和维护全部舆情词。

新浪微博高频词采集频率由原有的5分钟调整为1分钟。

未匹配舆情词数据存入数据库。

3.1.2.采集渠道

全面扩展采集渠道,渠道是信息采集的基础,片面采取部分渠道获得信息可能会给出错误的信息,因此大而全的渠道是精准采集舆情的必要条件。

截至目前梳理需要扩展的渠道数量

电子报

15

15

10

新闻

50

56

33

论坛

25

0

15

微博

1

0

0

问答

0

20

20

微信公众号

24

0

0

App推送

12

2

2

意见领袖

20

0

0

合计

147

93

80

数据采集子系统

按照客户的不同需求进行规划,制定针对日常舆情监测,口碑调研、突发事件、与个性化定制等不同需求的采集方案,通过实现互联网舆情全面监测,信息及时采集,达到舆情监测的目的.

通过云数据采集系统采集互联网数据源,客户能够节省资源,同时提高舆情信息采集与监控的及时性。

通过云采数据集系统自动采集客户重视与关注焦点信息,客户能够实现对相关领导、相关部门、相关人员、辖区机关单位、园区企业等正负面舆情信息全面监测,及时发现问题,作出应对措施。

同时监测互联网相关正负面信息、突发事件、重大事件、热门信息、舆情趋势等等,及时掌握最新信息。

通过云采数据集系统,政府可以根据需要勾选关心的舆情信息,系统将自动采集并导入到客户预设模板,同时生成舆情报告,并定期发送。

云数据采集系统通过先进的分布式云架构采集技术可以24小时监控成千上万的网站、论坛、微博舆情和博客的变化,帮助用户及时、全面、准确地掌握自己重视和关心的焦点问题。

通过对所采集信息进行进一步的整理、分析,实时掌控自己管辖区域内的信息动态,充分履行政府职责,提高政府办事与应变效率。

云数据采集系统系统的主要功能为:

根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。

如下图所示:

3.2.舆情处理

3.2.1Saas模式

●数据开放共享

共享历史沉淀和积累的数据资源;开放数据分析和舆情应用服务能力

●Saas服务

提供Saas模式,用户根据个性所需构建自己舆情数据分析支撑。

●业务定制

为用户定制个性化的舆情分析系统,结合用户综合舆情数据分析需求,完全定制化用户舆情服务。

3.2.2.去重处理

数据踢重优化,不同的网站情况不一致,根据具体情况进行优化,如:

部分新闻网站为动态网站,随着网站更新,早期发布新闻的url会动态变化,因此在类似网站采用新闻标题和发布时间两个字段进行踢重

3.2.3.CMS接口数据格式特殊处理

cms接口中部分网站采集的图片路径是相对路径,导致传送给客户无法显示

cms接口中内容中有时会出现原网站的一些说明(与新闻内容无关)需要去除。

cms接口中采集新闻未包含作者字段

cms接口中内容缺失:

多页内容采集不完全,仅采集到首页内容

cms接口中只取img标签和p标签有会造成部分内容丢失,需要评估会丢失的新闻量所占比重来决定处理方法:

内容存在不同格式里面

3.2.4.站内搜索

利用ElasticSearch先进的全文检索引擎技术,提供舆情新闻检索和论坛检索功能,可按提供近义词、同音词、拼音检索、热点检索词等智能检索功能。

舆情信息检索结果可按不同维度展现,包括按内容分类、舆情分类、相关人物、相关机构、相关地区、正负面分类等。

每个维度下把搜索结果自动分类统计展示信息,使用户用最短的时间搜索到最精确的信息。

3.3.舆情分析

周期性长数据数量大的查询进行离线统计,通过定时任务离线计算统计结果并将结果数据保存到结果表,前台直接展示结果表数据,降低数据库查询频次,涉及功能:

今日动态时间轴、舆情报告中的周报、日报、月报。

权衡一个新闻的热度指数,通过分析新闻覆盖的信息面以及发布信息渠道的权威性,得到一个可量化的热度指数数据,对新闻进行热度情况进行衡量。

计算新闻传播面:

传播越广,越热门

计算标题相似性,根据标题交集词判断是否相似

兼顾查全查准率,最终阀值取交集词量>=3

计算渠道权重

衡量一个网站的权威性可以通过其新闻发布及时性和新闻更新速度两个维度来体现,本方案中,新闻发布及时性通过热点新闻的平均发布时间来体现,新闻更新速度通过新闻每天更新的新闻量来间接反映:

取连续一周权重大于30的新闻2888条(分析样本>30才具有代表性),分析不同网站热点覆盖面及实效性,有些渠道同一条新闻会在不同模块多次发布,此处仅取其中发布时间最靠前的一条,根据发布条数及发布时间排名,计算出不同渠道热点新闻的得分

计算各大网站热点发布及时性

单个热点中,以最新发布时间为准,计算距离最先发布的滞后时间长度

获取热点覆盖量及平均单条新闻滞后时间后,进行综合得分计算,通过以上数据可以看出热点覆盖量及滞后时间为不同量级大小数据,为了更好的进行分析,进行数据归一化处理:

1)、热点覆盖量转变为覆盖率:

热点覆盖量/样本量

2)、平均滞后时间转变为平均滞后度:

平均滞后时间/(24*60),越滞后说明网站更新越不及时,为了方便理解,将改变量转化为实效性:

1-平均滞后时间/(24*60)

根据业务需求,分别给予热点覆盖率及发布及时性权重:

热点覆盖率:

60%

发布及时性:

40%

渠道得分=0.6*覆盖率+0.4*实效性(量级0~1)

新闻权重计算

新闻权重由两部分构成:

1、新闻传播热度:

交集词量>=3的新闻,取新闻的交集词量(量级:

3~正无穷)

2、发布渠道权威性:

相关新闻涉及到的渠道权重总得分(量级0~1)

考虑到两个数值目前量级不一样,对渠道权重得分进行调整

渠道得分=6*覆盖率+4*实效性(量级0~10)

则发布渠道权威性:

相关新闻涉及到的渠道权重总得分(量级1~正无穷)

新闻热点系数=新闻传播热度得分+发布渠道权重得分

支持对微博意见领袖的分布区域、认证情况和性别、转发量和评论量的排行榜等分析。

并支持分析图表。

意见领袖指在某事件中参与的所有意见领袖的动态进行综合分析。

包括对意见领袖的分布区域、认证情况和性别、转发量和评论量的排行榜等分析。

微博中各类事件的信息、可按话题量、转发量、评论量、意见领袖、参与用户、传播路径等分析,并自动生成各类图表。

也可以从事件的角度去进行分析,即考察舆情信息等事件在微博中的传播情况,从中找出最核心的人物、最热门的微博、最全面的传播等等,全方面、多层面的了解事件的发展与内容。

系统提供查询入口,通过关键字和条件的组合,可以获取所查询事件在微博中的传播情况、影响力等。

对持续的话题事件分析还可以设置成专题。

3.4.数据监控

Ø多维度设计数据是否正常吐出监控方案

Ø根据不同纬度数据编发情况制定预警阀值

Ø开发预警邮件告警功能,因告警邮件较多,动态切换告警邮箱

Ø根据不同网站特征,迭代优化阀值

Ø爬虫组件是否正常运转、是否正常吐出数据;数据处理组件是否正常运转、是否正常突出数据,网站变化导致采集异常处理

实时监测所有舆情数据采集程序(新浪微博采集等)、数据处理程序(人名识别、热点计算等)的运行情况,监测到程序异常则发送邮件告警。

针对所有的网站采集数据量进行监控,针对数据量下降幅度较大进行监控。

监控出下降幅度较大后,并不能直接判断程序异常,有可能是网站更新量较少导致,需要对所有监控数据量下降网站进行核实,实效要求数据量为0的30分钟完成核实,数据量减少在一个小时内完成核实,核实存在问题的会及时处理。

地域识别:

告警规则:

全国、四川、成都下降超过30%,未知占比增长超过30%

情感分析:

告警规则:

正面、中性、负面下降超过30%,未知占比增长超过30%

通过匹配人名表中的最新内容的时间与新闻表中时间做比对,当人名表中时间滞后30分钟以上,进行邮件告警。

热点事件计算:

半个小时内无权重大于0数据权重大于0数据环比下降30%

3.5.舆情可视化

以地图的形式来展现全国各个省份的当天实时热点新闻,地图上面的热点新闻词条会定时更新,更新的间隔时间为1分钟。

同时地图会以“跑马灯”形式来展示各个省份的实时新闻热点词条。

如果该省份有热点新闻,则停留2秒钟,否则提留1秒钟。

当用户的鼠标停留在某个省份的时候,此时地图上面的词条不再更新,用户可以清楚查看新闻词条。

地图右侧为当天top50的热点新闻,按热点计算权重倒序排列展示,如果内容已经发送则显示已发送。

并且增加了换一换功能,可以换5页热门新闻。

热点人物模块展现如下4部分的内容:

(1)、展示当天top9的热点人物信息,同时也可以自定义搜索自己关注的人物。

热点人物计算的业务处理逻辑如下:

使用Stanford大学的一个开源分词工具(StanfordSegmenter)对采集的新闻信息进行分词,StanfordSegmenter是基于CRF(ConditionalRandomField,条件随机场),CRF是一个机器学习算法,其原理是字构成词,利用此原理把分词当做字的词位分类问题,也是把分词当作另一种形式的命名实体识别,利用特征建立概率图模型后,用Veterbi算法求最短路径,从而从分词结果中进行人名识别。

热点人物则是以识别出的人名在当日新闻中出现的频次次数倒序的的方式取出top9的人名。

(2)、展示选择热点人物当天的新闻量及该人物在新闻中出现的频次,并以柱状图的形式汇总展示新闻信息的情感分析情况情感分析的业务处理逻辑如下:

斯坦福CoreNLP是一个Java自然语言分析库,它集成了所有的自然语言处理工具,包括词性的终端(POS)标注器,命名实体识别(NER),分析器,对指代消解系统,以及情感分析工具,并提供英语分析的模型文件。

使用该分析工具对新闻信息进行情感分析。

(3)、以时间轴的形式显示选择的人物的相关新闻列表,按时间倒序排列展示。

、以关系图的形式显示选择的人物与之相关top10的人物,关系以与该人物同时出现在同一新闻中的频次次数进行倒序排序的top10.同时热点人物增加发送按钮,可以直接发送新闻到CMS。

热点推送中的数据来自腾讯、搜狐、锦观、新华、成都商报、人民日报、华西都市报、新浪网、今日头条、凤凰、网易等11个手机新闻客户端推送的新闻,按时间先后顺序排序,可以按渠道及时间进行条件查询。

3.5.4.热点新闻展示

展示热门的新闻TOP12,新闻热度的判断规则:

热点新闻来源于新浪网、环球时报、网易新闻、搜狐新闻、新华网、凤凰网、四月网、新浪微博、XX贴吧今日热点9个渠道,热度计算规则:

根据这9个渠道新闻标题的分词结果的交集数量来获取热度值,交集数量越大,热度值就越大。

新增选择条件,让用户按照时间、地区、媒体属性,进行查看热点新闻,可以让用户找到更适合自己的关注新闻焦点.

3.6.编辑辅助

查询某个准备写作的新闻最新的热度趋势,是否具有编写价值,以及通过时间轴拖动,可以查看最新的相关新闻素材,并可通过关键词添加,比较几组关键词热度趋势走向。

3.8.1关键词趋势分析

关键词趋势分析可以选择多个词及相关的同义词、近义词及反义词作为条件进行搜索这些词当天的新闻量及最近1周的新闻量,以拆线图的方式显示该词的新闻量趋势走向,以列表的方式显示该词的新闻详细信息,同时可以点击发送新闻按钮,将新闻发送出去。

需求图谱是以词云的方式显示选择的词与之相关的词的词频倒序前50个词.

3.8.2段子手最新快讯

1、可通过添加平时比较关注的段子手的微博等,当某个段子手写的最新的文章热度超过某个阈值后(先期设定为2000),将其展示。

a、本文:

自己发的内容原文:

被转发微博的内容b、热度指数=评论量*0.6+转发量*0.3+点赞量*0.1。

2、热点微博可以按是否原创、微博作者、微博内容及时间等多条件进行搜索,搜索结果以分页列表的形式展示,热点微博:

本文热度指数大于300且本文热度指数大于原文热度指数,新增发送功能可以直接通过CMS进行发送新闻。

3、自助查询可以按本文评论量、本文转发量、本文点赞量、原文评论量、原文转发量、原文点赞量是否原创、微博作者、微博内容及时间等多条件进行搜索,搜索结果以分页列表的形式展示。

用户分析以散点图的形式展示昨日微博条数及本文热度指数,以列表形式呈现微博名、昨日微博条数及本文热度指数。

右下表格呈现的数据为每个热门段子手的最新一条段子明细。

4.非功能性设计

Ø保证舆情系统的稳定、安全、顺畅性是基础

4.1.系统性能

●认证、首页响应、前段查询功能:

响应时间不超过3秒

●报表展示:

对于90%以上的报表,从发出页面请求,到完整展示的响

●应时间应小于5秒

4.2.可靠性

●系统监控:

实时掌握系统的运行状况,对故障做出快速反应

●可维护行:

系统和文件数据备份,系统重新启动后能够正常处理

4.3.安全性

●身份认证和访问控制:

具有用户和权限的管理功能

●账号管理:

提供系统管理员、业务管理员账号

5.项目实施计划

项目阶段

工期

任务

阶段性成果目标

需求调研分析与设计

1个月

需求调研分析与设计

完成需求分析报告与设计报告文档

研发

阶段

4个月

完成关键技术的实现、核心模块开发和测试

(1)完成产品设计、开发及测试鉴定工作。

(2)完成产品关键技术实现

(3)完成产品技术指标测试鉴定

试用阶段

1个月

完成产品试点

(1)完成试点应用,收集用户使用意见

(2)优化和完善关键技术指标

6.项目质量控制

为保证项目的质量,由年华Q/A团队负责本期项目的质量控制工作。

按照公司及项目组内部的各项规程和约定,依计划对项目的进度和过程进行验证,并把质量保证活动及结果通知到项目经理和其他相关小组负责人。

项目经理应在优化项目完成后提交客户满意度调查表,由用户对优化情况进行评估。

7.年华公司简介

贵州年华科技有限公司于2001年11月22日成立。

是一家主要从事信息技术与信息服务的研究、开发与推广,具有自主知识产权和明确市场定位的民营高科技企业。

公司熟悉国家政策与产业情况,对贵州本地移动市场状况有深入了解,拥有计算机、网络通信、系统集成、业务运营等各领域优秀的专业人才,具备当前移动网增值业务及其他相关领域的先进理念和核心技术。

贵州年华具备移动增值业务合作的专业资质:

✓增值电信业务经营许可证:

2004年8月信产部颁发;

✓贵州移动业务集成商资格证:

2007年8月贵州移动颁发;

贵州移动集团业务代理资格:

2009年6月贵州移动授予。

8.售后服务

我公司致力于提供高效的IT解决方案和服务,帮助行业客户应对市场变革,构建更为稳固的最终用户关系和更为创新的最终用户体验,一贯把服务放到与集成和软件同样重要的地位上,始终把满足客户需求、提供全面服务作为宗旨,在不断的发展和完善过程中,解决您的技术疑难,帮助您的系统稳定运行。

年华承诺服务于该项目的技术人员提供7*24小时技术支持服务,在项目现场设立一名专职的运维工程师提供现场服务。

9.公司资质及大型软件实施能力

9.1.公司技术资质

9.2.大型软件实施能力

我公司于2014年实施了贵州移动14计费网乐享100平台项目,该项目合同金额315万。

西藏移动乐享100平台

我公司于2013年实施了西藏移动乐享100平台二期项目,该项目合同金额360万。

10.相关案例

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1