ROST NewsAnalysis Tools操作手册.docx
《ROST NewsAnalysis Tools操作手册.docx》由会员分享,可在线阅读,更多相关《ROST NewsAnalysis Tools操作手册.docx(10页珍藏版)》请在冰豆网上搜索。
ROSTNewsAnalysisTools操作手册
ROST新闻分析工具
(ROSTNewsAnalysisTool4.5)
用户手册
清华大学新闻研究中心
目录
一、功能说明1
二、运行环境1
三、软件操作2
1获取数据2
1.1搜索新闻2
1.2查看新闻3
2词性识别与词性统计3
3社会网络与语义网络分析5
4统计图7
5新闻汇总数据8
6数据库操作8
一、功能说明
●采集多个信息源网络数据,并格式化保存。
●分词和词性分析
●词频统计
●词语过滤
●人名、地名、团体机构名提取
●构建语义网络
●数据可视化分析
●特定数据来源总体概况
●存放于MDB库中,并可自由导出
发布、维护新浪微博:
@ROST软件
出品单位:
清华大学新闻研究中心
下载地址:
二、运行环境
●windowXP/2003/window7
●互联网
●.NetFramework2.0
●access数据库
三、软件操作
程序运行
程序下载到本地电脑后解压文件,依次点击文件ROSTNAT→ROSTNewsAnalysisTools.exe,系统主界面如下图所示:
1获取数据
1.1搜索新闻
输入新闻词,点击右侧设置,在弹出的窗口中选择要采集的页数和网址,点击确定
返回到主界面,点击搜索按钮or鼠标定位到输入新闻词文本框中按下Enter键,(在搜索的过程中可能会有点卡,常见因素有电脑的网速不是很给力,采集的页数过多,系统同时运行的程序过多等,请耐心等候!
)程序会自动生成一系列的相关文本文件,如摘要文件。
(当设置连续采集0页时,默认采集网站的搜索的最大页数。
网页采集的最大页码分别是:
搜狗新闻:
100页,搜狗网页:
100页、必应网页:
35页、360新闻:
32页、360网页:
64页、XX新闻:
38页、XX网页:
76页)
1.2查看新闻
鼠标可直接单击输出文件文本框打开.txt文档经行浏览,或选择摘要文件、链接文件、域名文件浏览。
2词性识别与词性统计
作用:
对文本文件里的词进行词性判断,如名词,动词等;以及统计文本文件里词语出现的频率。
本软件可以采用两种方式进行分析:
软件自带数据采集功能,数据采集后可直接运行分析功能
用户外部导入符合格式的文本文档,格式具体要求分析功能的页面经行说明。
分析数据:
准备好待上传文件(文件格式仅限.txt格式),注意文本的格式是否点满足系统所提示内容,点击待处理文件最右边的按钮,在打开的文件中选择所保存文件路径(也可以将路径直接复制粘贴到待处理文件文本框中),点击分析按钮,程序会生成一系列的相关文本文件,如地名、总词频表.
添加过滤词:
打开“添加过滤词”按钮,即可打开过滤词文本文件,添加所想过滤的关键词保存之后,软件需要重新启动一下,回到词性识别与词频统计界面再次导入上次所选文本文件分析数据有效。
3社会网络与语义网络分析
作用:
过滤无意义词组,统计文本文件中的词出现最多次数,分析每行文字中相关联的词组,用网状形式展现出他们之间的关系。
首先,导入文本文件;然后分步分析或快速分析
注意事项:
如出现高频词、提取行特征、共现VNA文件为空时,请检查导入文件格式是否符合这几项要求:
1文档是否有内容2txt文档大小超过1M3行与行之间是否有很多换行,4一句话或一段文字有很多空格5是否误删除过软件中指定内型的文件,如删除了请重新下载此系统。
4统计图
作用:
根据采集到新闻,按时间段统计这段时间新闻条数
注释:
如采集到新闻时间段过长在选择关键词时会弹出一个窗体显示
注意事项:
统计图功能只限XX网页、XX新闻、奇虎论坛使用,其它网站论坛在搜索时无时间显示,故不能统计
5新闻汇总数据
作用:
根据所输关键词,自动统计网页、新闻、淘宝、阿里巴巴、社区相关搜索条数。
6数据库操作
作用:
查询所搜到的新闻,删除无用新闻并导出