文本挖掘Word格式文档下载.docx

上传人:b****6 文档编号:16932716 上传时间:2022-11-27 格式:DOCX 页数:21 大小:2.07MB
下载 相关 举报
文本挖掘Word格式文档下载.docx_第1页
第1页 / 共21页
文本挖掘Word格式文档下载.docx_第2页
第2页 / 共21页
文本挖掘Word格式文档下载.docx_第3页
第3页 / 共21页
文本挖掘Word格式文档下载.docx_第4页
第4页 / 共21页
文本挖掘Word格式文档下载.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

文本挖掘Word格式文档下载.docx

《文本挖掘Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《文本挖掘Word格式文档下载.docx(21页珍藏版)》请在冰豆网上搜索。

文本挖掘Word格式文档下载.docx

点击“功能性分析”,会弹出一个下拉式菜单,点击“字频分析(P)”选项,弹出“字频分词窗口”对话框。

”中会自动出现处理后的文件,而且文件名为“某某__字频.TXT”文件。

打开“某某__字频.TXT”文件,该文件统计各个字出现的次数。

(3)英文词频分析

点击“功能性分析”,会弹出一个下拉式菜单,点击“英文词频分析”选项,弹出“ROST英文词频统计和超纲单词分析”对话框。

点击“打开”按钮,将要处理的英文文件载入,再点击“统计”按钮,就可以统计出各个英文单词的个数。

注意,要处理的文件必须是TXT类型,例如打开“aaa.txt”文件进行统计,如下图所示:

如果这时点击“单词”中的某个单词,该软件将会找出该单词在这个文件中的位置,并将该单词的字体变大。

点击“大纲”按钮,可以显示出单词是在什么大纲中出现的。

文件词频统计

点击“文件”菜单下的“打开”菜单项或点击工具栏上的“打开”按钮,打开要统计的英文文档,然后选择“统计”菜单下的“统计文件词频”菜单项或工具栏上的“统计”按钮,即可统计出文档的所有单词。

点击单选按钮“纲内”,可统计该文档的纲内词;

点击单选按钮“超纲”,可统计该文档中的超纲词。

选择复选框“全选”,可全选表格所有单词;

选择复选框“归并单词变形”,可将变形单词进行归并。

对统计出的单词,在表格上点击右键,弹出快捷菜单,可以将选择的词汇添加到常用词语表,或者将选择的词汇从常用词语表中删除。

要在文本框中高亮显示某单词,可以勾选该单词的检查框;

如果取消勾选,则文本框中该单词恢复普通显示状态。

剪切板词频统计

如果要统计剪切板词频,则选择“统计”菜单下的“统计剪切板词频”菜单项,则剪切板上的单词会显示在打开文件框中,再点击工具栏上的“统计”按钮即可。

查看统计表格

点击“查看”菜单下的“统计表格”菜单项,即可查看空的统计表格。

查看大纲列表

点击“查看”菜单下的“大纲列表”菜单项,打开大纲列表窗口,即可查看大纲列表。

如果要查看某大纲,双击该行即可。

在大纲列表窗口,还可以自定义某个词汇表,方法是在“大纲名称”文本框中输入大纲名称,然后在“大纲文件”文本框中载入大纲文件,再点击“添加”按钮即可。

若要删除某词汇表,则选中该词汇表后,点击“删除”按钮即可。

描红超纲词

如果要查看所有勾选的超纲词汇在文章中的位置,则首先点击“统计”、然后选择“超纲”,再勾选“全选”,然后点击查看菜单中的“描红选定的超纲的词汇”即可。

查看非词表

非词表你不想统计的单词或者字符的列表,该文件位于程序目录下的dict子目录下的notwords.txt。

要查看非词表,点击“工具”菜单下的“查看非词表”即可。

如果要启动非词表,则“工具”菜单下的点击“启动非词表”。

加密词表

如果要对词表加密,则点击“工具”菜单下的“加密词表”;

如果要解密词表,则则点击“工具”菜单下的“解密词表”即可。

打开词典目录

点击“工具”菜单下的“打开词典目录”即可。

(4)汉语频度分析

点击“功能性分析”,会弹出一个下拉式菜单,点击“汉语频度分析”选项,弹出“汉语词频统计窗口”对话框。

在“分词后待统计词频文件”中载入要处理的分词后的文件,例如载入“67实验材料__分词后.txt”文件,软件会在“输入文件:

”自动生成“67实验材料__分词后__词频.txt”文件,并在“过滤词表:

”中也生成相应的文件。

点击“确定”按钮,就会打开相应的词频文件,统计出各个词出现的次数。

(5)社会网络和语义网络分析

点击“功能性分析”,会弹出一个下拉式菜单,点击“社会网络和语义网络分析”选项,弹出“ROST语义网络和社会网络生成工具”对话框。

在“待处理文件:

”中载入要处理的文件,比如“67实验材料.txt”文件,点击“提取高频词”按钮,软件会在“高频词表:

”中生成“67实验材料__高频词.txt”文件。

点击“过滤无意义词”按钮,软件会在“过滤后有效词表:

”中生成“67实验材料——高频词——高频过滤后.txt”文件,同时也在“共现矩阵词表:

”中生成“67实验材料-高频词-共现矩阵词表.txt”文件。

点击“提取行特征”按钮,软件会在“行特征词表”中生成“67实验材料-行特征词.txt”文件。

点击“构建网络”按钮,软件会在“共现VNA:

”和“共现Txt:

”中分别生成“67实验材料--语义网络.vna”和“67实验材料--语义网络.txt”文件。

点击“启动NetDraw”按钮,则可以打开NetDraw工具,查看图形结果。

点击“构建矩阵”按钮,软件会在“共现矩阵文件:

”中生成“67实验材料-行特征词--共词矩阵.xls”文件。

也可以直接点击“快速分析”按钮,一次完成所有的操作。

(6)情感分析

点击“功能性分析”,弹出一个下拉式菜单,点击“情感分析”选项,弹出“情感倾向分析工具”对话框。

在“待分析文件路径”中点击“打开”按钮,载入要分析的文件,然后点击“分析”按钮,就可以得出分析结果。

例如载入“67实验材料”文件,点击“分析”按钮后,就可以查看分析结果,如下图所示:

(7)流量分析

点击“功能性分析”,弹出一个下拉式菜单,点击“流量分析”选项,弹出“网站流量分析工具”对话框。

在“输入网址:

”栏输入要分析的网址,点击“数据分析”按钮即可。

例如输入网址,点击“数据分析”按钮,可以看到“当日排名”“变化趋势”“一周排名”等,也可以进行批量分析。

如下图所示:

(8)TF/IDF批量词频分析

点击“功能性分析”,弹出一个下拉式菜单,点击“TF/IDF批量词频分析”选项,弹出“ROST特征词提取及批量词频统计工具”对话框。

在使用这个功能时,要先将要分析的文件都放在一个文件夹里,例如把要分析的文件都放在“实验文件1”这个文件夹里,然后点击“批量打开文件”按钮,根据保存路径,选择“实验文件1”文件夹,就将这个文件夹里的所有文件都载入,然后选中各个文件,点击“计算批量文件IDF”按钮和“计算当前所选文件TFIDF值”按钮,软件就自动计算出其值,如下图所示:

(9)相似分析

点击“功能性分析”,弹出一个下拉式菜单,点击“相似分析”选项,弹出“ROST信息相关性检测工具”对话框。

其中一定要注意“相似分析”需要网络的支持,必须开通网络该功能才能够很好的实现。

点击“打开”按钮,把要分析的文件载入,然后点击“检测”按钮,软件就开始分析刚刚载入的文件,点击“结果”按钮,就可以查看分析结果,如下图所示:

(10)网站信息分析

点击“功能性分析”,弹出一个下拉式菜单,点击“网站信息分析”选项,弹出“ROST网站环境分析”对话框。

其中一定要注意,该功能需要网络的支持,开通网络该功能才能够很好的实现。

在“http:

//”地址栏里输入将要分析的网址,然后点击“分析”按钮,就可以得到搜索引擎、收录网页数量、反向链接数量、查询结果等的分析结果,如下图所示:

(11)聚类分析

点击“功能性分析”,弹出一个下拉式菜单,点击“聚类分析(测试模块)”选项,弹出“ROST文本聚集”对话框。

在“待聚类文件:

”载入已经分词的文本文件,例如载入“67实验材料__分词后.txt”文件,然后点击“开始聚类”按钮,软件就开始进行聚类。

(12)分类分析

点击“功能性分析”,弹出一个下拉式菜单,点击“分类分析(测试模块)”选项,弹出“ROST短文本分类工具”对话框。

将要处理的文件载入“待处理文件:

”,例如把“”载入,点击“分析”按钮,则将分析结果输出。

二、聊天分析

要分析聊天记录,首先必须从QQ消息管理器的导入导出菜单下的导出消息记录导出消息的文本文件(.txt文件),然后点击在待处理文件文本框后的…,载入要处理的消息文本文件,然后点击“导入”按钮,使之格式化,即完成用户数据的整理。

然后再点击“分析”按钮,进行分析。

分析完成后,可点击分析框中的发言频度文件、口头禅文件、总词频文件和聊天内容文件超链接,查看相应结果。

启动情感分析模块,载入格式化后的聊天记录文件(不是刚刚导出的聊天记录原始文件),点击“分析”按钮,还可得到情感分析详细结果、情感分段统计结果、中性情绪结果文件和情感分布统计视图等情感分析结果。

三、全网分析

点击复选框中的“全网分析”按钮,就可以打开全网分析界面,在“输入搜索词:

”文本框里输入要搜索的关键字,比输入“钓鱼岛”,点击“搜索与分析”按钮,则搜索引擎根据该关键词搜索并返回的所有网页结果默认存放在程序目录下的data目录下的fullweb目录中。

    双击“输出文件”文本框,即可查看结果。

也可以进一步点击分析按钮,待分析完毕,即可分别点击相关词频表、网页链接表、域名表和摘要超链接,查看相应结果。

该结果也默认存放在上述目录中。

通过搜索引擎得到的全网数据还可做以下分析:

(1)全网数据中的摘要或标题数据中的词语、机构的共现关系。

方法是在“社会网络分析工具”中载入全网分析结果的摘要文件,点击“快速分析”按钮,即可双击文件框查看结果,或启动NetDraw查看图形结果。

(2)情感分析。

只需要将全网数据中的摘要数据载入情感分析工具,点击“分析”按钮即可。

(3)域名的批量流量分析。

只需将网页链接表载入到流量分析模块中,即可进行该网页链接表对应的域名批量流量分析。

(4)将网址列表载入到迅雷中进行下载。

四、网站分析

(1)获取网站数据

有两种方法获取网站数据。

点击复选框中的“网站分析”按钮,就可以打开网站分析界面,点击“启动网站抓取”按钮, 弹出如下图所示对话框:

    在“输入网站:

”后面的文本框输入要分析的网址,比如输入“”网址,点击“开始”按钮,软件就可以获得网站数据,抓取下来的网页保存在程序目录的data\website\网站名\webPage目录下。

 

 

另一个获得网站数据的方法是启动高级网站抓取功能,即点击“启动高级网站抓取”按钮,启动RostWebSpider抓取工具,如下图所示:

在文件菜单下点击新建任务菜单项,打开新建任务窗口,该窗口包含地址设置、连接设置、文件类型和内容设置4个选项卡。

如果进行地址设置,则点击地址设置选项卡,输入任务名称,如果是整站下载,则点击整站下载选项卡,输入网站入口URL;

如果是指定URL下载,则点击指定URL下载选项卡,并将要下载的URL添加到URL列表中;

如果是指定目录下载,则点击指定目录下载选项卡,输入入口URL;

最后点击跨站下载选项卡,并添加URL入口或从文件导入URL到URL入口列表中即可。

注意为了将下载的网站数据放到指定的位置,可以点击设置菜单项的设置任务文件夹菜单项,设置存放网站数据的位置。

如果进行连接设置,则点击连接设置选项卡,即可对下载的线程数、连接超时时间、抓取网页最大深度、URL队列为空时线程等待时间、两个连接之间的停顿时间、以及超链接的最大长度进行设置。

此外还可以选择是否同一TCP连接要抓取多个网页。

如果要对下载的文件类型进行设置,则点击文件类型选项卡,对允许下载的文件类型进行设置。

还可以对下载的内容进行限制。

点击内容限制选项卡,可以限制下载包含某些域名的网页、包含某些文件扩展名的网页或指定链接需要包含的字符串。

此外,在任务查看器中可以进行下载监控、查看更新报告、查看文件、任务和事件。

(2)分析

在获取网站数据以后,就可以对网站进行分析了,点击“分析”按钮,软件对抓取的网页文件即可做进一步的分析,生成“网页的文本文件”和“全站合并文件”。

点击分析框中的“网页的文本文件”和“全站合并文件”超链接,即可查看结果。

这些结果分别默认存放在data\website\网站名\webPage\analysis目录下。

五、浏览分析

首先在复选框中点击“浏览分析”,打开浏览分析框。

在“获得浏览数据”框中点击“获得历史数据与分析”按钮,然后在“分析”框中点击“获得历史浏览数据文件”超链接,即可得到分析结果。

结果默认存放在\deploy\data\browse\history\文件夹里面。

点击标题文件、URL文件和标题词频文件超链接,即可查看结果。

点击获得实时阅读数据按钮,打开ROST实时浏览数据抓取工具,即可获得实时阅读数据。

五、微博分析

在复选框中点击“微博分析”,打开微博分析界面,在“微博实时搜索与个人数据备份”框中的“词或微博地址:

”后面的文本框中输入需要搜索的关键词或者是微博地址,比如输入“世界杯”,点击“扫描”按钮,这时计算机开始对要搜索的数据进行搜集,并将结果输出。

输出的文件默认存放在\deploy\data\Mblog\文件夹里面。

在使用该功能时,需要注意“特别说明”,需要先在IE内核浏览器,如360浏览器,世界之窗,腾讯TT浏览器,IE浏览器之类的登陆新浪帐号,如果记录了新浪的登陆状态,直接使用本软件即可,如图所示:

在“分析”框中,点击“分析”按钮,可以得到网友网名关系表、微博文和微博文词频的超链接。

六、期刊分析

点击复选框中的“期刊分析”,将打开“期刊分析”界面。

在“期刊名称:

”后面的文本框中输入要分析的期刊名称,比如输入“武汉大学学报”,然后点击“扫描”按钮,软件就开始采集数据。

软件将采集到的数据默认存放在\deploy\data\journal文件夹里面。

按照该存放路径,就可以找到采集到的数据并打开。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 政史地

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1