ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:26.72KB ,
资源ID:1378677      下载积分:12 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/1378677.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘WEKA实验报告.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据挖掘WEKA实验报告.docx

1、数据挖掘WEKA实验报告数据挖掘WEKA实验报告DoCUment number: WTWYT-WYWY-BTGTT-YTTYU-2018GT数据挖掘-WAKA实验报告一、WEKA软件简介在我所从事的证券行业中,存在着海量的信息和数据,但是这些数据日 常知识发挥了一小部分的作用,其包含了大量的隐性的信息并不为所用,但 是却可以为一些公司的决策和对客户的服务提供不小的价值。因此,我们可 以通过一些数据采集、数据挖掘来获得潜在的有价值的信息。数据挖掘就是通过分析存在于数据库里的数据来解决问题。在数据挖掘中 计算机以电子化的形式存储数据,并且能自动的查询数据,通过关联规则、分 类于回归、聚类分析等算法

2、对数据进行一系列的处理,寻找和描述数据里的结 构模式,进而挖掘出潜在的有用的信息。数据挖掘就是通过分析存在于数据库 里的数据来解决问题。WEKA的岀现让我们把数据挖掘无需编程即可轻松搞定。WEKA是由新西兰怀卡托大学开发的开源项U ,全名是怀卡托智能分析环 境(WaikatOEnVirOnmentfOrKnOWledgeAnaIySiS)。WEKA 是ill JAVA 编写 的,WEKA得到,并且限制在GBU通用公众证书的条件下发布,可以运行在所 有的操作系统中。是一款免费的,非商业化的机器学习以及数据挖掘软件WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任 务的机器学习算法

3、,包括对数据进行预处理,分类,回归、聚类、关联规则 以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可 以看一看WEKA的接口文档。在WEKA中集成自己的算法甚至借鉴它的方法自 己实现可视化工具并不是件很困难的事情。安装WEKA也十分简单,首相要下载安装JDK环境,JDK在这个页面可以 找到它的下载。点击JDK6之后的DOWnlOad按钮,转到下载页面。选择 Accepct,过一会儿页面会刷新。我们需要的是这个WindOWSOfflinelnStaIIationz,点击它下载。也可以右键点击它上面的链 接,在FIaShget等工具中下载。安装它和一般软件没什么区别。不过中间会

4、中断一下提示你安装JRE, 并装上即可。之后就是安装WEKA软件,这个在 网上很多地方都有。同样简单地按默认方法安装后即可使用。点击启动运行WEKA软件后,我门发现WEKA存储数据的格式是ARFF(AttribUte-ReIatiOnFiIeFOrmat)文件,这是一种 ASCll 文本文件。我 们如图1通过软件的TOOIS菜单进入ArffVieWer可以在安装Ll录下查看软 件自带的儿个ARFF文件。图1 图2 如图2,打开文件后选择data自目录下的任意一张表,我们都可以看到如图3 所示的二维表格存储在如下的ARFF文件中。这也就是WEKA自带的“”文 件。这里我们要介绍一下WEKA中的术

5、语。表格里的一个横行称作一个实例 (InStanCe),相当于统计学中的一个样本,或者数据库中的一条记录。竖行 称作一个属性(AttrbUt),相当于统计学中的一个变量,或者数据库中的一 个字段。这样一个表格,或者叫数据集,在WEKA看来,呈现了属性之间的一 种关系(ReIatiOn)O图1中一共有22个实例,5个属性,关系名称为UCOntaCt-IenSeS ,。除了 ARFF格式,WEKA还支持另外一种常见格式,CSV格式。CSV同样是 一种二进制保存的文本格式,我们可以在WEKA中直接打开CSV格式的文件, 并保存为ARFF格式。这样就给我提供了把常见的数据格式转换为ARFF格式的 方法

6、,如对于EXCel文件,我们可以通过把每张表保存为CSV格式,进而保存 为ARFF格式,与此同时,我们可以利用filter对数据进行相应的预处理。而对 于MatIab格式的数据,我们可以通过命令CSVWnte把数据转化成CSV格式的 文件,进而转化为ARFF格式文件。对于海量数据,一般保存在数据库中, WEKA同时支持JDBC访问数据库。图3打开WEKA,首先出现一个命令行窗口。原以为要在这个命令行下写java 语句呢,不过稍等一秒,WEKAGUlChOOSer的出现了。这是一个很简单的窗 体,提供四个按钮:SimPleCLk EXPlOrer EXPerimenter KnOWledgeFl

7、OWC SirnPIeCLI应该是一个使用命令行的界面,有点像SAS的编辑器:EXPlOrer是则 是视窗模式下的数据挖掘工具;EXPerimenter和KnoWledgeFloW的使用有待进 一步摸索.图4(1) EXPlOrer使用WEKA探索数据的环境。在这个环境中,WEKA提供了数据的预处理, 数据格式的转化(从CSV格式到ARFF格式的转化),各种数据挖掘算法(包括 分类与回归算法,聚类算法,关联规则等),并提供了结果的可视化工具。对 于一个数据集,通过简单的数据的预处理,并对数据挖掘算法进行选择(在版 本之后,加入了算法的过滤功能,可以过滤掉那些不适合当前数据集类型的算 法),接着

8、通过窗口界面对算法的参数进行配置。可视化工具分为对数据集的 可视化和对部分结果的可视化,并且我们可以通过属性选择工具 (SeIeCtAttnbute),通过搜索数据集中所有属性的可能组合,找出预测效果最好 的那一组属性。EXPlOrer是普通用户最常用的一个界面。用户可以从ARFF文件(Weka使用 的一种文本文件格式)、网页或数据库中读取数据集。打开数据文件后,可以选 择算法对数据进行预处理。这时窗体上给出了这个数据集的一些基本特征,如 含有多少属性,各属性的一些简单统计量,右下方还给出一些可视化效果图。 这些都是比较直观的分析,如果想发现隐藏在数据集背后的关系,还需要选择 Weka提供的各

9、种分类、聚类或关联规则的算法。所有设置完成后,点击Start 按钮,就可以安心地等待Weka带来最终的结果。哪些结果是真正有用的还要靠 经验来判断。(2) EXPerimenter运行算法试验、管理算法方案之间的统讣检验的环境。EXPerimenW境可 以让用户创建,运行,修改和分析算法试验,这也许比单独的分析各个算法更 加方便。例如,用户可创建一次试验,在一系列数据集上运行多个算法(SChemeS),然后分析结果以判断是否某个算法比其他算法(在统讣意义 下)更好。EXPIOrermenter主要包括简单模式,复杂模式和远程模式。复杂模式是对 简单模式的基本功能的扩充,而远程模式允许我们通过分

10、布式的方法进行实 验。就功能模块而言,分为设置模块,运行模块和分析模块。在设置模块中我们可 以自定义实验,加入多个算法和多方的源数据(支持ARFF文件,CSV文件和数 据库),在运行模块中我们可以运行我们的实验,而在分析模块中,我们可以 分析各种算法的的准确性,并提供了各种统计方法对结果进行检验比较。值得一提的是,我们可以把实验的各种参数,包括算法,数据集等,保存 以方便下一次相同实验的进行;也可以把各种算法保存,方便应用在不同的数 据集上;如果数据集来源于数据库的话,实验在过程中可以中止并继续(原因 可以是被中止或者是扩展了实验),这样就不用重新运行那些已实验过的算法/ 数据集祝贺,而仅计算

11、还没有被实验的那些。(2) KnOWIedgeFIOWEXPIOrer的一个不足在于,当用户打开一个数据集时,所有数据将全部被 读入到主存当中,随着任务规模的增大,普通配置的计算机很难满足要求。 KnOWIedgeFIOW供了一个用于处理大型数据集的递增算法,专门处理这一问 题。这个环境本质上和EXPIOrer支持的功能是一样的,但是它有一个可以拖 放的界面。它有一个优势,就是支持增量学习(incrementallearning)。KnOWIedgeFIOW为WEKA提供了一个数据流形式的界面。用户可以从一 个工具栏中选择组件,把它们放置在面板上并按一定的顺序连接起来,这样组 成一个知识流(k

12、nowledgeflow)来处理和分析数据。Ll前,所有的WEKA 分类器(ClaSSifier).筛选器(filter)、聚类器(ClUSterer).载入器(IOader)、保存器(SaVer),以及一些其他的功能可以在KnOWledgeFIOW中 使用。KnOWIedgeFIOW可以使用增量模式(incrementally)或者批量模式(inbatches)来处理数据(EXPIOrer只能使用批量模式)。当然对数据进行增 量学习要求分类器能够根据各实例逐个逐个的更新.现在WEKA中有五个分类 器能够增量地处理数据:NaiVeBayeSUPdateable, IBl, IBk, LWR (

13、局部加权 回归)。还有一个meta分类器RaCedlnCrementaILOgitBOOSt可以使用任意:基于 回归的学习器来增量地学习离散的分类任务。(4) SimPleCLl提供了一个简单的命令行界面,能通过键入文本命令的方式来实现其他三 个用户界面所提供的所有功能,从而可以在没有自带命令行的操作系统中直接 执行WEKA命令。使用命令行有两个好处:一个是可以把模型保存下来,这样有新的待预测 数据出现时,不用每次重新建模,直接应用保存好的模型即可。另一个是对预 测结果给出了置信度,我们可以有选择的采纳预测结果,例如,只考虑那些置 信度在85%以上的结果。二、实验案例介绍本文用WEKA软件作为

14、工具,结合券商的基金某一个时段交易业务数据进 行分析。实验的数据是一个交易周的基金交易业务数据。该表含有date(日期)、 fund_code(基金代码)、fund_name (基金名称)、COmPany_code(基金公司代 码)、COnIPany (基金公司名称)、business.COde (业务代码)、business-name (业务名称)、ShareS (基金份额)、balance(资金金额)、fares (手续费)、 fares_type (手续费类型)、internet-ShareS (网上交易基金份额)、 internet_balance (网上交易资金金额)、remark

15、(备注)等字段,通过实验,希 望能找出客户的基金交易分布情况。该数据的数据属性如下:date (numeric),交易发生日期;fund-code(numeric),基金代码;fund-name (CharaCter),基金名称;COmPany_code(numeric),用于报送的基金公司代码;COmPany(CharaCter),所属的基金公司;busineSS-COde(numeric),交易业务代码;business-name(CharaCter),交易业务名称;ShareS (numeric) T基金交易份额;balance (numeric),资金交易金额;fares (numer

16、ic),交易手续费;fares-type(enum),手续费类型,取值范围“全额结算” / “净额结 算”;internet-shares (numeric),网上交易基金份额;internet-balance(numeric),网上交易资金金额;remark (character), 备注;三、数据分析我们给出一个CSV文件的例子()。用UItraEdit打开它可以看到,这 种格式也是一种逗号分割数据的文本文件,储存了一个二维表格。EXCeI的XLS文件可以让多个.维表格放到不同的工作表(Sheet )中, 我们只能把每个工作表存成不同的CSV文件。打开一个XLS文件并切换到需 要转换的工作表,另存为CSV类型,点“确定”、“是”忽略提示即可完成 操作。需要注意的是,MatlIab给出的CSV文件

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1