ImageVerifierCode 换一换
格式:DOCX , 页数:40 ,大小:643.24KB ,
资源ID:14110470      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/14110470.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(使用Weka进行数据挖掘的的基本方法手册与心得Word文档格式.docx)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

使用Weka进行数据挖掘的的基本方法手册与心得Word文档格式.docx

1、回页首什么是数据挖掘?数据挖掘,就其核心而言,是指将大量数据转变为有实际意义的模式和规那么。并且,它还可以分为两种类型:直接的和间接的。在直接的数据挖掘中,您会尝试预测一个特定的数据点 比方,以给定的一个房子的售价来预测邻近地区的其他房子的售价。间接的数据挖掘中,您会尝试创立数据组或找到现有数据的模式 比方,创立 “中产阶级妇女的人群。实际上,每次的美国人口统计都是在进展数据挖掘,政府想要收集每个国民的数据并将它转变为有用信息。现代的数据挖掘开场于 20 世纪 90 年代,那时候计算的强大以及计算和存储的本钱均到达了一种很高的程度,各公司开场可以自己进展计算和存储,而无需再借助外界的计算帮助。

2、此外,术语数据挖掘是全方位的,可指代诸多查看和转换数据的技术和过程。因为本系列只触及能用数据挖掘实现的功能的一些皮毛。数据挖掘的专家往往是数据统计方面的博士,并在此领域有 10-30 年的研究经历。这会为您留下一种印象,即只有大公司才能负担得起数据挖掘。我们希望能够去除有关数据挖掘的这些误解并希望弄清楚一点:数据挖掘既不像对一系列数据运行一个电子数据表函数那么简单,也不像有人想的那样难到靠自己根本无法实现。这是 80/20 型的一个很好的例子 甚至更进一步可以是 90/10 型。您用所谓的数据挖掘专家的 10% 的专业知识就能创立具有 90% 效力的数据挖掘模型。而为了补上模型剩下的 10%

3、的效力并创立一个完美的模型将需要 90% 额外的时间,甚至长达 20 年。所以除非您立志以数据挖掘为职业方向,否那么“足够好就可以了。从另一个方面看,利用数据挖掘所到达的“足够好总要比您现在所采用的其他技术要好。数据挖掘的最终目标就是要创立一个模型,这个模型可改良您解读现有数据和将来数据的方式。由于现在已经有很多数据挖掘技术,因此创立一个好的模型的最主要的步骤是决定要使用哪种技术。而这那么极依赖于实践和经历以及有效的指导。这之后,需要对模型进展优化以让它更令人满意。在阅读了本系列的文章后,您应该能够自己根据自己的数据集正确决定要使用的技术,然后采取必要的步骤对它进展优化。您将能够为您自己的数据

4、创立一个足够好的模型。WEKA数据挖掘绝非大公司的专有,也不是多昂贵的软件。实际上,有一种软件可以实现那些价格不菲的软件所能实现的全部功能 这个软件就是 WEKA参见参考资料。WEKA 诞生于 University of Waikato新西兰并在 1997 年首次以其现代的格式实现。它使用了 GNU General Public License (GPL)。该软件以 Java 语言编写并包含了一个 GUI 来与数据文件交互并生成可视结果比方表和曲线。它还有一个通用 API,所以您可以像嵌入其他的库一样将 WEKA 嵌入到您自己的应用程序以完成诸如效劳器端自动数据挖掘这样的任务。我们继续并安装

5、WEKA。因为它基于 Java,所以如果您在计算机上没有安装 JRE,那么请下载一个包含 JRE 的 WEKA 版本。图 1. WEKA 的开场屏在启动 WEKA 时,会弹出 GUI 选择器,让您选择使用 WEKA 和数据的四种方式。对于本文章系列中的例子,我们只选择了Explorer选项。对于我们要在这些系列文章中所需实现的功能,这已经足够。图 2. WEKA Explorer在熟悉了如何安装和启动 WEKA 后,让我们来看看我们的第一个数据挖掘技术:回归。回归回归是最为简单易用的一种技术,但可能也是最不强大这二者总是相伴而来,很有趣吧。此模型可以简单到只有一个输入变量和一个输出变量在 Ex

6、cel中称为 Scatter 图形,或 OpenOffice.org 的 XYDiagram。当然,也可以远比此复杂,可以包括很多输入变量。实际上,所有回归模型均符合同一个通用模式。多个自变量综合在一起可以生成一个结果 一个因变量。然后用回归模型根据给定的这些自变量的值预测一个未知的因变量的结果。每个人都可能使用过或看到过回归模型,甚至曾在头脑里创立过一个回归模型。人们能立即想到的一个例子就是给房子定价。房子的价格因变量是很多自变量 房子的面积、占地的大小、厨房是否有花岗石以及卫生间是否刚重装过等的结果。所以,不管是购置过一个房子还是销售过一个房子,您都可能会创立一个回归模型来为房子定价。这个

7、模型建立在邻近地区的其他有可比性的房子的售价的根底上模型,然后再把您自己房子的值放入此模型来产生一个预期价格。让我们继续以这个房屋定价的回归模型为例,创立一些真实的数据。在我的邻近地区有一些房子出售,我试图找到我自己房子的合理价格。我还需要拿此模型的输出申报财产税。表 1. 回归模型的房屋值房子面积平方英尺占地的大小卧室花岗岩卫生间重装?销售价格352991916$205,00032471006151$224,900403210150$197,9002397141564$189,900220096001$195,000353619994$325,00029839365$230,00031989

8、669?好的消息是也可能是坏消息,取决于您自己的看法上述对回归模型的简单介绍只触及了一些皮毛,这种触及甚至都不会被真正地注意到。关于回归模型有大学的课程可以选择,那会教授给您有关回归模型的更多信息,甚至多过您想要知道的。但我们的简介让您充分熟悉了这个概念,已足够应付本文中 WEKA 试用。如果对回归模型以及其中的数据统计的细节有更深的兴趣,您可以用自己喜爱的搜索引擎搜索如下的术语:least squares、homoscedasticity、normal distribution、White tests、Lilliefors tests、R-squared 和 p-values。为 WEKA

9、构建数据集为了将数据加载到 WEKA,我们必须将数据放入一个我们能够理解的格式。WEKA 建议的加载数据的格式是 Attribute-Relation File Format (ARFF),您可以在其中定义所加载数据的类型,然后再提供数据本身。在这个文件,我们定义了每列以及每列所含容。对于回归模型,只能有NUMERIC或DATE列。最后,以逗号分割的格式提供每行数据。我们为 WEKA 使用的 ARFF 文件如下所示。请注意在数据行,并未包含我的房子。因为我们在创立模型,我房子的价格还不知道,所以我们还不能输入我的房子。清单 1. WEKA 文件格式RELATION houseATTRIBUTE

10、 houseSize NUMERICATTRIBUTE lotSize NUMERICATTRIBUTE bedrooms NUMERICATTRIBUTE granite NUMERICATTRIBUTE bathroom NUMERICATTRIBUTE sellingPrice NUMERICDATA3529,9191,6,0,0,205000 3247,10061,5,1,1,224900 4032,10150,5,0,1,197900 2397,14156,4,1,0,189900 2200,9600,4,0,1,195000 3536,19994,6,1,1,325000 2983

11、,9365,5,0,1,230000将数据载入 WEKA数据创立完成后,就可以开场创立我们的回归模型了。启动 WEKA,然后选择Explorer。将会出现 Explorer 屏幕,其中Preprocess选项卡被选中。选择Open File按钮并选择在上一节中创立的 ARFF 文件。在选择了文件后,WEKA Explorer 应该类似于图 3 中所示的这个屏幕快照。图 3. 房屋数据加载后的 WEKA在这个视图中,WEKA 允许您查阅正在处理的数据。在 Explorer 窗口的左边,给出了您数据的所有列Attributes以及所提供的数据行的数量Instances。假设选择一列,Explore

12、r 窗口的右侧就会显示数据集该列数据的信息。比方,通过选择左侧的houseSize列它应该默认选中,屏幕右侧就会变成显示有关该列的统计信息。它显示了数据集此列的最大值为 4,032 平方英尺,最小值为 2,200 平方英尺。平均大小为 3,131 平方英尺,标准偏差为 655 平方英尺标准偏差是一个描述差异的统计量度。此外,还有一种可视的手段来查看数据,单击Visualize All按钮即可。由于在这个数据集的行数有限,因此可视化的功能显得没有有更多数据点比方,有数百个时那么功能强大。好了,对数据的介绍已经够多了。让我们立即创立一个模型来获得我房子的价格。用 WEKA 创立一个回归模型为了创立

13、这个模型,单击Classify选项卡。第一个步骤是选择我们想要创立的这个模型,以便 WEKA 知道该如何处理数据以及如何创立一个适当的模型:1.单击Choose按钮,然后扩展functions分支。2.选择LinearRegression叶。这会告诉 WEKA 我们想要构建一个回归模型。除此之外,还有很多其他的选择,这说明可以创立的的模型有很多。非常多!这也从另一个方面说明本文只介绍了这个主题的皮毛。有一点值得注意。在同一个分支还有另外一个选项,称为SimpleLinearRegression。请不要选择该选项,因为简单回归只能有一个变量,而我们有六个变量。选择了正确的模型后,WEKA Explorer 应该类似于图 4。图 4. WEKA 的线性回归模型我能用电子数据表到达同样的目的么?简单而言:不可以。深思熟虑后的答案是:可以。大多数流行的电子数据表程序都不能轻松完成我们用 WEKA 实现的功能,

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1