ImageVerifierCode 换一换
格式:DOC , 页数:4 ,大小:215.50KB ,
资源ID:14575340      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/14575340.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于划分方法的聚类分析Word文档格式.doc)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

基于划分方法的聚类分析Word文档格式.doc

1、(4)学会并应用划分方法中K均值和K中心点算法对数据集进行聚类分析。二、实验准备:Bank-data三、实验要求:用划分方法中K均值和K中心点算法对数据集进行聚类分析四、实验内容:4.1相关知识聚类分析中的“类”(cluster)和前面分类的“类”(class)是不同的,对cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说,这个距离通常指欧氏距离。聚类分析中使用最常见的K均值(K-means)算法。K均值聚类方法的步骤如下。 (1)K均值算

2、法首先随机的指定K个簇中心。(2)将每个实例分配到距它最近的簇中心,得到K个簇;(3)计分别计算各簇中所有实例的均值,把它们作为各簇新的簇中心。重复(2)和(3),直到K个簇中心的位置都固定,簇的分配也固定。上述K均值算法只能处理数值型的属性,遇到分类型的属性时要把它变为若干个取值0和1的属性。WEKA将自动实施这个分类型到数值型的变换,而且Weka会自动对数值型的数据作标准化。Weka中列出了很多聚类算法。对于EM实现,用户可指定需要产生多少聚类,否则所用的算法可通过交叉验证来决定,在这种情况下,折的数量固定为10(除非训练实例小于10个)。用户可指定循环次数的最大值,并且为正常的密度计算设

3、定可允许的最小标准差。SimpleKMeans使用k均值来聚类数据;聚类的数量通过一个参数设定。Cobweb实现了用于名词属性的Cobweb算法和用于数值性属性的Classit算法。FarthestFirst实现Hochbaum和Shmoys远端优先遍历算法。MakeDensityBaseCluster是一个元聚类器,它包装一个聚类算法,使其返回一个概率分布和密度。它为每个聚类拟合一个离散分布,或一个对称的正态分布。4.2实验操作(1)在开始程序(或者桌面图标)中找到WEKA3.6.2,单击即可启动WEKA,启动WEKA时会发现首先出现的一个命令提示符。接着将出现如下Weka GUI Choo

4、ser界面。(2)选择GUI Chooser中的探索者(Explorer)用户界面。点击预处理(Preprocess)功能按钮的,Open file,选择其中的“bank-data”数据作关联规则的分析。打开“bank-data.csv”,可以看到“Current relation”、“Attributes”“Selected attribute”三个区域。(3)对于原始数据“bank-data.csv”的预处,删去属性“id”,保存为ARFF格式后,修改属性“children”为分类型。这样得到的数据文件为“bank.arff”,含600条实例。(4)用“Explorer”打开刚才得到的“b

5、ank.arff”,并切换到“Cluster”选项卡。点击“Choose” 在随后打开的层级式菜单中的选择“SimpleKMeans”,这是WEKA中实现K均值的算法。点击旁边的文本框,修改“numClusters”为6,说明我们希望把这600条实例聚成6类,即K=6。下面的“seed”参数是要设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给出的K个簇中心的位置,先设定为10。(7)选中“Cluster Mode”的“Use training set”,点击“Start”按钮,观察右边“Clusterer output”给出的聚类结果。也可以在左下角“Result list”

6、中这次产生的结果上点右键,“View in separate window”在新窗口中浏览结果。(8)实验结果:结果中有这么一行字样:Within cluster sum of squared errors: 1604.7416683433223这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。 “seed”参数的变化,导致得到的这个数值也发生变化。通过多尝试变化seed值,并取使得数值最小的seed值。接下来“Cluster centroids:”之后列出了各个簇中心的位置。对于数值型的属性,簇中心就是它的均值(Mean);分类型的就是它的众数(Mode), 也就是说这个属性上取

7、值为众数值的实例最多。对于数值型的属性,还给出了它在各个簇里的标准差(Std Devs)。 最后的“Clustered Instances”是各个簇中实例的数目及百分比。为了观察可视化的聚类结果,在左下方“Result list”列出的结果上右击,点“Visualize cluster assignments”。弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标,第二行的“color”是散点图着色的依据,默认是根据不同的簇“Cluster”给实例标上不同的颜色。可以在这里点“Save”把聚类结果保存成ARFF文件。在这个新的ARFF文件中,“instance_number”属性表示某实例的编号,“Cluster”属性表示聚类算法给出的该实例所在的簇。4.3扩展学习(1)选择其他数据集来对其进行k-means聚类分析,并对其聚类结果进行分析研究。(2)通过对其参数的修正完善加深理解k-means聚类分析算法。五、实验总结 本次weka的运行实验进行的很顺利,通过它我学习了聚类分析的基本概念、各种数据类型、聚类方法的分类。掌握了典型划分方法K均值和K中心点算法的基本原理、特点、优缺点。学会并应用划分方法中K均值和K中心点算法对数据进行聚类分析。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1