基于聚类K-Means算法的分析与应用研究_精品文档.pdf
《基于聚类K-Means算法的分析与应用研究_精品文档.pdf》由会员分享,可在线阅读,更多相关《基于聚类K-Means算法的分析与应用研究_精品文档.pdf(67页珍藏版)》请在冰豆网上搜索。
![基于聚类K-Means算法的分析与应用研究_精品文档.pdf](https://file1.bdocx.com/fileroot1/2022-10/14/4d188f55-f921-412b-a932-14bbd825ac73/4d188f55-f921-412b-a932-14bbd825ac731.gif)
硕士学位论文基于聚类K_Means算法的分析与应用研究作者:
石云平指导老师:
辛大欣副教授申请学位学科:
计算机应用技术西安工业大学20064基于聚类卜啪ans算法的分析与应用研究学科:
计算机应用技术研究生躲乏i夺指导老师签名:
荡以彩,摘要数据挖掘(DataMining),又称为数据库中的知识发现(简称KDD),是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。
它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。
聚类分析是数据挖掘中的一个重要研究领域。
它将数据对象分组成为若干个类或簇,使得在同一个簇中的对象比较相似,而不同簇中的对象差别很大。
Kmeans算法是一种基于划分的聚类算法,它把N个对象划分成K个类,其中聚类数目K是输入参数。
该算法是通过不断地迭代来进行聚类,当算法收敛到一个结束条件时,就终止迭代过程,输出一个聚类结果。
但是由于Kmeans算法在选择初始聚类中心时是随机选取K个点,因此一旦这K个点选取不合理将会误导聚类过程,得到一个不合理的聚类结果。
论文在分析聚类结果对初值依赖性的基础上,对初值选取方法进行了分析和研究,并提出了一种有效的改进方法,通过试验证明了改进算法的有效性。
同时对该算法中对于计算聚类簇中心对孤立点敏感性这一问题也提出了改进措施,理论和实验都证明了改进方法的有效性。
本论文的另一个重要目的是将数据挖掘中的聚类技术应用到对学生成绩的分析中,根据学生的学习成绩对学生进行聚类同时分析影响每一簇成员学习成绩的主要因素。
在此应用中对数据的预处理采用统计学中的标准分技术,该技术解决了在利用原始分进行分析学生学习情况时的弊端,即只根据学生学习成绩的高低来衡量一个学生的学习好坏,而没有考虑到因试题的难易程度等原因而造成的成绩结果。
关键词:
数据挖掘;划分方法;聚类;KmeansAnalysisandApplicationBasedonmeClusteringK-meallsAlgoritllIIlDiscipline:
ComputerApplicationTechn0109yStudentSignature5ksuper。
is。
rsignature:
X江M1D弘voABSTRCTDataMining,alsocalledasknowledgediscoVeryofdatabases(KDD),isaprocessingprocedureofextractingcredible,novel,effectiveandunderstandableDatternsfromdatabasesAsarisingcrossoversubject,datamininginvolVesanintegrationoftechniquesfrommultipledisciplinessuchasmachine1earning,patternrecognition,databasetechnology,statisticsandartificialintelligenceC1usteringanalysisisanimportanttechnologyindatamining,whichgroupsthedataintoclassesorclusterssothatobjectswithinaclusterhavehighsimilarityinco叩arisontooneanother,butareVerydissimilartoobjectsinotherclustersKMeansisapartitioningalgorithmthatconstructsapartitionofadatabaseofNobjectsintoasetofKclusterswhereKisaninputparameterClusteringuseaninterativeprocedureifthisalgorithmconvergestooneofnumerouslocalminima,thenitterminatesandoutputsresultS0itisobviousthatoutputsareespeciallysensitivetoinitialstartingconditionforrandomselectionsaboutKinitialstartingpoints,whichwillleadtobads01utions,sothequalityofclusterrelysontheinitialpoints0nthebasisofanalysingtheclusteringresult1hichrelysonthestartingvalue,thepaperstudythewayofthestartingValueselection,propOseaneffectiveiprovementmethod,andithasproventheimprovementalgorithmvaliditythroughtheexperimentMeanwhi1ethepaperalsoproposeanimprovementmeasureinregardingthecomputationoftheclusteringcenterwhichissensitivetotheis01atedpointsThetheoryandtheexperimenthasa11proventheimprovementmethodvalidityAnotherimportantgoalofthepaperisapplyingakindofdataminingclusteringtechn0109ytothestudentscoreItalsoclustertostudentaccordingtostudentsacademicrecordandanalysethepriaryfactorwhichaffecttheacademicrecordofeveryclusteringmemberThepaperusesastandardminutetechn0109yinstatisticsinthisapplicationtothedatapretreatmentThistechnologyhassolVedthemalpracticecarriedonwhenweuseprimitiveminutetoanalysethestudentstudiedsituation,namelyonlyweighedastudentsstudyqualityaccordingtothestudentaeademicrecordheight,buthasnotconsideredtheresultbecauseofthedifficultydegreeofthetestpaperI(eyWords:
datamining;partitioningmethod;clustering;Kmeans;l。
1引言1绪论近几十年来,人们利用信息技术生产和搜集数据的能力以惊人的速度在增长,千千万万的数据库被用于商业管理、学校、政府办公、科学研究及工程开发等等。
与此同时随着各个机构内部局域网的建立和互连网的飞速发展,人们已被铺天盖地的信息所淹没,于是新的挑战被提出来了,这就迫切要求能够对海量数据进行更高层次的分析,而目前的数据库系统虽然可以进行如查询、录入、统计等功能,但无法发现数据中存在的关系和规则。
同样,传统的统计技术也面临着极大的挑战,这就急需有新的方法来处理这些海量般的数据。
于是,人们结合统