数据挖掘聚类算法课程设计报告文档格式.docx
《数据挖掘聚类算法课程设计报告文档格式.docx》由会员分享,可在线阅读,更多相关《数据挖掘聚类算法课程设计报告文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
2.为数据集中的每个数据对象设置一个长度为68字符串数组,初始元素值全为0。
将数据对象的分布区域逐个与str中的所有元素比较。
如果存在于str中下标i的位置,就将该数据对象的字符串数组的第i位置为1。
例如,一个数据对象为:
abiesfraseri,ga,nc,tn,va。
其分布区域包含ga,nc,tn和va四个地区,将这四个地区逐个与str中全部68个元素比较。
假设这四个地区分别存在于str中的第0,1,2,3位置,则将为该数据对象设置的字符串数组中第0,1,2,3位置全部置为1。
★数据预处理代码(包括数据清理和数据变换):
publicArrayList<
String>
getRaw_DataSet(){
ArrayList<
raw_dataSet=newArrayList<
();
//定义集合存储从本地获取的数据
BufferedReaderbufferedReader=null;
FileReaderfileReader=null;
FiledataFile=newFile(this.fileName);
if(dataFile.exists()){//如果数据文件存在
try{
fileReader=newFileReader(this.fileName);
bufferedReader=newBufferedReader(fileReader);
Stringdata=null;
while((data=bufferedReader.readLine())!
=null){
if(isRightData(data))
raw_dataSet.add(data);
}
}catch(Exceptione){
e.printStackTrace();
}
}else
this.isFileExit=false;
returnraw_dataSet;
}//getRaw_DataSet,从本地txt文件获取数据集
publicArrayList<
DataItem>
getFinished_DataSet(){//获取经过预处理,用来进行聚类的数据
finished_DataSet=newArrayList<
temp_DataSet=this.getRaw_DataSet();
for(inti=0;
i<
temp_DataSet.size();
i++){
ArrayList<
eachRomItem=null;
eachRomItem=this.spilt(temp_DataSet.get(i),'
'
);
//除去"
"
后的每一行数据
DataItemdata_Item=newDataItem(eachRomItem,true);
finished_DataSet.add(data_Item);
}//for
returnfinished_DataSet;
}
publicbooleanisRightData(Stringdata){//筛选出合适的数据
tempArrayList=newArrayList<
tempArrayList=spilt(data,'
'
if(tempArrayList.size()<
=1)
returnfalse;
returntrue;
}//isRightData,筛选出合适的数据
spilt(Stringstr,charch){
ArrayList<
words=newArrayList<
//用来存放找到的单词
intbeginIndex=0;
str.length();
if(str.charAt(i)!
=ch){
if(i!
=str.length()-1)
continue;
else{
words.add(str.substring(beginIndex));
}else{
Stringtemp=str.substring(beginIndex,i);
words.add(temp);
beginIndex=i+1;
returnwords;
3.聚类分析
3.1算法描述
本实验采用了聚类分析中常用的K均值(K-Means)算法。
该算法思想如下:
算法:
K均值。
用于划分的K均值算法,每个簇的中心用簇中对象的均值表示。
输入:
■k:
簇的属目
■D:
包含n个对象的数据集。
输出:
k个簇的集合。
方法:
(1)从D中任意选择k个对象作为初始簇中心;
(2)repeat
(3)根据簇中对象的均值,将每个对象(再)指派到最相似的簇;
(4)更新簇均值,既计算每个簇中对象的均值;
(5)until不再发生变化
根据上述算法,结合本实验实际情况和数据集特征给出程序的执行流程图:
是
图2程序执行流程
针对上面的流程图,有几点说明:
1.数据预处理主要包括前述数据清理和数据变换,最终生成用于聚类分析的数据集。
2.簇的个数k由用户指定,k越大聚类过程耗时越久。
3.图中“最相似”意思就是距离中心点距离最近,本实验中采用欧几里得距离,其定义如下:
其中
和
是两个n维数据对象。
在本实验中,
分别代表为i,j两个数据对象设置的字符串数组(参看2.2)中下标为1的元素值,此处n为68。
4.流程图中的终止条件指的是:
前后两次中心点之间的距离(仍然用欧几里得距离)是否小于设定的值。
例如,第n次迭代完成后重新生成了k个新的中心点,计算k个新中心点与k个旧的中心点距离之和并将结果与设定的值比较,若小于设定值则终止迭代,聚类完成,否则继续迭代。
3.2算法实现
图3代码文件的组织结构
上图是本实验源码的组织结构,该项目包含五个Java类。
每个类的功能描述如下:
◆Cluster.java类该类定义了簇的结构,包含簇标志,簇成员和簇中心点三个字段。
该类的每一个实例对应于聚类过程中的一个簇。
◆DataItem.java类该类定义了数据对象的结构,主要包含数据对象名称(即植物名称)和数据对象字符串数组(即植物的分布区域)。
该类的每一个实例对应于数据集中的一个数据对象。
◆Main.java类该类是程序的核心类,主要功能是执行聚类过程,包括中心点的选取与更新,计算各个数据对象与中心点之间的距离并把其派分到最相似的簇等。
◆ReadData.java类该类主要功能是生成聚类过程适用的数据集,包括读取文件,数据预处理等。
◆Tools.java类该类是一个工具类,其中定义了多个程序中使用到的静态方法。
★Mian.java类中的核心代码:
(1)随机选取中心点
publicvoidsetCenter_ran(){//第一次,从数据集中随机选取中心点
beginTime=System.currentTimeMillis();
System.out.println("
聚类过程开始,开始于:
"
+Tools.currentTime());
Randomran=newRandom();
intorder=0;
//随机选取中心点
while(this.center.size()<
numOfCluster){
order=ran.nextInt(toBeProcessed.size());
if(Tools.isProCener(toBeProcessed.get(order),this.center))
this.center.add(toBeProcessed.get(order));
}//while
(2)初始化簇集合
publicvoidinitArrayCluster(ArrayList<
center){//初始每个簇中的中心点属性
this.arrayCluster.clear();
//把簇集合清空
center.size();
Clustercluster=newCluster(i,center.get(i));
if(this.center.get(i).getIsDataItem())
cluster.addMembers(center.get(i));
this.arrayCluster.add(cluster);
}
(3)执行聚类过程(计算距离,把数据对象派分到最相似簇中)
publicvoidrunCluster(ArrayList<
center){
intbeyondIndex=0;
//判断数据项属于哪一个簇,初始默认为是0簇
Randomrd=newRandom();
//随机函数
printBeginInfo();
//打印以此迭代开始前的信息。
toBeProcessed.size();
beyondIndex=0;
booleanisAlreadyExitInCluster=true;
//标记当前处理的数据对象是否已经存在于某个簇中
doubleminDistance=Tools.calcDistance(toBeProcessed.get(i),
center.get(0),0);
intranIndex=rd.nextInt(center.size());
//随机产生一个中心点集合的索引
for(intj=0;
j<
j++){//分别与每一个中心点进行比较
if(center.contains(toBeProcessed.get(i)))//如果正在处理的数据对象存在于中心点集合中,则跳出循环
break;
isAlreadyExitInCluster=false;
if(ranIndex>
=center.size())
ranIndex=ranIndex%center.size();
doublecorrentDistance=Tools.calcDistance(
toBeProcessed.get(i),center.get(ranIndex),0);
if(correntDistance<
minDistance){
minDistance=correntDistance;
beyondIndex=ranIndex;
}//第二个if
ranIndex++;
}//第二个for
if(!
isAlreadyExitInCluster){
this.arrayCluster.get(beyondIndex).addMembers(
toBeProcessed.get(i));
//把数据对象加入到对应的簇中
}//第一个for
第"
+this.count+"
次迭代完成。
printClusteringInfo();
(4)迭代过程(产生新的中心点,继续执行聚类过程直至满足终止条件)
publicvoidfinishCluster(){
DecimalFormatdf=newDecimalFormat("
##.000"
//格式化数据,保留三位小数
NUM;
doublemoveDistance=0.0;
//存放各个簇新旧中心点欧几里得距离之和
//重新计算簇中心点
numOfCluster;
j++){
booleanisEmptyCluster=true;
DataItemnewCenterItem;
//声明新的中心点对象
intsize=this.arrayCluster.get(j).getMembers().size();
double[]newCenterArea=newdouble[NUMOFAREA];
//计算簇中数据的均值
for(intindex=0;
index<
NUMOFAREA;
index++){
doubletempValue=0.0;
//暂存每一列区域值的加和
for(intk=0;
k<
size;
k++){
isEmptyCluster=false;
tempValue+=this.arrayCluster.get(j).getMembers()
.get(k).getAreas()[index];
}
if(!
isEmptyCluster){
newCenterArea[index]=Double.valueOf(df
.format(tempValue/size));
}else
break;
}//第三个for
if(!
isEmptyCluster){//如果簇不为空
Stringname="
cluster"
+j;
newCenterItem=newDataItem(name,newCenterArea,false);
//新的簇中心点对象
DataItemoldCenter=this.center.get(j);
//获取旧的簇中心点
moveDistance+=Tools.calcDistance(oldCenter,
newCenterItem,0);
//计算新旧中心点移动的距离
this.center.remove(j);
//更新簇中心点集合
this.center.add(j,newCenterItem);
}//第二个for,重新计算簇中心
//System.out.println(this.center.toString());
//打印新的中心点信息
if(moveDistance<
EXIT*numOfCluster){
break;
count++;
initArrayCluster(this.center);
runCluster(this.center);
3.3问题与改进
聚类分析要求不同簇之间的距离尽可能大,初始随机选取的中心点并不能保证不同中心点之间的距离尽可能远,本程序对算法进行改进,在随机选取中心点时要求与已经选取的中心点之间的距离大于设定值。
这样做保证了随机选取的中心点相对比较分散,提高了聚类效果。
主要代码如下:
publicstaticbooleanisProCener(DataItemcenterItem,//判断是不是合适的中心点
if(center.size()>
0){//如果当前的中心点集合不为空
for(inti=0;
if(Tools.calcDistance(centerItem,center.get(i),0)<
DIFF)
returnfalse;
if(center.contains(centerItem))
returnfalse;
4.开发与运行环境配置
●操作系统:
Windows7
●开发工具:
Eclipse
●开发语言:
Java
●CPU频率:
2.2GHz
●存:
3.5GB
两种运行方式:
解压源程序,将PlantsClustering工程导入Eclipse即可运行;
直接运行打包生成的exe文件。
两种方式均要求电脑上安装有JDK1.5或更高版本。
5.程序运行情况分析
5.1运行截图
图4指定数据文件并输入聚类簇数
程序运行开始时需要用户指定数据文件的路径,不指定的话默认是D盘根目录下的plants.data.txt文件。
之后需要用户输入聚类产生的簇数,簇数介于1到100之间。
图5迭代过程,输出中心点信息
每次迭代会输出本次迭代的中心点信息。
上图是第一次迭代的部分中心点信息(总共有50个中心点)。
图6第一次迭代后簇的信息图7簇的信息和终止条件的判定
一次迭代完成后会输出本次迭代后各簇的信息并计算新旧中心点的移动距离,与设定的值比较,判定是否继续迭代。
图8把簇的信息保存到本地
满足终止条件,迭代结束,此时会在D:
\DataMining\目录下生成保存各个簇信息的文件,里面是该簇中包含的数据对象。
5.2聚类效果分析
聚类分析要求得到的簇之间相异度尽可能大,簇的数据对象相异度尽可能小。
本程序会在聚类分析完成后会输出各簇的平均距离和簇间平均距离,作为对聚类效果评判的参考。
如下截图:
图9聚类效果
5.3总结
K均值聚类算法的效果与簇数和初始中心点有关。
初始中心点选取应尽可能分散。
簇数越多聚类效果越好,但同时程序运行的时间开销也会加大,平衡二者找到一个合适的k是该算法的一个重点。