数据分析课程设计论文Word格式.docx

资源描述

数据分析课程设计论文Word格式.docx

《数据分析课程设计论文Word格式.docx》由会员分享，可在线阅读，更多相关《数据分析课程设计论文Word格式.docx（19页珍藏版）》请在冰豆网上搜索。

数据分析课程设计论文Word格式.docx

在生物分类学中，分类的单位是：

门、纲、目、科、属、种。

其中种是分类的基本单位，分类单位越小，它所包含的生物就越少，生物之间的共同特征就越多。

利用这种思想，谱系聚类首先将各样品自成一类，然后把最相似（距离最近或相似系数最大）的样品聚为小类，再将已聚合的小类按各类之间的相似性（用类间距离度量）进行再聚合，随着相似性的减弱，最后将一切子类都聚为一大类，从而得到一个按相似性大小聚结起来的一个谱系图。

2.3.2选择距离（参考文献[1]p209页）

在使用系统聚类法进行聚类的过程中，尤其是Q型聚类是建立在样品之间距离矩阵的基础上的，通常需要对原始数据进行参考点的建立和去量纲化的处理，然后求出样品距离矩阵D，我们采用比较广泛的闵可夫斯基（Minkowski）距离：

当p=2时

即为欧几里得CEuclidean）距离。

然后进行类的搜索、合并于距离矩阵的更新涉及类间距离的计算，需要事先计算类与类之间的距离。

依据类问距离不同的计算方法，我们可以把系统聚类法分为最短距离法、最长距离法、重心法、离差平方和法（ward）等。

设Gp,Gq为前一轮操作中形成的某两个聚类，在本轮操作中归聚为新类

Gr=Gp

Gq则新类Gr与前一轮操作中形成吨，Gq之外的任意一类G，的距离递推公式如下：

最短距离法

其中l

p,q.

最长距离法

中间距离法

中心距离法

其中，

和

分别为

包含的聚类对象个数，

Ward法

注意，Ward法要求初始距离矩阵采用欧式距离公式计算各个对象的距离。

2.4得到闵可夫斯基（Minkowski）距离谱系聚类法函数（见附录A.1）

（1）pdist创建聚类对象的Minkowski距离矩阵。

（2）squarform拉直矩阵D。

（3）linkage用D或其拉直矩阵创建信息矩阵G，默认的类间距离为最短距离法。

（4）dendrogram创建G的谱系聚类图。

（5）cluster创建G的指定个数类。

2.5画谱系聚类图（见图2.1）

图2.1Iris花瓣数据谱系聚类图

2.6得出分类

由图2.1得出Iris花瓣数据截断处可选择d=1,d=0.8,d=0.666对应的分类个数为2,3,5类。

2.7cluster创建G的指定个数类。

（matlab程序见A.3）

2.7.1分3类图（见图2.2）

图2.2谱系聚类分析分为三类图

2.8结论

由图2.2将数据谱系聚类分析分为三类图可知，将数据分为3类不太恰当，应该两类或者5类更合适，不过也有可能是我们选择的距离有问题。

下面K-means我们将更改距离。

4k-均值聚类

3.1K-Means算法思想

1967年Macqueen提出了K-means算法[4]，基本思想是把数据集中的数据点随机生成k组，把每组的均值作为中心点。

重新计算每个数据点与各组的中心点的相似性，根据数据点相似性的度量准则，把每个数据点重新分组，计算每组新的均值作为中心点。

不断重复上述过程，直到中心点的均值收敛，停止迭代过程。

K-means算法是一种比较快速的聚类方法，时间复杂度为O（nkt），其中n是数据点的数目，k是分组数目，t是迭代次数。

K-means算法也存在不足，最大问题要指定分组数目并且在运行过程中容易导致局部最优。

3.1.1K-均值算法

K-均值算法是一种已知聚类个数的“无监督学习”算法。

首先指定表示聚类个数的K值，然后对数据集聚类，算法结束时用K个聚类中心表示聚类结果。

对于设定的目标准则函数，通过向目标准则函数值减小的方向进行迭代更新，目标准则函数值达到极小值时算法结束，得到较优的聚类结果。

设数据集为

，

K个距离中心为V1,V2,..,Vk。

令

表示K个聚类的类别，则：

（1）

定义目标准则函数为：

（2）

其中|Ci|表示Ci类包含样本的个数，使用欧式距离

（3）

度量样本间的相似性。

欧式距离适用于类内数据对象符合超球形分布的情况，目标准则函数SSE表示为每个数据对象到相应聚类中心距离的平方和，即聚类均方误差的最小值。

3.1.2K-均值算法的流程如下：

（1）随机选取K个初始聚类中心V1,V2,...,Vk；

（2）按照最小距离原则，对数据集聚类，确定每个样本的类属关系；

（3）使用公式

（1）更新K个簇的中心；

（4）重复执行

（2）到（4），直到目标准则函数收敛或聚类中心稳定。

显然，初始聚类中心对K-均值算法产生很大的影响，簇集中易存在平均误差较大的簇，聚类结果仅能收敛到局部最优。

即使选取不同的初始聚类中心执行多次K-均值算法，也只是在庞大的初值空间里进行简单的搜索，聚类结果很难达到全局最优。

当数据集中存在较多噪音或孤立点时，已有的初始聚类中心优化方法很难发现合适的初始聚类中心。

3.2复合相关系数的计算（计算过程见附录A.4）

分别记最短、最长、类平均、重心、离差平方和距离为G1、G2、G3、G4、G5，相对应的复合相关系数分别记为R1、R2、R3、R4、R5，以欧式距离为样本间距离计算得到表3-1

表3-1复合相关系数

0.8639

0.7276

0.8768

0.8770

0.8728

由表2可知以重心距离进行聚类分析效果应该最为理想

3.3聚类结果（见图3.1）

以重心距离为类间距离进行谱系聚类分析得到（matlab程序参考附录A.1-4）

图3.1谱系聚类图

3.4谱系聚类结果（见图3.2）

图3.2谱系聚类结果

3.4K-Means聚类结果（见图3.3）

图3.3K-Means聚类结果

3.5分析结果

由图3.2结果可得第1类有36个样本，第2类有64个样本，第3类有50个样本，由图3.3可知第1类有62个样本，第2类有49个样本，第3类有39个样本两种方法基本得到的结论基本一致，不过都不太理想。

这可能是数据量太小了的原因。

大数据时代，需要大量的数据。

参考文献

[1]包研科.数据分析教程.北京：

清华大学出版社，2011

[2]曾繁慧.数值分析.徐州：

中国矿业大学出版社，2009

[3]袁方，周志勇，宋鑫．初始聚类中心优化的K-means算发[J].计算机工程，2007,33（3）：

65-66

[4]MacQueen,James."

Somemethodsforclassificationandanalysisofmultivariateobservations."

ProceedingsofthefifthBerkeleysymposiumonmathematicalstatisticsandprobability.Vol.1.No.281-297.1967．

[5]余立强．LAMP架构搭建与网站运行实例［J］．网络与信息，2011（8）：

50－52

[6]吴夙慧，成颖，郑彦宁，潘云涛.K-means算法研究综述[J].现代图书情报技术,2011,（5）：

28-35.

附录

A.1谱系聚类法函数

functionf=test4（）

loadhuaban.mat

D=pdist（X,'

minkowski'

）;

G=linkage（D）;

dendrogram（G）;

T=cluster（G,3）

A.2自编k-means聚类分析xwKmeans.m函数

function[cid,nr,centers]=xwKmeans（x,k,nc）

%[CID,NR,CENTERS]=CSKMEANS（X,K,NC）PerformsK-means

%X输入聚合数据

%K通过观察得到的经验分组数据

%每行一个观测，NC为聚类指数，来源于初始的聚类中心值，默认情况下为随机的观测

%输出:

IDX为最终分类

%nr为每个每个聚合的中心值

%CENTERSisamatrix,whereeachrow

%correspondstoaclustercenter.

[n,d]=size（x）;

ifnargin<

ind=ceil（n*rand（1,k））;

nc=x（ind,:

）+randn（k,d）;

end

cid=zeros（1,n）;

oldcid=ones（1,n）;

nr=zeros（1,k）;

maxiter=100;

iter=1;

while~isequal（cid,oldcid）&

iter<

maxiter

fori=1:

dist=sum（（repmat（x（i,:

）,k,1）-nc）.^2,2）;

[m,ind]=min（dist）;

cid（i）=ind;

end

ind=find（cid==i）;

nc（i,:

）=mean（x（ind,:

））;

nr（i）=length（ind）;

iter=iter+1;

maxiter=2;

move=1;

whileiter<

maxiter&

move~=0

move=0;

%找到与所有聚合的距离

r=cid（i）;

dadj=nr./（nr+1）.*dist'

;

[m,ind]=min（dadj）;

%最小的就是聚合的分类

ifind~=r

ic=find（cid==ind）;

nc（ind,:

）=mean（x（ic,:

move=1;

end

iter=iter+1;

centers=nc;

ifmove==0

disp（'

初始化聚类后没有点移动'

）

else

初始化后开始进行聚合分类'

cid=cid'

A.3k-means聚类分析分类图matlab的main.m函数

functionf=main（X,k）

[n,d]=size（X）;

bn=round（n/k*rand）;

%第一个随机数在前1/K的范围内

%；

表示按列显示，都好表示按行显示

%初始聚类中心

%X（bn,:

）选择某一行数据作为聚类中心，其列值为全部

%X数据源，k聚类数目，nc表示k个初始化聚类中心

%cid表示每个数据属于哪一类，nr表示每一类的个数，centers表示聚类中心

[cid,nr,centers]=xwKmeans（X,k）

fori=1:

150

ifcid（i）==1

plot（X（i,1）,X（i,2）,'

r*'

）%显示第一类

holdon

else

ifcid（i）==2,

b*'

）%显示第二类

plot（X（i,2）,'

holdon

ifcid（i）==3,

plot（X（i,1）,X（i,2）,'

g*'

）%显示第三类

%plot（X（i,2）,'

ifcid（i）==4,

k*'

）%显示第四类

%plot（X（i,2）,'

end

text（7.5,3.5,'

第一类'

text（5,4,'

第二类'

text（5.5,2.5,'

第三类'

text（-1,-1,'

第四类'

A.4相关系数matllab指令

d=pdist（x）;

G1=linkage（d）;

G2=linkage（d,’complete’）;

G3=linkage（d,’centroid’）;

G4=linkage（d,’average’）;

G5=linkage（d,’ward’）;

R1=cophenet（G1,d）;

R2=cophenet（G2,d）;

R3=cophenet（G3,d）;

R4=cophenet（G4,d）;

R5=cophenet（G5,d）;

B.1:

R.A.Fisher在1936年发表的Iris数据

表B.1Iris数据

样本号

萼片长

萼片宽

花瓣长

花瓣宽

种类

5.1

3.5

1.4

0.2

牵牛

4.9

4.7

3.2

1.3

4.6

3.1

1.5

3.6

5.4

3.9

1.7

0.4

3.4

0.3

4.4

2.9

0.1

3.7

4.8

1.6

4.3

1.1

5.8

1.2

5.7

3.8

3.3

0.5

1.9

5.2

4.1

5.5

4.2

4.5

2.3

0.6

5.3

杂色

6.4

6.9

6.5

2.8

6.3

2.4

6.6

2.7

5.9

2.2

6.1

5.6

6.7

6.2

2.5

1.8

6.8

2.6

100

101

锦葵

102

103

7.1

2.1

104

105

106

7.6

107

108

7.3

109

110

7.2

111

112

113

114

115

展开阅读全文