数据分析课程设计论文Word格式.docx

上传人:b****3 文档编号:18516437 上传时间:2022-12-18 格式:DOCX 页数:19 大小:116.10KB
下载 相关 举报
数据分析课程设计论文Word格式.docx_第1页
第1页 / 共19页
数据分析课程设计论文Word格式.docx_第2页
第2页 / 共19页
数据分析课程设计论文Word格式.docx_第3页
第3页 / 共19页
数据分析课程设计论文Word格式.docx_第4页
第4页 / 共19页
数据分析课程设计论文Word格式.docx_第5页
第5页 / 共19页
点击查看更多>>
下载资源
资源描述

数据分析课程设计论文Word格式.docx

《数据分析课程设计论文Word格式.docx》由会员分享,可在线阅读,更多相关《数据分析课程设计论文Word格式.docx(19页珍藏版)》请在冰豆网上搜索。

数据分析课程设计论文Word格式.docx

在生物分类学中,分类的单位是:

门、纲、目、科、属、种。

其中种是分类的基本单位,分类单位越小,它所包含的生物就越少,生物之间的共同特征就越多。

利用这种思想,谱系聚类首先将各样品自成一类,然后把最相似(距离最近或相似系数最大)的样品聚为小类,再将已聚合的小类按各类之间的相似性(用类间距离度量)进行再聚合,随着相似性的减弱,最后将一切子类都聚为一大类,从而得到一个按相似性大小聚结起来的一个谱系图。

2.3.2选择距离(参考文献[1]p209页)

在使用系统聚类法进行聚类的过程中,尤其是Q型聚类是建立在样品之间距离矩阵的基础上的,通常需要对原始数据进行参考点的建立和去量纲化的处理,然后求出样品距离矩阵D,我们采用比较广泛的闵可夫斯基(Minkowski)距离:

当p=2时

即为欧几里得CEuclidean)距离。

然后进行类的搜索、合并于距离矩阵的更新涉及类间距离的计算,需要事先计算类与类之间的距离。

依据类问距离不同的计算方法,我们可以把系统聚类法分为最短距离法、最长距离法、重心法、离差平方和法(ward)等。

设Gp,Gq为前一轮操作中形成的某两个聚类,在本轮操作中归聚为新类

Gr=Gp

Gq则新类Gr与前一轮操作中形成吨,Gq之外的任意一类G,的距离递推公式如下:

最短距离法

其中l

p,q.

最长距离法

中间距离法

-

.

中心距离法

其中,

分别为

包含的聚类对象个数,

=

+

.

Ward法

注意,Ward法要求初始距离矩阵采用欧式距离公式计算各个对象的距离。

2.4得到闵可夫斯基(Minkowski)距离谱系聚类法函数(见附录A.1)

(1)pdist创建聚类对象的Minkowski距离矩阵。

(2)squarform拉直矩阵D。

(3)linkage用D或其拉直矩阵创建信息矩阵G,默认的类间距离为最短距离法。

(4)dendrogram创建G的谱系聚类图。

(5)cluster创建G的指定个数类。

2.5画谱系聚类图(见图2.1)

图2.1Iris花瓣数据谱系聚类图

2.6得出分类

由图2.1得出Iris花瓣数据截断处可选择d=1,d=0.8,d=0.666对应的分类个数为2,3,5类。

2.7cluster创建G的指定个数类。

(matlab程序见A.3)

2.7.1分3类图(见图2.2)

图2.2谱系聚类分析分为三类图

2.8结论

由图2.2将数据谱系聚类分析分为三类图可知,将数据分为3类不太恰当,应该两类或者5类更合适,不过也有可能是我们选择的距离有问题。

下面K-means我们将更改距离。

4k-均值聚类

3.1K-Means算法思想

1967年Macqueen提出了K-means算法[4],基本思想是把数据集中的数据点随机生成k组,把每组的均值作为中心点。

重新计算每个数据点与各组的中心点的相似性,根据数据点相似性的度量准则,把每个数据点重新分组,计算每组新的均值作为中心点。

不断重复上述过程,直到中心点的均值收敛,停止迭代过程。

K-means算法是一种比较快速的聚类方法,时间复杂度为O(nkt),其中n是数据点的数目,k是分组数目,t是迭代次数。

K-means算法也存在不足,最大问题要指定分组数目并且在运行过程中容易导致局部最优。

3.1.1K-均值算法

K-均值算法是一种已知聚类个数的“无监督学习”算法。

首先指定表示聚类个数的K值,然后对数据集聚类,算法结束时用K个聚类中心表示聚类结果。

对于设定的目标准则函数,通过向目标准则函数值减小的方向进行迭代更新,目标准则函数值达到极小值时算法结束,得到较优的聚类结果。

设数据集为

K个距离中心为V1,V2,..,Vk。

表示K个聚类的类别,则:

(1)

定义目标准则函数为:

(2)

其中|Ci|表示Ci类包含样本的个数,使用欧式距离

(3)

度量样本间的相似性。

欧式距离适用于类内数据对象符合超球形分布的情况,目标准则函数SSE表示为每个数据对象到相应聚类中心距离的平方和,即聚类均方误差的最小值。

3.1.2K-均值算法的流程如下:

(1)随机选取K个初始聚类中心V1,V2,...,Vk;

(2)按照最小距离原则,对数据集聚类,确定每个样本的类属关系;

(3)使用公式

(1)更新K个簇的中心;

(4)重复执行

(2)到(4),直到目标准则函数收敛或聚类中心稳定。

显然,初始聚类中心对K-均值算法产生很大的影响,簇集中易存在平均误差较大的簇,聚类结果仅能收敛到局部最优。

即使选取不同的初始聚类中心执行多次K-均值算法,也只是在庞大的初值空间里进行简单的搜索,聚类结果很难达到全局最优。

当数据集中存在较多噪音或孤立点时,已有的初始聚类中心优化方法很难发现合适的初始聚类中心。

3.2复合相关系数的计算(计算过程见附录A.4)

分别记最短、最长、类平均、重心、离差平方和距离为G1、G2、G3、G4、G5,相对应的复合相关系数分别记为R1、R2、R3、R4、R5,以欧式距离为样本间距离计算得到表3-1

表3-1复合相关系数

R1

R2

R3

R4

R5

0.8639

0.7276

0.8768

0.8770

0.8728

由表2可知以重心距离进行聚类分析效果应该最为理想

3.3聚类结果(见图3.1)

以重心距离为类间距离进行谱系聚类分析得到(matlab程序参考附录A.1-4)

图3.1谱系聚类图

3.4谱系聚类结果(见图3.2)

图3.2谱系聚类结果

3.4K-Means聚类结果(见图3.3)

图3.3K-Means聚类结果

3.5分析结果

由图3.2结果可得第1类有36个样本,第2类有64个样本,第3类有50个样本,由图3.3可知第1类有62个样本,第2类有49个样本,第3类有39个样本两种方法基本得到的结论基本一致,不过都不太理想。

这可能是数据量太小了的原因。

大数据时代,需要大量的数据。

参考文献

[1]包研科.数据分析教程.北京:

清华大学出版社,2011

[2]曾繁慧.数值分析.徐州:

中国矿业大学出版社,2009

[3]袁方,周志勇,宋鑫.初始聚类中心优化的K-means算发[J].计算机工程,2007,33(3):

65-66

[4]MacQueen,James."

Somemethodsforclassificationandanalysisofmultivariateobservations."

ProceedingsofthefifthBerkeleysymposiumonmathematicalstatisticsandprobability.Vol.1.No.281-297.1967.

[5]余立强.LAMP架构搭建与网站运行实例[J].网络与信息,2011(8):

50-52

[6]吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011,(5):

28-35.

附录

A.1谱系聚类法函数

functionf=test4()

loadhuaban.mat

D=pdist(X,'

minkowski'

);

G=linkage(D);

dendrogram(G);

T=cluster(G,3)

A.2自编k-means聚类分析xwKmeans.m函数

function[cid,nr,centers]=xwKmeans(x,k,nc)

%[CID,NR,CENTERS]=CSKMEANS(X,K,NC)PerformsK-means

%X输入聚合数据

%K通过观察得到的经验分组数据

%每行一个观测,NC为聚类指数,来源于初始的聚类中心值,默认情况下为随机的观测

%输出:

IDX为最终分类

%nr为每个每个聚合的中心值

%CENTERSisamatrix,whereeachrow

%correspondstoaclustercenter.

[n,d]=size(x);

ifnargin<

3

ind=ceil(n*rand(1,k));

nc=x(ind,:

)+randn(k,d);

end

cid=zeros(1,n);

oldcid=ones(1,n);

nr=zeros(1,k);

maxiter=100;

iter=1;

while~isequal(cid,oldcid)&

iter<

maxiter

fori=1:

n

dist=sum((repmat(x(i,:

),k,1)-nc).^2,2);

[m,ind]=min(dist);

cid(i)=ind;

end

k

ind=find(cid==i);

nc(i,:

)=mean(x(ind,:

));

nr(i)=length(ind);

iter=iter+1;

maxiter=2;

move=1;

whileiter<

maxiter&

move~=0

move=0;

%找到与所有聚合的距离

r=cid(i);

dadj=nr./(nr+1).*dist'

;

[m,ind]=min(dadj);

%最小的就是聚合的分类

ifind~=r

ic=find(cid==ind);

nc(ind,:

)=mean(x(ic,:

move=1;

end

iter=iter+1;

centers=nc;

ifmove==0

disp('

初始化聚类后没有点移动'

else

初始化后开始进行聚合分类'

cid=cid'

A.3k-means聚类分析分类图matlab的main.m函数

functionf=main(X,k)

[n,d]=size(X);

bn=round(n/k*rand);

%第一个随机数在前1/K的范围内

%;

表示按列显示,都好表示按行显示

%初始聚类中心

%X(bn,:

)选择某一行数据作为聚类中心,其列值为全部

%X数据源,k聚类数目,nc表示k个初始化聚类中心

%cid表示每个数据属于哪一类,nr表示每一类的个数,centers表示聚类中心

[cid,nr,centers]=xwKmeans(X,k)

fori=1:

150

ifcid(i)==1

plot(X(i,1),X(i,2),'

r*'

)%显示第一类

holdon

else

ifcid(i)==2,

b*'

)%显示第二类

plot(X(i,2),'

holdon

ifcid(i)==3,

plot(X(i,1),X(i,2),'

g*'

)%显示第三类

%plot(X(i,2),'

ifcid(i)==4,

k*'

)%显示第四类

%plot(X(i,2),'

end

text(7.5,3.5,'

第一类'

text(5,4,'

第二类'

text(5.5,2.5,'

第三类'

text(-1,-1,'

第四类'

A.4相关系数matllab指令

d=pdist(x);

G1=linkage(d);

G2=linkage(d,’complete’);

G3=linkage(d,’centroid’);

G4=linkage(d,’average’);

G5=linkage(d,’ward’);

R1=cophenet(G1,d);

R2=cophenet(G2,d);

R3=cophenet(G3,d);

R4=cophenet(G4,d);

R5=cophenet(G5,d);

B.1:

R.A.Fisher在1936年发表的Iris数据

表B.1Iris数据

样本号

萼片长

萼片宽

花瓣长

花瓣宽

种类

1

5.1

3.5

1.4

0.2

牵牛

2

4.9

3

4.7

3.2

1.3

4

4.6

3.1

1.5

5

3.6

6

5.4

3.9

1.7

0.4

7

3.4

0.3

8

9

4.4

2.9

10

0.1

11

3.7

12

4.8

1.6

13

14

4.3

1.1

15

5.8

1.2

16

5.7

17

18

19

3.8

20

21

22

23

24

3.3

0.5

25

1.9

26

27

28

5.2

29

30

31

32

33

4.1

34

5.5

4.2

35

36

37

38

39

40

41

42

4.5

2.3

43

44

0.6

45

46

47

48

49

5.3

50

51

杂色

52

6.4

53

6.9

54

55

6.5

2.8

56

57

6.3

58

2.4

59

6.6

60

2.7

61

62

5.9

63

2.2

64

6.1

65

5.6

66

6.7

67

68

69

6.2

70

2.5

71

1.8

72

73

74

75

76

77

6.8

78

79

80

2.6

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

锦葵

102

103

7.1

2.1

104

105

106

7.6

107

108

7.3

109

110

7.2

111

112

113

114

115

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 设计艺术

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1