北航数理统计大作业2聚类与判别分析Word格式文档下载.docx

上传人:b****5 文档编号:19855015 上传时间:2023-01-11 格式:DOCX 页数:24 大小:126.26KB
下载 相关 举报
北航数理统计大作业2聚类与判别分析Word格式文档下载.docx_第1页
第1页 / 共24页
北航数理统计大作业2聚类与判别分析Word格式文档下载.docx_第2页
第2页 / 共24页
北航数理统计大作业2聚类与判别分析Word格式文档下载.docx_第3页
第3页 / 共24页
北航数理统计大作业2聚类与判别分析Word格式文档下载.docx_第4页
第4页 / 共24页
北航数理统计大作业2聚类与判别分析Word格式文档下载.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

北航数理统计大作业2聚类与判别分析Word格式文档下载.docx

《北航数理统计大作业2聚类与判别分析Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《北航数理统计大作业2聚类与判别分析Word格式文档下载.docx(24页珍藏版)》请在冰豆网上搜索。

北航数理统计大作业2聚类与判别分析Word格式文档下载.docx

剩余四支球队则按成绩依次排为五到八号种子。

季后赛采用七场四胜制,采用2-2-1-1-1的主场分配方法,拥有四个主场的一方将会在第一、二、五(如果需要)、七(如果需要)场比赛坐镇主场,第三、四、六(如果需要)场则是征战客场。

对阵双方的主场优势并非均衡。

季后赛包括总决赛一共有四轮,第二轮叫分区半决赛,第三轮叫分区决赛,获胜球队称为分区冠军,东西部分区冠军晋级总决赛,七局四胜者为当赛季总冠军,总冠军球队中表现最优秀的球员获得总决赛MVP荣誉。

2、相关统计基础理论

2.1、聚类分析

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。

聚类分析的目标就是在相似的基础上收集数据来分类。

从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。

传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。

采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。

本文使用统计软件SPSS对所收集的数据进行快速聚类,其特点是:

在确定类别数量基础上,先给定一个粗糙的初始分类,然后按照某种原则进行反复修改,直至分类较为合理。

在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是K-Means算法。

K-Means算法接受输入量k;

然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:

同一聚类中的对象相似度较高;

而不同聚类中的对象相似度较小。

聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

K-Means算法的工作过程说明如下:

首先从n个数据对象任意选择k个对象作为初始聚类中心;

而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;

然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);

不断重复这一过程直到标准测度函数开始收敛为止。

一般都采用均方差作为标准测度函数。

一般而言,k个聚类具有以下特点:

各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

2.2,判别分析

判别分析是市场研究的重要分析技术,也是多变量分析技术。

它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建Biplot二元判别图(概念图)。

同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。

判别分析属于监督类分析方法,例如:

市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。

并在低维度空间表现这种差异。

判别分析主要有距离判别、贝叶斯(Bayes)判别、费舍尔(Fisher)判别等几种常用方法。

距离判别的基本原理是:

首先对样本到总体G之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:

式中

为p元总体G的协方差阵,x是取自G的样品,则该式即为样品x到总体G的马氏距离。

贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。

费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y到各个总体

的距离可以用欧式距离度量,即:

由此导出Fisher判别规则为:

,则

本文及使用Fisher判别建立线性判别函数进行距离判别。

即对某球队的分组Fisher函数值,哪组函数值最大,则球队归为哪一组。

3.聚类分析

本文选取了NBA联盟30支球队2013-2014常规赛赛季场均数据来研究联盟实力分布规律,由于是对个案进行聚类,所以采用K-均值聚类,根据实际情况,先将27支球队实力类型划分为3类。

3.1数据文件

表0

变量

水平

x1

投篮

x2

三分

x3

篮板

x4

助攻

x5

抢断

x6

得分

将从www.stat-(NBA中文数据库)中收集到的数据输入到数据文件中,如下表所示。

表1

球队

亚特兰大老鹰

45.80%

36.30%

40

24.9

8.3

101

布鲁克林篮网

45.90%

36.90%

38.1

20.9

8.6

98.5

波士顿凯尔特人

43.50%

33.20%

42.5

21

7.1

96.2

夏洛特山猫

44.20%

35.10%

42.7

21.7

6.1

96.9

芝加哥公牛

43.20%

34.80%

44.2

22.7

7.2

93.7

克里夫兰骑士

43.70%

35.70%

44.1

21.2

98.2

达拉斯小牛

47.40%

38.40%

40.9

23.6

104.8

丹佛掘金

44.70%

35.80%

45.4

22.4

7.5

104.4

底特律活塞

32.10%

8.4

金州勇士

46.20%

38.00%

45.3

23.3

7.8

104.3

休斯顿火箭

47.20%

21.4

7.6

107.7

印第安纳步行者

44.90%

44.7

20.1

6.7

96.7

洛杉矶快船

35.20%

43

24.6

107.9

洛杉矶湖人

45.00%

38.10%

41

24.5

103

孟菲斯灰熊

46.40%

35.30%

42.4

21.9

7.7

96.1

迈阿密热火

50.10%

36.40%

36.9

22.5

8.9

102.2

密尔沃基雄鹿

43.80%

41.1

21.5

6.6

95.5

明尼苏达森林狼

44.40%

34.10%

24

8.8

106.9

新奥尔良鹈鹕

37.30%

41.7

21.3

7.9

99.7

纽约尼克斯

37.20%

40.3

20

98.6

俄克拉荷马雷霆

47.10%

36.10%

106.2

奥兰多魔术

44.50%

42

96.5

费城76人

31.20%

21.8

9.3

99.5

菲尼克斯太阳

46.30%

19.1

105.2

波特兰开拓者

46.5

23.2

5.6

106.7

萨克拉门托国王

33.30%

44.5

18.9

100.5

圣安东尼奥马刺

48.60%

39.70%

43.3

25.2

7.4

105.4

多伦多猛龙

7

101.3

犹他爵士

34.40%

41.2

20.3

95

华盛顿奇才

37.90%

42.2

8.1

100.7

3.2聚类分析过程

采用统计软件SPSS可以快速方便的将样本分类,“K-均值聚类”将样本分为设定好的三类,分类结果如下:

表2

初始聚类中心

聚类

1

2

3

45.000%

50.100%

43.200%

37.200%

36.400%

34.800%

47

37

44

107

102

94

表3

迭代历史记录a

迭代

聚类中心内的更改

3.521

4.233

4.414

.333

.667

.000

.682

.382

4

a.由于聚类中心内没有改动或改动较小而达到收敛。

任何中心的最大绝对坐标更改为.000。

当前迭代为4。

初始中心间的最小距离为12.265。

表4

聚类成员

案例号

距离

2.764

2.985

1.953

1.78

5

4.239

6

1.955

4.13

8

2.836

9

4.877

10

2.396

11

2.855

12

2.522

13

3.481

14

3.977

15

2.927

16

5.121

17

3.201

18

3.794

19

2.479

3.411

1.515

22

1.908

23

4.38

4.094

25

3.644

26

4.198

27

4.499

表5

每个聚类中的案例数

10.000

6.000

11.000

有效

27.000

缺失

表6

最终聚类中心

46.430%

46.267%

44.282%

36.740%

37.033%

34.273%

22.9

22.3

8.2

106

97

表7

最终聚类中心间的距离

7.128

9.421

6.062

表8

ANOVA

误差

F

Sig.

均方

df

14.245

1.823

7.814

.002

21.810

2.162

10.086

.001

40.757

2.447

16.658

8.042

2.418

3.326

.053

1.316

.722

.183

195.984

3.455

56.730

F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。

观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。

3.3聚类结果分析

表9

案例号27圣安东尼奥马刺队分在了第一类,实际上13-14赛季马刺队获得了NBA总冠军,案例号21俄克拉荷马雷霆也分在了第一类,该队球员凯文·

杜兰特荣获14年MVP。

4、判别分析

4.1判别分析过程

一般来讲,利用判别分析首先要明确变量测量尺度及变量的类型和关系;

因变量(dependentvariable):

分组变量——定性数据(个体、产品/品牌、特征,定类变量)。

自变量(independentvariable):

判别变量——定量数据(属性的评价得分,数量型变量)。

a、打开“Analyze”主菜单中的“Classify”,选择“DiscriminantAnalysis”选项,进入主对话框。

b、在“GroupingVariable”中输入变量名“类别”。

变量名后的小括号内输入1和3作为分组标量取值的上下界。

c、在“Independents”中输入工业、建筑业、运输业、批发零售业、住宿餐饮业、金融业、房地产业、其他服务业。

d、选择“Enterindependenstogether”方法进行分析。

e、“Statistics”按钮中选择选择所有的复选框。

f、“Classify”按钮中选择所有的复选框。

各项确认后,点击运行。

(1)统计量

表10

组统计量

案例的类别号

均值

标准差

有效的N(列表状态)

未加权的

已加权的

46.43000

1.368738

36.74000

1.674780

44.21000

1.640765

22.87000

1.765754

7.86000

.941866

105.95000

1.320984

46.26667

1.931493

37.03333

.662319

39.66667

1.818424

22.35000

1.993740

8.15000

.543139

100.50000

1.878297

44.28182

.907544

34.27273

1.564027

43.30000

1.340149

21.15455

1.004354

7.37273

.886669

97.34545

2.226371

合计

45.51852

1.666880

35.80000

1.916728

42.82963

2.322435

22.05556

1.688270

7.72593

.876002

101.23333

4.273712

表11

组均值的均等性的检验

Wilks的Lambda

df1

df2

.606

.543

.419

.783

.868

.175

(2)协方差矩阵的均等性的箱式检验

表12

对数行列式

.407

.a

.b

-.213

汇聚的组内

2.288

打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。

a.秩<

6

b.案例太少无法形成非奇异矩阵

(3)典型判别式函数摘要

表13

特征值

函数

方差的%

累积%

正则相关性

11.514a

87.7

.959

1.612a

12.3

100.0

.786

a.分析中使用了前2个典型判别式函数。

该表中各项为前两个判别函数的特征值、占总方差的百分数、累加百分数和正规相关系数。

从表中我们看到,因为分组变量是三类,所以我们得到两个判别函数,其中第一判别函数解释了数据的87.7%,第二判别函数解释了12.3%;

两个判别函数解释了100%;

当然,两个判别函数直接具有显著的差异和判别力。

表14

函数检验

卡方

1到2

.031

74.968

.383

20.642

该表中各项为Wilk值、卡方值、自由度和显著性概率。

当显著性概率小于0.05时,拒绝原假设,认为组间均值不相等。

表中卡方值对应的p<

0.001,表示整个判别模型有意义。

表15

标准化的典型判别式函数系数

-.440

.461

1.232

-.316

-.072

1.124

-.038

.100

.522

-.029

1.216

-.136

典型判别式函数系数

-.326

.342

.838

-.215

-.046

.718

-.024

.064

.614

-.035

.654

-.073

(常量)

-83.630

-32.382

非标准化系数

非标准化典型判别方程为:

表16

组质心处的函数

3.57

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 起诉状

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1