北航数理统计大作业2聚类与判别分析讲解.docx

资源描述

北航数理统计大作业2聚类与判别分析讲解.docx

《北航数理统计大作业2聚类与判别分析讲解.docx》由会员分享，可在线阅读，更多相关《北航数理统计大作业2聚类与判别分析讲解.docx（25页珍藏版）》请在冰豆网上搜索。

北航数理统计大作业2聚类与判别分析讲解.docx

北航数理统计大作业2聚类与判别分析讲解

应用数理统计作业二

学号：

姓名：

电话：

二〇一四年十二月

对NBA球队的聚类分析和判别分析

摘要：

NBA联盟作为篮球的最高殿堂深受广大球迷的喜爱，联盟的30支球队大家也耳熟能详，本文选取NBA联盟30支球队2013-2014常规赛赛季场均数据。

利用spss软件通过聚类分析对27个地区进行实力类型分类，并利用判断分析对其余3支球队对分类结果进行验证。

可以看出各球队实力类型与赛季实际结果相吻合。

关键词：

聚类分析，判别分析，NBA

1.引言

1896年，美国第一个篮球组织"全国篮球联盟（简称NBL）"成立，但当时篮球规则还不完善，组织机构也不健全，经过几个赛季后，该组织就名存实亡了。

1946年4月6日，由美国波士顿花园老板沃尔特.阿.布朗发起成立了“美国篮球协会”（简称BAA）。

1949年在布朗的努力下，美国两大篮球组织BAA和NBL合并为“全国篮球协会”（简称NBA）。

NBA季前赛是NBA各支队伍的热身赛，因为在每个赛季结束后，每支球队在阵容上都有相当大的变化，为了让各队磨合阵容，熟悉各自球队的打法，确定各队新赛季的比赛阵容、同时也能增进队员、教练员之间的沟通，所以在每个赛季开始之前，NBA就举办若干场季前赛，使他们能以比较好的状态投入到漫长的常规赛的比赛当中。

为了扩大NBA在全球的影响，季前赛有约三分之一的球队在美国以外的国家举办。

从总体上看，NBA的赛程安排分为常规赛、季后赛和总决赛。

常规赛采用主客场制，季后赛和总决赛采用七场四胜制的淘汰制。

[31]

NBA常规赛从每年的11月的第一个星期二开罗，到次年的4月20日左右结束。

在这期间，30支球队总共要进行1189场常规赛，每支球队要打满82场比赛，主客场各占一半。

季后赛从4月下旬开始进行，直到6月中旬决出总冠军为止。

NBA分为东西两个联盟，每个联盟各有三个赛区。

在常规赛中每支球队与同一赛区的球队要打四场，与同一联盟不同赛区的球队打三到四场，与另一联盟的球队打两场。

一个赛季每支球队在自己的主场至少与其它29支球队进行一次交锋。

常规赛的赛程比较紧凑，球队在每个星期有三到四场比赛，而且每个赛季都有不同程度的“背靠背作赛”、连续客场作赛等难度赛程。

在常规赛中，有两个日子的比赛是NBA联盟经过精心安排的，那就是第一天的揭幕战和圣诞节的圣诞大战。

在这两个特殊的日子里，联盟往往会刻意安排最具人气的球星之间进行对垒，以最大限度地吸引观众的眼球。

NBA全明星赛是一项表演性的赛事，最初提出这个创意是的当时的NBA总部公关部负责人哈斯克·科恩的，而创意则源自于全美职业棒球联赛全明星赛，目的自然是为了进一步宣传NBA。

1951年波士顿成为了首届赛事的举办城市，当时的全明星赛只有全明星对抗赛一项活动。

第一届扣篮大赛始于1984年丹佛全明星赛。

1986年达拉斯全明星赛，三分远投大赛产生。

1994年明尼亚波利斯全明星赛，新秀挑战赛首次加入。

技巧挑战赛开始于2003年。

2004年全明星赛有了混合投篮赛。

NBA季后赛（NBAPlayoffs）在每年4月下旬开始，东西部各有八支球队获得季后赛资格。

东西两个联盟中各个赛区的冠军加上成绩最好的赛区的第二名组成前四号种子，这四支球队再按照常规赛的成绩依次排为一到四号种子。

剩余四支球队则按成绩依次排为五到八号种子。

季后赛采用七场四胜制，采用2-2-1-1-1的主场分配方法，拥有四个主场的一方将会在第一、二、五（如果需要）、七（如果需要）场比赛坐镇主场，第三、四、六（如果需要）场则是征战客场。

对阵双方的主场优势并非均衡。

季后赛包括总决赛一共有四轮，第二轮叫分区半决赛，第三轮叫分区决赛，获胜球队称为分区冠军，东西部分区冠军晋级总决赛，七局四胜者为当赛季总冠军，总冠军球队中表现最优秀的球员获得总决赛MVP荣誉。

2、相关统计基础理论

2.1、聚类分析

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。

聚类分析的目标就是在相似的基础上收集数据来分类。

从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。

传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。

采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。

本文使用统计软件SPSS对所收集的数据进行快速聚类，其特点是：

在确定类别数量基础上，先给定一个粗糙的初始分类，然后按照某种原则进行反复修改，直至分类较为合理。

在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多，本文使用的是K-Means算法。

K-Means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：

同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。

聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。

K-Means算法的工作过程说明如下：

首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。

一般都采用均方差作为标准测度函数。

一般而言，k个聚类具有以下特点：

各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

2.2，判别分析

判别分析是市场研究的重要分析技术，也是多变量分析技术。

它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息，确定分类变量与其它多元变量之间的数量关系，建立判别函数，并利用判别函数构建Biplot二元判别图（概念图）。

同时，利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。

判别分析属于监督类分析方法，例如：

市场细分研究中，常涉及判别个体所属类型的问题，也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念，判别分析可以很好地对这种差异进行鉴别。

并在低维度空间表现这种差异。

判别分析主要有距离判别、贝叶斯（Bayes）判别、费舍尔（Fisher）判别等几种常用方法。

距离判别的基本原理是：

首先对样本到总体G之间的距离进行合理规定，然后依照“就近”原则判定样本的归属，常用马氏距离（Mahalanobis）规定为：

式中

为p元总体G的协方差阵，x是取自G的样品，则该式即为样品x到总体G的马氏距离。

贝叶斯判别既考虑了先验分布产生的影响，也考虑到误判损失产生的影响，是衡量一个判别优劣的比较合理的准则。

费舍尔判别的基本思想与主成分分析十分相似，当总体是高维向量时，先把其综合成一个一维变量，然后在对一维变量进行距离判别，费舍尔判别实际上是一种降维处理，降维压缩后，样品y到各个总体

的距离可以用欧式距离度量，即：

由此导出Fisher判别规则为：

，则

本文及使用Fisher判别建立线性判别函数进行距离判别。

即对某球队的分组Fisher函数值，哪组函数值最大，则球队归为哪一组。

3.聚类分析

本文选取了NBA联盟30支球队2013-2014常规赛赛季场均数据来研究联盟实力分布规律，由于是对个案进行聚类，所以采用K-均值聚类，根据实际情况，先将27支球队实力类型划分为3类。

3.1数据文件

表0

变量

水平

投篮

三分

篮板

助攻

抢断

得分

将从www.stat-（NBA中文数据库）中收集到的数据输入到数据文件中，如下表所示。

表1

球队

投篮

三分

篮板

助攻

抢断

得分

亚特兰大老鹰

45.80%

36.30%

24.9

8.3

101

布鲁克林篮网

45.90%

36.90%

38.1

20.9

8.6

98.5

波士顿凯尔特人

43.50%

33.20%

42.5

7.1

96.2

夏洛特山猫

44.20%

35.10%

42.7

21.7

6.1

96.9

芝加哥公牛

43.20%

34.80%

44.2

22.7

7.2

93.7

克里夫兰骑士

43.70%

35.70%

44.1

21.2

7.1

98.2

达拉斯小牛

47.40%

38.40%

40.9

23.6

8.6

104.8

丹佛掘金

44.70%

35.80%

45.4

22.4

7.5

104.4

底特律活塞

44.70%

32.10%

45.4

20.9

8.4

101

金州勇士

46.20%

38.00%

45.3

23.3

7.8

104.3

休斯顿火箭

47.20%

35.70%

45.3

21.4

7.6

107.7

印第安纳步行者

44.90%

35.70%

44.7

20.1

6.7

96.7

洛杉矶快船

47.40%

35.20%

24.6

8.6

107.9

洛杉矶湖人

45.00%

38.10%

24.5

7.5

103

孟菲斯灰熊

46.40%

35.30%

42.4

21.9

7.7

96.1

迈阿密热火

50.10%

36.40%

36.9

22.5

8.9

102.2

密尔沃基雄鹿

43.80%

35.30%

41.1

21.5

6.6

95.5

明尼苏达森林狼

44.40%

34.10%

44.7

8.8

106.9

新奥尔良鹈鹕

45.90%

37.30%

41.7

21.3

7.9

99.7

纽约尼克斯

44.90%

37.20%

40.3

7.7

98.6

俄克拉荷马雷霆

47.10%

36.10%

44.7

21.9

8.3

106.2

奥兰多魔术

44.50%

35.30%

7.7

96.5

费城76人

43.50%

31.20%

42.7

21.8

9.3

99.5

菲尼克斯太阳

46.30%

37.20%

19.1

8.4

105.2

波特兰开拓者

45.00%

37.20%

46.5

23.2

5.6

106.7

萨克拉门托国王

44.70%

33.30%

44.5

18.9

7.2

100.5

圣安东尼奥马刺

48.60%

39.70%

43.3

25.2

7.4

105.4

多伦多猛龙

44.50%

37.20%

42.5

21.2

101.3

犹他爵士

44.40%

34.40%

41.2

20.3

华盛顿奇才

45.90%

37.90%

42.2

23.3

8.1

100.7

3.2聚类分析过程

采用统计软件SPSS可以快速方便的将样本分类，“K-均值聚类”将样本分为设定好的三类，分类结果如下：

表2

初始聚类中心

聚类

投篮

45.000%

50.100%

43.200%

三分

37.200%

36.400%

34.800%

篮板

助攻

23.2

22.5

22.7

抢断

5.6

8.9

7.2

得分

107

102

表3

迭代历史记录a

迭代

聚类中心内的更改

3.521

4.233

4.414

.333

.667

.000

.682

.382

.000

a.由于聚类中心内没有改动或改动较小而达到收敛。

任何中心的最大绝对坐标更改为.000。

当前迭代为4。

初始中心间的最小距离为12.265。

表4

聚类成员

案例号

球队

聚类

距离

亚特兰大老鹰

2.764

布鲁克林篮网

2.985

波士顿凯尔特人

1.953

夏洛特山猫

1.78

芝加哥公牛

4.239

克里夫兰骑士

1.955

达拉斯小牛

4.13

丹佛掘金

2.836

底特律活塞

4.877

金州勇士

2.396

休斯顿火箭

2.855

印第安纳步行者

2.522

洛杉矶快船

3.481

洛杉矶湖人

3.977

孟菲斯灰熊

2.927

迈阿密热火

5.121

密尔沃基雄鹿

3.201

明尼苏达森林狼

3.794

新奥尔良鹈鹕

2.479

纽约尼克斯

3.411

俄克拉荷马雷霆

1.515

奥兰多魔术

1.908

费城76人

4.38

菲尼克斯太阳

4.094

波特兰开拓者

3.644

萨克拉门托国王

4.198

圣安东尼奥马刺

4.499

表5

每个聚类中的案例数

聚类

10.000

6.000

11.000

有效

27.000

缺失

.000

表6

最终聚类中心

聚类

投篮

46.430%

46.267%

44.282%

三分

36.740%

37.033%

34.273%

篮板

助攻

22.9

22.3

21.2

抢断

7.9

8.2

7.4

得分

106

101

表7

最终聚类中心间的距离

聚类

7.128

9.421

7.128

6.062

9.421

6.062

表8

ANOVA

聚类

误差

Sig.

均方

投篮

14.245

1.823

7.814

.002

三分

21.810

2.162

10.086

.001

篮板

40.757

2.447

16.658

.000

助攻

8.042

2.418

3.326

.053

抢断

1.316

.722

1.823

.183

得分

195.984

3.455

56.730

.000

F检验应仅用于描述性目的，因为选中的聚类将被用来最大化不同聚类中的案例间的差别。

观测到的显著性水平并未据此进行更正，因此无法将其解释为是对聚类均值相等这一假设的检验。

3.3聚类结果分析

表9

聚类成员

案例号

球队

聚类

距离

达拉斯小牛

4.13

丹佛掘金

2.836

金州勇士

2.396

休斯顿火箭

2.855

洛杉矶快船

3.481

明尼苏达森林狼

3.794

俄克拉荷马雷霆

1.515

菲尼克斯太阳

4.094

波特兰开拓者

3.644

圣安东尼奥马刺

4.499

亚特兰大老鹰

2.764

布鲁克林篮网

2.985

洛杉矶湖人

3.977

迈阿密热火

5.121

新奥尔良鹈鹕

2.479

纽约尼克斯

3.411

波士顿凯尔特人

1.953

夏洛特山猫

1.78

芝加哥公牛

4.239

克里夫兰骑士

1.955

底特律活塞

4.877

印第安纳步行者

2.522

孟菲斯灰熊

2.927

密尔沃基雄鹿

3.201

奥兰多魔术

1.908

费城76人

4.38

萨克拉门托国王

4.198

案例号27圣安东尼奥马刺队分在了第一类，实际上13-14赛季马刺队获得了NBA总冠军，案例号21俄克拉荷马雷霆也分在了第一类，该队球员凯文·杜兰特荣获14年MVP。

4、判别分析

4.1判别分析过程

一般来讲，利用判别分析首先要明确变量测量尺度及变量的类型和关系；因变量（dependentvariable）：

分组变量——定性数据（个体、产品/品牌、特征，定类变量）。

自变量（independentvariable）：

判别变量——定量数据（属性的评价得分，数量型变量）。

a、打开“Analyze”主菜单中的“Classify”，选择“DiscriminantAnalysis”选项，进入主对话框。

b、在“GroupingVariable”中输入变量名“类别”。

变量名后的小括号内输入1和3作为分组标量取值的上下界。

c、在“Independents”中输入工业、建筑业、运输业、批发零售业、住宿餐饮业、金融业、房地产业、其他服务业。

d、选择“Enterindependenstogether”方法进行分析。

e、“Statistics”按钮中选择选择所有的复选框。

f、“Classify”按钮中选择所有的复选框。

各项确认后，点击运行。

（1）统计量

表10

组统计量

案例的类别号

均值

标准差

有效的N（列表状态）

未加权的

已加权的

投篮

46.43000

1.368738

10.000

三分

36.74000

1.674780

10.000

篮板

44.21000

1.640765

10.000

助攻

22.87000

1.765754

10.000

抢断

7.86000

.941866

10.000

得分

105.95000

1.320984

10.000

投篮

46.26667

1.931493

6.000

三分

37.03333

.662319

6.000

篮板

39.66667

1.818424

6.000

助攻

22.35000

1.993740

6.000

抢断

8.15000

.543139

6.000

得分

100.50000

1.878297

6.000

投篮

44.28182

.907544

11.000

三分

34.27273

1.564027

11.000

篮板

43.30000

1.340149

11.000

助攻

21.15455

1.004354

11.000

抢断

7.37273

.886669

11.000

得分

97.34545

2.226371

11.000

合计

投篮

45.51852

1.666880

27.000

三分

35.80000

1.916728

27.000

篮板

42.82963

2.322435

27.000

助攻

22.05556

1.688270

27.000

抢断

7.72593

.876002

27.000

得分

101.23333

4.273712

27.000

表11

组均值的均等性的检验

Wilks的Lambda

df1

df2

Sig.

投篮

.606

7.814

.002

三分

.543

10.086

.001

篮板

.419

16.658

.000

助攻

.783

3.326

.053

抢断

.868

1.823

.183

得分

.175

56.730

.000

（2）协方差矩阵的均等性的箱式检验

表12

对数行列式

案例的类别号

秩

对数行列式

.407

-.213

汇聚的组内

2.288

打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。

a.秩<6

b.案例太少无法形成非奇异矩阵

（3）典型判别式函数摘要

表13

特征值

函数

特征值

方差的%

累积%

正则相关性

11.514a

87.7

.959

1.612a

12.3

100.0

.786

a.分析中使用了前2个典型判别式函数。

该表中各项为前两个判别函数的特征值、占总方差的百分数、累加百分数和正规相关系数。

从表中我们看到，因为分组变量是三类，所以我们得到两个判别函数，其中第一判别函数解释了数据的87.7%，第二判别函数解释了12.3%；两个判别函数解释了100%；当然，两个判别函数直接具有显著的差异和判别力。

表14

Wilks的Lambda

函数检验

Wilks的Lambda

卡方

Sig.

1到2

.031

74.968

.000

.383

20.642

.001

该表中各项为Wilk值、卡方值、自由度和显著性概率。

当显著性概率小于0.05时，拒绝原假设，认为组间均值不相等。

表中卡方值对应的ｐ<0.001,表示整个判别模型有意义。

表15

标准化的典型判别式函数系数

函数

投篮

-.440

.461

三分

1.232

-.316

篮板

-.072

1.124

助攻

-.038

.100

抢断

.522

-.029

得分

1.216

-.136

典型判别式函数系数

函数

投篮

-.326

.342

三分

.838

-.215

篮板

-.046

.718

助攻

-.024

.064

抢断

.614

-.035

得分

.654

-.073

（常量）

-83.630

-32.382

非标准化系数

非标准化典型判别方程为：

表16

组质心处的函数

案例的类别号

函数

3.575

.804

.709

-2.224

-3.637

.482

在组均值处评估的非标准化典型判别式函数

（4）分类统计量

图1

从图中可以看到三个组中心也就是实力水平，以及围绕着组中心的样本，但是不太集中，这是因为篮球比赛具有很大的偶然性，明星球员的伤痛不能出场对球队的实力有很大的影

展开阅读全文