统计学论文关于英超球队的分析.docx
《统计学论文关于英超球队的分析.docx》由会员分享,可在线阅读,更多相关《统计学论文关于英超球队的分析.docx(25页珍藏版)》请在冰豆网上搜索。
统计学论文关于英超球队的分析
关于英超球队的分析
摘要:
欧洲足球联赛11/12赛季终于落下帷幕,几家欢喜几家愁。
蓝军切尔西最终捧得欧冠冠军,西甲豪门巴萨被他们斩于马下。
有人说切尔西用钱堆出来的,算不上豪门,也正因为切尔西的崛起,改变了英超传统豪门的格局,曼联,利物浦,阿森纳,传统豪门,而切尔西仿佛更像是一个暴发户,但是不管用如何,需要用数据来说话。
本文先进行聚类分析,选出第一梯队的球队,进行分析,运用主成分分析,因子分析选出对结果影响的主要因素。
再选近五年成绩看看近两年切尔西是否保持着第一集团。
本文数据来自网易的国际足球数据库主要用2011—2012年度,包括20支球队:
曼城,曼联,阿森纳,托特纳姆,切尔西,纽卡斯尔,诺维奇,埃弗顿,布莱克本,富勒姆,利物浦,博尔顿,桑德兰,西布朗,斯旺西,女王公园巡游者,维甘,狼队,阿斯顿维拉,斯托克城。
(见附表一)
关键词:
强队,豪门,分类
正文:
如今处在信息化社会,任何理论都要有数据的支持才能站得住脚,在足球中,进球仿佛成了一支球队是否是强队的有力依据,但不要忘了,射门次数,射正次数,角球,犯规,传球成功率,抢断成功率,黄红牌,控球率。
只有把这些综合考虑进去才会得出最综合的答案。
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
7
8
20887.680
0
0
3
2
6
14
21580.510
0
0
10
3
7
18
33429.030
1
0
10
4
5
11
34171.790
0
0
11
5
12
16
35449.500
0
0
7
6
3
15
51101.850
0
0
8
7
12
19
92441.590
5
0
12
8
1
3
100836.445
0
6
9
9
1
2
174877.907
8
0
15
10
6
7
289694.115
2
3
13
11
4
5
366364.655
0
4
15
12
12
13
395278.347
7
0
14
13
6
17
614152.368
10
0
16
14
9
12
1762278.400
0
12
16
15
1
4
2279144.772
9
11
17
16
6
9
3675296.917
13
14
18
17
1
10
7034957.266
15
0
19
18
6
20
12594604.894
16
0
19
19
1
6
36440659.465
17
18
0
通过上述聚类过程,得出了下面的分类的树状图。
从树状图中我们可以看出分成五类比较好。
群集成员
案例
5群集
1:
曼城
1
2:
曼联
1
3:
阿森纳
1
4:
托特纳姆
1
5:
切尔西
1
6:
纽卡斯尔
2
7:
诺维奇
2
8:
埃弗顿
2
9:
布莱克本
3
10:
富勒姆
4
11:
利物浦
1
12:
博尔顿
3
13:
桑德兰
3
14:
西布朗
2
15:
斯旺西
1
16:
女王公园巡游者
3
17:
维甘
2
18:
狼队
2
19:
阿斯顿维拉
3
20:
斯托克城
5
从图片中看出
类别
球队
球队数量
第一类
曼城,曼联,阿森纳,托特纳姆,切尔西,利物浦,斯旺西
7
第二类
纽卡斯尔,诺维奇,埃佛顿,西布朗,维甘,狼队
6
第三类
布莱克本,博尔顿,桑德兰,女王公园巡游者,阿斯顿维拉
5
第四类
富勒姆
1
第五类
斯托克城
1
从分类结果显示出强队中除了曼联,利物浦和阿森纳。
也有了曼城,托特纳姆热刺,斯旺西以及切尔西的的加入,使得英超比西甲多了观赏性。
西甲的防守过于孱弱,不堪一击,两大豪门皇家马德里和巴塞罗那过于强大,联赛缺乏竞争力。
也许这正是近些年英超球迷越来越多的原因吧。
ANOVA
平方和
df
均方
F
显著性
进球
组间
3209.978
4
802.494
6.933
.002
组内
1736.222
15
115.748
总数
4946.200
19
半场
组间
541.700
4
135.425
7.373
.002
组内
275.500
15
18.367
总数
817.200
19
失球
组间
2355.978
4
588.994
5.233
.008
组内
1688.222
15
112.548
总数
4044.200
19
射门
组间
169061.394
4
42265.349
38.536
.000
组内
16451.556
15
1096.770
总数
185512.950
19
射正
组间
31622.161
4
7905.540
47.087
.000
组内
2518.389
15
167.893
总数
34140.550
19
角球
组间
31207.300
4
7801.825
19.884
.000
组内
5885.500
15
392.367
总数
37092.800
19
犯规
组间
12631.494
4
3157.874
2.673
.073
组内
17721.056
15
1181.404
总数
30352.550
19
传球
组间
1.734E8
4
4.335E7
35.812
.000
组内
1.816E7
15
1210564.470
总数
1.916E8
19
传球成功率
组间
458.943
4
114.736
17.789
.000
组内
96.749
15
6.450
总数
555.692
19
抢断
组间
17366.333
4
4341.583
1.746
.192
组内
37306.667
15
2487.111
总数
54673.000
19
抢断成功率
组间
45.437
4
11.359
5.174
.008
组内
32.929
15
2.195
总数
78.366
19
越位
组间
3717.450
4
929.362
3.316
.039
组内
4203.500
15
280.233
总数
7920.950
19
黄牌
组间
511.533
4
127.883
1.798
.182
组内
1066.667
15
71.111
总数
1578.200
19
红牌
组间
25.978
4
6.494
1.940
.156
组内
50.222
15
3.348
总数
76.200
19
控球率
组间
639.136
4
159.784
33.361
.000
组内
71.842
15
4.789
总数
710.978
19
通过上面这个分析表可以看出分组情况非常好,至于抢断,黄红牌的P值比较大的原因恐怕是因为足球是一个团体项目,再强亦或者再弱的球队抢断这一项的数据都不会差很多。
而红黄牌随着比赛向技术流发展,大动作的犯规或者恶意犯规已经减少,各队差异不太大。
通过上述报告,从这十项技术统计中可以看出,处在第一梯队的六支球队的进球率明显高于其他球队,从这方面体现出了强队应有的成绩。
与此同时在防守方面失球率也是明显低于其他球队,最少的也有八个球。
射门次数,射正次数也更是多余其他队伍大约100次之多,强队不是吹出来的,靠技术说话,让人不得不服。
而传球和传球成功率这两项数据也是更好地说明了球星的作用,好的中场球星能够起到穿针引线的作用,使整支球队进攻更流畅,也更富想象力。
强队是技术流,是球星的作用,更是想象力的天堂。
而足球比赛充满偶然性,充满机遇,只有丰富的想象力才能获得精彩的结果。
通过判别分析来验证一下分组是否合理:
按照案例顺序的统计量
案例数目
实际组
最高组
第二最高组
判别式得分
预测组
P(D>d|G=g)
P(G=g|D=d)
到质心的平方Mahalanobis距离
组
P(G=g|D=d)
到质心的平方Mahalanobis距离
函数1
函数2
函数3
函数4
p
df
初始
1
1
1
.904
4
1.000
1.041
4
.000
2712.779
47.008
1.573
.172
-.834
2
1
1
.326
4
1.000
4.644
4
.000
3007.256
49.697
2.023
.945
-.758
3
1
1
.206
4
1.000
5.911
4
.000
2694.963
47.281
-.793
.712
.796
4
1
1
.517
4
1.000
3.249
4
.000
2747.209
47.668
.561
-.870
-1.635
5
1
1
.982
4
1.000
.406
4
.000
2778.791
47.678
1.354
.799
-.726
6
2
2
.135
4
1.000
7.026
4
.000
265.338
-12.334
.642
-1.389
2.765
7
2
2
.546
4
1.000
3.068
4
.000
151.489
-10.198
-2.132
-1.346
.605
8
2
2
.479
4
1.000
3.494
4
.000
171.893
-9.446
-1.355
-1.931
2.444
9
3
3
.433
4
1.000
3.809
5
.000
191.789
-43.337
.620
1.916
1.027
10
4
4
1.000
4
1.000
.000
2
.000
189.475
-3.262
-11.690
-2.322
-2.721
11
1
1
.716
4
1.000
2.106
4
.000
2833.225
47.902
2.352
.609
.384
12
3
3
.561
4
1.000
2.979
5
.000
173.008
-44.100
2.165
2.639
-1.542
13
3
3
.205
4
1.000
5.920
5
.000
241.277
-43.585
.573
4.636
-1.930
14
2
2
.340
4
1.000
4.525
4
.000
191.077
-12.104
-2.663
-.018
2.387
15
1
1
.978
4
1.000
.455
4
.000
2776.915
47.717
1.255
-.320
-.180
16
3
3
.354
4
1.000
4.402
5
.000
240.429
-41.482
.910
3.020
.424
17
2
2
.976
4
1.000
.472
4
.000
186.570
-10.445
-1.090
-.323
1.592
18
2
2
.826
4
1.000
1.506
4
.000
190.575
-10.373
-.913
.210
1.456
19
3
3
.288
4
1.000
4.989
5
.000
164.531
-43.243
.481
.668
-1.829
20
5
5
1.000
4
1.000
.000
3
.000
197.787
-51.044
6.128
-7.804
-1.724
交叉验证a
1
1
1
.000
14
1.000
48775.730
4
.000
155009.536
2
1
1
.000
14
1.000
713.079
4
.000
48442.460
3
1
1
.000
14
1.000
2778.308
2
.000
12739.133
4
1
1
.000
14
1.000
50.548
4
.000
2624.598
5
1
1
.000
14
1.000
80.638
4
.000
2612.445
6
2
2
.000
14
1.000
3294.401
3
.000
20459.264
7
2
4**
.000
14
1.000
772.610
2
.000
2104.281
8
2
4**
.000
14
1.000
185.582
2
.000
1175.802
9
3
3
.000
14
1.000
128.801
5
.000
206.146
10
4
2**
.000
14
1.000
189.475
3
.000
1778.567
11
1
1
.000
14
1.000
582.719
2
.000
4003.650
12
3
5**
.000
14
1.000
178.452
3
.000
304.267
13
3
3
.000
14
1.000
100.895
5
.000
672.096
14
2
2
.000
14
1.000
75.527
4
.000
215.178
15
1
1
.000
14
1.000
642.909
4
.000
2692.694
16
3
3
.000
14
1.000
276.661
5
.000
1439.531
17
2
4**
.000
14
1.000
730.848
2
.000
1072.084
18
2
2
.000
14
1.000
397.228
4
.000
443.426
19
3
5**
.000
14
1.000
234.942
3
.000
255.471
20
5
3**
.000
14
1.000
197.787
2
.000
1734.696
由上表,我们可以看出分组无误。
分类结果b,c
AverageLinkage(BetweenGroups)
预测组成员
合计
1
2
3
4
5
初始
计数
1
7
0
0
0
0
7
2
0
6
0
0
0
6
3
0
0
5
0
0
5
4
0
0
0
1
0
1
5
0
0
0
0
1
1
%
1
100.0
.0
.0
.0
.0
100.0
2
.0
100.0
.0
.0
.0
100.0
3
.0
.0
100.0
.0
.0
100.0
4
.0
.0
.0
100.0
.0
100.0
5
.0
.0
.0
.0
100.0
100.0
交叉验证a
计数
1
7
0
0
0
0
7
2
0
3
0
3
0
6
3
0
0
3
0
2
5
4
0
1
0
0
0
1
5
0
0
1
0
0
1
%
1
100.0
.0
.0
.0
.0
100.0
2
.0
50.0
.0
50.0
.0
100.0
3
.0
.0
60.0
.0
40.0
100.0
4
.0
100.0
.0
.0
.0
100.0
5
.0
.0
100.0
.0
.0
100.0
a.仅对分析中的案例进行交叉验证。
在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。
b.已对初始分组案例中的100.0%个进行了正确分类。
c.已对交叉验证分组案例中的65.0%个进行了正确分类。
由上表说明,100%的判别率证明上述得出的聚类的结果分类成功。
下面通过主成分分析欲找出其主要作用的几个成分。
KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin度量。
.490
Bartlett的球形度检验
近似卡方
250.709
df
91
Sig.
.000
取样足够度的Kaiser-Meyer-Olkin度量才达到了0.49说明不太适合做主成分分析,但是sig值小于0.000说明可以做主成分分析。
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
合计
方差的%
累积%
1
6.606
47.187
47.187
6.606
47.187
47.187
5.899
42.137
42.137
2
1.761
12.582
59.769
1.761
12.582
59.769
1.831
13.079
55.216
3
1.603
11.449
71.218
1.603
11.449
71.218
1.660
11.856
67.072
4
1.052
7.512
78.730
1.052
7.512
78.730
1.411
10.078
77.150
5
.974
6.956
85.686
.974
6.956
85.686
1.195
8.536
85.686
6
.701
5.004
90.690
7
.395
2.821
93.511
8
.343
2.451
95.962
9
.291
2.076
98.038
10
.163
1.165
99.203
11
.060
.432
99.635
12
.031
.221
99.855
13
.017
.122
99.978
14
.003
.022
100.000
提取方法:
主成份分析。
通过解释的总方差可以看出第1,2,3,4,5成分对结果影响很大。
其中第一个主成分的特征根为6.606,占总特征根的的比例(方差贡献率)为47.187%,而前五个主成分方差贡献率的和为85.686%。
这表示第一个主成分解释了原始15个变量85.686%的信息,可见第一个主成分对原来的15个变量解释的已经很充分了。
而下面这张碎石图也很好地证明了这一观点。
成份矩阵a
成份
1
2
3
4
5
射正
.948
.038
.206
.041
-.141
传球
.928
-.079
-.178
-.051
-.188
射门
.922
-.004
.205
.262
-.112
传球成功率
.895
.004
-.166
-.136
-.241
进球
.855
-.076
.273
-.193
-.100
半场
.847
-.153
.229
-.317
.033
角球
.840
-.078
.101
.291
.078
失球
-.730
-.277
.115
.043
-.352
抢断成功率
.230
.781
.178
-.086
.034
越位
.374
.560
-.220
.513
.352
红牌
-.086
-.555
.518
.538
-.048
犯规
-.359
.305
.691
.148
-.011
黄牌
-.335
.352
.660
-.305
-.048
抢断
.260
-.438
.219
-.247
.760
提取方法:
主成份。
a.已提取了5个成份。
通过上面的成分矩阵可以列出:
Y1=0.948X1+0.928X2+0.922X3+0.895X4+0.855X5+0.847X6+0.840X7-0.730X8+0.230X9+0.374X10-0.086X11-0.359X12-0.355X13+0.260X14
Y2=0.038X1-0.079X2-0.004X3-0.004X4+0.943X5+0.842X6-0.375X7+0.946X8+0.910X9+0.248X10+0.209X11+0.353X12-0.339X13-0.080X14
……
Y5=0.948X1+0.842X2-0.741X3+0.916X4+0.943X5+0.842X6-0.375X7+0.946X8+0.910X9+0.248X10+0.209X11+0.353X12-0.339X13-0.080X14
运用MANOVA分析:
多变量检验b
效应
值
F
假设df
误差df
Sig.
截距
Pillai的跟踪
1.000
3044.123a
15.000
5.000
.000
Wilks的Lambda
.000
3044.123a