统计学论文关于英超球队的分析Word下载.docx
《统计学论文关于英超球队的分析Word下载.docx》由会员分享,可在线阅读,更多相关《统计学论文关于英超球队的分析Word下载.docx(25页珍藏版)》请在冰豆网上搜索。
12594604.894
36440659.465
通过上述聚类过程,得出了下面的分类的树状图。
从树状图中我们可以看出分成五类比较好。
群集成员
案例
5群集
1:
曼城
2:
曼联
3:
阿森纳
4:
托特纳姆
5:
切尔西
6:
纽卡斯尔
7:
诺维奇
8:
埃弗顿
9:
布莱克本
10:
富勒姆
11:
利物浦
12:
博尔顿
13:
桑德兰
14:
西布朗
15:
斯旺西
16:
女王公园巡游者
17:
维甘
18:
狼队
19:
阿斯顿维拉
20:
斯托克城
从图片中看出
类别
球队
球队数量
第一类
曼城,曼联,阿森纳,托特纳姆,切尔西,利物浦,斯旺西
第二类
纽卡斯尔,诺维奇,埃佛顿,西布朗,维甘,狼队
第三类
布莱克本,博尔顿,桑德兰,女王公园巡游者,阿斯顿维拉
第四类
富勒姆
第五类
斯托克城
从分类结果显示出强队中除了曼联,利物浦和阿森纳。
也有了曼城,托特纳姆热刺,斯旺西以及切尔西的的加入,使得英超比西甲多了观赏性。
西甲的防守过于孱弱,不堪一击,两大豪门皇家马德里和巴塞罗那过于强大,联赛缺乏竞争力。
也许这正是近些年英超球迷越来越多的原因吧。
ANOVA
平方和
df
均方
F
显著性
进球
组间
3209.978
802.494
6.933
.002
组内
1736.222
115.748
总数
4946.200
半场
541.700
135.425
7.373
275.500
18.367
817.200
失球
2355.978
588.994
5.233
.008
1688.222
112.548
4044.200
射门
169061.394
42265.349
38.536
.000
16451.556
1096.770
185512.950
射正
31622.161
7905.540
47.087
2518.389
167.893
34140.550
角球
31207.300
7801.825
19.884
5885.500
392.367
37092.800
犯规
12631.494
3157.874
2.673
.073
17721.056
1181.404
30352.550
传球
1.734E8
4.335E7
35.812
1.816E7
1210564.470
1.916E8
传球成功率
458.943
114.736
17.789
96.749
6.450
555.692
抢断
17366.333
4341.583
1.746
.192
37306.667
2487.111
54673.000
抢断成功率
45.437
11.359
5.174
32.929
2.195
78.366
越位
3717.450
929.362
3.316
.039
4203.500
280.233
7920.950
黄牌
511.533
127.883
1.798
.182
1066.667
71.111
1578.200
红牌
25.978
6.494
1.940
.156
50.222
3.348
76.200
控球率
639.136
159.784
33.361
71.842
4.789
710.978
通过上面这个分析表可以看出分组情况非常好,至于抢断,黄红牌的P值比较大的原因恐怕是因为足球是一个团体项目,再强亦或者再弱的球队抢断这一项的数据都不会差很多。
而红黄牌随着比赛向技术流发展,大动作的犯规或者恶意犯规已经减少,各队差异不太大。
通过上述报告,从这十项技术统计中可以看出,处在第一梯队的六支球队的进球率明显高于其他球队,从这方面体现出了强队应有的成绩。
与此同时在防守方面失球率也是明显低于其他球队,最少的也有八个球。
射门次数,射正次数也更是多余其他队伍大约100次之多,强队不是吹出来的,靠技术说话,让人不得不服。
而传球和传球成功率这两项数据也是更好地说明了球星的作用,好的中场球星能够起到穿针引线的作用,使整支球队进攻更流畅,也更富想象力。
强队是技术流,是球星的作用,更是想象力的天堂。
而足球比赛充满偶然性,充满机遇,只有丰富的想象力才能获得精彩的结果。
通过判别分析来验证一下分组是否合理:
按照案例顺序的统计量
案例数目
实际组
最高组
第二最高组
判别式得分
预测组
P(D>
d|G=g)
P(G=g|D=d)
到质心的平方Mahalanobis距离
组
函数1
函数2
函数3
函数4
p
初始
.904
1.000
1.041
2712.779
47.008
1.573
.172
-.834
.326
4.644
3007.256
49.697
2.023
.945
-.758
.206
5.911
2694.963
47.281
-.793
.712
.796
.517
3.249
2747.209
47.668
.561
-.870
-1.635
.982
.406
2778.791
47.678
1.354
.799
-.726
.135
7.026
265.338
-12.334
.642
-1.389
2.765
.546
3.068
151.489
-10.198
-2.132
-1.346
.605
.479
3.494
171.893
-9.446
-1.355
-1.931
2.444
.433
3.809
191.789
-43.337
.620
1.916
1.027
189.475
-3.262
-11.690
-2.322
-2.721
.716
2.106
2833.225
47.902
2.352
.609
.384
2.979
173.008
-44.100
2.165
2.639
-1.542
.205
5.920
241.277
-43.585
.573
4.636
-1.930
.340
4.525
191.077
-12.104
-2.663
-.018
2.387
.978
.455
2776.915
47.717
1.255
-.320
-.180
.354
4.402
240.429
-41.482
.910
3.020
.424
.976
.472
186.570
-10.445
-1.090
-.323
1.592
.826
1.506
190.575
-10.373
-.913
.210
1.456
.288
4.989
164.531
-43.243
.481
.668
-1.829
197.787
-51.044
6.128
-7.804
-1.724
交叉验证a
48775.730
155009.536
713.079
48442.460
2778.308
12739.133
50.548
2624.598
80.638
2612.445
3294.401
20459.264
4**
772.610
2104.281
185.582
1175.802
128.801
206.146
2**
1778.567
582.719
4003.650
5**
178.452
304.267
100.895
672.096
75.527
215.178
642.909
2692.694
276.661
1439.531
730.848
1072.084
397.228
443.426
234.942
255.471
3**
1734.696
由上表,我们可以看出分组无误。
分类结果b,c
AverageLinkage(BetweenGroups)
预测组成员
合计
计数
%
100.0
.0
50.0
60.0
40.0
a.仅对分析中的案例进行交叉验证。
在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。
b.已对初始分组案例中的100.0%个进行了正确分类。
c.已对交叉验证分组案例中的65.0%个进行了正确分类。
由上表说明,100%的判别率证明上述得出的聚类的结果分类成功。
下面通过主成分分析欲找出其主要作用的几个成分。
KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin度量。
.490
Bartlett的球形度检验
近似卡方
250.709
91
Sig.
取样足够度的Kaiser-Meyer-Olkin度量才达到了0.49说明不太适合做主成分分析,但是sig值小于0.000说明可以做主成分分析。
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
方差的%
累积%
6.606
47.187
5.899
42.137
1.761
12.582
59.769
1.831
13.079
55.216
1.603
11.449
71.218
1.660
11.856
67.072
1.052
7.512
78.730
1.411
10.078
77.150
.974
6.956
85.686
1.195
8.536
.701
5.004
90.690
.395
2.821
93.511
.343
2.451
95.962
.291
2.076
98.038
.163
1.165
99.203
.060
.432
99.635
.031
.221
99.855
.017
.122
99.978
.003
.022
100.000
提取方法:
主成份分析。
通过解释的总方差可以看出第1,2,3,4,5成分对结果影响很大。
其中第一个主成分的特征根为6.606,占总特征根的的比例(方差贡献率)为47.187%,而前五个主成分方差贡献率的和为85.686%。
这表示第一个主成分解释了原始15个变量85.686%的信息,可见第一个主成分对原来的15个变量解释的已经很充分了。
而下面这张碎石图也很好地证明了这一观点。
成份矩阵a
.948
.038
.041
-.141
.928
-.079
-.178
-.051
-.188
.922
-.004
.262
-.112
.895
.004
-.166
-.136
-.241
.855
-.076
.273
-.193
-.100
.847
-.153
.229
-.317
.033
.840
-.078
.101
.078
-.730
-.277
.115
.043
-.352
.230
.781
.178
-.086
.034
.374
.560
-.220
.513
.352
-.555
.518
.538
-.048
-.359
.305
.691
.148
-.011
-.335
.660
-.305
.260
-.438
.219
-.247
.760
提取方法:
主成份。
a.已提取了5个成份。
通过上面的成分矩阵可以列出:
Y1=0.948X1+0.928X2+0.922X3+0.895X4+0.855X5+0.847X6+0.840X7-0.730X8+0.230X9+0.374X10-0.086X11-0.359X12-0.355X13+0.260X14
Y2=0.038X1-0.079X2-0.004X3-0.004X4+0.943X5+0.842X6-0.375X7+0.946X8+0.910X9+0.248X10+0.209X11+0.353X12-0.339X13-0.080X14
……
Y5=0.948X1+0.842X2-0.741X3+0.916X4+0.943X5+0.842X6-0.375X7+0.946X8+0.910X9+0.248X10+0.209X11+0.353X12-0.339X13-0.080X14
运用MANOVA分析:
多变量检验b
效应
值
假设df
误差df
截距
Pillai的跟踪
3044.123a
15.000
5.000
Wilks的Lambda