统计学论文关于英超球队的分析.docx

资源描述

统计学论文关于英超球队的分析.docx

《统计学论文关于英超球队的分析.docx》由会员分享，可在线阅读，更多相关《统计学论文关于英超球队的分析.docx（25页珍藏版）》请在冰豆网上搜索。

统计学论文关于英超球队的分析.docx

统计学论文关于英超球队的分析

关于英超球队的分析

摘要：

欧洲足球联赛11/12赛季终于落下帷幕，几家欢喜几家愁。

蓝军切尔西最终捧得欧冠冠军，西甲豪门巴萨被他们斩于马下。

有人说切尔西用钱堆出来的，算不上豪门，也正因为切尔西的崛起，改变了英超传统豪门的格局，曼联，利物浦，阿森纳，传统豪门，而切尔西仿佛更像是一个暴发户，但是不管用如何，需要用数据来说话。

本文先进行聚类分析，选出第一梯队的球队，进行分析，运用主成分分析，因子分析选出对结果影响的主要因素。

再选近五年成绩看看近两年切尔西是否保持着第一集团。

本文数据来自网易的国际足球数据库主要用2011—2012年度，包括20支球队：

曼城，曼联，阿森纳，托特纳姆，切尔西，纽卡斯尔，诺维奇，埃弗顿，布莱克本，富勒姆，利物浦，博尔顿，桑德兰，西布朗，斯旺西，女王公园巡游者，维甘，狼队，阿斯顿维拉，斯托克城。

（见附表一）

关键词：

强队，豪门，分类

正文：

如今处在信息化社会，任何理论都要有数据的支持才能站得住脚，在足球中，进球仿佛成了一支球队是否是强队的有力依据，但不要忘了，射门次数，射正次数，角球，犯规，传球成功率，抢断成功率，黄红牌，控球率。

只有把这些综合考虑进去才会得出最综合的答案。

聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

20887.680

21580.510

33429.030

34171.790

35449.500

51101.850

92441.590

100836.445

174877.907

289694.115

366364.655

395278.347

614152.368

1762278.400

2279144.772

3675296.917

7034957.266

12594604.894

36440659.465

通过上述聚类过程，得出了下面的分类的树状图。

从树状图中我们可以看出分成五类比较好。

群集成员

案例

5群集

曼城

曼联

阿森纳

托特纳姆

切尔西

纽卡斯尔

诺维奇

埃弗顿

布莱克本

10:

富勒姆

11:

利物浦

12:

博尔顿

13:

桑德兰

14:

西布朗

15:

斯旺西

16:

女王公园巡游者

17:

维甘

18:

狼队

19:

阿斯顿维拉

20:

斯托克城

从图片中看出

类别

球队

球队数量

第一类

曼城，曼联，阿森纳，托特纳姆，切尔西，利物浦，斯旺西

第二类

纽卡斯尔，诺维奇，埃佛顿，西布朗，维甘，狼队

第三类

布莱克本，博尔顿，桑德兰，女王公园巡游者，阿斯顿维拉

第四类

富勒姆

第五类

斯托克城

从分类结果显示出强队中除了曼联，利物浦和阿森纳。

也有了曼城，托特纳姆热刺，斯旺西以及切尔西的的加入，使得英超比西甲多了观赏性。

西甲的防守过于孱弱，不堪一击，两大豪门皇家马德里和巴塞罗那过于强大，联赛缺乏竞争力。

也许这正是近些年英超球迷越来越多的原因吧。

ANOVA

平方和

均方

显著性

进球

组间

3209.978

802.494

6.933

.002

组内

1736.222

115.748

总数

4946.200

半场

组间

541.700

135.425

7.373

.002

组内

275.500

18.367

总数

817.200

失球

组间

2355.978

588.994

5.233

.008

组内

1688.222

112.548

总数

4044.200

射门

组间

169061.394

42265.349

38.536

.000

组内

16451.556

1096.770

总数

185512.950

射正

组间

31622.161

7905.540

47.087

.000

组内

2518.389

167.893

总数

34140.550

角球

组间

31207.300

7801.825

19.884

.000

组内

5885.500

392.367

总数

37092.800

犯规

组间

12631.494

3157.874

2.673

.073

组内

17721.056

1181.404

总数

30352.550

传球

组间

1.734E8

4.335E7

35.812

.000

组内

1.816E7

1210564.470

总数

1.916E8

传球成功率

组间

458.943

114.736

17.789

.000

组内

96.749

6.450

总数

555.692

抢断

组间

17366.333

4341.583

1.746

.192

组内

37306.667

2487.111

总数

54673.000

抢断成功率

组间

45.437

11.359

5.174

.008

组内

32.929

2.195

总数

78.366

越位

组间

3717.450

929.362

3.316

.039

组内

4203.500

280.233

总数

7920.950

黄牌

组间

511.533

127.883

1.798

.182

组内

1066.667

71.111

总数

1578.200

红牌

组间

25.978

6.494

1.940

.156

组内

50.222

3.348

总数

76.200

控球率

组间

639.136

159.784

33.361

.000

组内

71.842

4.789

总数

710.978

通过上面这个分析表可以看出分组情况非常好，至于抢断，黄红牌的P值比较大的原因恐怕是因为足球是一个团体项目，再强亦或者再弱的球队抢断这一项的数据都不会差很多。

而红黄牌随着比赛向技术流发展，大动作的犯规或者恶意犯规已经减少，各队差异不太大。

通过上述报告，从这十项技术统计中可以看出，处在第一梯队的六支球队的进球率明显高于其他球队，从这方面体现出了强队应有的成绩。

与此同时在防守方面失球率也是明显低于其他球队，最少的也有八个球。

射门次数，射正次数也更是多余其他队伍大约100次之多，强队不是吹出来的，靠技术说话，让人不得不服。

而传球和传球成功率这两项数据也是更好地说明了球星的作用，好的中场球星能够起到穿针引线的作用，使整支球队进攻更流畅，也更富想象力。

强队是技术流，是球星的作用，更是想象力的天堂。

而足球比赛充满偶然性，充满机遇，只有丰富的想象力才能获得精彩的结果。

通过判别分析来验证一下分组是否合理：

按照案例顺序的统计量

案例数目

实际组

最高组

第二最高组

判别式得分

预测组

P（D>d|G=g）

P（G=g|D=d）

到质心的平方Mahalanobis距离

组

P（G=g|D=d）

到质心的平方Mahalanobis距离

函数1

函数2

函数3

函数4

初始

.904

1.000

1.041

.000

2712.779

47.008

1.573

.172

-.834

.326

1.000

4.644

.000

3007.256

49.697

2.023

.945

-.758

.206

1.000

5.911

.000

2694.963

47.281

-.793

.712

.796

.517

1.000

3.249

.000

2747.209

47.668

.561

-.870

-1.635

.982

1.000

.406

.000

2778.791

47.678

1.354

.799

-.726

.135

1.000

7.026

.000

265.338

-12.334

.642

-1.389

2.765

.546

1.000

3.068

.000

151.489

-10.198

-2.132

-1.346

.605

.479

1.000

3.494

.000

171.893

-9.446

-1.355

-1.931

2.444

.433

1.000

3.809

.000

191.789

-43.337

.620

1.916

1.027

1.000

.000

189.475

-3.262

-11.690

-2.322

-2.721

.716

1.000

2.106

.000

2833.225

47.902

2.352

.609

.384

.561

1.000

2.979

.000

173.008

-44.100

2.165

2.639

-1.542

.205

1.000

5.920

.000

241.277

-43.585

.573

4.636

-1.930

.340

1.000

4.525

.000

191.077

-12.104

-2.663

-.018

2.387

.978

1.000

.455

.000

2776.915

47.717

1.255

-.320

-.180

.354

1.000

4.402

.000

240.429

-41.482

.910

3.020

.424

.976

1.000

.472

.000

186.570

-10.445

-1.090

-.323

1.592

.826

1.000

1.506

.000

190.575

-10.373

-.913

.210

1.456

.288

1.000

4.989

.000

164.531

-43.243

.481

.668

-1.829

1.000

.000

197.787

-51.044

6.128

-7.804

-1.724

交叉验证a

.000

1.000

48775.730

.000

155009.536

.000

1.000

713.079

.000

48442.460

.000

1.000

2778.308

.000

12739.133

.000

1.000

50.548

.000

2624.598

.000

1.000

80.638

.000

2612.445

.000

1.000

3294.401

.000

20459.264

4**

.000

1.000

772.610

.000

2104.281

4**

.000

1.000

185.582

.000

1175.802

.000

1.000

128.801

.000

206.146

2**

.000

1.000

189.475

.000

1778.567

.000

1.000

582.719

.000

4003.650

5**

.000

1.000

178.452

.000

304.267

.000

1.000

100.895

.000

672.096

.000

1.000

75.527

.000

215.178

.000

1.000

642.909

.000

2692.694

.000

1.000

276.661

.000

1439.531

4**

.000

1.000

730.848

.000

1072.084

.000

1.000

397.228

.000

443.426

5**

.000

1.000

234.942

.000

255.471

3**

.000

1.000

197.787

.000

1734.696

由上表，我们可以看出分组无误。

分类结果b,c

AverageLinkage（BetweenGroups）

预测组成员

合计

初始

计数

100.0

交叉验证a

计数

100.0

50.0

100.0

60.0

40.0

100.0

a.仅对分析中的案例进行交叉验证。

在交叉验证中，每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。

b.已对初始分组案例中的100.0%个进行了正确分类。

c.已对交叉验证分组案例中的65.0%个进行了正确分类。

由上表说明，100%的判别率证明上述得出的聚类的结果分类成功。

下面通过主成分分析欲找出其主要作用的几个成分。

KMO和Bartlett的检验

取样足够度的Kaiser-Meyer-Olkin度量。

.490

Bartlett的球形度检验

近似卡方

250.709

Sig.

.000

取样足够度的Kaiser-Meyer-Olkin度量才达到了0.49说明不太适合做主成分分析，但是sig值小于0.000说明可以做主成分分析。

解释的总方差

成份

初始特征值

提取平方和载入

旋转平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

合计

方差的%

累积%

6.606

47.187

6.606

47.187

5.899

42.137

1.761

12.582

59.769

1.761

12.582

59.769

1.831

13.079

55.216

1.603

11.449

71.218

1.603

11.449

71.218

1.660

11.856

67.072

1.052

7.512

78.730

1.052

7.512

78.730

1.411

10.078

77.150

.974

6.956

85.686

.974

6.956

85.686

1.195

8.536

85.686

.701

5.004

90.690

.395

2.821

93.511

.343

2.451

95.962

.291

2.076

98.038

.163

1.165

99.203

.060

.432

99.635

.031

.221

99.855

.017

.122

99.978

.003

.022

100.000

提取方法：

主成份分析。

通过解释的总方差可以看出第1,2,3,4,5成分对结果影响很大。

其中第一个主成分的特征根为6.606，占总特征根的的比例（方差贡献率）为47.187%，而前五个主成分方差贡献率的和为85.686%。

这表示第一个主成分解释了原始15个变量85.686%的信息，可见第一个主成分对原来的15个变量解释的已经很充分了。

而下面这张碎石图也很好地证明了这一观点。

成份矩阵a

成份

射正

.948

.038

.206

.041

-.141

传球

.928

-.079

-.178

-.051

-.188

射门

.922

-.004

.205

.262

-.112

传球成功率

.895

.004

-.166

-.136

-.241

进球

.855

-.076

.273

-.193

-.100

半场

.847

-.153

.229

-.317

.033

角球

.840

-.078

.101

.291

.078

失球

-.730

-.277

.115

.043

-.352

抢断成功率

.230

.781

.178

-.086

.034

越位

.374

.560

-.220

.513

.352

红牌

-.086

-.555

.518

.538

-.048

犯规

-.359

.305

.691

.148

-.011

黄牌

-.335

.352

.660

-.305

-.048

抢断

.260

-.438

.219

-.247

.760

提取方法:

主成份。

a.已提取了5个成份。

通过上面的成分矩阵可以列出：

Y1=0.948X1+0.928X2+0.922X3+0.895X4+0.855X5+0.847X6+0.840X7-0.730X8+0.230X9+0.374X10-0.086X11-0.359X12-0.355X13+0.260X14

Y2=0.038X1-0.079X2-0.004X3-0.004X4+0.943X5+0.842X6-0.375X7+0.946X8+0.910X9+0.248X10+0.209X11+0.353X12-0.339X13-0.080X14

……

Y5=0.948X1+0.842X2-0.741X3+0.916X4+0.943X5+0.842X6-0.375X7+0.946X8+0.910X9+0.248X10+0.209X11+0.353X12-0.339X13-0.080X14

运用MANOVA分析：

多变量检验b

效应

值

假设df

误差df

Sig.

截距

Pillai的跟踪

1.000

3044.123a

15.000

5.000

.000

Wilks的Lambda

.000

3044.123a

展开阅读全文