统计学论文关于英超球队的分析.docx

上传人:b****5 文档编号:7467087 上传时间:2023-01-24 格式:DOCX 页数:25 大小:162.03KB
下载 相关 举报
统计学论文关于英超球队的分析.docx_第1页
第1页 / 共25页
统计学论文关于英超球队的分析.docx_第2页
第2页 / 共25页
统计学论文关于英超球队的分析.docx_第3页
第3页 / 共25页
统计学论文关于英超球队的分析.docx_第4页
第4页 / 共25页
统计学论文关于英超球队的分析.docx_第5页
第5页 / 共25页
点击查看更多>>
下载资源
资源描述

统计学论文关于英超球队的分析.docx

《统计学论文关于英超球队的分析.docx》由会员分享,可在线阅读,更多相关《统计学论文关于英超球队的分析.docx(25页珍藏版)》请在冰豆网上搜索。

统计学论文关于英超球队的分析.docx

统计学论文关于英超球队的分析

 

关于英超球队的分析

 

 

摘要:

欧洲足球联赛11/12赛季终于落下帷幕,几家欢喜几家愁。

蓝军切尔西最终捧得欧冠冠军,西甲豪门巴萨被他们斩于马下。

有人说切尔西用钱堆出来的,算不上豪门,也正因为切尔西的崛起,改变了英超传统豪门的格局,曼联,利物浦,阿森纳,传统豪门,而切尔西仿佛更像是一个暴发户,但是不管用如何,需要用数据来说话。

本文先进行聚类分析,选出第一梯队的球队,进行分析,运用主成分分析,因子分析选出对结果影响的主要因素。

再选近五年成绩看看近两年切尔西是否保持着第一集团。

本文数据来自网易的国际足球数据库主要用2011—2012年度,包括20支球队:

曼城,曼联,阿森纳,托特纳姆,切尔西,纽卡斯尔,诺维奇,埃弗顿,布莱克本,富勒姆,利物浦,博尔顿,桑德兰,西布朗,斯旺西,女王公园巡游者,维甘,狼队,阿斯顿维拉,斯托克城。

(见附表一)

关键词:

强队,豪门,分类

正文:

如今处在信息化社会,任何理论都要有数据的支持才能站得住脚,在足球中,进球仿佛成了一支球队是否是强队的有力依据,但不要忘了,射门次数,射正次数,角球,犯规,传球成功率,抢断成功率,黄红牌,控球率。

只有把这些综合考虑进去才会得出最综合的答案。

聚类表

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

1

7

8

20887.680

0

0

3

2

6

14

21580.510

0

0

10

3

7

18

33429.030

1

0

10

4

5

11

34171.790

0

0

11

5

12

16

35449.500

0

0

7

6

3

15

51101.850

0

0

8

7

12

19

92441.590

5

0

12

8

1

3

100836.445

0

6

9

9

1

2

174877.907

8

0

15

10

6

7

289694.115

2

3

13

11

4

5

366364.655

0

4

15

12

12

13

395278.347

7

0

14

13

6

17

614152.368

10

0

16

14

9

12

1762278.400

0

12

16

15

1

4

2279144.772

9

11

17

16

6

9

3675296.917

13

14

18

17

1

10

7034957.266

15

0

19

18

6

20

12594604.894

16

0

19

19

1

6

36440659.465

17

18

0

通过上述聚类过程,得出了下面的分类的树状图。

从树状图中我们可以看出分成五类比较好。

群集成员

案例

5群集

1:

曼城

1

2:

曼联

1

3:

阿森纳

1

4:

托特纳姆

1

5:

切尔西

1

6:

纽卡斯尔

2

7:

诺维奇

2

8:

埃弗顿

2

9:

布莱克本

3

10:

富勒姆

4

11:

利物浦

1

12:

博尔顿

3

13:

桑德兰

3

14:

西布朗

2

15:

斯旺西

1

16:

女王公园巡游者

3

17:

维甘

2

18:

狼队

2

19:

阿斯顿维拉

3

20:

斯托克城

5

 

从图片中看出

类别

球队

球队数量

第一类

曼城,曼联,阿森纳,托特纳姆,切尔西,利物浦,斯旺西

7

第二类

纽卡斯尔,诺维奇,埃佛顿,西布朗,维甘,狼队

6

第三类

布莱克本,博尔顿,桑德兰,女王公园巡游者,阿斯顿维拉

5

第四类

富勒姆

1

第五类

斯托克城

1

从分类结果显示出强队中除了曼联,利物浦和阿森纳。

也有了曼城,托特纳姆热刺,斯旺西以及切尔西的的加入,使得英超比西甲多了观赏性。

西甲的防守过于孱弱,不堪一击,两大豪门皇家马德里和巴塞罗那过于强大,联赛缺乏竞争力。

也许这正是近些年英超球迷越来越多的原因吧。

 

ANOVA

平方和

df

均方

F

显著性

进球

组间

3209.978

4

802.494

6.933

.002

组内

1736.222

15

115.748

总数

4946.200

19

半场

组间

541.700

4

135.425

7.373

.002

组内

275.500

15

18.367

总数

817.200

19

失球

组间

2355.978

4

588.994

5.233

.008

组内

1688.222

15

112.548

总数

4044.200

19

射门

组间

169061.394

4

42265.349

38.536

.000

组内

16451.556

15

1096.770

总数

185512.950

19

射正

组间

31622.161

4

7905.540

47.087

.000

组内

2518.389

15

167.893

总数

34140.550

19

角球

组间

31207.300

4

7801.825

19.884

.000

组内

5885.500

15

392.367

总数

37092.800

19

犯规

组间

12631.494

4

3157.874

2.673

.073

组内

17721.056

15

1181.404

总数

30352.550

19

传球

组间

1.734E8

4

4.335E7

35.812

.000

组内

1.816E7

15

1210564.470

总数

1.916E8

19

传球成功率

组间

458.943

4

114.736

17.789

.000

组内

96.749

15

6.450

总数

555.692

19

抢断

组间

17366.333

4

4341.583

1.746

.192

组内

37306.667

15

2487.111

总数

54673.000

19

抢断成功率

组间

45.437

4

11.359

5.174

.008

组内

32.929

15

2.195

总数

78.366

19

越位

组间

3717.450

4

929.362

3.316

.039

组内

4203.500

15

280.233

总数

7920.950

19

黄牌

组间

511.533

4

127.883

1.798

.182

组内

1066.667

15

71.111

总数

1578.200

19

红牌

组间

25.978

4

6.494

1.940

.156

组内

50.222

15

3.348

总数

76.200

19

控球率

组间

639.136

4

159.784

33.361

.000

组内

71.842

15

4.789

总数

710.978

19

通过上面这个分析表可以看出分组情况非常好,至于抢断,黄红牌的P值比较大的原因恐怕是因为足球是一个团体项目,再强亦或者再弱的球队抢断这一项的数据都不会差很多。

而红黄牌随着比赛向技术流发展,大动作的犯规或者恶意犯规已经减少,各队差异不太大。

通过上述报告,从这十项技术统计中可以看出,处在第一梯队的六支球队的进球率明显高于其他球队,从这方面体现出了强队应有的成绩。

与此同时在防守方面失球率也是明显低于其他球队,最少的也有八个球。

射门次数,射正次数也更是多余其他队伍大约100次之多,强队不是吹出来的,靠技术说话,让人不得不服。

而传球和传球成功率这两项数据也是更好地说明了球星的作用,好的中场球星能够起到穿针引线的作用,使整支球队进攻更流畅,也更富想象力。

强队是技术流,是球星的作用,更是想象力的天堂。

而足球比赛充满偶然性,充满机遇,只有丰富的想象力才能获得精彩的结果。

通过判别分析来验证一下分组是否合理:

按照案例顺序的统计量

案例数目

实际组

最高组

第二最高组

判别式得分

预测组

P(D>d|G=g)

P(G=g|D=d)

到质心的平方Mahalanobis距离

P(G=g|D=d)

到质心的平方Mahalanobis距离

函数1

函数2

函数3

函数4

p

df

初始

1

1

1

.904

4

1.000

1.041

4

.000

2712.779

47.008

1.573

.172

-.834

2

1

1

.326

4

1.000

4.644

4

.000

3007.256

49.697

2.023

.945

-.758

3

1

1

.206

4

1.000

5.911

4

.000

2694.963

47.281

-.793

.712

.796

4

1

1

.517

4

1.000

3.249

4

.000

2747.209

47.668

.561

-.870

-1.635

5

1

1

.982

4

1.000

.406

4

.000

2778.791

47.678

1.354

.799

-.726

6

2

2

.135

4

1.000

7.026

4

.000

265.338

-12.334

.642

-1.389

2.765

7

2

2

.546

4

1.000

3.068

4

.000

151.489

-10.198

-2.132

-1.346

.605

8

2

2

.479

4

1.000

3.494

4

.000

171.893

-9.446

-1.355

-1.931

2.444

9

3

3

.433

4

1.000

3.809

5

.000

191.789

-43.337

.620

1.916

1.027

10

4

4

1.000

4

1.000

.000

2

.000

189.475

-3.262

-11.690

-2.322

-2.721

11

1

1

.716

4

1.000

2.106

4

.000

2833.225

47.902

2.352

.609

.384

12

3

3

.561

4

1.000

2.979

5

.000

173.008

-44.100

2.165

2.639

-1.542

13

3

3

.205

4

1.000

5.920

5

.000

241.277

-43.585

.573

4.636

-1.930

14

2

2

.340

4

1.000

4.525

4

.000

191.077

-12.104

-2.663

-.018

2.387

15

1

1

.978

4

1.000

.455

4

.000

2776.915

47.717

1.255

-.320

-.180

16

3

3

.354

4

1.000

4.402

5

.000

240.429

-41.482

.910

3.020

.424

17

2

2

.976

4

1.000

.472

4

.000

186.570

-10.445

-1.090

-.323

1.592

18

2

2

.826

4

1.000

1.506

4

.000

190.575

-10.373

-.913

.210

1.456

19

3

3

.288

4

1.000

4.989

5

.000

164.531

-43.243

.481

.668

-1.829

20

5

5

1.000

4

1.000

.000

3

.000

197.787

-51.044

6.128

-7.804

-1.724

交叉验证a

1

1

1

.000

14

1.000

48775.730

4

.000

155009.536

2

1

1

.000

14

1.000

713.079

4

.000

48442.460

3

1

1

.000

14

1.000

2778.308

2

.000

12739.133

4

1

1

.000

14

1.000

50.548

4

.000

2624.598

5

1

1

.000

14

1.000

80.638

4

.000

2612.445

6

2

2

.000

14

1.000

3294.401

3

.000

20459.264

7

2

4**

.000

14

1.000

772.610

2

.000

2104.281

8

2

4**

.000

14

1.000

185.582

2

.000

1175.802

9

3

3

.000

14

1.000

128.801

5

.000

206.146

10

4

2**

.000

14

1.000

189.475

3

.000

1778.567

11

1

1

.000

14

1.000

582.719

2

.000

4003.650

12

3

5**

.000

14

1.000

178.452

3

.000

304.267

13

3

3

.000

14

1.000

100.895

5

.000

672.096

14

2

2

.000

14

1.000

75.527

4

.000

215.178

15

1

1

.000

14

1.000

642.909

4

.000

2692.694

16

3

3

.000

14

1.000

276.661

5

.000

1439.531

17

2

4**

.000

14

1.000

730.848

2

.000

1072.084

18

2

2

.000

14

1.000

397.228

4

.000

443.426

19

3

5**

.000

14

1.000

234.942

3

.000

255.471

20

5

3**

.000

14

1.000

197.787

2

.000

1734.696

由上表,我们可以看出分组无误。

分类结果b,c

AverageLinkage(BetweenGroups)

预测组成员

合计

1

2

3

4

5

初始

计数

1

7

0

0

0

0

7

2

0

6

0

0

0

6

3

0

0

5

0

0

5

4

0

0

0

1

0

1

5

0

0

0

0

1

1

%

1

100.0

.0

.0

.0

.0

100.0

2

.0

100.0

.0

.0

.0

100.0

3

.0

.0

100.0

.0

.0

100.0

4

.0

.0

.0

100.0

.0

100.0

5

.0

.0

.0

.0

100.0

100.0

交叉验证a

计数

1

7

0

0

0

0

7

2

0

3

0

3

0

6

3

0

0

3

0

2

5

4

0

1

0

0

0

1

5

0

0

1

0

0

1

%

1

100.0

.0

.0

.0

.0

100.0

2

.0

50.0

.0

50.0

.0

100.0

3

.0

.0

60.0

.0

40.0

100.0

4

.0

100.0

.0

.0

.0

100.0

5

.0

.0

100.0

.0

.0

100.0

a.仅对分析中的案例进行交叉验证。

在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。

b.已对初始分组案例中的100.0%个进行了正确分类。

c.已对交叉验证分组案例中的65.0%个进行了正确分类。

由上表说明,100%的判别率证明上述得出的聚类的结果分类成功。

下面通过主成分分析欲找出其主要作用的几个成分。

KMO和Bartlett的检验

取样足够度的Kaiser-Meyer-Olkin度量。

.490

Bartlett的球形度检验

近似卡方

250.709

df

91

Sig.

.000

取样足够度的Kaiser-Meyer-Olkin度量才达到了0.49说明不太适合做主成分分析,但是sig值小于0.000说明可以做主成分分析。

 

解释的总方差

成份

初始特征值

提取平方和载入

旋转平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

合计

方差的%

累积%

1

6.606

47.187

47.187

6.606

47.187

47.187

5.899

42.137

42.137

2

1.761

12.582

59.769

1.761

12.582

59.769

1.831

13.079

55.216

3

1.603

11.449

71.218

1.603

11.449

71.218

1.660

11.856

67.072

4

1.052

7.512

78.730

1.052

7.512

78.730

1.411

10.078

77.150

5

.974

6.956

85.686

.974

6.956

85.686

1.195

8.536

85.686

6

.701

5.004

90.690

7

.395

2.821

93.511

8

.343

2.451

95.962

9

.291

2.076

98.038

10

.163

1.165

99.203

11

.060

.432

99.635

12

.031

.221

99.855

13

.017

.122

99.978

14

.003

.022

100.000

提取方法:

主成份分析。

通过解释的总方差可以看出第1,2,3,4,5成分对结果影响很大。

其中第一个主成分的特征根为6.606,占总特征根的的比例(方差贡献率)为47.187%,而前五个主成分方差贡献率的和为85.686%。

这表示第一个主成分解释了原始15个变量85.686%的信息,可见第一个主成分对原来的15个变量解释的已经很充分了。

而下面这张碎石图也很好地证明了这一观点。

 

 

成份矩阵a

成份

1

2

3

4

5

射正

.948

.038

.206

.041

-.141

传球

.928

-.079

-.178

-.051

-.188

射门

.922

-.004

.205

.262

-.112

传球成功率

.895

.004

-.166

-.136

-.241

进球

.855

-.076

.273

-.193

-.100

半场

.847

-.153

.229

-.317

.033

角球

.840

-.078

.101

.291

.078

失球

-.730

-.277

.115

.043

-.352

抢断成功率

.230

.781

.178

-.086

.034

越位

.374

.560

-.220

.513

.352

红牌

-.086

-.555

.518

.538

-.048

犯规

-.359

.305

.691

.148

-.011

黄牌

-.335

.352

.660

-.305

-.048

抢断

.260

-.438

.219

-.247

.760

提取方法:

主成份。

a.已提取了5个成份。

通过上面的成分矩阵可以列出:

Y1=0.948X1+0.928X2+0.922X3+0.895X4+0.855X5+0.847X6+0.840X7-0.730X8+0.230X9+0.374X10-0.086X11-0.359X12-0.355X13+0.260X14

Y2=0.038X1-0.079X2-0.004X3-0.004X4+0.943X5+0.842X6-0.375X7+0.946X8+0.910X9+0.248X10+0.209X11+0.353X12-0.339X13-0.080X14

……

Y5=0.948X1+0.842X2-0.741X3+0.916X4+0.943X5+0.842X6-0.375X7+0.946X8+0.910X9+0.248X10+0.209X11+0.353X12-0.339X13-0.080X14

运用MANOVA分析:

多变量检验b

效应

F

假设df

误差df

Sig.

截距

Pillai的跟踪

1.000

3044.123a

15.000

5.000

.000

Wilks的Lambda

.000

3044.123a

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 视频讲堂

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1