线性回归模型的研究学士学位论文.docx

资源描述

线性回归模型的研究学士学位论文.docx

《线性回归模型的研究学士学位论文.docx》由会员分享，可在线阅读，更多相关《线性回归模型的研究学士学位论文.docx（18页珍藏版）》请在冰豆网上搜索。

线性回归模型的研究学士学位论文.docx

线性回归模型的研究学士学位论文

线性回归模型的研究

学院：

理学院班级：

金融数学10本姓名：

俞超迪指导老师：

杨毅

【摘要】：

本文首先对回归分析的定义、主要内容、基本思想、实现过程进行了阐述，指出了它的优点及存在的问题。

对NBA比赛中的各因素和中国人口的预测进行了研究。

最后对整篇文章做了个总结。

【关键词】：

回归分析；回归模型；检验；预测

1引言

回归分析最早是由19世纪末期高尔顿（Sir Francis Galton）发展的。

1855年，他发表了一篇文章名为“遗传的身高向平均数方向的回归”，分析父母与其孩子之间身高的关系，发现父母的身高越高或的其孩子也越高，反之则越矮。

他把儿子跟父母身高这种现象拟合成一种线性关系。

但是他还发现了个有趣的现象，高个子的人生出来的儿子往往比他父亲矮一点更趋向于平均身高，矮个子的人生出来的儿子通常比他父亲高一点也趋向于平均身高。

高尔顿选用“回归”一词，把这一现象叫做“向平均数方向的回归”。

于是“线形回归”的术语被沿用下来了。

回归分析中，当研究的因果关系只涉及因变量和一个自变量时，叫做一元回归分析；当研究的因果关系涉及因变量和两个或两个以上自变量时，叫做多元回归分析。

此外，回归分析中，又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的，分为线性回归分析和非线性回归分析。

按照参数估计方法可以分为主成分回归、偏最小二乘回归、和岭回归。

一般采用线性回归分析，由自变量和规定因变量来确定变量之间的因果关系，从而建立线性回归模型。

模型的各个参数可以根据实测数据解。

接着评价回归模型能否够很好的拟合实际数据；如果不能够很好的拟合，则重新拟合；如果能很好的拟合，就可以根据自变量进行下一步推测。

回归分析是重要的统计推断方法。

在实际应用中，医学、农业、生物、林业、金融、管理、经济、社会等诸多方面随着科学的发展都需要运用到这个方法。

从而推动了回归分析的快速发展。

2回归分析的概述

2.1回归分析的定义

回归分析是应用极其广泛的数据分析方法之一。

回归分析（regressionanalysis）是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。

2.2回归分析的主要内容

（1）从一组数据出发，确定某些变量之间的定量关系式，即建立数学模型并估计其中的未知参数。

估计参数的常用方法是最小二乘法。

（2）对这些关系式的可信程度进行检验。

（3）在许多自变量共同影响着一个因变量的关系中，判断哪个（或哪些）自变量的影响是显著的，哪些自变量的影响是不显著的，将影响显著的自变量选入模型中，而剔除影响不显著的变量，通常用逐步回归、向前回归和向后回归等方法。

（4）利用所求的关系式对某一生产过程进行预测或控制。

回归分析的应用是非常广泛的，统计软件包使各种回归方法计算十分方便。

2.3一元线性回归与多元线性回归的分析

一元线性回归模型,是分析两个变量之间相互关系的数学方程式,其一般表达式为y=a+bx式中,y表示因变量的估计值,x表示自变量,a,b称为回归模型的待定参数,其中b又称为回归系数。

上述的回归方程式在平面坐标系中表现为一条直线即回归直线。

当b>0时y随x的增加而增加,两变量之间为正相关关系;当b<0时,y随x的增加而减少,两变量之间为负相关关系;当y为一个常量时,不随x的变动而变动。

这样就为我们判断现象之间的关系,分析现象之间是否处于正常状态提供了一条标准。

多元线性回归模型旨在分析两个或者两个以上的自变量作用后产生的结果,即多个自变量下的因变量结果,研究的是随机变量y与多个普通变量x1,x2,…xp,（p≥2）,的相关关系。

表达式为y=β0+β1x1+β2x2+…βpxp+ε，对随机误差项ε常假定E（ε）=0,Var（ε）=σ2。

并且称E（y）=β0+β1x1+β2x2+…βpxp为理论回归方程。

在实际应用中，如果获得n组观测数据（xi1,xi2,…,xip;yi）,i=1,2,…,n,则线性回归模型变为y=β0+β1xi1+β2xi2+…βpxip+εi。

并且，量y与自变量x之间的关系往往是非线性关系，而不是简单的线性关系。

但在非线性回归分析研究实际问题时,往往选择可以通过一定变换后能转换成线性关系的研究模型，从而避免了非线性回归分析的计算的复杂性。

随着技术的不断进步，研究过程中经常运用到计算机，复杂的非线性回归分析模型也将被应用在研究中，而且会越来越频繁。

2.4回归分析的基本思想

在回归分析中，把变量分为两类。

一类是因变量，它们通常是实际问题中所关心的一类指标，通常用Y表示；而影响因变量取值的的另一类变量称为自变量，用X来表示。

回归分析研究的主要问题是：

（1）确定Y与X间的定量关系表达式，这种表达式称为回归方程；

（2）对求得的回归方程的可信度进行检验；

（3）判断自变量X对因变量Y有无影响；

（4）利用所求得的回归方程进行预测和控制。

2.5回归分析的实现过程

（1）确定变量：

明确预测的具体目标，也就确定了因变量。

如预测具体目标是下一年度的销售量，那么销售量Y就是因变量。

通过市场调查和查阅资料，寻找与预测目标的相关影响因素，即自变量，并从中选出主要的影响因素。

（2）建立预测模型：

依据自变量和因变量的历史统计资料进行计算，在此基础上建立回归分析方程，即回归分析预测模型。

（3）进行相关分析：

回归分析是对具有因果关系的影响因素（自变量）和预测对象（因变量）所进行的数理统计分析处理。

只有当变量与因变量确实存在某种关系时，建立的回归方

程才有意义。

因此，作为自变量的因素与作为因变量的预测对象是否有关，相关程度如何，

以及判断这种相关程度的把握性多大，就成为进行回归分析必须要解决的问题。

进行相关分析，一般要求出相关关系，以相关系数的大小来判断自变量和因变量的相关的程度。

（4）计算误差量：

回归预测模型是否可用于实际预测，取决于对回归预测模型的检验和对预测误差的计算。

回归方程只有通过各种检验，且预测误差较小，才能将回归方程作为预测模型进行预测。

（5）确定预测值：

利用回归预测模型计算预测值，并对预测值进行综合分析，确定最后的预测值。

2.6回归分析的优缺点

回归分析的优点是在分析多个因素模型的时候，更加的简单有效，可以准确的计量多个因素之间的相关程度与回归拟合程度的高低，从而提高预测方程式的准确性。

但有时候在回归分析中，选用何种因子和该因子采用何种表达式只是一种推测，这影响了因子的多样性和某些因子的不可测性，使得回归分析在某些情况下受到限制。

3回归分析的应用

3.1一元线性回归分析

中国人口发展的第四个高峰期是在新中国建立之后的50年。

在这一时期里，中国人口的大展呈现着许多复杂的特点，而且这些特点都与中国历史时期人口有着密切的关系

人口问题一直是一个全球性问题，也是中国经济社会发展和可持续发展的一个基本问题。

2010年，中国人口总数已经达到134091万，全世界大约683059万人。

全世界平均五个人中就有一个是中国人。

中国人口的特点是基数大、育龄人群和农村人口的比重高、增长速度较快而且地区分布不均匀。

虽然中国人口基数大，但是每年净增人口数也很大。

那么未来人口增长趋势如何呢，未来男性比重、人口老龄化趋势、城市人口比重又如何呢？

查阅大量资料得到以下数据

年份

总人口（万）

男性人口比重（%）

城市人口比重（%）

1996

122389

50.82

30.48

1997

123626

51.07

31.91

1998

124761

51.25

33.35

1999

125786

51.43

34.78

2000

126743

51.63

36.22

2001

127627

51.46

37.66

2002

128453

51.47

39.09

2003

129227

51.50

40.53

2004

129988

51.52

41.76

2005

130756

51.53

42.99

2006

131448

51.52

44.34

2007

132129

51.50

45.89

2008

132802

51.47

46.99

2009

133450

51.44

48.34

2010

134091

51.27

49.95

2011

134735

51.26

51.27

观察历年总人口散点图，发现变量间呈线性相关趋势，所以应该选取一元线性回归的方法。

通过spss软件回归分析得到下图

模型拟合度检验

模型汇总b

模型

R方

调整R方

标准估计的误差

.995a

.990

.989

393.666

a.预测变量:

（常量）,年份。

b.因变量:

总人口

其中第二列R表示复相关系数，其反映的是自变量与因变量之间的密切程度。

其值在0到1之间，越大越好。

第三列R方是复相关系数的平方，又称决定系数。

通过观察这几个数据，可知拟合情况很好。

方差分析表

Anovaa

模型

平方和

均方

Sig.

回归

217948139.136

1406.364

.000b

残差

2169618.301

154972.736

总计

220117757.438

a.因变量:

总人口

b.预测变量:

（常量）,年份。

从上图中可知，回归模型的Sig值为0，说明该模型有显著的统计意义。

系数a

模型

非标准化系数

标准系数

Sig.

标准误差

试用版

（常量）

-1474830.963

42773.884

-34.480

.000

年份

800.640

21.350

.995

37.502

.000

a.因变量:

总人口

根据上图得到拟合的结果为总人口=年份*800.640-1474830.963。

但是一个完整的回归分析过程还包括利用残差分析，对拟合结果进行检验。

下图中所示的是与残差值有关的一些统计量，包括预测值及标准化的预测值、残差及残差的预测值的最小值、最大值、均值、标准差和样本值。

这些数据中无离群值，且数据的标准差也比较小，可以认为模型是健康的。

残差统计量a

极小值

极大值

均值

标准偏差

预测值

123245.89

135255.48

129250.69

3811.807

残差

-856.890

403.272

.000

380.317

标准预测值

-1.575

1.575

.000

1.000

标准残差

-2.177

1.024

.000

.966

a.因变量:

总人口

对于模型的检验，除了分析残差统计量之外，还可以直接作出标准化残差值的直方图和正态P-P图来观察其是否服从正态分布。

如下图所示，由于残差具有正态分布的趋势。

因此可以认为这里的回归模型是恰当的。

观察历年城市人口比重散点图，发现变量间呈线性相关趋势，所以应该选取一元线性回归的方法。

通过spss软件回归分析得到下图

模型拟合度检验

模型汇总b

模型

R方

调整R方

标准估计的误差

1.000a

1.000

.13627

a.预测变量:

（常量）,年份。

b.因变量:

城市人口比重

通过观察这几个数据可知拟合度很好。

Anovaa

模型

平方和

均方

Sig.

回归

643.046

34629.231

.000b

残差

.260

.019

总计

643.306

a.因变量:

城市人口比重

b.预测变量:

（常量）,年份。

回归模型的Sig值为0，说明该模型具有显著的统计意义。

系数a

模型

非标准化系数

标准系数

Sig.

标准误差

试用版

（常量）

-2714.342

14.806

-183.322

.000

年份

1.375

.007

1.000

186.089

.000

a.因变量:

城市人口比重

拟合的结果为城市人口比重=年份*1.375-2714.342。

同样可以通过以上两种方法对拟合结果进行检验，发现该回归模型是恰当的。

结论

通过建立回归模型可以预测未来几年内中国人口，中国人口一直呈现上升趋势，上升速度基本平缓，没有出现很大的波动，但上升幅度有略微的下降。

同样通过回归模型能够预测未来几年内中国城市人口比重，中国城市人口比重也一直呈现上升趋势，上升速度快，城市人口越来越多，已经超过50%，未来几年内还会继续上升，没有下跌的趋势，而且上升幅度基本不变。

结合实际情况，比如“计划生育”方面可以改善一下，适当的放宽要求。

3.2多元线性回归分析

篮球运动是一项热门的竞技体育运动项目，由两队参与的球类运动。

篮球比赛强调篮球运动员之间的配合来完成比赛。

而篮球运动对运动员的技战术和身体素质要求越来越高，尤其是当今世界篮球水平最高的联赛是美国的国家篮球协会（NBA），其对技术的要求比起其他赛事更高。

优秀的篮球技术是战术运用的基础。

传统上把篮球技术分为进攻技术和防守技术两种，包括移动动作、控制球权、支配球权和争夺球权，当然也包括由这些动作随意组合所组成的动作体系。

众所周知，影响每一场比赛胜负的原因有很多，既有偶然性，但更多的是必然性的。

那么是哪些主要的技战术动作主导着NBA2012-2013赛季季后赛每支参赛球队的最终排名呢？

从而能够提高这些技战术动作能力来提高排名。

通过对NBA2012-2013赛季季后赛数据的进行回归分析就能得到答案。

NBA季后赛是世界最高水平的比赛，各支球队以夺取总冠军为最高荣誉和目标，而且NBA比赛也为各支球队的战术、实力的表现提供了平台。

之所以NBA的吸引力大是因为比赛精彩，战术、球员能力高。

根据NBA中文官方网站提供的数据统计情况，发现有总投篮出手、投篮命中率、三分球命中率、罚球命中率、助攻、得分六项指标来评价球队进攻能力。

发现有篮板、抢断、盖帽、失分四项指标来评价球队的防守能力。

发现有失误、犯规、失格三项指标来评价球队的违规控制能力。

NBA2012-2013赛季季后赛各球队进攻能力六项指标

成绩

球队

总投篮出手

投篮命中率

三分球命中率

罚球命中率

助攻

得分

总冠军

热火

76.6

0.468

0.4

0.768

20.6

97.1

西部冠军

马刺

82.2

0.463

0.4

0.763

21.9

100.3

西部决赛

灰熊

81.5

0.418

0.3

0.748

19.3

94.7

东部决赛

步行者

78.5

0.433

0.3

0.740

17.5

91.8

第二轮

雷霆

81.6

0.427

0.3

0.838

18.1

98.5

第二轮

勇士

84.4

0.462

0.4

0.736

21.7

102.7

第二轮

公牛

79.9

0.438

0.3

0.720

19.5

91.9

第二轮

尼克斯

81.0

0.410

0.3

0.782

15.1

88.6

第一轮

老鹰

77.3

0.422

0.3

0.682

17.0

89.3

第一轮

篮网

83.7

0.442

0.3

0.758

20.2

99.4

第一轮

凯尔特人

82.3

0.413

0.3

0.860

16.8

90.6

第一轮

雄鹿

76.8

0.433

0.3

0.630

19.8

93.2

第一轮

火箭

81.0

0.424

0.3

0.711

18.0

100.0

第一轮

快船

75.3

0.467

0.3

0.782

18.0

94.7

第一轮

掘金

84.8

0.438

0.3

0.730

21.2

103.0

第一轮

湖人

78.0

0.442

0.3

0.608

18.5

85.3

NBA2012-2013赛季季后赛各球队防守能力四项指标

成绩

球队

篮板

抢断

盖帽

失分

总冠军

热火

38.1

8.3

5.4

90.7

西部冠军

马刺

42.6

7.9

5.0

93.3

西部决赛

灰熊

41.7

7.3

4.6

94.1

东部决赛

步行者

45.6

5.4

4.5

91.6

第二轮

雷霆

42.9

6.0

7.0

97.1

第二轮

勇士

46.1

6.4

4.9

102.5

第二轮

公牛

40.8

6.4

4.6

98.6

第二轮

尼克斯

39.5

8.8

4.3

85.9

第一轮

老鹰

38.3

7.3

3.8

94.5

第一轮

篮网

42.1

6.3

5.6

97.4

第一轮

凯尔特人

39.0

5.5

3.0

87.7

第一轮

雄鹿

34.8

10.0

2.5

100.0

第一轮

火箭

43.5

5.8

5.5

105.8

第一轮

快船

37.2

5.2

5.7

100.2

第一轮

掘金

38.7

9.0

2.8

107.2

第一轮

湖人

40.0

5.8

5.3

104.0

NBA2012-2013赛季季后赛各球队违规控制能力三项指标

成绩

球队

失误

犯规

失格

总冠军

热火

13.1

22.2

0.1

西部冠军

马刺

12.9

19.1

0.0

西部决赛

灰熊

10.7

22.1

0.1

东部决赛

步行者

16.4

22.4

0.2

第二轮

雷霆

13.6

24.9

0.3

第二轮

勇士

16.5

23.8

0.3

第二轮

公牛

14.3

22.4

0.6

第二轮

尼克斯

11.6

23.8

0.4

第一轮

老鹰

12.2

24.2

0.2

第一轮

篮网

11.6

19.9

0.3

第一轮

凯尔特人

17.3

18.8

0.3

第一轮

雄鹿

16.3

19.8

0.0

第一轮

火箭

15.8

23.2

0.0

第一轮

快船

13.3

27.8

0.2

第一轮

掘金

14.5

23.2

0.3

第一轮

湖人

16.5

17.5

0.0

NBA2012-2013赛季季后赛各球队名称排名情况的影响因素分析

（1）确定影响NBA2012-2013赛季季后赛各球队的排名情况模型。

NBA2012-2013赛季季后赛各球队名称排名情况是综合因素的反映，令热火为第一名，马刺第二名，灰熊跟步行者并列第三名，雷霆、勇士、公牛、尼克斯并列第五名，老鹰、篮网、凯尔特人、雄鹿、火箭、快船、掘金、湖人并列第九。

设成绩为因变量Y.设总投篮出手、投篮命中率、三分球命中率、罚球命中率、助攻、得分、篮板、抢断、盖帽、失分、失误、犯规和失格为自变量，分别为X1，X2，X3，X4，X5，X6，X7，X8，X9，X10，X11，X12，X13。

（2）首先，分析各个待选变量的特制，以及对排名的影响程度，相关系数显著性检验代表解释变量X与被解释变量Y之间的相关程度，它越靠近1，说明两者相关程度越高，可以利用SPSS逐步筛选的方法进一步完成回归方程的建立。

依据下表可知，模型2的相关系数显著性检验R为0.606，决定系数R方为0.368，调整的决定系数为0.323；而模型2的相关性系数检验R为0.742，决定系数R为0.550，调整的决定系数为0.481，各值都比模型1更加接近于1。

所以模型2更加适合做线性回归模型，而且主要影响因素为x3和x10，其他因素经分析可以不考虑。

模型汇总

模型

R方

调整R方

标准估计的误差

.606a

.368

.323

2.455

.742b

.550

.481

2.149

a.预测变量:

（常量）,X3。

b.预测变量:

（常量）,X3,X10。

（2）建立NBA2012-2013赛季季后赛各球队的名次排名情况回归方程。

从下表中可知：

各列数据依次是非标准化回归系数B、非标准化回归系数的标准误差、标准化回归系数、回归系数显著性检验中T统计量的观测值、对应的概率sig。

因为常量sig值太大，所以选择标准系数，误差小，即自变量X3三分球命中率为-0.558，自变量X10失分为0.429,。

由此可知回归方程为Y=-0.316-0.558X3+0.429X10。

系数a

模型

非标准化系数

标准系数

Sig.

共线性统计量

标准误差

试用版

容差

VIF

（常量）

20.615

5.049

4.083

.001

-44.872

15.723

-.606

-2.854

.013

1.000

（常量）

-.316

10.142

-.031

.976

-41.320

13.855

-.558

-2.982

.011

.988

1.013

X10

.204

.089

.429

2.293

.039

.988

1.013

a.因变量:

（3）NBA2012-2013赛季季后赛各球队成绩排名与名次回归方程的Y分析。

依据对NBA2012-2013赛季季后赛各球队的名次回归方程Y与比赛成绩排名进行分析，各队名次回归方程Y排序情况与比赛成绩排名具有一定程度的相关关系，以NBA2012-2013赛季季后赛各球队的成绩做为效标，名次回归方程得分值排序情况Y与比赛成绩进行分析，经检验P小于0.01，本研究名次回归方程较好地反映NBA2012-2013赛季季后赛各球队的比赛成绩。

因此，各队教练员可以根据该方程的影响因素及影响程度，并结合球队实际情况分析自己球队跟其他球队相比所存在的优势及不足，从而针对性的进行技术训练，自己球队有优势的地方要保持并扩大，自己球队不足的地方得抓紧弥补，追上其他球队的步伐。

成绩

球队

名次回归方程Y

名次回归方程Y排序

总冠军

热火

38.3711

西部冠军

马刺

39.4865

西部决赛

灰熊

39.8855

东部决赛

步行者

38.813

第二轮

尼克斯

36.3677

第二轮

雷霆

41.1725

第二轮

公牛

41.816

第二轮

勇士

43.4333

第一轮

凯尔特人

37.1399

第一轮

老鹰

40.0571

第一轮

篮网

41.3012

第一轮

雄鹿

42.

展开阅读全文