北航数理统计回归分析大作业Word格式.docx

上传人:b****6 文档编号:21076002 上传时间:2023-01-27 格式:DOCX 页数:30 大小:280.82KB
下载 相关 举报
北航数理统计回归分析大作业Word格式.docx_第1页
第1页 / 共30页
北航数理统计回归分析大作业Word格式.docx_第2页
第2页 / 共30页
北航数理统计回归分析大作业Word格式.docx_第3页
第3页 / 共30页
北航数理统计回归分析大作业Word格式.docx_第4页
第4页 / 共30页
北航数理统计回归分析大作业Word格式.docx_第5页
第5页 / 共30页
点击查看更多>>
下载资源
资源描述

北航数理统计回归分析大作业Word格式.docx

《北航数理统计回归分析大作业Word格式.docx》由会员分享,可在线阅读,更多相关《北航数理统计回归分析大作业Word格式.docx(30页珍藏版)》请在冰豆网上搜索。

北航数理统计回归分析大作业Word格式.docx

农业

受灾面积(千公顷)

建筑业

人口

(万人)

社会商品零售总额(亿元)

国民生产总值(亿元)

1990

18689.22

7662.1

38474

1345

114333

8300.1

2937.1

18718.3

1991

22088.68

8157

55472

1564.3

115823

9415.6

3149.48

21826.2

1992

27724.21

9084.7

51333

2174.4

117171

10993.7

3483.37

26937.3

1993

39693

10995.5

48829

3253.5

118517

14270.4

4348.95

35260.0

1994

51353.03

15750.5

55043

4653.3

119850

18622.9

5218.1

48108.5

1995

54946.86

20340.9

45821

5793.8

121121

23613.8

6242.2

59810.5

1996

62740.16

22353.7

46989

8282.2

122389

28360.2

7407.99

70142.5

1997

68352.68

23788.4

53429

9126.5

123626

31252.9

8651.14

78060.8

1998

67737.14

24541.9

50145

10062

124761

33378.1

9875.95

83024.3

1999

72707.04

24519.1

49981

11152.9

125786

35647.9

11444.08

88479.2

2000

85673.66

24915.8

54688

12497.6

126743

39105.7

13395.23

98000.5

2001

95448.98

26179.6

52215

15361.5

127627

43055.4

16386.04

108068.2

2002

110776.48

27390.8

47119.1

18527.1

128453

48135.9

18903.64

119095.7

2003

142271.22

29691.8

54506.3

23083.8

129227

52516.3

21715.25

135174.0

2004

201722.19

36239

37106.256

27745.3

129988

59501

26396.47

159586.7

2005

251619.5

39450.9

38818.225

34552.0

130756

67176.6

31649.29

185808.6

2006

316588.96

40810.8

41091.41

41557.1

131448

76410

38760.2

217522.7

2007

405177.13

48892.9

35972.23

51043.7

132129

89210

51321.78

267763.7

2008

130260.2

33702.0

56234.26

18743.2

132802

116032

61330.35

316228.8

2009

135239.9

35226.0

50223.51

22398.8

133474

14894

68518.30

343464.7

2.2模型的建立与分析

将数据录入统计软件excel,建立统计数据库,先建立财政收入与各变量的散点图,如图2-1至图2-7所示。

图2-1财政收入与工业总产值的散点图

图2-2财政收入与农业总产值的散点图

图2-3财政收入与受灾面积的散点图

图2-4财政收入与建筑业的散点图

图2-5财政收入与人口总数的散点图

图2-6财政收入与商品零售总额的散点图

图2-7财政收入与国内总产值的散点图

从散点图中看出,国内生产总值、工业生产总值、农业、建筑业、商品零售总额这四个变量与财政收入总量基本呈线性分布;

而人口总数虽然也与财政收入存在正比的关系,但是从直观上看线性关系不显著,并且人口因素呈现指数关系。

受灾面积与财政收入总量的关系不明显。

因此为使得到的模型有显著的线性关系,在选取进入回归模型的自变量时,就要进行筛选。

下面给出筛选过程。

(1)将国内生产总值、农业、工业生产总值、建筑业和商品零售总额纳入自变量,逐步回归法,输出结果如图2-8(a)(b)所示。

从结果可以看出,该回归的F值为1600.595,查表得

,显而易见,回归的显著性很好;

但是由于在这里我们要分析的是影响财政收入的具体产业,而该结果只说明了财政收入与国民生产总值的相关性很好,并不能说明问题的根本所在。

所以在下面的分析中我们将剔除国民生产总值这个因素做进一步的分析。

Anovab

模型

平方和

df

均方

F

Sig.

1

回归

7.506E9

1600.595

.000a

残差

8.441E7

18

4689341.382

总计

7.590E9

19

a.预测变量:

(常量),国民生产总值

b.因变量:

财政收入

模型汇总b

R

R方

调整

标准估计

的误差

更改统计量

Durbin-

Watson

R方更改

F更改

df1

df2

Sig.F更改

.994a

.989

.988

2165.489

.000

.200

图2-8(a)(b)输出结果

(2)将工业生产总值、农工、建筑业和商品零售总额纳入自变量,逐步回归法,输出结果如图2-9(a)(b)(c)所示。

4.757E9

30.215

2.834E9

1.574E8

(常量),农业

调整

Durbin

-Watson

.792a

.627

.606

12546.807

.390

图2-9(a)(b)(c)输出结果

从结果可以看出,该回归的F值为30.215,查表得

但是对回归系数的显著性来说,从直方图中可以看出,采用以上三个变量作为自变量得到的线性模型仍不是很好。

这个模型也不是理想中的模型,所以下面我们试图根据我们的判断对样本数据进行筛选,力求得出比较理想的模型。

(3)下面我将农业这个变量暂且剔除,只采用工业、建筑业和商品零售总额作为自变量,采用逐步回归法,输出结果如图2-10(a)(b)所示。

从结果可以看出,该回归的F值为20.219,查表得

但是对回归系数的显著性来说,建筑业的t检验值为0.0002,查表得

,显然回归系数的显著性不好。

以上检验得到的与利用P值法(图中的Sig值)得到的检验结果相符。

因此,采用以上三个变量作为自变量得到的线性模型仍不是很好。

同时可以看出,只对建筑业做回归分析时,F值为20.19,查表得到

,这证明一元回归模型和回归系数的显著性都很好。

4.015E9

20.219

3.575E9

1.986E8

(常量),建筑业

.727a

.529

.503

14092.439

.546

图2-10(a)(b)输出结果

(4)只将工业和商品零售总额纳入自变量,输出结果如图2-11(a)(b)所示。

3.498E9

15.390

.001a

4.092E9

2.273E8

(常量),工业。

系数a

非标准化系数

标准系数

t

共线性统计量

B

标准误差

试用版

容差

VIF

(常量)

4994.365

5206.020

.959

.350

.132

.034

.679

3.923

.001

1.000

a.因变量:

图2-11(a)(b)输出结果

从上图结果中可以看出,对这两个变量做回归分析时,F值为15.39,证明一元回归模型和回归系数的显著性都很好。

2.3分析结果

由以上筛选和分析过程可以看出,财政收入Y分别对X7国内总产值、X1工业总产值、X4建筑业及商品零售总额X6进行一元回归分析时,其回归的显著性都很好,但是综合为一个多元回归模型时,则出现了某些系数不显著的现象。

综合比较选取的几个多元模型,将X4建筑业和X6商品零售总额纳入自变量时得到的模型效果最为显著,回归方程如下:

其中

3结论

本次大作业,根据查阅中国统计年鉴,列举了影响财政收入的7个因素。

从直观上考虑,人口总量与受灾面积与财政收入存在线性关系,所以特意把这两个变量列到其中,但是散点图和回归效果显示这2个因素并没有进入逐步回归模型中,由此看来,这两项因素与财政收入存在的关系可能不是严格线性的,或者这种线性关系是长期的线性关系。

另外,在对进入模型的5个因素进行回归时发现,因变量对单独变量的回归性很显著,但是整合成多元回归出现了某些回归系数不显著的现象,具体原因可能是由于数据选取的太少,未能体现出长期线性这一特点。

虽然得到的几个模型系数都不是很显著,但经综合比较,选取了一个较为显著的模型作为最“优”解。

对得到的最“优”回归模型做预测,置信度为95%。

查阅中国统计年鉴,得到2009年的X4建筑业为22398.8(亿元),X6商品零售总额为14894(亿元),Y财政收入为68518.30(亿元),将自变量带入回归方程:

预测区间为

代入数值得到置信度为95%的预测区间为

,与查得的2009年能源消耗总量68518.30(亿元)比较接近。

得到的数据模型显示财政收入与建筑业、商品零售额有着密切的关系,这也很符合目前国家的经济状况。

不过由于调研时间有限,上述回归模型存在一些不足,还需要不断查阅资料加以改进。

但在一定程度上体现了与选取的自变量之间的线性关系,并能对因变量做出近似的预测。

综合来看,数据模型基本达到了预期的目的。

参考文献

[1]孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京:

北京航空航天大学数学系,1999.

[2]张建同,孙昌言.以Excel和SPSS为工具的管理统计[M].北京:

清华大学出版社,2002.

[3]国家统计局.2010年中国统计年鉴[M].中国统计出版社,2010.

逐步回归法建立纳斯达克股市指数回归模型

一问题描述

为了研究纳斯达克股市的变化规律,建立回归方程,分析影响股票价格趋势变动的因素。

这里我们选了3个影响股票价格指数的经济变量:

x1是成交额(万$),x2是国际贸易金额(100万$),x3是美元汇率。

本例选择成交额x1来反映市场状况。

Y为股票指数。

本例采集了以上变量1996---2007年12年的数据资料,如表1所示。

表11996---2007年纳斯达克股市指数

年份

股票指数

X1是美元

汇率

x2是国际

贸易金额

x3是成交额

x4优惠利率

3849.08

556.10

85.85

89468.10

113.96

2531.73

317.40

30.17

74462.60

170.66

2262.34

302.10

26.20

67884.60

188.42

1059.94

253.60

3.33

34634.40

70.19

1488.78

279.90

10.78

46759.40

97.45

1877.95

290.60

20.37

58478.10

162.84

7242.60

1333.50

347.85

136875.90

93.42

2949.06

340.80

48.03

78345.20

141.85

3349.04

413.40

62.90

82067.50

125.87

4637.66

719.10

128.09

97314.80

112.89

5480.03

903.40

172.55

105172.30

127.28

6208.27

1108.60

259.01

117390.20

104.59

二异方差问题分析

1.异方差模型

经典线性回归模型可以表示为

,假设有n组观察值

,则原模型方程可表示为:

在经典线性回归模型中,假设随机误差项

是一个随机变量,且服从数学期望为零,方差为一常数的正态分布,即

,这一假设称为随机误差项

的同方差性假设。

另外还假设不同观察值的随机误差项之间是不相关的,而且随机误差项与

项不趋于共同变化。

但在实际的经济问题中,上述假设不一定满足。

比如,当自变量

变化较大时(如在一些横截面数据中),

的方差可能随

的变化而变化;

而当

之间存在一定的顺序关系时(如在时间序列中),

可能与

并不独立(j

i)。

当同方差(homoscedasticity)或等方差(equalvariance)性假定不满足,也就是说,随机误差项

的方差不等于一个常数,即

则称随机误差项

具有异方差(heteroscedasticity)或非同方差(unequalvariance)性。

在模型(1-3)中,除随机误差项具有异方差性外,其它基本假设都能满足,则称这种模型为异方差的线性回归模型,简称异方差模型。

2异方差性的后果

变量的显著性检验失去意义,在多元线性回归模型的显著性检验中,构造了t统计量,在该统计量中包含有随机误差项共同的方差

并且有t统计量服从自由度为(n-k-1)的t分布.如果出现了异方差性,t检验就失去意义.采用其它检验也是如此.

模型的预测失效,一方面,由于上述后果,使得模型不具有良好的统计性质;

另一方面,在预测值的置信区间中也包含有随机误差项共同的方差

,所以当模型出现异方差性时,它的预测功能失效.

3异方差性检验

(1)残差图分析法

残差图分析法是一种直观、方便的分析法,它以残差e为纵坐标,以任何其他的量为横坐标画散点图。

常用的横坐标有有三种选择:

以拟合值为横坐标;

以Xi为横坐标,i=1,2………p;

以观察时间或序号为横坐标。

一般情况下,当回归模型满足所有假设时,残差图上的n个点的散布会应是随机的,无任何规律的。

如果回归模型存在异方差,残差图上的点的散步会呈现相应的趋势。

(2)等级相关系数法

等级相关系数检验法又称斯皮尔曼(spearman)

检验,是一种应用较广泛的方法。

这种检验法既可用于大样本,又可用于小样本。

(3)格莱斯尔(Glejser)检验

格莱斯尔检验的中心思想是随机项的估计值e与自变量是有关系的,是自变量的函数,它随J值的增减而变化。

进行格莱斯尔检验主要有两个步骤:

1)以所有解释变量Xi来解释被解释量y,估计其参数,计算出随机项的估计值e。

2)以e为被解释变量,以某个解释变量Xi为解释变量,建立如下方程:

以Xi的不同幂次的形式f(Xi),分别估计两个参数

,选择最佳的拟合形式,并对它们的显著性进行检验。

如果它们显著性不为0,则认为异方差性存在,因为随机项与Xi存在相关性。

否则就具有同方差性。

4异方差性问题的处理方法

当研究的问题存在异方差性时,就违背了线性回归模型的假设。

此时,就不能用普通最小二乘法进行参数估计,必须寻求适当的补救方法,对原来的模型进行变换,使变换后的模型满足同方差性假设,然后进行模型参数的估计,就可到理想的回归模型。

消除异方差性的方法通常有加权最小二乘法(WeightedLeastSquare)、BOX-COX变换法、方差稳定性变换法。

在SPSS软件中提供了加权最小二乘法。

三多重共线性分析

在多元线性回归模型的基本假设中,假定解释变量之间不存在密切的线性关系。

如果存在,则称它们存在多重共线性(Multi-Collinearity)。

1多重共线性带来的问题

当回归模型存在多重共线性时,有rk(x)<

p+1,所以

不存在。

这样参数向量的

也不存在,

对角线元素较大,所以参数向量的协方差也很大。

这样虽然用OLSE还能得到参数向量的无偏估计,不能正确判断解释变量的影响程度,使估计精度降低,并且估计结果的波动性很大,这严重影响了估计量的经济意义解释。

2多重共线性的诊断

本文介绍三种诊断方法

(1)判定系数法

设有p个自变量的回归模型为:

y=f(x1,x2,……..,xp),为了诊断多重共线性,使模型中每一个解释变量分别为其余解释变量作为解释变量构造p个回归方程:

X1=f(X2,X3,……Xp);

X2=f(X1,X2,…Xp);

……

Xj=f(X1,X2,….Xj-1,Xj+1,…Xp);

Xp=f(X1,X1,…..Xp)

对上述p个方程进行参数估计,并计算样本决定系数。

若这些决定系数中的最大者接近1,比如说

,则说明该变量Xj可以用其他解释变量线性表示,则存在多重共线性。

并且还同时找出了多重共线性的表达式。

这种方法比较适合于解释变量少的模型。

这种方法可以在SPSS软件上完成。

(2)条件数

被称为方差

的条件数(ConditionNumber).利用条件数可以度量

的特征根散布程度,可以用它来判断多重共线性是否存在以及多重共线性的严重程度。

通常认为0<

k<

100时,设计矩阵X没有多重共线性;

100<

1000时,认为X存在较强的多重共线性;

当k>

1000,则认为存在严重的多重共线性。

在SPSS软件中没有该方法。

(3)方差扩大因子

为Xj对其余p-1个变量的复相关系数,则

被称为方差扩大因子(VarianceinflationFactor,简记为VIF)。

如果记

的方差仅差一个因子,

是由两个因子

构成,且

与OLSE

的方差仅差一个因子。

因为

度量了自变量Xj与其余p-1个自变量的线性依赖度,这种相关程度越强

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 哲学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1