回归分析在实际案例中的应用教材.docx

上传人:b****6 文档编号:8158834 上传时间:2023-01-29 格式:DOCX 页数:21 大小:168.84KB
下载 相关 举报
回归分析在实际案例中的应用教材.docx_第1页
第1页 / 共21页
回归分析在实际案例中的应用教材.docx_第2页
第2页 / 共21页
回归分析在实际案例中的应用教材.docx_第3页
第3页 / 共21页
回归分析在实际案例中的应用教材.docx_第4页
第4页 / 共21页
回归分析在实际案例中的应用教材.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

回归分析在实际案例中的应用教材.docx

《回归分析在实际案例中的应用教材.docx》由会员分享,可在线阅读,更多相关《回归分析在实际案例中的应用教材.docx(21页珍藏版)》请在冰豆网上搜索。

回归分析在实际案例中的应用教材.docx

回归分析在实际案例中的应用教材

重庆交通大学

现代测量数据

学生课题论文

 

课题名称:

回归分析在实际案例中的应用

指导老师:

刘国栋

学院:

土木工程学院

年级专业班:

2013级测绘工程一班

学生姓名:

陈涛

学生学号:

631301040116

课题学习时间:

2015年11月

 

目录

1、引言3

2、分类及要点说明4

2.1、分类4

2.2、要点说明4

3、回归分析模型及步骤5

3.1、回归模型5

3.2、回归分析步骤6

4、一元线性回归案例分析6

4.1、案例叙述6

4.2、数据输入与分析6

4.3、解算方法7

4.3.1、手动解算7

4.3.2、矩阵的MATLAB解算8

4.3.3、多项式法解算9

4.4、模型参数的显著性检验10

4.5、模型检验10

4.6、利用回归方程进行预测和预报控制13

5、多元线性回归案例分析14

5.1、案例叙述14

5.2、数据输入与分析15

5.3、解算方法17

5.4、模型参数的显著性检验18

5.5、模型检验19

5.6、利用回归方程进行预测和预报控制20

6、结论20

[参考文献]21

回归分析在实际案例中的应用

陈涛1

(1.重庆交通大学土木工程学院,重庆400074;)

摘要

数学是一门很重要的学科,许多的数学家研究出了各种定理、公式以及规律方法,并且都证明了它的正确性,应用这些定理公式及规律方法解决了许多疑难问题,回归分析就是其中之一。

回归分析是数学分析中的一个重要方法,这种方法可以从对大量数据的处理中得到函数规律从而建立数学模型,它在解决数据分析中的问题时应用广泛、灵活,是解决数据处理问题的一个强有力的工具;另外在解决一些大数据问题或者计算量较大的问题时,借助于一些辅助的数据处理软件会显得简单快捷的多,在这个大数据时代很多问题也必须借助于这些软件进行处理,这已经成为一种常态化,MATLAB就是这样的一种软件。

MATLAB可以通过编程实现几乎所有的数据处理问题,他强大的数据处理能力使得一些人工不能解算的大数据处理问题得以实现;本文将结合实际的案例利用MATLAB软件向大家介绍如何运用回归分析解决实际的问题。

关键词:

回归分析,一元回归,多元回归,MATLAB解算

1、引言

回归分析就是指利用数据统计原理,对大量统计数据进行数学处理,“加以去粗取精、去伪存真、由此及彼、由表及里的改造制作工夫”,从而得出反映事物内部规律性的东西。

并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化的数理统计分析分析方法。

现实世界中变量之间的关系可以分成两类,一类是确定关系,即我们常说的函数关系,这种关系可以使用函数来进行分析和描述;另一类是不确定关系,即我们常说的相关关系,如我们即将研究的大坝库水位和大坝沉陷量之间的关系和中国税收收入与“国内生产总值(GDP)”、“财政支出”、“商品零售物价指数”之间的关系。

2、分类及要点说明

2.1、分类

1、根据因变量和自变量的个数来分类:

一元回归分析;多元回归分析;

2、根据因变量和自变量的函数表达式来分类:

线性回归分析;非线性回归分析;

2.2、要点说明

1、通常情况下,线性回归分析是回归分析法中最基本的方法,当遇到非线性回归分析时,可以借助数学手段将其化为线性回归;因此,主要研究线性回归问题,一点线性回归问题得到解决,非线性回归也就迎刃而解了,例如,取对数使得乘法变成加法等;当然,有些非线性回归也可以直接进行,如多项式回归等;

2、在社会经济现象中,很难确定因变量和自变量之间的关系,它们大多是随机性的,只有通过大量统计观察才能找出其中的规律。

随机分析是利用统计学原理来描述随机变量相关关系的一种方法;

3、由回归分析法的定义知道,回归分析可以简单的理解为信息分析与预测。

信息即统计数据,分析即对信息进行数学处理,预测就是加以外推,也就是适当扩大已有自变量取值范围,并承认该回归方程在该扩大的定义域内成立,然后就可以在该定义域上取值进行“未来预测”。

当然,还可以对回归方程进行有效控制;

4、相关关系可以分为确定关系和不确定关系。

但是不论是确定关系或者不确定关系,只要有相关关系,都可以选择一适当的数学关系式,用以说明一个或几个变量变动时,另一变量或几个变量平均变动的情况。

3、回归分析模型及步骤

3.1、回归模型

1、确定变量之间是否存在相关关系,若存在,则找出数学表达式;

2、根据一个或几个变量的值,预测或控制另一个或几个变量的值,且要估计这种控制或预测可以达到何种精确度。

3.2、回归分析步骤

1、根据自变量与因变量的现有数据以及关系,初步设定回归方程;

2、求出合理的回归系数;

3、进行相关性检验,确定相关系数;

4、在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间;

4、一元线性回归案例分析

4.1、案例叙述

根据已知数据求出表示大坝库水位和大坝沉陷量之间的一元线性回归方程。

已知数据:

编号

库水位(m)

沉陷量(mm)

编号)

库水位(m)

沉陷量(mm)

1

102.714

-1.96

7

135.046

-5.46

2

95.154

-1.88

8

140.373

-5.69

3

114.364

-3.96

9

144.958

-3.94

4

120.170

-3.31

10

141.011

-5.82

5

126.630

-4.94

11

130.308

-4.18

6

129.393

-5.69

12

121.234

-2.90

4.2、数据输入与分析

设库水位为x,沉陷量y,将以上数据输入MATLAB中进行分析,利用matlab软件可以得到y关于x的散点图如图1所示:

由于提取的数据包含有其它各方面的影响因素,综合考虑其它因素的影响可以看y和x成线性相关关系,可以设库水位x与y为一元回归线性模型:

4.3、解算方法

4.3.1、手动解算

解:

计算

的值:

故回归方程为:

4.3.2、矩阵的MATLAB解算

在matlab中输入编码如下:

x=[102.71495.154114.364120.170126.630129.393135.046140.373144.958141.011];%输入x的数据

y=[-1.96-1.88-3.96-3.31-4.94-5.69-5.46-5.69-3.94-5.82];%输入y的数据

X=sum(x)/10;%求x数据的平均值

Y=sum(y)/10;%求y数据的平均值

A=ones(1,10)*X;%构建一个1行10列值为X的矩阵

B=ones(1,10)*Y;%构建一个1行10列值为Y的矩阵

Sx=x-A;%矩阵减法

Sy=y-B;%矩阵减法

Sxx=sum(Sx.*Sx);%对矩阵Sx中的值先平方再求和

Sxy=sum(Sx.*Sy);%矩阵Sx中的值与矩阵Sxy中的值先相乘再求和

P1=Sxy/Sxx;

P0=Y-X*P1;

结果输出:

P1=Sxy/Sxx

P1=

-0.0749

P0=Y-X*P1

P0=

5.0967

故回归模型为:

4.3.3、多项式法解算

在matlab中输入程序编码利用多项式解求参数:

x=[102.71495.154114.364120.170126.630129.393135.046140.373144.958141.011];%输入x的数据

y=[-1.96-1.88-3.96-3.31-4.94-5.69-5.46-5.69-3.94-5.82];%输入y的数据

[P,S]=polyfit(x,y,1);%确定多项式系数的MATLAB命令

结果输出:

P=

-0.07495.0967

故回归模型为:

4.4、模型参数的显著性检验

在matlab中输入以下的编码:

X=[ones(10,1),x'];%构建10行2列矩阵X,第一列值都为1,第二列为x的转置

[b,bint,r,rint,s]=regress(y',X);%计算y',X相关系数,分析其相关程度,以0.05的显著性水平检验相关系数的显著性

s2=sum(r.^2)/8;%r中值的平方求和除8

b,bint

结果输出:

b=

5.0967

-0.0749

bint=

0.004610.1887

-0.1153-0.0345

参数b1=5.0967、b2=-0.0749均在其置信区间[0.0046,10.1887],

[-0.1153,-0.0345]内,所以模型参数满足要求。

4.5、模型检验

同样在MATLAB中可以得到残差数据如图2所示:

s=

0.695418.26590.00270.7795

s2=

0.7795

由这些数据可知:

=0.6954,F=18.2659,p=0.0027,

=0.7795;

此处p=0.0027<0.05,基本符合要求,模型有效;

同时在matlab中输入编码rcoplot(r,rint)得到模型的残差分布图1,由图知第九组数据存在问题:

将第九组数据剔除,取一到八组和十、十一组数据重新计算得到以下模型和数据:

bint=

3.645810.3979

-0.1187-0.0644

模型参数满足要求;

s=

0.883360.52770.00010.2973

s2=

0.2973

=0.8833,F=60.5277,p=0.0001,

=0.2973;p=0.0001<0.05

满足要求,模型有效;

去除异常点的残差分布如图3所示:

此时残差图显示所有数据都满足要求,模型比剔除异常点前的模型更好;此处我们将最后一组数据带入发现结果差别较大,因此最后一组数据应该也属于异常点。

在剔除两个异常点后我们可以再画y关于x的散点图如图4所示:

通过对比会发现剔除异常点后的散点图更能体现库水位和沉陷量之间的线性关系,所以最终的回归模型为:

4.6、利用回归方程进行预测和预报控制

通过得到的回归模型可知,要使得大坝在理论上的沉陷量为零,大坝的库水位应该为x=7.0218/0.0916=76.66m,虽然在现实生活中不一定能够达到这样的要求,这个数据也不一定就是实际上使得大坝的沉陷为零的库水位值,但是至少也是理论上的一个与实际真值相差最小的值,能够为大坝管理人员提供了一个用于评估和研究的理论数据。

5、多元线性回归案例分析

5.1、案例叙述

为了反映中国税收增长的全貌,选择包括中央和地方税收的‘国家财政收入’中的“各项税收”(简称“税收收入”)作为被解释变量,以放映国家税收的增长;选择“国内生产总值(GDP)”作为经济整体增长水平的代表;选择中央和地方“财政支出”作为公共财政需求的代表;选择“商品零售物价指数”作为物价水平的代表。

由于税制改革难以量化,而且1985年以后财税体制改革对税收增长影响不是很大,可暂不考虑。

所以解释变量设定为可观测“国内生产总值(GDP)”、“财政支出”、“商品零售物价指数”。

从《中国统计年鉴》收集到以下数据:

年份

财政收入(亿元)

国内生产总值(亿元)

财政支出(亿元)

商品零售价格指数(%)

Y

X1

X2

X3

1978

519.28

3624.1

1122.09

100.7

1979

537.82

4038.2

1281.79

102

1980

571.7

4517.8

1228.83

106

1981

629.89

4862.4

1138.41

102.4

1982

700.02

5294.7

1229.98

101.9

1983

775.59

5934.5

1409.52

101.5

1984

947.35

7171

1701.02

102.8

1985

2040.79

8964.4

2004.25

108.8

1986

2090.73

10202.2

2204.91

106

1987

2140.36

11962.5

2262.18

107.3

1988

2390.47

14928.3

2491.21

118.5

1989

2727.4

16909.2

2823.78

117.8

1990

2821.86

18547.9

3083.59

102.1

1991

2990.17

21617.8

3386.62

102.9

1992

3296.91

26638.1

3742.2

105.4

1993

4255.3

34636.4

4642.3

113.2

1994

5126.88

46759.4

5792.62

121.7

1995

6038.04

58478.1

6823.72

114.8

1996

6909.82

67884.6

7937.55

106.1

1997

8234.04

74462.6

9233.56

100.8

1998

9262.8

78345.2

10798.18

97.4

1999

10682.58

82067.5

13187.67

97

2000

12581.51

89468.1

15886.5

98.5

2001

15301.38

97314.8

18902.58

99.2

2002

17636.45

104790.6

22053.15

98.7

5.2、数据输入与分析

按表中数据将y,x1,x2,x3输入MATLAB中进行分析,得到以下的散点图:

对图形分析可以设为多元回归模型:

5.3、解算方法

在MATLAB中利用矩阵编写程序代码进行解算,程序编码如下:

formatlong%设置浮点型的输出格式

y=[519.28

537.82

571.7

629.89

700.02

775.59

947.35

2040.79

2090.73

2140.36

2390.47

2727.4

2821.86

2990.17

3296.91

4255.3

5126.88

6038.04

6909.82

8234.04

9262.8

10682.58

12581.51

15301.38

17636.45

]';%y的数据

X1=[3624.1

4038.2

4517.8

4862.4

5294.7

5934.5

7171

8964.4

10202.2

11962.5

14928.3

16909.2

18547.9

21617.8

26638.1

34636.4

46759.4

58478.1

67884.6

74462.6

78345.2

82067.5

89468.1

97314.8

104790.6

]';%X1的数据

X2=[1122.09

1281.79

1228.83

1138.41

1229.98

1409.52

1701.02

2004.25

2204.91

2262.18

2491.21

2823.78

3083.59

3386.62

3742.2

4642.3

5792.62

6823.72

7937.55

9233.56

10798.18

13187.67

15886.5

18902.58

22053.15

]';%X2的数据

X3=[100.7

102

106

102.4

101.9

101.5

102.8

108.8

106

107.3

118.5

117.8

102.1

102.9

105.4

113.2

121.7

114.8

106.1

100.8

97.4

97

98.5

99.2

98.7

]';%X3的数据

n=25;;m=3;

X=[ones(n,1),x1',x2',x3'];%构造n行4列矩阵X,第一列为1,第二列为X1转置…

[b,bint,r,rint,s]=regress(y',X);%计算y',X相关系数,分析其相关程度,以0.05的显著性水平检验相关系数的显著性

s2=sum(r.^2)/(n-m-1);%r中值的平方求和除(n-m-1)

b,bint,s,

结果输出:

b=

1.0e+03*

-2.582755482904195

0.000022067154277

0.000702104075794

.023*********

故所求模型为:

5.4、模型参数的显著性检验

在解算的同时可以求出以下参数:

bint=

1.0e+03*

-4.538864982100863-0.626645983707528

0.0000104686156980.000033665692856

0.0006329858214100.000771222330178

0.0058127810560100.042157343522140

由于b=

1.0e+03*

-2.582755482904195

0.000022067154277

0.000702104075794

.023*********

b1,,b2,b3,b4都在其置信区间[-4538.864982100863,-626.645983707528],.010*********,0.033665692856],[0.632985821410,0.771222330178],

[5.812781056010,42.157343522140]内,所以模型参数满足要求;

5.5、模型检验

同样在MATLAB中可以得到以下的残差数据:

s=

1.0e+04*

0.0000997430489110.2717253878628140.0000000000000006.967443168409442

s2=

6.967443168409445e+04

=0.99743,F=2717.2538786,p=0.000,

=69674.43168;此处p<0.05;

输入rcoplot(r,rint)代码可得残差分布如图8所示:

由图可知残差在零点上下分布均匀且相隔不远、没有异常点,所以模型检验合格、有效。

5.6、利用回归方程进行预测和预报控制

根据求出来的回归模型可知,财政收入总体的趋势是处于上涨趋势,这是非常积极的;另一方面,影响财政收入的最主要原因是商品零售价格指数,政府应该在这方面引起重视,国内生产总值对财政收入的影响比较小,财政支出的影响也相对适中。

6、结论

从这两个案例我们知道回归分析能够通过给定的变量之间的对应数据求出变量之间的相关关系,并将这种相关关系通过函数模型表现出来,使研究者可以跳过繁杂的数据看到变量间最本质的联系;通过案例二我们也应该得到一些启发:

在多元模型中并不是线性相关性最大的自变量对因变量的影响最大,从最终的函数模型和开始的散点图对应来看是这样的;但同时我也产生了很多的疑问,比如在第一个案例中存在异常值,在取前十组数据时、通过残差图知道第九组数据是异常数据,在排除这个值后将最后一组数据代入得到的函数模型发现结果与实际的结果差别很大,在此我作出的决定是认为该组数据仍然是异常数据,而实际上真的就是如此吗?

有没有可能删除的异常点才是真正能反应实际情况的数据,而留下的那十组中的更多的点才是异常点呢?

我想如果将这些数据放在一百组中可能就有答案了吧,因为从大坝库水位和大坝沉陷量之间的散点图来看实在是不能非常直观的看出如案例二中y与x2那样的线性关系。

[参考文献]

[1]胡晓东,董辰辉.MATLAB从入门到精通[M].人民邮电出版社:

2010

Xiao-donghu,DongChenfai.MATLABfromentrytomaster[M].People'spostsandtelecommunicationspublishinghouse,2010

[2]何晓群,刘文卿.应用回归分析(第三版)[M].北京:

中国人民大学出版社,2011

Xiao-qunhe,wen-chingliou.Applicationofregressionanalysis(thirdedition)[M].Beijing:

Chinarenminuniversitypress,2011

[3]XX文库.网址:

Baidulibrary.Website:

 

abstract

mathematicsisaveryimportantsubject,manymathematiciansdevelopedvarioustheorem,formulaandrulemethod,andproveitscorrectness,thetheoremformulaandrulemethodisappliedtosolvemanyproblems,regressionanalysisisoneofthem.Regressionanalysisisanimportantmethodinmathematicalanalysis,thismethodcanbefromofamassofdataprocessingfunctiontoestablishmathematicalmodel,ithasbeenwidelyappliedinsolvingproblemsindataanalysis,flexible,isapowerfultooltosolvetheproblemofdataprocessing.Tosolvetheproblemofbigdataoralargeamountofcalculation,bymeansofsomeauxiliarydataprocessingsoftwareissimpleandfast,alotofproblemsinthiseraofbigdataalsomustusethesoftwareforpr

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 工学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1