回归分析方法.docx

资源描述

回归分析方法.docx

《回归分析方法.docx》由会员分享，可在线阅读，更多相关《回归分析方法.docx（26页珍藏版）》请在冰豆网上搜索。

回归分析方法.docx

回归分析方法

第八章回归分析方法

当人们对研究对象的内在特性和各因素间的关系有比较充分的认识时，一般用机理分析方法建立数学模型。

如果由于客观事物内部规律的复杂性及人们认识程度的限制，无法分析实际对象内在的因果关系，建立合乎机理规律的数学模型，那么通常的办法是搜集大量数据，基于对数据的统计分析去建立模型。

本章讨论其中用途非常广泛的一类模型——统计回归模型。

回归模型常用来解决预测、控制、生产工艺优化等问题。

变量之间的关系可以分为两类：

一类叫确定性关系，也叫函数关系，其特征是：

一个变量随着其它变量的确定而确定。

另一类关系叫相关关系，变量之间的关系很难用一种精确的方法表示出来。

例如，通常人的年龄越大血压越高，但人的年龄和血压之间没有确定的数量关系，人的年龄和血压之间的关系就是相关关系。

回归分析就是处理变量之间的相关关系的一种数学方法。

其解决问题的大致方法、步骤如下：

（1）收集一组包含因变量和自变量的数据；

（2）选定因变量和自变量之间的模型，即一个数学式子，利用数据按照最小二乘准则计算模型中的系数；

（3）利用统计分析方法对不同的模型进行比较，找出与数据拟合得最好的模型；

（4）判断得到的模型是否适合于这组数据；

（5）利用模型对因变量作出预测或解释。

应用统计分析特别是多元统计分析方法一般都要处理大量数据，工作量非常大，所以在计算机普及以前，这些方法大都是停留在理论研究上。

运用一般计算语言编程也要占用大量时间，而对于经济管理及社会学等对高级编程语言了解不深的人来说要应用这些统计方法更是不可能。

MATLAB等软件的开发和普及大大减少了对计算机编程的要求，使数据分析方法的广泛应用成为可能。

MATLAB统计工具箱几乎包括了数理统计方面主要的概念、理论、方法和算法。

运用MATLAB统计工具箱，我们可以十分方便地在计算机上进行计算，从而进一步加深理解，同时，其强大的图形功能使得概念、过程和结果可以直观地展现在我们面前。

本章内容通常先介绍有关回归分析的数学原理，主要说明建模过程中要做的工作及理由，如模型的假设检验、参数估计等，为了把主要精力集中在应用上，我们略去详细而繁杂的理论。

在此基础上再介绍在建模过程中如何有效地使用MATLAB软件。

没有学过这部分数学知识的读者可以不深究其数学原理，只要知道回归分析的目的，按照相应方法通过软件显示的图形或计算所得结果表示什么意思，那么，仍然可以学到用回归模型解决实际问题的基本方法。

包括：

一元线性回归、多元线性回归、非线性回归、逐步回归等方法以及如何利用MATLAB软件建立初步的数学模型，如何透过输出结果对模型进行分析和改进，回归模型的应用等。

8.1一元线性回归分析

回归模型可分为线性回归模型和非线性回归模型。

非线性回归模型是回归函数关于未知参数具有非线性结构的回归模型。

某些非线性回归模型可以化为线性回归模型处理；如果知道函数形式只是要确定其中的参数则是拟合问题，可以使用MATLAB软件的curvefit命令或nlinfit命令拟合得到参数的估计并进行统计分析。

本节主要考察线性回归模型。

8.1.1一元线性回归模型的建立及其MATLAB实现

其中

是待定系数，对于不同的

是相互独立的随机变量。

假设对于

的n个值

，得到

的n个相应的值

，确定

的方法是根据最小二乘准则，要使

取最小值。

利用极值必要条件令

，求

的估计值

，从而得到回归直线

。

只不过这个过程可以由软件通过直线拟合完成，而无须进行繁杂的运算。

（1）参数的区间估计

由于我们所计算出的

仍然是随机变量，因此要对

取值的区间进行估计，如果区间估计值是一个较短的区间表示模型精度较高。

（2）对误差方差的估计

设

为回归函数的值，

为测量值，残差平方和

剩余方差

（3）线性相关性的检验

由于我们采用的是一元线性回归，因此，如果模型可用的话，应该具有较好的线性关系。

反映模型是否具有良好线性关系可通过相关系数R的值及F值观察（后面的例子说明）。

（4）一元线性回归的MATLAB实现

MATLAB工具箱中用命令regress实现，其用法是：

b=regress（y,x）

[b,bint,r,rint,s]=regress（y,x,alpha）

输入y（因变量，列向量）、x（1与自变量组成的矩阵，见下例），alpha是显着性水平（缺省时默认0.05）。

输出

，注意：

b中元素顺序与拟合命令polyfit的输出不同，bint是

的置信区间，r是残差（列向量），rint是残差的置信区间，s包含4个统计量：

决定系数

（相关系数为R）；F值；F（1,n-2）分布大于F值的概率p；剩余方差

的值（MATLAB7.0以后版本）。

也可由程序sum（r.^2）/（n-2）计算。

其意义和用法如下：

的值越接近1，变量的线性相关性越强，说明模型有效；如果满足

，则认为变量

与

显着地有线性关系，其中

的值可查F分布表，或直接用MATLAB命令finv（1-

1,n-2）计算得到；如果

表示线性模型可用。

这三个值可以相互印证。

的值主要用来比较模型是否有改进，其值越小说明模型精度越高。

例1测得16名成年女子身高

与腿长

所得数据如下：

表8-116名女子身高（cm）腿长（cm）数据

8885889192939395969897969899100102

143145146147149150153154155156157158159160162164

首先利用命令plot（x,y,'r*'）画出散点图，从图形可以看出，这些点大致分布在一条直线的左右，因此，可以考虑一元线性回归。

可编制程序如下：

y=[143145146147149150153154155156157158159160162164];

x=[8885889192939395969897969899100102];

n=16;

X=[ones（n,1）,x'];

[b,bint,r,rint,s]=regress（y',X,0.05）;

b,bint,s,

rcoplot（r,rint）

运行后得到

b=31.77131.2903

bint=12.319651.2229

1.08461.4960

s=0.9282180.95310.00003.1277

=0.9282，由finv（0.95,1,14）=4.6001，即

=4.6001

可以通过残差图发现，第二个数据为奇异数据，去掉该数据后运行后得到

b=17.65491.4363

bint=-0.598635.9083

1.24451.6281

s=0.9527261.63890.00001.9313

=0.9527，由finv（0.95,1,13）=4.6672，即

=4.6672

。

当然，也可以利用直线拟合得到同一方程。

只不过不能得到参数置信区间和对模型进行检验。

拟合程序如下：

y=[143145146147149150153154155156157158159160162164];

x=[8885889192939395969897969899100102];

a=polyfit（x,y,1）

temp=polyval（a,x）;

plot（x,y,'r*',x,temp）

注意：

函数相同,但输出一次函数参数顺序与回归分析（升幂排列）中不同。

另一个差别是拟合不能发现奇异数据。

8.2多元线性回归分析

8.2.1多元线性回归模型的建模步骤及其MATLAB实现

如果根据经验和有关知识认为与因变量有关联的自变量不止一个，那么就应该考虑用最小二乘准则建立多元线性回归模型。

设影响因变量

的主要因素（自变量）有m个，记

，假设它们有如下的线性关系式：

，

如果对变量

与自变量

同时作n次观察（n>m）得n组观察值，采用最小二乘估计求得回归方程

建立回归模型是一个相当复杂的过程，概括起来主要有以下几个方面工作

（1）根据研究目的收集数据和预分析；

（2）根据散点图是否具有线性关系建立基本回归模型；（3）模型的精细分析；（4）模型的确认与应用等。

收集数据的一个经验准则是收集的数据量（样本容量）至少应为可能的自变量数目的6~10倍。

在建模过程中首先要根据所研究问题的目的设置因变量，然后再选取与该因变量有统计关系的一些变量作为自变量。

我们当然希望选择与问题关系密切的变量，同时这些变量之间相关性不太强，这可以在得到初步的模型后利用MATLAB软件进行相关性检验。

下面通过一个案例探讨MATLAB软件在回归分析建模各个环节中如何应用。

多元线性回归的MATLAB实现

仍然用命令regress（y,X），只是要注意矩阵X的形式，将通过如下例子说明其用法。

8.2.2某类研究学者的年薪

1.问题

例2工薪阶层关心年薪与哪些因素有关，以此可制定出它们自己的奋斗目标。

某科学基金会希望估计从事某研究的学者的年薪Y与他们的研究成果（论文、着作等）的质量指标X1、从事研究工作的时间X2、能成功获得资助的指标X3之间的关系，为此按一定的实验设计方法调查了24位研究学者，得到如下数据（i为学者序号）：

表8-2从事某种研究的学者的相关指标数据

3.5

5.3

5.1

5.8

4.2

6.0

6.8

5.5

3.1

7.2

4.5

4.9

6.1

6.4

7.4

6.7

7.5

5.9

6.0

4.0

5.8

8.3

5.0

6.4

33.2

40.3

38.7

46.8

41.4

37.5

39.0

40.7

30.1

52.9

38.2

31.8

8.0

6.5

6.6

3.7

6.2

7.0

4.0

4.5

5.9

5.6

4.8

3.9

7.6

7.0

5.0

4.4

5.5

7.0

6.0

3.5

4.9

4.3

8.0

5.8

43.3

44.1

42.5

33.6

34.2

48.0

38.0

35.9

40.4

36.8

45.2

35.1

试建立Y与

之间关系的数学模型，并得出有关结论和作统计分析。

2.作出因变量Y与各自变量的样本散点图

作散点图的目的主要是观察因变量Y与各自变量间是否有比较好的线性关系，以便选择恰当的数学模型形式。

下图分别为年薪Y与成果质量指标

、研究工作时间

、获得资助的指标

之间的散点图，

subplot（1,3,1）,plot（x1,Y,'g*'）,

subplot（1,3,2）,plot（x2,Y,'k+'）,

subplot（1,3,3）,plot（x3,Y,'ro'）,

从图可以看出这些点大致分布在一条直线旁边，因此，有比较好的线性关系，可以采用线性回归。

Y与x1的散点图Y与x2的散点图Y与x3的散点图

图8.1因变量Y与各自变量的样本散点图

3.利用MATLAB统计工具箱得到初步的回归方程

设回归方程为：

建立m-文件输入如下程序数据：

x1=[3.55.35.15.84.26.06.85.53.17.24.54.98.06.56.53.76.27.04.04.55.95.64.83.9];

x2=[920183331132530547251123353921740352333273415];

x3=[6.16.47.46.77.55.96.04.05.88.35.06.47.67.05.04.05.57.06.03.54.94.38.05.0];

Y=[33.240.338.746.841.437.539.040.730.152.938.231.843.344.142.533.634.248.038.035.940.436.845.235.1];

n=24;m=3;

X=[ones（n,1）,x1',x2',x3'];

[b,bint,r,rint,s]=regress（Y',X,0.05）;

b,bint,r,rint,s,

运行后即得到结果如表8-3所示。

表8-3对初步回归模型的计算结果

回归系数

回归系数的估计值

回归系数的置信区间

18.0157

[13.905222.1262]

1.0817

[0.39001.7733]

0.3212

[0.24400.3984]

1.2835

[0.66911.8979]

=0.9106F=67.9195p<0.0001

=3.0719

计算结果包括回归系数b=（

）=（18.0157,1.0817,0.3212,1.2835），且置信区间均不包含零点，；残差及其置信区间；统计变量stats,它包含四个检验统计量：