统计学专业毕业论文多元线性回归模型.docx

资源描述

统计学专业毕业论文多元线性回归模型.docx

《统计学专业毕业论文多元线性回归模型.docx》由会员分享，可在线阅读，更多相关《统计学专业毕业论文多元线性回归模型.docx（19页珍藏版）》请在冰豆网上搜索。

统计学专业毕业论文多元线性回归模型.docx

多元线性回归模型及其应用

摘要：

本文分析了多元线性回归模型及其应用，侧重多元线性回归模型的预测。

首先介绍了模型，多元线性回归模型的步骤大致为模型的建立、基本假设、模型的检验、预测。

在模型的建立过程中，检验是建模的核心，模型的检验包括拟合检验、F检验、t检验。

如果初始模型未能通过t检验，本文采用后退法剔除不显著的变量，重新建立多远线性回归模型。

然后本文采用2005、2006年我国31个省、市、自治区的财政支出数据和2005年我国各地生产总值数据，建立多元线性回归模型，预测2006年我国各地生产总值，并将预测数据与实际数据进行比较分析。

通过实例分析了解多元线性回归模型及其应用。

建模过程中的数学运算采用数学软件SPSS和Matlab进行运算。

关键词：

多元线性回归；模型检验；后退法；预测

Multiplelinearregressionmodelanditsapplication

Mengxiangmei

（CollegeofmathematicalandStatisticalSciences，Statistics，Class1002，20102111977）

Abstract:

thisarticleanalyzesthemultivariatelinearregressionmodelanditsapplication,focusingonthemultiplelinearregressionmodelprediction.Firstintroducesthemodelofmultivariatelinearregressionmodelofsteproughlymodel,basicassumptions,inspection,andpredictionabilityofthemodel.,intheprocessoftheestablishmentofthemodeltestisthecoreofthemodeling,modeltestingincludingfittingtest,Ftestandttest.Ifhasfailedttestoninitialmodel,basedonthemethodofeliminatingbackwardwithoutsignificantvariables,howfartoestablishlinearregressionmodel.Then,basedonthe2005,2005China's31provinces,municipalitiesandautonomousregionsoffiscalexpendituredataanddataacrossourcountrygrossdomesticproductin2005,setupmultiplelinearregressionmodel,predictourcountrygrossdomesticproductin2006,comparedwiththeactualdataandforecastdataanalysis.Trytounderstandthemultiplelinearregressionmodelsanditsapplicationbyexampleanalysis.MathematicalmodelingintheprocessofusingmathematicssoftwareSPSSandMATLABoperations.

Keywords:

Multiplelinearregression；Modelchecking；Backwardelimination;Forecast

1引言

回归是社会科学定量研究方法中最基本、应用最广泛的一种数据分析技术。

它能够把隐藏在大规模原始数据中的重要信息提炼出来，把握住数据的主要特征，从而得到变量间相关关系的数学表达式，还可以基于自变量的取值变化来预测因变量的取值，它在工农业生产和科学研究及国民经济的各个领域均有广泛的应用。

本文主要运用多元线性回归模型分析2005年各地财政支出（基本建设支出、科技三项费用、农业支出、教育事业费、科学事业费等）对生产总值的影响，并拟合成函数对生产总值进行预测，将预测值与2006年数据进行比较，从而体现多元线性回归模型预测的准确性。

2模型介绍

2.1多元线性回归模型

2.1.1多元线性回归模型的一般形式[1]

设随机变量与一般变量的线性回归模型为：

（2.1）

式中，是个未知参数；称为回归常数；称为回归系数；称为被解释变量（因变量），而是个可以精确测量并可控制的一般变量，称为解释变量（自变量）。

时，就称式（2.1）为多元线性回归模型。

是随机误差项。

对于一个实际问题，如果我们获得组观测数据，则线性回归模型（2.1）可表示为：

（2.2）

写成矩阵形式为:

（2.3）

其中：

（2.4）

矩阵是一矩阵，称为回归设计矩阵或资料矩阵。

在实验设计中，的元素是预先设定并可以控制的，人的主观因素可作用其中，因而称为设计矩阵。

2.1.2多元线性回归模型的基本假定[2]

为了使参数估计量具有良好的统计性质，对多元线性模型可做出若干基本假设。

假设1：

回归模型是正确设定的。

假设2：

解释变量是非随机的或固定的，且各之间不存在严格线性相关性（无完全多重共线性）。

假设3：

各解释变量在所抽取的样本中具有变异性，而且随着样本容量的无限增加，各解释变量的样本方差趋于一个非零的有限常数，即时，

假设4：

随机误差项具有条件零均值、同方差及不序列相关性

假设5：

解释变量与随机项不相关

假设6：

随机项满足正态分布

2.2多元线性回归模型的参数估计

2.2.1普通最小二乘估计

所谓最小二乘法，就是寻找参数的估计值满足：

（2.5）

依照式（2.5）求出的就称为回归参数的最小二乘估计。

由微积分知识可知，只需求关于待估参数的偏导数，并令其值为零，就可得到待估参数估计值的正规方程组：

（2.6）

解这个方程组成的线性代数方程组，即可得到个待估参数的估计值。

用矩阵形式表示的正规方程组

（2.7）

当存在时，即得回归参数的最小二乘估计为：

（2.8）

2.2.2最大似然估计

对于多元线性回归模型（2.1）式，由于，所以其中。

的随机抽取的组样本观测值的联合概率为

（2.9）

这就是变量的似然函数。

对数似然函数为

（2.10）

对似然函数求极大值，即对对数似然函数求极大值，也就是对求极小值，就可以得到一组参数估计量，即为参数的最大似然估计

（2.11）

显然，其结果与参数的普通最小二乘估计是相同的。

2.3多元线性回归模型的显著性检验

2.3.1拟合优度检验[2]

在一元线性回归模型中，使用可决系数来衡量样本回归线对样本观测值的拟合优度。

在多元线性回归模型中，也可用该统计量来衡量样本回归线对样本观测值的拟合优度。

记：

总离差平方和：

回归平方和：

残差平方和：

则

（2.12）

由于

（2.13）

所以有

（2.14）

因此在多元线性回归中，定义可决系数为：

（2.15）

样本可决系数的取值在区间内，越接近1，表明回归拟合的效果越好；越接近0，表明回归拟合的效果越差。

在应用过程中发现，如果在模型中增加一个解释变量，往往增大。

这是因为残差平方和往往随着解释变量个数的增加而减少，至少不会增加。

但是，现实情况往往是，由增加解释变量个数引起的的增大与拟合好坏无关，因此在多元回归模型之间比较拟合优度，就不是一个合适的指标，必须加以调整。

在样本容量一定的情况下，增加解释变量必定是的自由度减少，所以调整的思路是将残差平方和与总离差平方和分别除以各自的自由度，以剔除变量个数对拟合优度的影响。

记为调整的可决系数，则有

（2.16）

在实际应用中，达到多大才算模型通过了检验？

没有绝对的标准，要看具体情况而定，模型的拟合优度并不是判断模型质量的唯一标准。

2.3.2F检验

对多元线性回归方程的显著性F检验就是要检验模型自变量从整体上对随机变量是否有明显影响。

为此提出原假设

如果没有被拒绝，则表明随机变量与之间的关系由线性回归模型表示不合适。

为了建立对进行检验的F统计量，仍然利用总离差平方和的分解式，即

构造F检验统计量如下：

（2.17）

在正态假设下，当原假设成立时，F遵从自由度为的F分布。

于是，可以利用F统计量对回归方程的总体进行显著性检验检验。

2.3.3回归系数的显著性检验

在多元线性回归中，回归方程显著并不意味着每个自变量对的影响都显著，因此就需要我们对每个自变量进行显著性检验。

显然，如果某个自变量对的作用不显著，那么在回归模型中，它的系数就取值为零。

为此提出原假设

如果不拒绝原假设，则不显著；如果拒绝原假设，则是显著的。

因为

记

于是有

据此可以构造t统计量

（2.18）

其中是回归标准差。

当原假设成立时，式（2.18）构造的t统计量遵从自由度为的t分布。

给定显著性水平，查出双侧检验的临界值。

当时拒绝原假设，认为显著不为零，自变量对因变量的线性效果显著；时，不拒绝原假设，认为为零，自变量对因变量的线性效果不显著。

2.4多元线性回归模型的预测

对于模型

如果给定样本以外的解释变量的观测值，可以得到被解释变量的预测值：

但严格地说，这只是被解释变量的预测值的估计值，而不是预测值。

为了进行科学预测，还需求出预测值的置信区间

由参数估计量性质容易证明

取随机干扰项的样本估计量，构造t统计量：

（2.19）

于是，得到的置信水平下的置信区间：

（2.20）

其中，为的置信水平下的临界值。

3应用实例[1]

3.1数据的准备

《中国统计年鉴》把财政支出划分为31个组成部分。

本文只选取2005年我国31个省、市、自治区的地区生产总值和13个重要支出项，分别是：

为基本建设支出，为企业挖潜改造资金，为科技三项费用，为农业支出，为农林水利气象等部门事业费，为工业交通部门事业费，为流动部门事业费，为教育事业费，为科学事业费，为卫生经费，为行政管理费，为公检法司支出，为城市维护费。

为地区生产总值。

（数据单位为：

万元）

3.2模型的建立及求解

3.2.1模型的建立

将13个重要支出项设为自变量，用表示；将地区生产总值设为因变量。

采用最小二乘法拟合一个多元线性回归模型，采用数学软件SRSS计算出回归系数，运行结果如下表：

表3.1回归系数表

模型

非标准化系数

标准系数

Sig.

标准误差

试用版

（常量）

-41

展开阅读全文