统计学多元回归分析方法.docx

上传人:b****2 文档编号:592645 上传时间:2022-10-11 格式:DOCX 页数:21 大小:313.19KB
下载 相关 举报
统计学多元回归分析方法.docx_第1页
第1页 / 共21页
统计学多元回归分析方法.docx_第2页
第2页 / 共21页
统计学多元回归分析方法.docx_第3页
第3页 / 共21页
统计学多元回归分析方法.docx_第4页
第4页 / 共21页
统计学多元回归分析方法.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

统计学多元回归分析方法.docx

《统计学多元回归分析方法.docx》由会员分享,可在线阅读,更多相关《统计学多元回归分析方法.docx(21页珍藏版)》请在冰豆网上搜索。

统计学多元回归分析方法.docx

统计学多元回归分析方法

多元线性回归分析

多元线性回归分析

多元线性回归分析

多元线性回归分析

多元线性回归分析

多元线性回归分析

在数量分析中,经常会看到变量与变量之间存在着一定的联系。

要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。

回归分析的主要类型:

一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。

1.1回归分析基本概念

相关分析和回归分析都是研究变量间关系的统计学课题。

在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。

在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。

在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。

相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。

具体地说,回归分析主要解决以下几方面的问题。

(1)通过分析大量的样本数据,确定变量之间的数学关系式。

(2)对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。

(3)利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。

作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及“回归(Regression)”名称的由来都要归功于英国统计学F·Galton(1822~1911)。

在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。

1.2多元线性回归

1.2.1多元线性回归的定义

一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。

其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。

一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。

例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。

因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。

这就产生了测定多因素之间相关关系的问题。

研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。

多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。

1.2.2多元线性回归模型

设是一个可观测的随机变量,它受到个非随机因索,,…,和随机因素的影响,若与,,…,有如下线性关系:

(1.1)

其中,,…,是个未知参数,是不可测的随机误差,且通常假定.我们称式(1.1)为多元线性回归模型.称为被解释变量(因变量),为解释变量(自变量).

称(1.2)

为理论回归方程.

对于一个实际问题,要建立多元回归方程,首先要估计出未知参数,,

…,,为此我们要进行次独立观测,得到组样本数据,,他们满足式(1.1),即有

(1.3)

其中相互独立且都服从.

式(1.3)又可表示成矩阵形式:

(1.4)

这里,,,,,为阶单位矩阵.

阶矩阵称为资料矩阵或设计矩阵,并假设它是列满秩的,即.

由模型(1.3)以及多元正态分布的性质可知,仍服从维正态分布,它的期望向量为,方差和协方差阵为,即.

1.参数的最小二乘估计

与一元线性回归时的一样,多元线性回归方程中的未知参数仍然可用最小二乘法来估计,即我们选择使误差平方和

达到最小.

由于是关于的非负二次函数,因而必定存在最小值,利用微积分的极值求法,得

这里是的最小二乘估计.上述对求偏导,求得正规方程组的过程可用矩阵代数运算进行,得到正规方程组的矩阵表示:

移项得                 (1.5)

称此方程组为正规方程组.

依据假定,所以.故存在.解正规方程组(1.5)得

                 (1.6)

称为经验回归方程.

2.误差方差的估计

将自变量的各组观测值代入回归方程,可得因变量的估计量(拟合值)为

向量称为残差向量,其中为阶对称幂等矩阵,为阶单位阵.

称数为残差平方和(ErrorSumofSquares,简写为SSE).

由于且,则

从而为的一个无偏估计.

3.估计量的性质

性质1 为的线性无偏估计,且.

证  由于是的线性函数,故其为线性估计,且有

这一性质说明为的线性无偏估计,又由于一般为非对角阵,故的各个分量间一般是相关的.

性质2 .

证  由于,故

这一性质表明残差向量的各个分量间一般也是相关的.

性质3 .

证  

这一性质表明残差与的最小二乘估计是不相关的,又由于残差平方和SSE是的函数,故它与也不相关.在正态假定下不相关与独立等价,因而SSE与独立.

性质4  .

证明略

性质5  (Gauss-Markov定理)在假定,时,的任一线性函数的最小方差线性无偏估计(BLUE)为,其中是任一

维向量,是的最小二乘估计.

性质6  当,有以下几点结论:

(1);

(2)SSE与独立;

(3).

性质5、性质6的证明参见周纪芗《回归分析》或方开泰《实用回归分析》.

给定因变量与,,…,的组观测值,利用前述方法确定线性回归方程是否有意义,还有待于显著性检验.下面分别介绍回归方程显著性的检验和回归系数的检验,同时介绍衡量回归拟合程度的拟合优度检验

对多元线性回归方程作显著性检验就是要看自变量,,…,从整体上对随机变量是否有明显的影响,即检验假设:

如果被接受,则表明与,,…,之间不存在线性关系.为了说明如何进行检验,我们首先建立方差分析表.

1. 离差平方和的分解

我们知道:

观测值,,…,之所以有差异,是由于下述两个原因引起的,一是与,,…,之间确有线性关系时,由于,,…,取值的不同而引起值的变化;另一方面是除去与,,…,的线性关系以外的因素,如,,…,对的非线性影响以及随机因素的影响等.记,则数据的总离差平方和(TotalSumofSquares)

  (1.7)

反映了数据的波动性的大小.

残差平方和

               (1.8)

反映了除去与,,…,之间的线性关系以外的因素引起的数据,,…,的波动.若,则每个观测值可由线性关系精确拟合,SSE越大,观测值和线性拟合值间的偏差也越大.

回归平方和(RegressionSumofSqures)

(1.9)

由于可证明,故SSR反映了线性拟合值与它们的平均值的宗偏差,即由变量,,…,的变化引起,,…,的波动.若,则每一个拟合值均相当,即不随,,…,而变化,这意味着.利用代数运算和正规方程组(4.8)可以证明:

即(1.10)

因此,SSR越大,说明由线性回归关系所描述的,,…,的波动性的比例就越大即与,,…,的线性关系就越显著.线性模型的拟合效果越好.

另外,通过矩阵运算可以证明SST、SSE、SSR,有如下形式的矩阵表示:

(1.11)

其中表示一个元素全为1的阶方阵.

2.自由度的分解

对应于SST的分解,其自由度也有相应的分解,这里的自由度是指平方中独立变化项的数目.在SST中,由于有一个关系式,即彼此并不是独立变化的,故其自由度为.

可以证明,SSE的自由度为,SSR的自由度为,因此对应于的分解,也有自由度的分解关系

(1.12)

3.方差分析表

基于以上的SST和自由度的分解,可以建立方差分析表1.1

方差来源

平方和

自由度

均方差

F值

SSR

SSE

SST

与一元线性回归时一样,可以用统计量检验回归方程的显著性,也可以用值法(P-Value)作检验.统计量是

(1.13)

当为真时,,给定显著性水平,查分布表得临界值,计算的观测值,若,则接受,即在显著性水平之下,认为与,,…,的线性关系就不显著;当时,这种线性关系是显著的.利用值法作显著性检验性检验十分方便:

这里的值是,表示第一、第二自由度分别为,的变量取值大于的概率,利用计算机很容易计算出这个概率,很多统计软件(如SPSS)都给出了检验的值,这省去了查分布表的麻烦,对于给定的显著性水平,若,则拒绝,反之,接受.

如果检验的结果是接受原假设,那意味着什么呢?

这时候表明,与模型的误差相比,自变量对因变量的影响是不重要的.这可能有两种情况.其一是模型的各种误差太大,即使回归自变量对因变量有一定的影响,但相比于误差也不算大.对于这种情况,我们要想办法缩小误差,比如检查是否漏掉了重要的自变量,或检查某些自变量与是否有非线性关系等;其二是自变量对的影响确实

很小,这时建立与诸自变量的回归方程没有实际意义.

回归方程通过了显著性检验并不意味着每个自变量都对有显著地影响,可能其中的某个或某些自变量对的影响并不显著。

我们自然希望从回归方程中剔除那些对的影响不显著的自变量,从而建立一个较为简单有效地回归方程.这就需要对每一个自变量作考察.显然,若某个自变量对无影响,那么在线性模型中,它的系数应为零.因此检验的影响是否显著等价于检验假设

由性质6可知:

若记阶方阵,则有

于是当成立时,有

因为,且与相互独立,根据分布的定义,有

这里,对给定的显著性水平,当时,我们拒绝;反之,则接受.在SPSS软件的输出结果中,可以直接从值看出检验结果.

对于估计量,我们还想了解它与的接近程度如何.这就需要确定的置信区间.由于,因而有,即得的置信度为的置信区间为

因变量的预测

建立回归方程,除了解自变量与因变量之间的相依关系之外,还有一项重要的应用就是预测,即对给定的自变量的值,预测对应的因变量的值.

对于线性回归模型

当我们要预测所对应的因变量值时,我们可以用他的点预测值,但我们一般更感兴趣的是的区间估计.可以证明:

因而对给定的,有

由此可得的置信度为的预测区间为

拟合优度用于检验模型对样本观测值的拟合程度.在前面的方差分析中,我们已经指出,在总离差平方和中,若回归平方和占的比例越大,则说明拟合效果越好.于是,就用回归平方和与总离差平方和的比例作为评判一个模型拟合优度的标准,称为样本决定系数(coefficientofdetermination)(或称为复相关系数),记为.

由的意义看来,其他越接近于1,意味着模型的拟合优度越高。

于是,如果在模型中增加一个自变量,的值也会随之增加,这会给人一种错觉:

要想模型拟合效果好,就得尽可能多引进自变量.为了防止这种倾向,人们考虑到,增加自变量必定使得自由度减少,于是又定义了引入自由度的修正的复相关系数,记为.

在实际应用中,达到多大才算通过了拟合优度检验,没有绝对的标准,要看具体情况而定。

模型拟合优度并不是判断模型质量的唯一标准,有时为了追求模型的实际意义,可以在一定程度上放

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1