第二讲相关分析与回归分析.docx

上传人:b****3 文档编号:5526677 上传时间:2022-12-18 格式:DOCX 页数:18 大小:181.11KB
下载 相关 举报
第二讲相关分析与回归分析.docx_第1页
第1页 / 共18页
第二讲相关分析与回归分析.docx_第2页
第2页 / 共18页
第二讲相关分析与回归分析.docx_第3页
第3页 / 共18页
第二讲相关分析与回归分析.docx_第4页
第4页 / 共18页
第二讲相关分析与回归分析.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

第二讲相关分析与回归分析.docx

《第二讲相关分析与回归分析.docx》由会员分享,可在线阅读,更多相关《第二讲相关分析与回归分析.docx(18页珍藏版)》请在冰豆网上搜索。

第二讲相关分析与回归分析.docx

第二讲相关分析与回归分析

第二讲相关分析与回归分析

第一节相关分析

1.1变量的相关性

1.变量的相关性分两种,一种是研究两个变量X与Y的相关性。

本节只研究前者,即两个变量之间的相关性;。

2.两个变量X与Y的相关性研究,是探讨这两个变量之间的关系密切到什么程度,能否给出一个定量的指标。

这个问题的难处在于“关系”二字,从数学角度看,两个变量X、Y之间的关系具有无限的可能性,一个比较现实的想法是:

确立一种“样板”关系,然后把X、Y的实际关系与“样板”关系比较,看它们“像”到了什么程度,给出一个定量指标。

3.取什么关系做“样板”关系?

线性关系。

这是一种单调递增或递减的关系,在现实生活中广为应用;另外,现实世界中大量的变量服从正态分布,对这些变量而言,可以用线性关系或准线性关系构建它们之间的联系。

1.2相关性度量

1.概率论中用相关系数(correlationcoefficient)度量两个变量的相关程度。

为区别以下出现的样本相关系数,有时也把这里定义的相关系数称为总体相关系数。

可见相关系数是判断变量间线性关系的重要指标。

2.样本相关系数

我们也只能根据这个容量为n的样本来判断变量X和Y的相关性达到怎样的程度。

这个估计称为样本相关系数,或Pearson相关系数。

它能够根据样本观察值计算出两个变量相关系数的估计值。

和总体相关系数一样,如果

,称X和Y不相关。

这时它们没有线性关系。

多数情况下,样本相关系数取区间(1,1)中的一个值。

相关系数的绝对值越大,表明X和Y之间存在的关系越接近线性关系。

1.3相关性检验

两个变量X和Y之间的相关性检验是对原假设

H0:

Corr(X,Y)=0

的显著性进行检验。

检验类型为t。

如果H0显著,则X和Y之间没有线性关系。

1.4计算样本相关系数Correlate\Bivariate

例1数据data02,计算变量当前薪金、起始薪金、受教育年限和工作经验之间的样本相关系数。

打开Correlate\Bivariate对话框,将变量salary、salbegin、educ和prevexp输入Variables,点击OK,即得表格:

表格中的PearsonCorrelation指样本相关系数,例如起始薪金与受教育年限的相关系数为0.633;Sig.为相关性检验结果,起始薪金与受教育年限的相关性检验结果为Sig.=0.000,在0.05和0.01的水平下,都能否定它们不相关的假设。

N为观察值个数。

1.5偏相关系数

1.控制变量以上在计算变量X和Y的相关系数时,并没有考虑有其他变量的影响。

例如:

计算当前薪金(salary)与起始薪金(salbegin)的相关系数得0.890,但是当前薪金显然还受到受教育年限(educ)的影响,这个影响在计算相关系数时没有被扣除,因此0.890这个数字不完全真实。

如扣除educ的影响,在计算salary和salbegin的相关系数,就更接近真实了。

这个被扣除的变量就叫控制变量,这里educ便是控制变量。

控制变量可以不止一个。

2.偏相关系数扣除控制变量影响后得到的相关系数称为偏相关系数(partialcorrelation),计算命令为:

Correlate\Partial.

例2数据data02,计算当前薪金与起始薪金在扣除受教育年限影响后的偏相关系数。

在PartialCorrelations对话框中,将变量salary、salbegin输入Variables,将变量educ输入Controllingfor,然后OK,得:

其中Corrlation指偏相关系数,df自由度,Significance是对原假设H0:

pCorr(X,Y)=0检验结果得到的水平值。

可见:

偏相关系数值等于0.795;不能接受不相关的假设。

第二节线性回归方程

2.1一元线性回归方程

1.相关分析是以线性关系为“样板”,讨论变量X和Y的相关程度,这一程度用相关系数表示。

我们不禁要问:

这个“样板”是什么?

也就是把这个做“样板”的线性表达式:

给出来,这也就相当于把系数b0和b1估计出来。

这样,变量X和Y的关系就可以表示成为:

其中为误差,是一个随机变量。

显然,相关系数绝对值越大,误差在表达式中占的比重就越小,也就是线性部分

占的比重越大,这就有可能用线性表达式

(1)近似表达变量X和Y的关系。

称线性表达式

(1)为变量Y对于X的(一元线性)回归方程。

回归分析的主要任务是回答:

1)回归方程

(1)能否近似代表变量X和Y的关系。

这实际是对线性部分与误差部分各占比重的估量;

2)怎样估计回归方程

(1),也就是怎样估计参数b0和b1。

显然,在任务2)完成前,任务1)无从开始。

2.回归的基本假设

解决回归分析的主要任务还是要从样本:

入手。

套用

(2),样本(3)可以写成:

以下所有分析推导都从(4)出发。

显然,需要用到一些数学方法。

为此提出以下基本假设:

假设1E(i)=0,i=1,2,…,n;

假设2Var(i)=2const,i=1,2,…,n;

假设3Cov(i,j)=0,ij;

假设4i~N(0,2),i=1,2,…,n。

3.回归系数b0、b1的最小二乘估计

这一部分内容实际是估计回归方程。

作为变量X和Y实际关系的近似,自然要求回归方程

(1)计算出的Y值与样本观察值具有最小误差。

即把X代入

(1)计算出的Y值:

与实际观察到的Yi误差最小。

回归系数的估计式。

通过它,可以完全确定回归方程。

4.回归方程的评价

确定了回归方程后,一个重要问题浮出水面:

这个回归方程有多大的代表性?

能否投入使用?

1)平方和分解公式公式中的三个平方和分别叫做:

总平方和(total)

残差平方和(Residual)

回归平方和(Regression)

于是(9)式也可以写成:

ST=SE+SR。

设就是平方和分解公式。

平方和分解公式指出一个事实:

残差平方和SE与回归平方和SR之和是一个常量,而残差平方和SE越大,表明回归方程跟样本观察值拟合得越差,反之则越好。

但从回归平方和SR看,则正好相反,即:

SR越大,回归方程跟样本观察值拟合得越好。

2)判决系数与复相关系数

定义回归平方和SR与平方总和ST的比值称为回归方程的判决系数,用R2表示判决系数,则有:

判决系数的算术平方根

称为回归方程的复相关系数。

显然:

判决系数或复相关系数接近1则表示回归方程与样本观察值拟合得比较好。

判决系数也回答了

(2)中线性部分

所占比重的问题。

3)回归方程的显著性检验

原假设H0:

b1=0(回归方程不显著)

检验统计量:

在给定检验的显著性水平0(例如0.05)后,如果计算得统计量F对应得水平值Sig.<0,则拒绝接受H0,这时称原假设H0不显著,也就是回归方程显著,这就意味着:

接受回归方程近似代表变量Y和X的关系。

5.回归分析命令Regression\Linear

例3数据data04,计算身高(high)与体重(weight)的相关系数,并以身高为自变量,体重为因变量求线性回归方程,同时计算判决系数、检验回归方程的显著性(取检验水平0=0.05)。

打开LinearRgression对话框,将因变量体重(weight)输入Dependent,将变量身高(high)输入Independent,点击OK,得输出文件表格系列:

该表格是变量进入或移出回归方程的记录,它指出:

进入方程的变量是high,没有变量移出方程,使用的方法为Enter(在回归方程的优化一节中会讨论)。

两个注是:

a.所有提供的自变量都进入方程。

b.因变量是weight。

模型概况表格。

其中RSquare是判决系数,R是复相关系数,AdjustedRSquare是校正的判决系数(容以后介绍)。

注a.预测元素为:

(常数),high。

即回归方程等号右端是这两部分组成。

方差分析表。

这部分做回归方程的显著性检验,原假设H0:

回归方程不显著。

表中SumofSquare一列:

Regression是回归平方和,Residual是残差平方和,Total是总平方和。

df是相应的自由度,MeanSquare为对应均方和,它的定义是:

MeanSqare=SumofSquaredf

F是统计量的值,

F=RegressionMeanSquareResidualMeanSquare

最后的Sig.是F值对应的显著性。

由于Sig.=0.000<0.05,故原假设H0为不显著,即回归方程显著。

最后一个表格是系数表:

其中UnstandardCoefficients(非标准化系数)给出回归方程的常数项(Constant)与变量high的系数,它们在B列中显示。

因此,回归方程是:

2.2多元线性回归方程

1.模型在变量Y和变量X1,X2,…,Xp,(p≥2)之间建立关系:

其中为随机变量,表示误差。

线性部分

对于(X1,X2,…,Xp,Y)的一个容量为n的观察值

应有

对(14)中的随机误差i有与一元线性回归相同的假设。

称(12)为变量Y对于变量X1,X2,…,Xp的p元线性回归方程。

它的基本问题和一元线性回归方程相同,也是:

回归方程如何估计;回归方程能否近似代表原变量的实际关系。

2.回归系数的估计

引入以下向量:

则(14)可以表示为矩阵形式:

残差平方和:

将其对

求导数:

如果矩阵

可逆,解得:

这就是参数

的最小二乘估计。

3.回归方程的显著性检验

原假设:

H0:

b1=b2==bp=0(回归方程不显著)

检验统计量:

其中SR、SE定义同一元回归。

4.回归系数的显著性检验

多元线性回归分析也有有别于一元线性回归的特殊问题,回归系数的显著性即是其一。

1)偏回归平方和

2)回归系数的显著性检验

原假设H0:

bj=0(自变量Xj不显著)

备选假设H0:

bj0(自变量Xj显著)

检验统计量

它等价于统计量

其中:

5.关于校正的判决系数(AdjustedRSquare)

由于判决系数R2的值会随自变量个数增加而变大,因此它不能正确反映方程的拟合效果。

校正判决系数旨在消除这种影响。

它定义为:

2.3利用回归方程做预测

回归方程用途的主要部分是可以用它来做预测。

1.所谓回归方程的预测,就是在给定点

利用回归方程对变量Y作出估计。

这是一个典型的点估计问题,估计量就是回归方程。

2.从估计的角度出发,回归方程的预测除点估计外,还有区间估计,即估计变量Y的置信区间。

例4数据data05,求变量Y对于变量X1,X2,X3,X4的4元非标准化线性回归方程,并做显著性检验(水平取0.05),同时利用所得回归方程预测no=14的Y值。

在LinearRegression对话框中:

将因变量Y输入Dependent,将自变量X1,X2,X3,X4输入Independent(s),将no输入SelectionVariable并点击Rule,在菜单中选择notequalto并填入14。

返回,点击Save,在Save对话框中选择PredictedValues中的Unstandardized和PredictionIntervals中的Individual,填入需要的置信度。

返回,OK。

从表中可知,回归方程是:

在0.05的显著性水平下,自变量都不显著。

此表显示,在0.05的显著性水平下,回归方程显著。

进一步还能得到判决系数为0.982,校正判决系数为0.974,复相关系数为0.991。

关于no=14观察值的Y预测值在原始数据文件中生成的新变量PRE1中,为94.19281,95%置信区间的左、右端点分别由新变量LICI1和UICI1给出,由是知为(69.87367,118.51195)。

例5数据data05,求变量X1的偏回归平方和。

在例4中,ANOVA表给出回归平方和是2667.899,按照偏回归平方和的定义,求Y对于X2,X3,X4的回归方程,此时ANOVA表格

显示回归平方和为2641.949,故变量X1的偏回归平方和等于

SR(X1)=2667.8992641.949=25.95

也就是方程中少了自变量X1,回归平方和就要损失25.95。

2.4回归方程的优化

本节讨论在给定的显著性水平下,建立一个所有自变量都显著的回归方程的不同方法。

为区别以下的方法,称上一节讨论的建立回归方程的方法为强制进入法(Enter方法)。

1.前进法(Forward)

第一步建立p个一元线性回归方程:

在通过显著性检验的回归方程中,选择F值最大者留下,不妨设这个方程就是:

第二步用入选的自变量X1与其余p1个自变量生成p1个搭配:

X1,Xj,j=2,…,p,求出p1个回归方程:

再从显著的方程中,选择X2最显著的方程留下。

以下的步骤与以上相同,直到剩下的自变量中没有一个显著为止,最后的方程即所求。

例6数据data05,用前进法求回归方程。

做法同例2,只是在LinearRegression对话框的Mathod一栏将Enter改变为Forward。

此表显示:

进入变量检验的临界概率为0.05,即显著水平大于此值的变量都要出局。

在此标准下,X4首选入方程,X1次选入方程,其他变量落选。

此表显示:

第一个方程(自变量只有X4)的判决系数为0.645,而第二个方程(自变量为X4和X1)的判决系数为0.967,有了很大的提升。

此表显示:

第一、第二两个回归方程都显著。

此表显示:

第一个方程是

,方程中没有不显著变量;第二个方程是

,方程中也没有不显著变量。

此表显示每次筛选中未进入方程的变量。

注意未进入第二个方程的变量X2和X3,它们的Sig.值分别是0.052和0.070,均大于临界概率0.05,这就是它们被淘汰的原因。

2.退后法(Backward)

做法与前进法相反。

即第一步将所有的p个自变量都进入方程,从第二步开始,每一步都将方程中最不显著的自变量剔除,直到方程中没有不显著的自变量为止。

例7数据data05,用后退法求回归方程。

打开LinearRegression对话框,Method一栏改为Backward,其他一切做法照旧。

点击OK,得输出:

此表显示:

剔除变量的临界概率为0.100,第一个方程按照后退法应该把所有自变量都进入方程,所以Model1显示X4,X3,X1,X2全都进入方程,注意这时Method显示的是Enter而非Backward,想一想这是为什么。

第二个方程也就是Model2把X3剔除出去,这时Method显示Backward。

第三个方程即Model3又把X4剔除出去,以后没有剔除动作,这Model3就是最终结果。

这张表格无需多做解释。

提醒读者,从中可以看到随自变量个数增加,判决系数确有增大的趋势。

这张表也无需多做解释,它指出三个模型都显著。

这是被剔除变量的清单。

Model2中变量X3被剔除理由是它的Sig.值为0.896,远大于临界值0.100,并且是所有Sig.值大于临界值的变量中最大的一个。

类似解释Model2。

这是三个回归方程的清单:

模型1方程为

按系统给的0.100的检验水平,除X1显著外,其余自变量均不显著,而且Sig.最大者为X3达到0.896,故剔除X3,重新回归,得模型2,方程为

自变量X4不显著,剔除之,重新回归,得模型3,方程为

此方程中已经没有不显著自变量。

3.逐步回归法(Stepwise)

前进法中,每一步向方程内引入一个最显著的自变量。

由于新变量的引入,回归方程中原有的自变量的显著水平会发生相应的变化,有的变量原来是显著的,现在成为不显著。

对于每一步可能产生的新的不显著变量,前进法没有提出如何处理,而是让它们继续留在回归方程内。

换句话说,变量一旦进入方程,就不会被剔除出方程。

逐步回归法就是针对这一缺点,在每一步,不仅引入一个最显著的变量,还把已经存在于方程内的变得不显著的自变量,剔除掉最不显著的那个。

如此直到方程中没有不显著的自变量为止。

2.5回归方程的诊断

1.共线性(Collinearity)诊断

1)共线性的含义p

(2)元线性回归方程

中,如果自变量X1,X2,…,Xp也构成一个显著的线性模型。

换言之:

存在一个自变量,不妨设它是X1,如果用X1作因变量,对于剩下的自变量X2,…,Xp构成一个显著的p-1元线性回归方程:

(2)变量Xj的容限(Tolerance)

是以自变量Xj为因变量,与其他p-1个自变量构成的p-1元线性回归方程的判决系数,称

为变量Xj的容限。

它是判断回归方程共线性的重要指标。

显然有:

,并且:

Tol(Xj)的值越小,自变量Xj的共线性越显著。

2.残差独立性判断

1)残差

残差(Residual)指实际观察值与预测值之差:

残差向量:

(1)残差的均值为零,即有:

(2)残差的协方差矩阵

2)Durbin-Watson统计量

当n充分大时,

,其中的

是残差序列的一阶自相关系数的估计。

可见此时的d值约在区间[0,4]之内,而当d=2时,可判定残差序列独立。

附录:

二阶段最小二乘法(Two-stageLeast-squares)

一.自变量与因变量互为影响

最小二乘估计适用于自变量单向影响因变量。

但在许多经济学问题中,出现自变量和因变量双向影响的现象。

例如:

价格与需求;

工资水平与工作表现;

收入水平与受教育程度。

以下是一个实例:

研究收入(LW)与受教育水平(Educ)、种族(Black,是否黑人)、年龄(Age)的线性回归方程。

有:

此外,一个不争的事实是:

受教育水平(Educ)也受收入(LW)的影响。

解决的办法是另外寻找一些与受教育水平(Educ)和收入(LW)只有单向影响的自变量,用以预测受教育水平,这个预测模型是:

用Educ的预测值代入原回归模型,进行估计。

二.二阶段最小二乘法

Regression\2-StageLeastSquares

Dependent因变量:

LW

Explanatory解释变量(原回归方程的自变量):

Educ,Black,Age

Instrument工具变量(预测方程的自变量):

Fed,Med,Black,Age

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1