1、的显著性进行检验。检验类型为t。如果H0显著,则X和Y之间没有线性关系。14 计算样本相关系数CorrelateBivariate 例1 数据data02,计算变量当前薪金、起始薪金、受教育年限和工作经验之间的样本相关系数。打开CorrelateBivariate对话框,将变量salary、salbegin、educ和prevexp输入Variables,点击OK,即得表格:表格中的Pearson Correlation指样本相关系数,例如起始薪金与受教育年限的相关系数为0.633;Sig.为相关性检验结果,起始薪金与受教育年限的相关性检验结果为Sig.=0.000,在0.05和0.01的水平
2、下,都能否定它们不相关的假设。N为观察值个数。15 偏相关系数 1控制变量 以上在计算变量X和Y的相关系数时,并没有考虑有其他变量的影响。例如:计算当前薪金(salary)与起始薪金(salbegin)的相关系数得0.890,但是当前薪金显然还受到受教育年限(educ)的影响,这个影响在计算相关系数时没有被扣除,因此0.890这个数字不完全真实。如扣除educ的影响,在计算salary和salbegin的相关系数,就更接近真实了。这个被扣除的变量就叫控制变量,这里educ便是控制变量。控制变量可以不止一个。 2偏相关系数 扣除控制变量影响后得到的相关系数称为偏相关系数(partial corr
3、elation),计算命令为:CorrelatePartial. 例2 数据data02,计算当前薪金与起始薪金在扣除受教育年限影响后的偏相关系数。在Partial Correlations对话框中,将变量salary、salbegin输入Variables,将变量educ输入Controlling for,然后OK,得:其中Corrlation指偏相关系数,df自由度,Significance是对原假设H0:pCorr(X,Y)0检验结果得到的水平值。可见:偏相关系数值等于0.795;不能接受不相关的假设。第二节 线性回归方程21 一元线性回归方程 1相关分析是以线性关系为“样板”,讨论变量
4、X和Y的相关程度,这一程度用相关系数表示。我们不禁要问:这个“样板”是什么?也就是把这个做“样板”的线性表达式:给出来,这也就相当于把系数b0和b1估计出来。这样,变量X和Y的关系就可以表示成为:其中为误差,是一个随机变量。显然,相关系数绝对值越大,误差在表达式中占的比重就越小,也就是线性部分占的比重越大,这就有可能用线性表达式(1)近似表达变量X和Y的关系。称线性表达式(1)为变量Y对于X的(一元线性)回归方程。回归分析的主要任务是回答: 1)回归方程(1)能否近似代表变量X和Y的关系。这实际是对线性部分与误差部分各占比重的估量; 2)怎样估计回归方程(1),也就是怎样估计参数b0和b1。
5、显然,在任务2)完成前,任务1)无从开始。 2回归的基本假设解决回归分析的主要任务还是要从样本:入手。套用(2),样本(3)可以写成:以下所有分析推导都从(4)出发。显然,需要用到一些数学方法。为此提出以下基本假设: 假设1 E(i) = 0,i=1,2,n; 假设2 Var(i) = 2 const,i=1,2,n; 假设3 Cov(i, j) = 0,ij; 假设4 iN(0, 2),i=1,2,n。 3回归系数b0、b1的最小二乘估计这一部分内容实际是估计回归方程。作为变量X和Y实际关系的近似,自然要求回归方程(1)计算出的Y值与样本观察值具有最小误差。即把X代入(1)计算出的Y值:与实
6、际观察到的Yi误差最小。回归系数的估计式。通过它,可以完全确定回归方程。 4回归方程的评价确定了回归方程后,一个重要问题浮出水面:这个回归方程有多大的代表性?能否投入使用? 1)平方和分解公式公式中的三个平方和分别叫做:总平方和(total) 残差平方和(Residual) 回归平方和(Regression) 于是(9)式也可以写成: ST = SE + SR。设就是平方和分解公式。 平方和分解公式指出一个事实:残差平方和SE与回归平方和SR之和是一个常量,而残差平方和SE越大,表明回归方程跟样本观察值拟合得越差,反之则越好。但从回归平方和SR看,则正好相反,即:SR越大,回归方程跟样本观察值
7、拟合得越好。 2)判决系数与复相关系数 定义 回归平方和SR与平方总和ST的比值称为回归方程的判决系数,用R2表示判决系数,则有:判决系数的算术平方根称为回归方程的复相关系数。显然:判决系数或复相关系数接近1则表示回归方程与样本观察值拟合得比较好。判决系数也回答了(2)中线性部分所占比重的问题。 3)回归方程的显著性检验原假设 H0:b1 = 0 (回归方程不显著)检验统计量: 在给定检验的显著性水平0(例如0.05)后,如果计算得统计量F对应得水平值Sig.0,则拒绝接受H0,这时称原假设H0不显著,也就是回归方程显著,这就意味着:接受回归方程近似代表变量Y和X的关系。5回归分析命令Regr
8、essionLinear 例3 数据data04,计算身高(high)与体重(weight)的相关系数,并以身高为自变量,体重为因变量求线性回归方程,同时计算判决系数、检验回归方程的显著性(取检验水平00.05)。打开Linear Rgression对话框,将因变量体重(weight)输入Dependent,将变量身高(high)输入Independent,点击OK,得输出文件表格系列: 该表格是变量进入或移出回归方程的记录,它指出:进入方程的变量是high,没有变量移出方程,使用的方法为Enter(在回归方程的优化一节中会讨论)。两个注是:a.所有提供的自变量都进入方程。b.因变量是weig
9、ht。 模型概况表格。其中R Square是判决系数,R是复相关系数,Adjusted R Square是校正的判决系数(容以后介绍)。注a.预测元素为:(常数),high。即回归方程等号右端是这两部分组成。方差分析表。这部分做回归方程的显著性检验,原假设H0:回归方程不显著。表中Sum of Square一列:Regression是回归平方和,Residual是残差平方和,Total是总平方和。df是相应的自由度,Mean Square为对应均方和,它的定义是:Mean Sqare = Sum of Square dfF是统计量的值,F = Regression Mean Square Re
10、sidual Mean Square最后的Sig.是F值对应的显著性。由于Sig.=0.0000.05,故原假设H0为不显著,即回归方程显著。最后一个表格是系数表:其中Unstandard Coefficients(非标准化系数)给出回归方程的常数项(Constant)与变量high的系数,它们在B列中显示。因此,回归方程是:22 多元线性回归方程 1模型 在变量Y和变量X1,X2,Xp,(p2)之间建立关系:其中为随机变量,表示误差。线性部分对于(X1, X2,Xp,Y)的一个容量为n的观察值应有对(14)中的随机误差i有与一元线性回归相同的假设。称(12)为变量Y对于变量X1,X2,Xp的
11、p元线性回归方程。它的基本问题和一元线性回归方程相同,也是:回归方程如何估计;回归方程能否近似代表原变量的实际关系。 2回归系数的估计 引入以下向量:,则(14)可以表示为矩阵形式:残差平方和:将其对求导数:如果矩阵可逆,解得:这就是参数的最小二乘估计。 3回归方程的显著性检验原假设:b1 = b2 = = bp = 0(回归方程不显著)其中SR、SE定义同一元回归。 4回归系数的显著性检验 多元线性回归分析也有有别于一元线性回归的特殊问题,回归系数的显著性即是其一。1)偏回归平方和2)回归系数的显著性检验 原假设 H0:bj=0 (自变量Xj不显著) 备选假设 H0:bj0 (自变量Xj显著
12、) 检验统计量它等价于统计量其中: 5关于校正的判决系数(Adjusted R Square)由于判决系数R2的值会随自变量个数增加而变大,因此它不能正确反映方程的拟合效果。校正判决系数旨在消除这种影响。它定义为:23 利用回归方程做预测 回归方程用途的主要部分是可以用它来做预测。 1所谓回归方程的预测,就是在给定点利用回归方程对变量Y作出估计。这是一个典型的点估计问题,估计量就是回归方程。 2从估计的角度出发,回归方程的预测除点估计外,还有区间估计,即估计变量Y的置信区间。例4 数据data05,求变量Y对于变量X1, X2, X3, X4的4元非标准化线性回归方程,并做显著性检验(水平取0
13、.05),同时利用所得回归方程预测no=14的Y值。在Linear Regression对话框中:将因变量Y输入Dependent,将自变量X1, X2, X3, X4输入Independent(s),将no输入Selection Variable并点击Rule ,在菜单中选择not equal to并填入14。返回,点击Save ,在Save对话框中选择Predicted Values中的Unstandardized和Prediction Intervals中的Individual,填入需要的置信度。返回,OK 。从表中可知,回归方程是:在0.05的显著性水平下,自变量都不显著。此表显示,在
14、0.05的显著性水平下,回归方程显著。进一步还能得到判决系数为0.982,校正判决系数为0.974,复相关系数为0.991。关于no=14观察值的Y预测值在原始数据文件中生成的新变量PRE1中,为94.19281,95置信区间的左、右端点分别由新变量LICI1和UICI1给出,由是知为(69.87367, 118.51195)。例5 数据data05,求变量X1的偏回归平方和。在例4中,ANOVA表给出回归平方和是2667.899,按照偏回归平方和的定义,求Y对于X2,X3,X4的回归方程,此时ANOVA表格显示回归平方和为2641.949,故变量X1的偏回归平方和等于SR(X1) = 266
15、7.899 2641.949 = 25.95也就是方程中少了自变量X1,回归平方和就要损失25.95。24 回归方程的优化本节讨论在给定的显著性水平下,建立一个所有自变量都显著的回归方程的不同方法。为区别以下的方法,称上一节讨论的建立回归方程的方法为强制进入法(Enter方法)。 1前进法(Forward) 第一步 建立p个一元线性回归方程:在通过显著性检验的回归方程中,选择F值最大者留下,不妨设这个方程就是: 第二步 用入选的自变量X1与其余p1个自变量生成p1个搭配:X1, Xj, j=2,p,求出p1个回归方程:再从显著的方程中,选择X2最显著的方程留下。 以下的步骤与以上相同,直到剩下
16、的自变量中没有一个显著为止,最后的方程即所求。例6 数据data05,用前进法求回归方程。 做法同例2,只是在Linear Regression对话框的Mathod一栏将Enter改变为Forward。此表显示:进入变量检验的临界概率为0.05,即显著水平大于此值的变量都要出局。在此标准下,X4首选入方程,X1次选入方程,其他变量落选。第一个方程(自变量只有X4)的判决系数为0.645,而第二个方程(自变量为X4和X1)的判决系数为0.967,有了很大的提升。第一、第二两个回归方程都显著。第一个方程是,方程中没有不显著变量;第二个方程是,方程中也没有不显著变量。此表显示每次筛选中未进入方程的变
17、量。注意未进入第二个方程的变量X2和X3,它们的Sig.值分别是0.052和0.070,均大于临界概率0.05,这就是它们被淘汰的原因。 2退后法(Backward) 做法与前进法相反。即第一步将所有的p个自变量都进入方程,从第二步开始,每一步都将方程中最不显著的自变量剔除,直到方程中没有不显著的自变量为止。例7 数据data05,用后退法求回归方程。打开Linear Regression对话框,Method一栏改为Backward,其他一切做法照旧。点击OK ,得输出:剔除变量的临界概率为0.100,第一个方程按照后退法应该把所有自变量都进入方程,所以Model 1显示X4,X3,X1,X2
18、全都进入方程,注意这时Method显示的是Enter而非Backward,想一想这是为什么。第二个方程也就是Model 2把X3剔除出去,这时Method显示Backward。第三个方程即Model 3又把X4剔除出去,以后没有剔除动作,这Model 3就是最终结果。这张表格无需多做解释。提醒读者,从中可以看到随自变量个数增加,判决系数确有增大的趋势。这张表也无需多做解释,它指出三个模型都显著。这是被剔除变量的清单。Model 2中变量X3被剔除理由是它的Sig.值为0.896,远大于临界值0.100,并且是所有Sig.值大于临界值的变量中最大的一个。类似解释Model 2。这是三个回归方程的
19、清单:模型1方程为按系统给的0.100的检验水平,除X1显著外,其余自变量均不显著,而且Sig.最大者为X3达到0.896,故剔除X3,重新回归,得模型2,方程为自变量X4不显著,剔除之,重新回归,得模型3,方程为此方程中已经没有不显著自变量。3逐步回归法(Stepwise) 前进法中,每一步向方程内引入一个最显著的自变量。由于新变量的引入,回归方程中原有的自变量的显著水平会发生相应的变化,有的变量原来是显著的,现在成为不显著。对于每一步可能产生的新的不显著变量,前进法没有提出如何处理,而是让它们继续留在回归方程内。换句话说,变量一旦进入方程,就不会被剔除出方程。逐步回归法就是针对这一缺点,在
20、每一步,不仅引入一个最显著的变量,还把已经存在于方程内的变得不显著的自变量,剔除掉最不显著的那个。如此直到方程中没有不显著的自变量为止。25 回归方程的诊断1共线性(Collinearity)诊断 1)共线性的含义 p(2)元线性回归方程中,如果自变量X1,X2,Xp也构成一个显著的线性模型。换言之:存在一个自变量,不妨设它是X1,如果用X1作因变量,对于剩下的自变量X2,Xp构成一个显著的p-1元线性回归方程: (2)变量Xj的容限(Tolerance) 设是以自变量Xj为因变量,与其他 p-1个自变量构成的p-1元线性回归方程的判决系数,称为变量Xj的容限。它是判断回归方程共线性的重要指标
21、。显然有:,并且:Tol(Xj) 的值越小,自变量Xj的共线性越显著。 2残差独立性判断 1)残差 残差(Residual)指实际观察值与预测值之差:残差向量: (1)残差的均值为零,即有:(2)残差的协方差矩阵 2)Durbin-Watson统计量 当n充分大时,其中的是残差序列的一阶自相关系数的估计。可见此时的d值约在区间0, 4之内,而当d=2时,可判定残差序列独立。附录:二阶段最小二乘法(Two-stage Least-squares)一自变量与因变量互为影响最小二乘估计适用于自变量单向影响因变量。但在许多经济学问题中,出现自变量和因变量双向影响的现象。价格与需求;工资水平与工作表现;
22、收入水平与受教育程度。以下是一个实例:研究收入(LW)与受教育水平(Educ)、种族(Black,是否黑人)、年龄(Age)的线性回归方程。有:此外,一个不争的事实是:受教育水平(Educ)也受收入(LW)的影响。解决的办法是另外寻找一些与受教育水平(Educ)和收入(LW)只有单向影响的自变量,用以预测受教育水平,这个预测模型是:用Educ的预测值代入原回归模型,进行估计。二二阶段最小二乘法 Regression2-Stage Least Squares Dependent因变量:LW Explanatory解释变量(原回归方程的自变量):Educ, Black, Age Instrument工具变量(预测方程的自变量): Fed, Med, Black, Age
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1