《统计学导论》 曾五一第七章内容相关与回归分析.docx
《《统计学导论》 曾五一第七章内容相关与回归分析.docx》由会员分享,可在线阅读,更多相关《《统计学导论》 曾五一第七章内容相关与回归分析.docx(18页珍藏版)》请在冰豆网上搜索。
![《统计学导论》 曾五一第七章内容相关与回归分析.docx](https://file1.bdocx.com/fileroot1/2023-1/8/d91efa0a-9f6a-43f7-a00b-dc549b094980/d91efa0a-9f6a-43f7-a00b-dc549b0949801.gif)
《统计学导论》曾五一第七章内容相关与回归分析
第七章相关与回归分析
第一节相关与回归分析的基本概念
一函数关系与相关关系
当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。
例如,商品的销售收入Y与该商品的销售量X以及该商品价格P之间的关系。
当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。
变量间的这种相互关系,称为具有不确定性的相关关系。
例如,劳动生产率与工资水平的关系。
变量之间的函数关系和相关关系,在一定条件下是可以互相转化的。
本来具有函数关系的变量,当存在观测误差时,其函数关系往往以相关的形式表现出来。
而具有相关关系的变量之间的联系,如果我们对它们有了深刻的规律性认识,并且能够把影响因变量变动的因素全部纳入方程,这时的相关关系也可能转化为函数关系。
相关关系也具有某种变动规律性,所以,相关关系经常可以用一定的函数形式去近似地描述。
客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系必须借助于统计学中的相关与回归分析方法。
二相关关系的种类
按相关的程度可分为完全相关、不完全相关和不相关。
当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。
在这种场合,相关关系便成为函数关系。
因此也可以说函数关系是相关关系的一个特例。
当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。
两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不完全相关。
按相关的方向可分为正相关和负相关。
当一个现象的数量增加(或减少),另一个现象的数量也随之增加(或减少)时,称为正相关。
例如,消费水平随收入的增加而提高。
当一个现象的数量增加(或减少),而另一个现象的数量向相反方向变动时,称为负相关。
例如商品流转的规模愈大,流通费用水平则愈低。
按相关的形式可分为线性相关和非线性相关。
按所研究的变量多少可分为单相关、复相关和偏相关。
两个变量之间的相关,称为单相关。
当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。
在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。
例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。
三相关分析与回归分析
相关分析是用一个指标来表明现象间相互依存关系的密切程度。
回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。
相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。
相关分析与回归分析之间在研究目的和方法上是有明显区别的。
相关分析研究变量之间相关的方向和相关的程度。
回归分析则是研究变量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学表达式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供一个重要的方法。
相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。
可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量可以都是随机变量。
而回归分析则必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量。
一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。
在应用项关于回归分析方法对客观现象进行研究时,一定要始终注意把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。
第二节简单线性相关与回归分析
一相关系数及其检验
(二)相关系数的特点
r的取值介于-1与1之间。
当r=0时,X与Y的样本观测值之间没有线性关系。
在大多数情况下,0<|r|<1,即X与Y的样本观测值之间存在着一定的线性关系,当r>0时,X与Y为正相关,当r<0时,X与Y为负相关。
如果|r|=1,则表明X与Y完全线性相关,当r=1时,称为完全正相关,而r=-1时,称为完全负相关。
r是对变量之间线性相关关系的度量。
r=0只是表明两个变量之间不存在线性关系,它并不意味着X与Y之间不存在其他类型的关系。
对于二者之间可能存在的非线性相关关系,需要利用其他指标去进行分析。
二标准的一元线性回归模型
■样本回归函数与总体回归函数之间的间的区别。
总体回归线是未知的,它只有一条。
而样本回归线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。
总体回归函数中的1和2是未知的参数,表现为常数。
而样本回归函数中的
和
是随机变量,其具体数值随所抽取的样本观测值不同而变动。
总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。
而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出et的具体数值。
(三)误差项的标准假定
假定1:
误差项的期望值为0,即对所有的t总有
假定2:
误差项的方差为常数,即对所有的t总有
假定3:
误差项之间不存在序列相关关系,其协方差为零,即当t≠s时有:
假定4:
自变量是给定的变量,与随机误差项线性无关。
假定5:
随机误差项服从正态分布。
满足以上标准假定的一元线性模型,称为标准的一元线性回归模型。
三一元线性回归模型的估计
(一)回归系数的点估计
(二)总体方差的估计
(三)最小二乘估计量的性质\
由以上推导过程可知,最小二乘估计量是因变量观测值Yt的线性函数,其期望值等于总体回归系数的真值。
因此,最小二乘估计量是总体回归系数的线性无偏估计量。
数学上还可以进一步证明,在所有的线性无偏估计量中,回归系数的最小二乘估计量的方差最小;同时随着样本容量的增大,其方差会不断缩小。
也就是说,回归系数的最小二乘估计量是最优线性无偏估计量和一致估计量。
高斯-马尔可夫定理表明,在标准的假定条件下,最小二乘估计量是一种最佳的估计方式。
但是应当明确,这并不意味着根据这一方式计算的每一个具体的估计值都比根据其他方式计算的具体估计值更接近真值,而只是表明如果反复多次进行估计值计算或是扩大样本的容量进行估计值计算,按最佳估计方式计算的估计值接近真值的可能性(概率)最大。
(四)回归系数的区间估计
四一元线性回归模型的检验
(一)回归模型检验的种类
回归模型的检验包括理论意义检验、一级检验和二级检验。
理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。
例如,在前面所举的消费函数中,2的取值区间应在0至1之间。
在对实际的社会经济现象进行回归分析时,常常会遇到经济意义检验不能通过的情况。
造成这一结果的主要原因是:
社会经济的统计数据无法像自然科学中的统计数据那样通过有控制的实验去取得,因而所观测的样本容量有可能偏小,不具有足够的代表性,或者不能满足标准线性回归分析所要求的假定条件。
一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。
一级检验是对所有现象进行回归分析时都必须通过的检验。
二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等。
二级检验对于社会经济现象的定量分析具有特别重要的意义。
(二)拟合程度的评价
总离差平方和的分解
上式中,SST是总离差平方和;SSR是由回归直线可以解释的那一部分离差平方和,称为回归平方和;SSE是用回归直线无法解释的离差平方和,称为残差平方和。
式子两边同除以SST,得:
显而易见,各个样本观测点与样本回归直线靠得越紧,SSR在SST中所占的比例就越大。
因此,可定义这一比例为决定系数,即有:
决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。
决定系数越小,则模型对样本的拟合程度越差。
决定系数r2具有如下特性:
1.决定系数r2具有非负性。
由决定系数的定义式可知,r2的分子分母均是不可能为负值的平方和,因此其比值必大于零。
(但是在回归模型中不包括截距项的场合,由于总离差平方和的分解公式不成立,按该式计算的r2有可能小于0。
)
2.决定系数的取值范围为0≤r2≤1。
3.决定系数是样本观测值的函数,它也是一个统计量。
4.在一元线性回归模型中,决定系数是单相关系数的平方。
(三)显著性检验
所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。
下面我们以B2的检验为例,介绍回归系数显著性检验的基本步骤:
t检验
(1)提出假设。
对回归系数进行显著性检验,所提出的假设的一般形式是:
式中,H0表示原假设;H1表示备择假设;
是假设的总体回归系数的真值。
在许多回归分析的计算机程序里,常常令
=0。
这是因为2是否为0,可以表明X对Y是否有显著的影响。
(2)确定显著水平。
显著水平的大小应根据犯哪一类错误可能带来损失的大小确定。
一般情况下可取0.05。
(3)计算回归系数的t值。
(4)确定临界值。
t检验的临界值是由显著水平和自由度决定的。
这时应该注意,原假设和备择假设设定的方式不同,据以判断的接受域和拒绝域也不相同。
对此,在双侧检验的场合,依据和df,查t分布表所确定的临界值是(-t/2)和(t/2);而在单侧检验的场合,所确定的临界值是(t)。
(5)做出判断。
如果
的绝对值大于临界值的绝对值,就拒绝原假设,接受备择假设;反之,如果
的绝对值小于临界值的绝对值,则接受原假设。
2.p检验
回归系数的显著性检验还可以采用p检验。
其前三步与t检验相同,但t值计算出来之后,并不与t分布的临界值进行对比,而是直接计算自由度为n-2的t统计量大于或小于根据样本观测值计算的的概率即p值。
然后将其与给定的显著水平对比,如果p小于,则拒绝原假设,反之则接受原假设。
利用Excel进行回归分析时,计算机将直接给出回归系数估计的p值。
五一元线性回归模型预测
(一)回归预测的基本公式
简单回归预测的基本公式如下:
式中,Xf是给定的X的具体数值;
是Xf给定时Y的预测值;
是已估计出的样本回归系数。
回归预测是一种有条件的预测,在进行回归预测时,必须先给出Xf的具体数值。
当给出的Xf属于样本内的数值时,利用该式去计算
称为内插检验或事后预测。
而当给出的Xf在样本之外时,利用该式去计算
称为外推预测或事前预测。
通常所说的预测是指事前预测。
(二)预测误差
在实际的回归模型预测中,发生预测误差的原因可以概括为以下四个:
1.模型本身中的误差因素所造成的误差;这一误差可以用总体随机误差项的方差来评价。
2.由于回归系数的估计值同其真值不一致所造成的误差;这一误差可以用回归系数的最小二乘估计量的方差来评价。
3.由于自变量X的设定值同其实际值的偏离所造成的误差。
4.由于未来时期总体回归系数发生变化所造成的误差。
在以上造成预测误差的原因中,3、4两项不属于回归方程本身的问题,而且也难以事先予以估计和控制。
因此,在下面的讨论中,假定只存在1、2、两种误差。
(三)区间预测
若用Sef来表示预测标准误差的估计值,
则数学上可以证明:
服从于自由度为(n-2)的t分布。
按照确定置信区间的方法,可以得出Yf的(1-A)的置信区间为:
式中,
是置信度为(1-A)、自由度为(n-2)的t分布的临界值。
对于每一个给定的X值,计算相应的Y的置信区间,并将连接各点的曲线描绘在平面图上,便可得到右图。
从置信区间和Sef的计算公式以及右图,可以得到以下结论:
回归预测的置信区间
第一,置信区间的上下限对称地落在样本回归直线两边,呈中间小两头大的喇叭型。
当Xf=
时的置信区间最窄,而当Xf远离
时,其置信间逐渐增大。
这就是说,在用回归模型进行预测时,Xf的取值不宜离开
过远,否则预测精度将会降低,有可能使预测失效。
第二,在样本容量n保持不变时,
的值,随置信度(1-A)的提高而增加,因此,要求预测值的概率保证程度增加,在其它条件不变时,也就意味着预测精度的降低。
第三,当其它条件不变时,
和Sef的值均为样本容量n的减函数,即随着n的增加,这二者将逐渐减少。
这说明随着样本容量的增加,预测精度将会提高,而样本容量过小,预测的精度就较差。
第四,当n足够大时,Sef会趋近于S;
会趋近于zA/2。
(zA/2是置信度为(1-A)的标准正态分布的临界值)。
这时,可以用S和zA/2取代Sef和ztA/2来确定预测区间。
即样本容量充分大时,Yf的(1-A)的置信区间为:
Yf±zA/2×S
按上式确定的预测区间的上、下限在平面图上呈两条直线(参见图“回归预测的置信区间”中与样本回归线平行的两条虚线)。
第三节多元线性相关与回归分析
一标准的多元线性回归模型
研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。
多元线性回归模型总体回归函数的一般形式如下:
多元线性回归模型的样本回归函数如下
(t=1,2,…,n)
上式中,et是Yt与其估计之间的离差,即残差。
与一元线性回归分析相类似,为了进行多元线性回归分析也需要提出一些必要的假定。
多元线性回归分析的标准假定除了包括上一节中已经提出的关于随机误差项的假定外,还要追加一条假定。
这就是回归模型所包含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数的个数即n>k。
我们称这条假定为标准假定6。
。
二多元线性回归模型的估计
(一)回归系数的估计
多元线性回归模型中回归系数的估计同样采用最小二乘法。
设
根据微积分中求极小值的原理,可知残差平方和Q存在极小值,欲使Q达到最小,Q对
的偏导数必须等于零。
将Q对
求偏导数,并令其等于零,加以整理后可得到以下k个方程式:
以上k元一次方程组称为正规方程组或标准方程组,通过求解这一方程组便可以得到
(二)总体方差的估计
多元线性回归模型中的
也是利用残差平方和除以其自由度来估计的。
即有:
上式中,n是样本观测值的个数;k是方程中回归系数的个数;数学上可以证明,S2是
的无偏估计。
S2的正平方根S又叫做回归估计的标准误差。
S越小表明样本回归方程的代表性越强。
在编制计算机程序时,残差平方和一般不是按照其定义式计算,而是利用以下公式计算:
上式是残差平方和的矩阵形式。
式中Y是因变量样本观测值向量;X是自变量样本观测值矩阵;
是回归系数估计值向量的转置向量。
三多元线性回归模型的检验和预测
(一)拟合程度的评价
利用R2来评价多元线性回归方程的拟合程度,必须注意以下问题。
由决定系数的定义可知,R2的大小取决于残差平方和
在总离差平方和
中所占的比重。
在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则会随着模型中自变量个数的增加不断减少,至少不会增加。
因此,R2是自变量个数的非递减函数。
(三)显著性检验
1.回归系数的显著性检验
多元回归中进行这一检验的目的主要是为了检验与各回归系数对应的自变量对因变量的影响是否显著,以便对自变量的取舍做出正确的判断。
一般来说,当发现某个自变量的影响不显著时,应将其从模型中删除。
这样才能够做到以尽可能少的自变量去达到尽可能高的拟合优度。
多元模型中回归系数的检验同样采用t检验和P检验,其原理和基本步骤与一元回归模型基本相同,这里不再赘述。
下面仅给出回归系数显著性检验t统计量的一般计算公式。
2.回归方程的显著性检验
必须在方差分析的基础上利用F检验进行。
其具体的方法步骤可归纳如下:
(1)假设总体回归方程不显著,即有
(2)进行方差分析,列出回归方差分析表(见下表)
回归模型方差分析表
表中,回归平方和的取值受k个回归系数估计值的影响,同时又要服从
的约束条件,因此其自由度是k-1。
残差平方和取决于n个因变量的观测值,同时又要服从k个正规方程式的约束,因此其自由度是n-k。
回归平方和与残差平方和各除以自身的自由度得到的是样本方差。
(3)根据方差分析的结果求F统计量,即
数学上可以证明,在随机误差项服从正态分布同时原假设成立的条件下,F服从于自由度为(k-1)和(n-k)的F分布。
(4)根据自由度和给定的显著性水平,查F分布表中的理论临界值F。
当F>F时,拒绝原假设,即认为总体回归函数中各自变量与因变量的线性回归关系显著。
当F(三)多元线性回归预测
在通过各种检验的基础上,多元线性回归模型可以用于预测。
多元线性回归预测与一元线性回归预测的原理是一致的,其基本公式如下:
式中,Xjf(j=2,3,…,k)是给定的Xj在预测期的具体数值;
是已估计出的样本回归系数;是Xj给定时Y的
预测值。
该方程的矩阵形式为:
多元线性回归预测标准误差的计算公式如下:
式中,S是回归方程估计的标准误差。
多元线性回归预测Yf的(1-A)的置信区间可由下式给出:
式中,tA/2是显著水平为A的t分布双侧临界值。
四复相关系数和偏相关系数
(一)复相关系数
a)样本复相关系数(以下简称复相关系数)的定义式如下:
b)实际计算复相关系数时,一般不直接根据其定义式,而是先计算出决定系数,然后再求决定系数的平方根。
c)复相关系数只取正值。
因此,复相关系数只是反映一个变量Y与其他多个变量X2,X3,…,Xk之间线性相关程度的指标,而不能反映其相互之间线性相关的方向。
d)复相关系数的取值区间为:
0≤R≤1。
(二)偏相关系数
在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度和相关方向的指标称为偏相关系数。
在多变量相关的场合,由于变量之间存在错综复杂的关系,因此偏相关系数与单相关系数在数值上可能相差很大,有时甚至符号都可能相反。
单相关系数受其他因素的影响,反映的往往是表面的非本质的联系,而偏相关系数则较能说明现象之间真实的联系。
例如,一种商品的需求既受收入水平的影响又受其价格的影响。
按照经济学理论,在一定的收入水平下,该商品的价格越高,商品的需求量就越小。
也就是说,需求与价格之间应当是负相关。
可是,在现实经济生活中,由于收入和价格常常都有不断提高的趋势,如果不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算单相关系数,就有可能得出价格越高需求越大的错误结论。
样本单相关系数也可定义为两个样本回归系数的乘积的开方,即:
上式中r的符号应与回归系数的符号一致。
回归系数为正数时,r取正值;回归系数为负数时,r取负值。
样本偏相关系数也可以按照类似的形式来定义,即偏相关系数等于两个相应的偏回归系数的几何平均数。
为简明起见,下面举3变量的偏相关分析为例。
设有3个变量X1、X2和X3。
3个变量各自以另两个变量为自变量拟合的样本回归方程如下:
利用以上偏回归系数,3个变量之间的偏相关系数可定义如下:
偏相关系数的取值范围与单相关系数一样也是在-1至+1之间,其符号与相应的偏回归系数相同。