ImageVerifierCode 换一换
格式:DOCX , 页数:18 ,大小:1.09MB ,
资源ID:6620086      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/6620086.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(《统计学导论》 曾五一第七章内容相关与回归分析.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

《统计学导论》 曾五一第七章内容相关与回归分析.docx

1、统计学导论 曾五一 第七章内容 相关与回归分析第七章 相关与回归分析第一节 相关与回归分析的基本概念 一 函数关系与相关关系 当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。例如,商品的销售收入Y与该商品的销售量X以及该商品价格P之间的关系。当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。 变量间的这种相互关系,称为具有不确定性的相关关系。例如,劳动生产率与工资水平的关系。变量之间的函数关系和相关关系,在一定条件下是可以互相转化的。本来具有函数关系的变量,当存在观测误差时,其函数关系往

2、往以相关的形式表现出来。而具有相关关系的变量之间的联系,如果我们对它们有了深刻的规律性认识,并且能够把影响因变量变动的因素全部纳入方程,这时的相关关系也可能转化为函数关系。相关关系也具有某种变动规律性,所以,相关关系经常可以用一定的函数形式去近似地描述。客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系必须借助于统计学中的相关与回归分析方法。二 相关关系的种类 按相关的程度可分为完全相关、不完全相关和不相关。当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。在这种场合,相关关系便成为函数关系。因此也可以说函数关系是相关关系的一个特例。当

3、两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不完全相关。按相关的方向可分为正相关和负相关。当一个现象的数量增加(或减少),另一个现象的数量也随之增加(或减少)时,称为正相关。例如,消费水平随收入的增加而提高。当一个现象的数量增加(或减少),而另一个现象的数量向相反方向变动时,称为负相关。例如商品流转的规模愈大,流通费用水平则愈低。按相关的形式可分为线性相关和非线性相关。按所研究的变量多少可分为单相关、复相关和偏相关。两个变量之间的相关,称为单相关。当所研究的是一个变量对两个或两个以上其他变量的相

4、关关系时,称为复相关。在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。三 相关分析与回归分析 相关分析是用一个指标来表明现象间相互依存关系的密切程度。回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析与回归分析之间在研究目的和方法上是有明显区别的。相关分析研究变量之间相关的方向和相关的程度。回归分析则是研究变量之间相互

5、关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学表达式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供一个重要的方法。相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量可以都是随机变量。而回归分析则必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。在应用项关于回归分析方法对客观现象进行研究时,一定要始终注意把定性分析和定量分析结合起来,在定性分析的基础上开展

6、定量分析。第二节 简单线性相关与回归分析 一 相关系数及其检验 (二)相关系数的特点 r的取值介于-1与1之间。当r =0时,X与Y的样本观测值之间没有线性关系。在大多数情况下,0|r|0时, X与Y为正相关,当r k。我们称这条假定为标准假定6。 。二 多元线性回归模型的估计 (一) 回归系数的估计多元线性回归模型中回归系数的估计同样采用最小二乘法。设根据微积分中求极小值的原理,可知残差平方和Q存在极小值,欲使Q达到最小, Q对 的偏导数必须等于零。将Q对 求偏导数,并令其等于零,加以整理后可得到以下k个方程式: 以上k元一次方程组称为正规方程组或标准方程组,通过求解这一方程组便可以得到 (

7、二) 总体方差的估计 多元线性回归模型中的 也是利用残差平方和除以其自由度来估计的。即有: 上式中,n是样本观测值的个数;k是方程中回归系数的个数;数学上可以证明,S2是 的无偏估计。 S2的正平方根S又叫做回归估计的标准误差。 S越小表明样本回归方程的代表性越强。在编制计算机程序时,残差平方和一般不是按照其定义式计算,而是利用以下公式计算: 上式是残差平方和的矩阵形式。式中Y是因变量样本观测值向量;X是自变量样本观测值矩阵; 是回归系数估计值向量的转置向量。三 多元线性回归模型的检验和预测(一)拟合程度的评价利用R2来评价多元线性回归方程的拟合程度,必须注意以下问题。由决定系数的定义可知,

8、R2的大小取决于残差平方和 在总离差平方和 中所占的比重。在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则会随着模型中自变量个数的增加不断减少,至少不会增加。因此, R2是自变量个数的非递减函数。(三) 显著性检验1. 回归系数的显著性检验多元回归中进行这一检验的目的主要是为了检验与各回归系数对应的自变量对因变量的影响是否显著,以便对自变量的取舍做出正确的判断。一般来说,当发现某个自变量的影响不显著时,应将其从模型中删除。这样才能够做到以尽可能少的自变量去达到尽可能高的拟合优度。多元模型中回归系数的检验同样采用t检验和P检验,其原理和基本步骤与一元回归模型基本相同,这里不

9、再赘述。下面仅给出回归系数显著性检验t统计量的一般计算公式。2. 回归方程的显著性检验必须在方差分析的基础上利用F检验进行。其具体的方法步骤可归纳如下:(1)假设总体回归方程不显著,即有 (2)进行方差分析,列出回归方差分析表(见下表)回归模型方差分析表表中, 回归平方和的取值受k个回归系数估计值的影响,同时又要服从 的约束条件,因此其自由度是k -1。残差平方和取决于n个因变量的观测值,同时又要服从k个正规方程式的约束,因此其自由度是n - k 。 回归平方和与残差平方和各除以自身的自由度得到的是样本方差。(3)根据方差分析的结果求统计量,即 数学上可以证明,在随机误差项服从正态分布同时原假

10、设成立的条件下,F服从于自由度为(k-1)和(n-k)的F分布。(4)根据自由度和给定的显著性水平 ,查F分布表中的理论临界值F 。当F F 时,拒绝原假设,即认为总体回归函数中各自变量与因变量的线性回归关系显著。当F F 时,接受原假设,即认为总体回归函数中,自变量与因变量的线性关系不显著,因而所建立的回归模型没有意义。(三)多元线性回归预测在通过各种检验的基础上,多元线性回归模型可以用于预测。多元线性回归预测与一元线性回归预测的原理是一致的,其基本公式如下:式中,Xjf(j=2,3,k)是给定的Xj在预测期的具体数值; 是已估计出的样本回归系数; 是Xj给定时Y的 预测值。该方程的矩阵形式

11、为:多元线性回归预测标准误差的计算公式如下: 式中,S是回归方程估计的标准误差。多元线性回归预测Yf的(1- A )的置信区间可由下式给出: 式中,tA /2是显著水平为A 的t分布双侧临界值。四 复相关系数和偏相关系数(一) 复相关系数a) 样本复相关系数(以下简称复相关系数)的定义式如下: b) 实际计算复相关系数时,一般不直接根据其定义式,而是先计算出决定系数,然后再求决定系数的平方根。 c) 复相关系数只取正值。因此,复相关系数只是反映一个变量Y与其他多个变量X2,X3,Xk之间线性相关程度的指标,而不能反映其相互之间线性相关的方向。 d) 复相关系数的取值区间为:0R1。 (二)偏相

12、关系数在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度和相关方向的指标称为偏相关系数。 在多变量相关的场合,由于变量之间存在错综复杂的关系,因此偏相关系数与单相关系数在数值上可能相差很大,有时甚至符号都可能相反。单相关系数受其他因素的影响,反映的往往是表面的非本质的联系,而偏相关系数则较能说明现象之间真实的联系。例如,一种商品的需求既受收入水平的影响又受其价格的影响。按照经济学理论,在一定的收入水平下,该商品的价格越高,商品的需求量就越小。也就是说,需求与价格之间应当是负相关。可是,在现实经济生活中,由于收入和价格常常都有不断提高的趋势,如果不考虑收入对需求的影响

13、,仅仅利用需求和价格的时间序列数据去计算单相关系数,就有可能得出价格越高需求越大的错误结论。样本单相关系数也可定义为两个样本回归系数的乘积的开方,即: 上式中r的符号应与回归系数的符号一致。回归系数为正数时, r取正值;回归系数为负数时, r取负值。样本偏相关系数也可以按照类似的形式来定义,即偏相关系数等于两个相应的偏回归系数的几何平均数。为简明起见,下面举3变量的偏相关分析为例。设有3个变量X1、X2和X3。3个变量各自以另两个变量为自变量拟合的样本回归方程如下:利用以上偏回归系数,3个变量之间的偏相关系数可定义如下:偏相关系数的取值范围与单相关系数一样也是在-1至+1之间,其符号与相应的偏回归系数相同。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1