相关与回归分析 (2)PPT格式课件下载.ppt
《相关与回归分析 (2)PPT格式课件下载.ppt》由会员分享,可在线阅读,更多相关《相关与回归分析 (2)PPT格式课件下载.ppt(74页珍藏版)》请在冰豆网上搜索。
相关分析中的变量均为随机变量,不考虑两者的因果关系;
回归分析是在变量因果关系的基础上研究自变量对因变量的具体影响,必须明确划分自变量和因变量,回归分析中通常假定自变量为非随机变量,因变量为随机变量。
联系:
共同的研究对象:
都是对变量间相关关系的分析只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析,4.2简单线性相关与回归分析,一、简单线性相关系数及检验二、总体回归函数与样本回归函数三、回归系数的估计四、简单线性回归模型的检验五、简单线性回归模型预测,一、简单线性相关系数及检验,总体相关系数对于所研究的总体,表示两个相互联系变量相关程度的总体相关系数为:
COV(X,Y)=E(X-E(X)(Y-E(Y)总体相关系数反映总体两个变量X和Y的线性相关程度。
特点:
对于特定的总体来说,X和Y的数值是既定的总体相关系数是客观存在的特定数值。
样本相关系数,通过X和Y的样本观测值去估计样本相关系数变量X和Y的样本相关系数通常用表示特点:
样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。
相关系数的特点:
相关系数的取值在-1与1之间。
当r=0时,表明X与Y没有线性相关关系。
当时,表明X与Y存在一定的线性相关关系;
若表明X与Y为正相关;
若表明X与Y为负相关。
当时,表明X与Y完全线性相关;
若r=1,称X与Y完全正相关;
若r=-1,称X与Y完全负相关。
相关系数的经验解释,|r|0.8时,可视为两个变量之间高度相关0.5|r|0.8时,可视为中度相关0.3|r|0.5时,视为低度相关|r|0.3时,说明两个变量之间的相关程度极弱,可视为不相关上述解释必须建立在对相关系数的显著性进行检验的基础之上,使用相关系数的注意事项:
X和Y都是相互对称的随机变量,所以相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。
相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。
*相关系数的检验,为什么要检验?
样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。
检验的依据:
如果X和Y都服从正态分布,在总体相关系数的假设下,与样本相关系数r有关的t统计量服从自由度为n-2的t分布:
*相关系数的检验方法,给定显著性水平,查自由度为n-2的临界值若,表明相关系数r在统计上是显著的,应否定而接受的假设;
反之,若,应接受的假设。
二、总体回归函数与样本回归函数,1、若干基本概念Y的条件分布:
Y在X取某固定值条件下的分布。
对于X的每一个取值,都有Y的条件期望与之对应,在坐标图上Y的条件期望的点随X而变化的轨迹所形成的直线或曲线,称为回归线。
如果把Y的条件期望表示为X的某种函数:
这个函数称为回归函数。
如果其函数形式是只有一个自变量的线性函数,如,称为简单线性回归函数。
2、总体回归函数,概念:
将总体因变量Y的条件均值表现为自变量X的某种函数,这个函数称为总体回归函数。
表现形式:
(1)条件均值表现形式
(2)个别值表现形式(随机设定形式),3、样本回归函数,概念:
Y的样本观测值的条件均值随自变量X而变动的轨迹,称为样本回归线。
如果把因变量Y的样本条件均值表示为自变量X的某种函数,这个函数称为样本回归函数。
线性样本回归函数可表示为或者,4、样本回归函数与总体回归函数的关系相互联系,样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。
和是对总体回归函数参数的估计。
是对总体条件期望的估计残差e在概念上类似总体回归函数中的随机误差u。
回归分析的目的:
用样本回归函数去估计总体回归函数。
样本回归函数与总体回归函数的关系相互区别,总体回归函数虽然未知,但它是确定的;
样本回归线随抽样波动而变化,可以有许多条。
样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。
总体回归函数的参数虽未知,但是确定的常数;
样本回归函数的参数可估计,但是随抽样而变化的随机变量。
总体回归函数中的是不可直接观测的;
而样本回归函数中的是只要估计出样本回归的参数就可以计算的数值。
三、回归系数的估计,u是随机变量其分布性质不确定,必须作某些假定,其估计才有良好性质,其检验才可进行。
估计的原则是使参数估计值“尽可能地接近”总体参数真实值。
简单线性回归的基本假定,假定1:
零均值假定。
假定2:
同方差假定。
假定3:
无自相关假定。
假定4:
随机扰动与自变量不相关。
假定5:
正态性假定,回归系数的最小二乘估计(methodofleastsquares),德国科学家KarlGauss(17771855)提出用最小化图中垂直方向的误差平方和来估计参数使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。
即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小,KarlGauss的最小化图,x,y,(xn,yn),(x1,y1),(x2,y2),(xi,yi),最小二乘法(和的计算公式),根据最小二乘法,可得求解和的公式如下,最小二乘估计的性质高斯马尔可夫定理,前提:
在基本假定满足时最小二乘估计是因变量的线性函数最小二乘估计是无偏估计,即在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小。
结论:
回归系数的最小二乘估计是最佳线性无偏估计,四、简单线性回归模型的检验,回归模型的检验包括:
理论意义检验:
主要涉及参数估计值的符号和取值区间,检验它们与实质性科学的理论以及人们的实践经验是否相符。
一级检验:
又称统计学检验,利用统计学的抽样理论来检验样本回归方程的可靠性,具有分为拟合优度检验和显著性检验。
二级检验:
又称计量经济学检验,它是对标准线性回归模型的假设条件是否满足进行检验,包括自相关检验、异方差检验、多重共线性检验等。
(一)拟合优度的度量,基本思想:
样本回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。
样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上总离差平方和回归平方和残差平方和可决系数(判定系数)定义:
变差,因变量y的取值是不同的,y取值的这种波动称为变差。
变差来源于两个方面:
由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示。
误差的分解(图示),x,y,误差平方和的分解(三个平方和的关系),TSS=RSS+ESS,误差平方和的分解(三个平方和的意义),总平方和(SSTtotalsumofsquares)反映因变量的n个观察值与其均值的总误差回归平方和(SSRsumofsquaresofregression)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSEsumofsquaresoferror)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和,可决系数r2,1、回归平方和占总误差平方和的比例,反映回归直线的拟合程度可决系数是非负的统计量,取值范围为0,1r21,说明回归方程拟合的越好;
r20,说明回归方程拟合的越差判定系数等于相关系数的平方可决系数是样本观测值的函数,可决系数是随抽样而变动的随机变量,估计标准误差(standarderrorofestimate),实际观察值与回归估计值误差平方和的均方根反映实际观察值在回归直线周围的分散状况对误差项u的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量反映用估计的回归方程预测y时预测误差的大小计算公式为,注:
例题的计算结果为1.9799,*
(二)显著性检验1、线性关系的F检验2、回归系数的t检验,1、线性关系的检验,检验自变量与因变量之间的线性关系是否显著将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著回归均方:
回归平方和SSR除以相应的自由度(自变量的个数k)残差均方:
残差平方和SSE除以相应的自由度(n-k-1),线性关系的检验(检验的步骤),提出假设H0:
1=0线性关系不显著,2.计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F作出决策:
若FF,拒绝H0;
若FF,不拒绝H0,线性关系的检验(例题分析),提出假设H0:
1=0不良贷款与贷款余额之间的线性关系不显著计算检验统计量F,确定显著性水平=0.05,并根据分子自由度1和分母自由度25-2找出临界值F=4.28作出决策:
若FF,拒绝H0,线性关系显著,线性关系的检验(方差分析表),Excel输出的方差分析表,2、回归系数的t检验,在一元线性回归中,等价于线性关系的显著性检验采用t检验,检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著,理论基础是回归系数的抽样分布,回归系数的检验(样本统计量的分布),是根据最小二乘法求出的样本统计量,它有自己的分布的分布具有如下性质分布形式:
正态分布数学期望:
标准差:
由于未知,需用其估计量se来代替得到的估计的标准差,回归系数的检验(检验步骤),提出假设H0:
b1=0(没有线性关系)H1:
b10(有线性关系)计算检验的统计量,确定显著性水平,并进行决策tt,拒绝H0;
tt,不拒绝H0,回归系数的检验(例题分析),对例题的回归系数进行显著性检验(0.05)提出假设H0:
b=0H1:
b0计算检验的统计量,t=7.533515t=2.201,拒绝H0,表明不良贷款与贷款余额之间有显著的线性关系,回归系数的检验(例题分析),P值的应用,P=0.000000=0.05,拒绝原假设,不良贷款与贷款余额之间有显著的线性关系,Excel输出的部分回归结果,五、简单线性回归模型预测,对平均值的点预测值:
Y的个别值置