相关与回归分析.ppt
《相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《相关与回归分析.ppt(53页珍藏版)》请在冰豆网上搜索。
第8章相关与回归分析,8.1相关与回归的基本概念8.2简单线性相关与回归分析8.3多元线性相关与回归分析8.4非线性相关与回归分析,8.1相关与回归的基本概念,一、变量间的相互关系二、相关关系的类型三、相关分析与回归分析,一、变量间的相互关系,确定性的函数关系Y=f(X)不确定性的统计关系相关关系Y=f(X)+(为随机变量)没有关系变量间关系的图形描述:
坐标图(散点图),相关关系的类型,从涉及的变量数量看简单相关多重相关(复相关)从变量相关关系的表现形式看线性相关散布图接近一条直线(左图)非线性相关散布图接近一条曲线(右图),从变量相关关系变化的方向看正相关变量同方向变化A同增同减(A)负相关变量反方向变化一增一减(B)B从变量相关的程度看完全相关(B)不完全相关(A)C不相关(C),相关关系的类型,回归的现代意义,一个因变量对若干解释变量依存关系的研究回归的目的(实质):
由固定的自变量去估计因变量的平均值,相关分析与回归分析的联系,共同的研究对象:
都是对变量间相关关系的分析只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析相关分析中相关系数的确定建立在回归分析的基础上,82简单线性相关与回归分析,一、简单线性相关系数及检验二、总体回归函数与样本回归函数三、回归系数的估计四、简单线性回归模型的检验五、简单线性回归模型预测,一、简单线性相关系数及检验,总体相关系数对于所研究的总体,表示两个相互联系变量相关程度的总体相关系数为:
总体相关系数反映总体两个变量X和Y的线性相关程度。
特点:
对于特定的总体来说,X和Y的数值是既定的总体相关系数是客观存在的特定数值。
样本相关系数,通过X和Y的样本观测值去估计样本相关系数变量X和Y的样本相关系数通常用表示特点:
样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。
相关系数的特点:
相关系数的取值在-1与1之间。
当r=0时,表明X与Y没有线性相关关系。
当时,表明X与Y存在一定的线性相关关系:
若表明X与Y为正相关;若表明X与Y为负相关。
当时,表明X与Y完全线性相关:
若r=1,称X与Y完全正相关;若r=-1,称X与Y完全负相关。
使用相关系数的注意事项:
X和Y都是相互对称的随机变量,所以相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。
相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。
相关系数的检验,如果X和Y都服从正态分布,在总体相关系数的假设下,与样本相关系数r有关的t统计量服从自由度为n-2的t分布:
相关系数的检验方法,给定显著性水平,查自由度为n-2的临界值若,表明相关系数r在统计上是显著的,应否定而接受的假设;反之,若,应接受的假设。
二、总体回归函数与样本回归函数,若干基本概念Y的条件分布:
Y在X取某固定值条件下的分布。
对于X的每一个取值,都有Y的条件期望与之对应,在坐标图上Y的条件期望的点随X而变化的轨迹所形成的直线或曲线,称为回归线。
如果把Y的条件期望表示为X的某种函数:
这个函数称为回归函数。
如果其函数形式是只有一个自变量的线性函数,如,称为简单线性回归函数。
总体回归函数(PRF),概念:
将总体因变量Y的条件均值表现为自变量X的某种函数,这个函数称为总体回归函数(简记为PRF)。
表现形式:
(1)条件均值表现形式
(2)个别值表现形式(随机设定形式),样本回归函数(SRF),概念:
Y的样本观测值的条件均值随自变量X而变动的轨迹,称为样本回归线。
如果把因变量Y的样本条件均值表示为自变量X的某种函数,这个函数称为样本回归函数(简记为SRF)。
表现形式:
线性样本回归函数可表示为或者,样本回归函数与总体回归函数的关系相互联系,样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。
和是对总体回归函数参数的估计。
是对总体条件期望的估计残差e在概念上类似总体回归函数中的随机误差u。
回归分析的目的:
用样本回归函数去估计总体回归函数。
样本回归函数与总体回归函数的关系相互区别,总体回归函数虽然未知,但它是确定的;样本回归线随抽样波动而变化,可以有许多条。
样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。
总体回归函数的参数虽未知,但是确定的常数;样本回归函数的参数可估计,但是随抽样而变化的随机变量。
总体回归函数中的是不可直接观测的;而样本回归函数中的是只要估计出样本回归的参数就可以计算的数值。
三、回归系数的估计简单线性回归的基本假定,假定1:
零均值假定。
假定2:
同方差假定。
假定3:
无自相关假定。
假定4:
随机扰动与自变量不相关。
假定5:
正态性假定,回归系数的最小二乘估计,基本思想:
希望所估计的偏离实际观测值的残差越小越好。
可以取残差平方和作为衡量与偏离程度的标准最小二乘准则估计式:
最小二乘估计的性质高斯马尔可夫定理,前提:
在基本假定满足时最小二乘估计是因变量的线性函数最小二乘估计是无偏估计,即在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小。
结论:
回归系数的最小二乘估计是最佳线性无偏估计,最小二乘估计的概率分布性质,和都是服从正态分布的随机变量,其期望为方差和标准误差为结论:
的无偏估计,为什么要估计?
确定所估计参数的方差需要由于能直接观测,也是未知的,对的数值只能通过样本信息去估计。
怎样估计?
可以证明的无偏估计为:
拟合优度的度量,基本思想:
样本回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。
样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上总离差平方和回归平方和残差平方和可决系数定义:
对可决系数的理解,可决系数的特点,可决系数是非负的统计量;可决系数取值范围:
;可决系数是样本观测值的函数,可决系数是随抽样而变动的随机变量;在一元线性回归中,可决系数在数值上是简单线性相关系数的平方:
回归系数显著性的t检验,目的:
根据样本回归估计的结果对总体回归函数回归系数的有关假设进行检验,以检验总体回归系数是否等于某个特定的数值。
思想:
是未知的,而且不一定能获得大样本,这时可用的无偏估计代替去估计参数的标准误差:
回归系数显著性的t检验(续),用估计的参数标准误差对估计的参数作标准化变换,所得的t统计量将不再服从正态分布,而是服从t分布:
可利用t分布作有关的假设检验。
回归系数显著性t检验的方法,
(1)提出假设一般假设:
常用假设:
(2)计算统计量(3)给定显著性水平,确定临界值(4)检验结果判断若则拒绝原假设,而接受备择假设若则接受原假设,拒绝备择假设,五、简单线性回归模型预测,对平均值的点预测值:
Y的个别值置信度为1的预测区间:
因变量的区间预测的特点,
(1)个别值的预测区间大于平均值的预测区间:
Y平均值的预测值与真实平均值有误差,主要是受抽样波动影响;Y个别值的预测值与真实个别值的差异不仅受抽样波动影响,而且还受随机扰动项的影响
(2)对预测区间随变化而变化:
时,=0,此时预测区间最窄,越是远离,越大,预测区间越宽。
因变量的区间预测的特点(续),(3)预测区间与样本容量有关:
样本容量n越大,越大,预测误差的方差越小,预测区间也越窄。
(4)当样本容量趋于无穷大(即n)时,不存在抽样误差,平均值预测误差趋于0,此时个别值的预测误差只决定于随机扰动的方差。
8.3多元线性相关与回归分析,一、多元线性回归模型及假定二、多元线性回归模型的估计三、多元线性回归模型的检验四、多元线性回归模型的预测五、复相关系数和偏相关系数,一、多元线性回归模型及假定,多元总体线性回归函数一般形式条件均值形式,多元线性样本回归函数:
一般形式条件均值形式,多元线性回归模型的矩阵表示,多元总体线性回归模型的矩阵表示Y=X+U多元线性样本回归函数的矩阵表示,Y=X,+e,偏回归系数:
多元线性回归模型中,回归系数表示当控制其它自变量不变的条件下,第j个自变量的单位变动对因变量均值的影响,这样的回归系数称为偏回归系数。
二、多元线性回归模型的估计,多元回归模型的假定,相同的假定:
零均值、同方差、无自相关、随机扰动项与自变量不相关、U正态性增加的假定:
各自变量之间不存在线性关系。
在此条件下,自变量观测值矩阵X列满秩,Rank(X)=k,方阵,满秩,Rank(,)=k,意义:
可逆,,存在,多元回归参数的最小二乘估计,使残差平方和达到最小,其充分必要条件,正规方程组,-,多元线性回归的最小二乘估计式,正规方程组可简记为矩阵形式,存在,参数向量的最小二乘估计为,参数最小二乘估计的性质,可以证明:
多元线性回归的最小二乘估计也是最佳线性无偏估计。
随机误差项方差的估计,方差未知,需要利用样本回归的残差平方和去估计。
可以证明,,是随机扰动项方差,的无偏估计,三、多元线性回归模型的检验,拟合优度检验多元线性回归离差平方和的分解式,变差,TSS=RSS+ESS(总离差平方和)(残差平方和)(回归平方和)自由度n-1=n-k+k-1,多重可决系数:
修正的可决系数,可决系数是自变量个数的不减函数,比较因变量相同而自变量个数不同的两个模型的拟合程度时,不能简单地对比多重可决系数。
需要用自由度去修正多重可决系数中的残差平方和与回归平方和,相互关系:
回归参数的显著性检验t检验,在多元回归中可以证明,其中:
是矩阵,第j行第j列的元素。
因为,未知,故,也未知。
现用,代替对原假设分别作t检验,,可构造统计量,:
回归方程的显著性检验F检验,目的:
检验多个变量联合对因变量是否有显著影响方法:
在方差分析的基础上利用F检验进行假定:
不全为零,方差分析表,F检验的方法,给定显著性水平,在F分布表中查出自由度为k-1和n-k的临界值,F服从自由度为k-1和n-k的F分布。
F检验:
在,成立的条件下,统计量,:
若,则拒绝,说明回归方程中所有自变量联合起来对因变量有显著影响,若,则接受,说明回归方程中所有自变量联合起来对因变量影响不显著,四、多元线性回归模型的预测,点预测值预测的残差可证明用代替则构造t统计量给定显著性水平,可得临界值置信度为的预测区间为,-,五、复相关系数和偏相关系数,复相关系数:
度量一个变量与其他若干个变量联合线性联系程度在数值上:
多重可决系数的平方根等于复相关系数偏相关系数:
对于相互联系的多个变量,当控制其他变量保持不变的条件下,度量其中两个变量之间线性相关程度的指标称为偏相关系数。
偏相关系数与简单相关系数的内在联系,可以证明:
(以三个变量为例),8.4非线性相关与回归分析,一、非线性回归的函数形式与估计方法,二、非线性相关指数,一、非线性回归的函数形式与估计方法,常用的可以转换为线性的非线性函数形式幂函数参数度量了变量Y对变量X的弹性,即X的单位百分比变动引起Y变动的百分比对数函数参数说明当变量X每变动一个百分点,引起因变量Y绝对量的变动量,非线性回归的函数形式(续),指数函数如可转换为线性函数双曲函数多项式函数注意:
各种函数参数的经济意义不同共同特点:
虽然对于变量而言都是非线性的,但对于参数而言却是线性的,可以转换为线性回归去估计其参数。
二、非线性相关指数,非线性相关指数:
度量非线性相关程度非线性相关指数就是非线性回归的可决系数,或者用非线性可决系数的平方根表示:
非线性相关指数的性质,或R的值越接近于1,表明变量间的非线性相关程度越高;反之,或R的值越接近于0,表明变量间的非线性相关程度越弱。