1、东财春学期统计学第十一章 回归分析与相关分析 课堂笔记东财09春学期统计学第十一章回归分析与相关分析 课堂笔记第十一章回归分析与相关分析一、学习目的与要求重点:函数关系与相关关系的区别;相关关系的分类;相关分析与回归分析的联系与区别;用最小平方法进行一元线性回归分析;离差平方和的分解;相关系数的计算及检验;估计标准误差与预测。难点:回归系数的假设检验,以及回归估计。二、课程内容11.1 相关分析相关和回归分析是研究事物的相互关系、测定他们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。 1.相关关系的概念现象之间的确定性
2、依存关系称为函数关系,对于自变量的每一个给定值,因变量都有一个确定值与之相对应,并且这种关系可以用一个数学表达式反映出来。相关关系反映的是现象之间的不确定性依存关系,当给定自变量的一个值时,因变量有若干个随机值与之对应,表现出一定的波动性。函数关系与相关关系之间并无严格分界限:有函数关系的变量间,由于有测量误差及各种随机因素的干扰,可变现为相关关系;对具有相关关系的变量有了深刻了解后,相关关系可能转化为或借助函数关系来描述。2.相关关系的种类(重点)(1)按变量的个数,可分为一元相关和多元相关。(2)按变量之间相互关系的表现形式,可分为线性相关和非线性相关。(3)根据变量之间相互关系的方向,可
3、分为正相关和负相关。3.相关关系的测定(1)定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系做出判断。(2)定量分析,在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度。 相关表:将现象之间的相互关系用表格形式来反映,包括简单相关表和分组相关表。简单相关表:适用于所观察的样本单位数较少,不需要分组的情况。分组相关表:适用于所观察的样本单位数较多标志变异又较复杂,需要分组的情况。 相关图,又称散点图,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘
4、出来,用以表明相关点分布状况。 相关系数,在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,计算公式为:r0 为正相关,r 0 为负相关;|r|=0 表示不存在线性关系;|r|1 表示完全线性相关;0|r|1表示存在不同程度线性相关:|r| 0.4 为低度线性相关;0.4 |r| 0.7为显著性线性相关;0.7|r| 1.0为高度显著性线性相关。判定系数:是相关系数的平方,用r2表示,用来衡量回归方程对y的解释程度。判定系数取值范围:r2越接近于1,表明x与y之间的相关性越强;r2越接近于0,表明两个变量之间几乎没有直线相关关系。 11.2 一元线性回归分析1. 回归分析概述回归
5、分析指根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法。回归分析与相关分析既有联系又有区别。(重点) 联系:(1)理论和方法具有一致性;(2)无相关就无回归,相关程度越高,回归越好;(3)相关系数和回归系数方向一致,可以互相推算。区别:(1)回归分析中必须区分自变量和因变量,而相关分析中两个变量是完全对等的;(2)相关分析中x、y均为随机变量,回归分析中只有y为随机变量;(3)相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。注意:我们不能把回归分析看作是在变量间建立一个因果关系的过程。回归分析只能表明,变量时
6、如何或者是以怎样的程度彼此联系在一起的。有关因果关系的任何结论,必须建立在理论分析的基础之上。2. 一元线性回归模型对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为:其中截距a表示在没有自变量x的影响时,其他各种因素对因变量y的平均影响;回归系数b表明自变量x每变动一个单位,因变量y平均变动b个单位。参数a、b的确定:最小平方法基本数学要求:分别对函数中a、b求偏导,并令其为零,有: 得到a,b的值为: (资料如前)判定系数与相关系数的区别:判定系数无方向性,相关系数则有方向,其方向与样本回归系数b相同;判断系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两
7、变量间关联程度及方向;相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。3.回归估计标准差(1)回归估计标准差是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。大样本条件下,可用如下公式计算: (资料如前)(2)离差平方和的分解 称为总离差平方和(SST) ,反映因变量Y的离散程度;称为回归离差平方和(SSR) ,反映由于Y和X的线性依存关系所引起Y的变动部分;称为剩余平方和(Q) ,反映其他因素对Y的影响部分。(3)判定系数 称为判定系数,用来衡量回归线对Y的总离差说明程度。判定系
8、数的平方根即为相关系数。判定系数与估计标准差的关系:估计标准差越小,则变量间相关程度越高,回归线对Y的解释程度越高。4.线性相关的显著性检验目的:检验总体两变量间线性相关性是否显著。样本相关系数r的显著性检验(t检验) 的目的是检验总体两变量间线性相关性是否显著。其步骤为:(1)提出假设:(2)构造检验统计量:(3)根据给定的显著性水平,确定临界值(4)确定原假设的拒绝规则:若则接受,表示总体两变量间线性相关性不显著;若,则拒绝,表示总体两变量间线性相关性显著。(5) 计算检验统计量并做出决策。(资料如前)5.回归估计与预测估计的前提:回归方程经过检验,证明 X 和 Y 的关系在统计上是显著相关的。(1) 点估计:对于给定的X值,求出Y平均值的一个估计值或Y的一个个别值的预测值。(2) 区间估计:对于给定的X值,求出Y平均值的置信区间或Y的一个个别值的预测区间。SPSS输出结果(不要求掌握)
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1