第八章相关与回归分析Word文件下载.docx
《第八章相关与回归分析Word文件下载.docx》由会员分享,可在线阅读,更多相关《第八章相关与回归分析Word文件下载.docx(13页珍藏版)》请在冰豆网上搜索。
相关关系的例子
▪父亲身高(y)与子女身高(x)之间的关系
▪收入水平(y)与受教育程度(x)之间的关系
▪粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系
▪商品的消费量(y)与居民收入(x)之间的关系
▪商品销售额(y)与广告费支出(x)之间的关系
相关关系
1.变量间关系不能用函数关系精确表达
2.一个变量的取值不能由另一个变量唯一确定
3.当变量x取某个值时,变量y的取值可能有几个
4.各观测点分布在直线周围
二、相关关系的种类
(1)相关关系按涉及的变量的多少分为单相关、复相关和偏相关。
单相关就是两个变量之间的相关关系。
是研究一个因变量与一个自变量的依存关系。
复相关就是多个变量之间的相关关系。
是研究一个因变量与两个或两个以上自变量的依存关系。
偏相关就是在复相关研究中,如果假定其它变量不变,仅研究某一个变量对另一个变量的依存关系。
(2)相关关系按方向不同分为正相关和负相关。
正相关是指变量之间存在着同向变动的相关关系,即当一个变量的数值有小变大,另一个变量的数值也相应地由小变大
负相关是指变量之间存在着反向变动的相关关系,即当一个变量的数值有小变大,另一个变量的数值却由大变小。
(3)相关关系按表现的形式不同分为线性相关和非线性相关。
当一个变量变动时,另一个变量也随之发生大致均等的变动,从图形上看,二者对应点分布近似地在一条直线附近,这种相关关系就称为线性相关关系。
当一个变量变动时,另一个变量也随之发生变动,但从图形上看,二者对应点分布近似地在一条曲线附近,这种相关关系就称为非线性相关关系。
(4)相关关系按相关程度不同分为完全相关、不完全相关和不相关。
完全相关就是当一个变量的变动完全由另一个变量的变动所决定。
(函数关系)
当两个变量之间完全不存在任何依存关系,各自独立变动,其相关程度为零,称为不相关或零相关。
当变量之间的关系介于完全相关与不相关之间,称为不完全相关。
三、相关分析的内容
●1.确定现象之间是否存在相关关系,以及相关关系的表现形式
●2.测定相关关系的密切程度和方向
●3.确定现象之间相关关系的一般关系式
●4.测定变量估计值的可靠程度
第二节直线相关关系的测定
判断现象之间有无相关关系,应先进行定性分析,即依据理论知识、实践经验对现象之间是否存在相关关系及相关关系的类型作出判断。
然后在此基础上进行定量分析,即运用相关图、相关表和相关系数等方法对现象之间的相关关系进行描述与测度。
㈠相关表㈡相关关系的图示㈢相关系数
一、相关表
相关表是指按照相关现象的数量对应关系以及一定的逻辑顺序编制成的一种统计表。
通过相关表可以初步看出各变量之间的相关关系。
某企业2006年某种产品产量与总成本相关表
月份
产量万吨x
总成本万元y
1
2
3
4
5
6
2.4
3.1
4.3
5.2
4.4
6.1
32
43
51
61
53
78
二、相关图
●相关图是指把相关表中原始的对应数值在平面直角坐标图中用点描绘出来,用以反映其分布状况的统计图,也称散点图、散布图。
●从相关点的分布情况,就可以直观地、近似地观察出两个变量之间有无相关关系、相关关系的形式和相关关系的密切程度。
散点图(例题分析)
【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。
近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。
为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。
下面是该银行所属的25家分行2002年的有关业务数据
三、相关系数
1.相关系数的概念及其公式
相关表与相关图只能大致反映变量间的相关关系要准确反映变量之间的相关程度,就需要计算相关系数。
相关系数是测量变量之间的密切程度的指标。
测定两个变量之间线性关系密切程度的指标称为单线性相关系数或线性单相关系数。
通常用字母表示。
积差法公式:
(简单式)
2.相关关系的密切程度的判断标准
●相关系数的取值范围一定是在-1≤≤+1,或0≤≤1这一闭区间。
●当=1时,表示与变量为完全相关,即确定性的函数关系。
●当=0时,表明所有的相关点的分布都是杂乱无章的,说明变量与变量无关。
●如果0<<1,表示xy为正相关;
●当-1<<0时,表示xy为负相关,。
3.直线相关分析的特点
●1)参与相关分析的两个变量是对等关系,不分自变量和因变量,因此,相关系数只有一个。
●2)相关系数有正负号,它们反映相关关系的方向,正号反映正相关,负号反映负相关。
●3)相关的两个变量必须是随机的,这也是对等关系的反映。
第三节回归分析
一、回归分析的含义
什么是回归
回归是由英国著名统计学家FrancisGalton在19世纪末期研究孩子及其父母的身高时提出来的。
Galton发现身材高的父母,他们的孩子也高。
但这些孩子平均起来并不像他们父母那样高。
比较矮的父母情形也类似:
他们的孩子比较矮,但这些孩子的平均身高要比他们父母的平均身高高。
Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量之间数量关系的方法称为回归分析。
什么是回归分析?
1.从一组样本数据出发,确定变量之间的数学关系式
2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著
3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度
回归分析与相关分析的关系
联系:
二者都是对客观事物数量依存关系的分析。
一方面,相关分析是回归分析的基础和前提。
另一方面,回归分析是相关分析的深入和继续。
回归分析与相关分析的区别
1.相关分析中,变量x变量y处于平等的地位;
回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化
2.相关分析中所涉及的变量x和y都是随机变量;
回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量
3.相关分析主要是描述两个变量之间线性关系的密切程度;
回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制
二、简单直线回归方程的配合方法
回归方程式,其一般形式为:
应用最小平方法原理有:
三、估计标准误差
估计标准误差是就是观察值对估计值的平均离差,也叫回归误差,是衡量因变量的估计值与观测值之间的平均误差大小的指标。
简捷公式:
四、估计标准误差和相关系数的关系
回归模型的类型
一元线性回归
1.涉及一个自变量的回归
2.因变量y与自变量x之间为线性关系
•被预测或被解释的变量称为因变量(dependentvariable),用y表示
•用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示
3.因变量与自变量之间的关系用一条线性方程来表示
回归模型(regressionmodel)
1.回答“变量之间是什么样的关系?
”
2.方程中运用
•1个数字的因变量(响应变量)
•被预测的变量
•1个或多个数字的或分类的自变量(解释变量)
•用于预测的变量
●3.主要用于预测和估计
一元线性回归模型
1.描述因变量y如何依赖于自变量x和误差项的方程称为回归模型
2.一元线性回归模型可表示为
→y=A+Bx+e
•y是x的线性函数(部分)加上误差项
•线性部分反映了由于x的变化而引起的y的变化
•误差项是随机变量
•反映了除x和y之间的线性关系之外的随机因素对y的影响
•是不能由x和y之间的线性关系所解释的变异性
•A和B称为模型的参数
一元线性回归模型(基本假定)
1.误差项ε是一个期望值为0的随机变量,即E(ε)=0。
对于一个给定的x值,y的期望值为
2.Y=A+Bx
3.对于所有的x值,ε的方差σ2都相同
4.误差项ε是一个服从正态分布的随机变量,且相互独立。
即ε~N(0,σ2)
•独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关
•对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关
回归方程(regressionequation)
1.描述y的平均值或期望值如何依赖于x的方程称为回归方程
2.一元线性回归方程的形式如下
3.Y=A+Bx
方程的图示是一条直线,也称为直线回归方程
A是回归直线在y轴上的截距,是当x=0时y的期望值
B是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值
估计的回归方程(estimatedregressionequation)
1.总体回归参数A和B是未知的,必需利用样本数据去估计
2.用样本统计量a和b代替回归方程中的未知参数A和B,就得到了估计的回归方程
3.一元线性回归中估计的回归方程为
Yc=a+bx
其中:
a是估计的回归直线在y轴上的截距,b是直线的斜率,它表示对于一个给定的x的值,Yc是y的估计值,也表示x每变动一个单位时,y的平均变动值.
参数的最小二乘估计
1.使因变量的观察值与估计值之间的离差平方和达到最小来求得a和b的方法。
即
2.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小
根据最小二乘法的要求,可得求解a和b的公式如下
已求得如下过程数据:
由最小二乘法标准方程得回归系数的计算值为:
得出Y对X的直线回归方程为:
方程的意义
回归直线的拟合优度
变差
1.因变量y的取值是不同的,y取值的这种波动称为变差。
变差来源于两个方面
•由于自变量x的取值不同造成的
•除x以外的其他因素(如x对y的