e)|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切。
单选题
①下列哪两个变量之间的相关程度高()
–A、商品销售额和商品销售量的相关系数是0.9
–B、商品销售额和商业利润率的相关系数是0.84
–C、平均流通费用率与商业利润率的相关系数是0.94
–D、商品销售价格与销售量的相关系数是-0.91
②下列关系中,属于正相关关系的有()
–A、合理限度内,施肥量和平均单产量之间的关系
–B、产品产量与单位产品成本之间的关系
–C、商品的流通费用与销售利润之间的关系
–D、流通费用率与商品销售量之间的关系
③变量之间的相关程度越低,则相关系数值()
A、越小B、越接近于0C、越接近于-1D、越接近于1
④已知Σ(X-X¯)2是Σ(Y-Y¯)2的两倍,并已知Σ(X-X¯)(Y-Y¯)是Σ(Y-Y¯)2的1.2倍,则相关系数r为()
A、不能计算B、0.6C、
D、
多选题
变量之间的不完全相关可以表现为()
A、零相关B、正相关C、负相关D、曲线相关E、相关系数为1
求X与Y的相关系数
编号
X
Y
1
5
8
2
8
14
3
6
10
4
4
6
5
2
2
二、一元线性回归
1.什么是回归分析?
(内容)
1)从一组样本数据出发,确定变量之间的数学关系式。
2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。
3)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。
回归分析与相关分析的区别
1)相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化。
2)相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。
3)相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
多选题
线性相关分析的特点表现为()
–A、两个变量之间的地位是对等关系
–B、只能算出一个相关系数
–C、相关系数有正负号
–D、相关的两个变量必须都是随机变量
–E、不反映任何自变量和因变量的关系
回归模型的类型
2.一元线性回归
1)涉及一个自变量的回归。
2)因变量y与自变量x之间为线性关系。
–被预测或被解释的变量称为因变量,用y表示。
–用来预测或用来解释因变量的一个或多个变量称为自变量,用x表示。
3)因变量与自变量之间的关系用一条线性方程来表示。
3.一元线性回归模型(概念要点)
1)当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归。
2)对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系。
3)描述因变量y如何依赖于自变量x和误差项ε的方程称为回归模型。
4)一元线性回归模型可表示为:
y=(a+bx)+ε
◆y是x的线性函数(部分)加上误差项。
◆线性部分反映了由于x的变化而引起的y的变化。
◆误差项ε是随机变量,反映了除x和y之间的线性关系之外的随机因素对y的影响,不能由x和y之间的线性关系所解释的变异性。
◆a和b称为模型的参数。
5)基本假定
◆误差项ε是一个期望值为0的随机变量,即E(ε)=0。
◆对于一个给定的x值,y的期望值为E(y)=a+bx。
◆对于所有的x值,ε的方差σ2都相同。
◆误差项ε是一个服从正态分布的随机变量,且相互独立,即ε~N(0,σ2)。
–独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关。
–对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关。
4.回归方程
1)描述y的平均值或期望值如何依赖于x的方程称为回归方程。
2)一元线性回归方程的形式如下:
E(y)=β0+β1x
–方程的图示是一条直线,也称为直线回归方程。
–β0是回归直线在y轴上的截距,是当x=0时y的期望值。
–β1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值。
5.估计(经验)回归方程
1)总体回归参数β0和β1都是未知的,必须利用样本数据去估计。
2)用样本统计量a和b代替回归方程中的未知参数β0和β1,就得到了估计的回归方程。
3)简单线性回归中估计的回归方程为:
yˆ=a+bx
单选题
劳动消耗和产量之间的回归方程为Y=18+2.1X,这意味着劳动消耗每增加一单位时,产量增加的单位为()
A、8B、2.1C、20.1D、2.1%
6.参数a和b的最小二乘估计
一元回归方程数值试验
1)使因变量的观察值与估计值之间的离差平方和达到最小来求得a和b的方法。
即:
2)用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。
3)根据最小二乘法的要求,可得求解a和b的标准方程如上图。
参数a和b的最小二乘估计(例题)
某从事饮食业的企业家认为高校后勤社会化是一个很好的投资机会,他得到10组高校人数与周边饭店季营业额的数据资料,并想根据数据决策其投资规模。
7.回归系数与相关系数的关系
b-回归系数r-相关系数
单选题
在线性相关的条件下,自变量的均方差为2,因变量均方差为5,而相关系数为0.8时,则其回归系数为()
A、8B、0.32C、2D、12.5
多选题
①相关系数与回归系数()
-A、回归系数大于零则相关系数大于零
-B、回归系数小于零则相关系数小于零
-C、回归系数大于零则相关系数小于零
-D、回归系数小于零则相关系数大于零
-E、回归系数等于零则相关系数等于零
②直线回归方程y=a+bx中的b称为回归系数,回归系数的作用是()
–A、可确定两变量之间因果的数量关系
–B、可确定两变量的相关方向
–C、可确定两变量相关的密切程度
–D、可确定因变量的实际值与估计值的变异程度
–E、可确定当自变量增加一个单位时,因变量的平均增加量
三、线性回归方程拟合优度的测定
1.离差平方和的分解
1)因变量y的取值是不同的,y取值的这种波动称为变差。
变差来源于两个方面:
-由于自变量x的取值不同造成的。
-除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响。
2)对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差y−y来表示。
图解
三个平方和的关系
三个平方和的意义
1)总平方和(SST)总偏差
-反映因变量的n个观察值与其均值的总离差。
2)回归平方和(SSR)回归偏差
-反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和。
3)残差平方和(SSE)剩余偏差
-反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和。
-
2.判定系数r2
1)回归平方和占总离差平方和的比例。
2)反映回归直线的拟合程度。
3)取值范围在[0,1]之间。
4)r2→1,说明回归方程拟合的越好;r2→0,说明回归方程拟合的越差。
5)判定系数等于相关系数的平方,即r2=(r)2。
r2等于多少?
3.估计标准误差Syx
1)实际观察值与回归估计值离差平方和的均方根。
2)反映实际观察值在回归直线周围的分散状况。
3)从另一个角度说明了回归直线的拟合程度。
4)
计算公式为:
Syx越小,拟合越好;Syx越大,拟合越差。
5)相关系数与估计标准误差在数量上具有以下关系:
r值与估计标准误差负相关。
单选题
①回归估计的估计标准误差的计量单位与()
–A、自变量相同
–B、因变量相同
–C、自变量及因变量相同
–D、相关系数相同
②计算估计标准误差的依据是()
–A、因变量的总变差
–B、因变量的回归变差
–C、因变量的剩余变差
–D、因变量数列
多选题
估计标准误差是反映()
–A、回归方程代表性大小的指标
–B、估计值与实际值平均误差程度的指标
–C、自变量与因变量离差程度的指标
–D、因变量估计值的可靠程度的指标
–E、回归方程适用价值大小的指标
判断题
①回归系数b和相关系数r都可用来判断现象之间相关的密切程度。
()
②只有当相关系数接近于1时,才能说明两个变量之间存在高度相关关系。
()
③相关关系和函数关系都属于完全确定性的依存关系。
()
④不具有因果关系的两个变量之间,一定不存在相关关系。
()
⑤负相关是指两个量之间的变化方向相反,即一个呈下降(上升)而另一个呈上升(下降)趋势。
()
⑥假定变量x与y的相关系数是0.8,变量m与n的相关系数为-0.9,则x与y的相关密切程度高。
()
⑦正相关指的就是两个变量之间的变动方向都是上升的()
⑧若直线回归方程Y=170—2.5X,则变量x和y之间一定存在负的相关关系。
()
⑨在其他条件不变的情况下,相关系数越大,估计标准误差就越大;反之,估计标准误差就越小。
可见估计标准误差的大小与相关系数的大小是一致的。
()
⑨相关系数的数值越大,说明相关程度越高;同理,相关系数的数值越小,说明相关程度越低。
()
计算题
①某地高校教育经费(X)与高校学生人数(y)连续6年的统计资料如下:
教育经费(万元)X
在校学生数(万人)y
教育经费(万元)x
在校学生数(万人)y
316
11
393
20
343
16
418
22
373
18
455
25
要求:
(1)建立回归直线方程,估计教育经费为500万元的在校学生数;
(2)计算估计标准误差。
②有10个同类企业的生产性固定资产年平均价值和工业总产值资料如下:
(1)说明两变量之间的相关方向;
(2)建立直线回归方程;
(3)计算估计标准误差;
(4)估计生产性固定资产(自变量)为1100万元时总产值(因变量)的可能值。
用Excel进行回归分析
第1步:
选择“数据”下拉菜单
第2步:
选择“数据分析”选项
第3步:
在分析工具中选择“回归”,然后选择“确定”
第4步:
当对话框出现时
–在“Y值输入区域”方框内键入Y的数据区域
–在“X值输入区域”方框内键入X的数据区域
–在“置信度”选项中给出所需的数值
–在“输出选项”中选择输出区域
–在“残差”分析选项中选择所需的选项