第7章相关与回归分析.docx

资源描述

第7章相关与回归分析.docx

《第7章相关与回归分析.docx》由会员分享，可在线阅读，更多相关《第7章相关与回归分析.docx（17页珍藏版）》请在冰豆网上搜索。

第7章相关与回归分析.docx

第7章相关与回归分析

第七章相关与回归分析

学习内容

一、变量间的相关关系

二、一元线性回归

三、线性回归方程拟合优度的测定

学习目标

1.掌握相关系数的含义、计算方法和应用

2.掌握一元线性回归的基本原理和参数的最小二

3.掌握回归方程的显著性检验

4.利用回归方程进行预测

5.了解可化为线性回归的曲线回归

6.用Excel进行回归分析

一、变量间的相关关系

1.变量间的关系（函数关系）

1）是一一对应的确定关系。

2）设有两个变量x和y，变量y随变量x一起变化，

并完全依赖于x，当变量x取某个数值时，y依确定的关系取相应的值，

则称y是x的函数，记为y=f（x），其中x称为自变量，y称为因变量。

3）各观测点落在一条线上。

4）函数关系的例子

–某种商品的销售额（y）与销售量（x）之间的关系可表示为y=px（p为单价）。

–圆的面积（S）与半径之间的关系可表示为S=πR2。

–企业的原材料消耗额（y）与产量x1、单位产量消耗x2、原材料价格x3间的关系可表示为y=x1x2x3。

单选题

下面的函数关系是（）

A、销售人员测验成绩与销售额大小的关系B、圆周的长度决定于它的半径

C、家庭的收入和消费的关系D、数学成绩与统计学成绩的关系

2.变量间的关系（相关关系）

1）变量间关系不能用函数关系精确表达。

2）一个变量的取值不能由另一个变量唯一确定。

3）当变量x取某个值时，变量y的取值可能有几个。

4）各观测点分布在直线周围。

5）相关关系的例子

–商品的消费量（y）与居民收入（x）之间的关系。

–商品销售额（y）与广告费支出（x）之间的关系。

–粮食亩产量（y）与施肥量（x1）、降雨量（x2）、温度（x3）之间的关系。

–收入水平（y）与受教育程度（x）之间的关系。

–父亲身高（y）与子女身高（x）之间的关系。

3.相关图表

1）相关表：

将具有相关关系的原始数据，按某一顺序平行排列在一张表上，以观察它们之间的相互关系。

2）相关图：

也称为分布图或散点图，它是在平面直角坐标中把相关关系的原始数据用点描绘出来，通常以直角坐标轴的横轴代表自变量x，纵轴代表因变量y。

4.相关关系的类型

相关系数取值及其意义

a）r的取值范围是[-1,1]。

|r|=1，为完全相关。

（r=1，为完全正相关。

r=-1，为完全负相关。

）

b）r=0，不存在线性相关关系。

c）-1

d）0

e）|r|越趋于1表示关系越密切；|r|越趋于0表示关系越不密切。

单选题

①下列哪两个变量之间的相关程度高（）

–A、商品销售额和商品销售量的相关系数是0.9

–B、商品销售额和商业利润率的相关系数是0.84

–C、平均流通费用率与商业利润率的相关系数是0.94

–D、商品销售价格与销售量的相关系数是-0.91

②下列关系中，属于正相关关系的有（）

–A、合理限度内，施肥量和平均单产量之间的关系

–B、产品产量与单位产品成本之间的关系

–C、商品的流通费用与销售利润之间的关系

–D、流通费用率与商品销售量之间的关系

③变量之间的相关程度越低，则相关系数值（）

A、越小B、越接近于0C、越接近于-1D、越接近于1

④已知Σ（X-X¯）2是Σ（Y-Y¯）2的两倍，并已知Σ（X-X¯）（Y-Y¯）是Σ（Y-Y¯）2的1.2倍，则相关系数r为（）

A、不能计算B、0.6C、

D、

多选题

变量之间的不完全相关可以表现为（）

A、零相关B、正相关C、负相关D、曲线相关E、相关系数为1

求X与Y的相关系数

编号

二、一元线性回归

1.什么是回归分析？

（内容）

1）从一组样本数据出发，确定变量之间的数学关系式。

2）对这些关系式的可信程度进行各种统计检验，并从影响某一特定变量的诸多变量中找出哪些变量的影响显著，哪些不显著。

3）利用所求的关系式，根据一个或几个变量的取值来预测或控制另一个特定变量的取值，并给出这种预测或控制的精确程度。

回归分析与相关分析的区别

1）相关分析中，变量x变量y处于平等的地位；回归分析中，变量y称为因变量，处在被解释的地位，x称为自变量，用于预测因变量的变化。

2）相关分析中所涉及的变量x和y都是随机变量；回归分析中，因变量y是随机变量，自变量x可以是随机变量，也可以是非随机的确定变量。

3）相关分析主要是描述两个变量之间线性关系的密切程度；回归分析不仅可以揭示变量x对变量y的影响大小，还可以由回归方程进行预测和控制。

多选题

线性相关分析的特点表现为（）

–A、两个变量之间的地位是对等关系

–B、只能算出一个相关系数

–C、相关系数有正负号

–D、相关的两个变量必须都是随机变量

–E、不反映任何自变量和因变量的关系

回归模型的类型

2.一元线性回归

1）涉及一个自变量的回归。

2）因变量y与自变量x之间为线性关系。

–被预测或被解释的变量称为因变量，用y表示。

–用来预测或用来解释因变量的一个或多个变量称为自变量，用x表示。

3）因变量与自变量之间的关系用一条线性方程来表示。

3.一元线性回归模型（概念要点）

1）当只涉及一个自变量时称为一元回归，若因变量y与自变量x之间为线性关系时称为一元线性回归。

2）对于具有线性关系的两个变量，可以用一条线性方程来表示它们之间的关系。

3）描述因变量y如何依赖于自变量x和误差项ε的方程称为回归模型。

4）一元线性回归模型可表示为：

y=（a+bx）+ε

◆y是x的线性函数（部分）加上误差项。

◆线性部分反映了由于x的变化而引起的y的变化。

◆误差项ε是随机变量,反映了除x和y之间的线性关系之外的随机因素对y的影响，不能由x和y之间的线性关系所解释的变异性。

◆a和b称为模型的参数。

5）基本假定

◆误差项ε是一个期望值为0的随机变量，即E（ε）=0。

◆对于一个给定的x值，y的期望值为E（y）=a+bx。

◆对于所有的x值，ε的方差σ2都相同。

◆误差项ε是一个服从正态分布的随机变量，且相互独立，即ε~N（0,σ2）。

–独立性意味着对于一个特定的x值，它所对应的ε与其他x值所对应的ε不相关。

–对于一个特定的x值，它所对应的y值与其他x所对应的y值也不相关。

4.回归方程

1）描述y的平均值或期望值如何依赖于x的方程称为回归方程。

2）一元线性回归方程的形式如下：

E（y）=β0+β1x

–方程的图示是一条直线，也称为直线回归方程。

–β0是回归直线在y轴上的截距，是当x=0时y的期望值。

–β1是直线的斜率，称为回归系数，表示当x每变动一个单位时，y的平均变动值。

5.估计（经验）回归方程

1）总体回归参数β0和β1都是未知的，必须利用样本数据去估计。

2）用样本统计量a和b代替回归方程中的未知参数β0和β1，就得到了估计的回归方程。

3）简单线性回归中估计的回归方程为：

yˆ=a+bx

单选题

劳动消耗和产量之间的回归方程为Y=18+2.1X，这意味着劳动消耗每增加一单位时，产量增加的单位为（）

A、8B、2.1C、20.1D、2.1%

6.参数a和b的最小二乘估计

一元回归方程数值试验

1）使因变量的观察值与估计值之间的离差平方和达到最小来求得a和b的方法。

即：

2）用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。

3）根据最小二乘法的要求，可得求解a和b的标准方程如上图。

参数a和b的最小二乘估计（例题）

某从事饮食业的企业家认为高校后勤社会化是一个很好的投资机会，他得到10组高校人数与周边饭店季营业额的数据资料，并想根据数据决策其投资规模。

7.回归系数与相关系数的关系

b-回归系数r-相关系数

单选题

在线性相关的条件下，自变量的均方差为2，因变量均方差为5，而相关系数为0.8时，则其回归系数为（）

A、8B、0.32C、2D、12.5

多选题

①相关系数与回归系数（）

-A、回归系数大于零则相关系数大于零

-B、回归系数小于零则相关系数小于零

-C、回归系数大于零则相关系数小于零

-D、回归系数小于零则相关系数大于零

-E、回归系数等于零则相关系数等于零

②直线回归方程y=a+bx中的b称为回归系数,回归系数的作用是（）

–A、可确定两变量之间因果的数量关系

–B、可确定两变量的相关方向

–C、可确定两变量相关的密切程度

–D、可确定因变量的实际值与估计值的变异程度

–E、可确定当自变量增加一个单位时,因变量的平均增加量

三、线性回归方程拟合优度的测定

1.离差平方和的分解

1）因变量y的取值是不同的，y取值的这种波动称为变差。

变差来源于两个方面：

-由于自变量x的取值不同造成的。

-除x以外的其他因素（如x对y的非线性影响、测量误差等）的影响。

2）对一个具体的观测值来说，变差的大小可以通过该实际观测值与其均值之差y−y来表示。

图解

三个平方和的关系

三个平方和的意义

1）总平方和（SST）总偏差

-反映因变量的n个观察值与其均值的总离差。

2）回归平方和（SSR）回归偏差

-反映自变量x的变化对因变量y取值变化的影响，或者说，是由于x与y之间的线性关系引起的y的取值变化，也称为可解释的平方和。

3）残差平方和（SSE）剩余偏差

-反映除x以外的其他因素对y取值的影响，也称为不可解释的平方和或剩余平方和。

2.判定系数r2

1）回归平方和占总离差平方和的比例。

2）反映回归直线的拟合程度。

3）取值范围在[0,1]之间。

4）r2→1，说明回归方程拟合的越好；r2→0，说明回归方程拟合的越差。

5）判定系数等于相关系数的平方，即r2＝（r）2。

r2等于多少？

3.估计标准误差Syx

1）实际观察值与回归估计值离差平方和的均方根。

2）反映实际观察值在回归直线周围的分散状况。

3）从另一个角度说明了回归直线的拟合程度。

4）

计算公式为：

Syx越小，拟合越好；Syx越大，拟合越差。

5）相关系数与估计标准误差在数量上具有以下关系：

r值与估计标准误差负相关。

单选题

①回归估计的估计标准误差的计量单位与（）

–A、自变量相同

–B、因变量相同

–C、自变量及因变量相同

–D、相关系数相同

②计算估计标准误差的依据是（）

–A、因变量的总变差

–B、因变量的回归变差

–C、因变量的剩余变差

–D、因变量数列

多选题

估计标准误差是反映（）

–A、回归方程代表性大小的指标

–B、估计值与实际值平均误差程度的指标

–C、自变量与因变量离差程度的指标

–D、因变量估计值的可靠程度的指标

–E、回归方程适用价值大小的指标

判断题

①回归系数b和相关系数r都可用来判断现象之间相关的密切程度。

（）

②只有当相关系数接近于1时，才能说明两个变量之间存在高度相关关系。

（）

③相关关系和函数关系都属于完全确定性的依存关系。

（）

④不具有因果关系的两个变量之间，一定不存在相关关系。

（）

⑤负相关是指两个量之间的变化方向相反，即一个呈下降（上升）而另一个呈上升（下降）趋势。

（）

⑥假定变量x与y的相关系数是0.8，变量m与n的相关系数为-0.9，则x与y的相关密切程度高。

（）

⑦正相关指的就是两个变量之间的变动方向都是上升的（）

⑧若直线回归方程Y＝170—2.5X，则变量x和y之间一定存在负的相关关系。

（）

⑨在其他条件不变的情况下，相关系数越大，估计标准误差就越大;反之，估计标准误差就越小。

可见估计标准误差的大小与相关系数的大小是一致的。

（）

⑨相关系数的数值越大，说明相关程度越高;同理，相关系数的数值越小，说明相关程度越低。

（）

计算题

①某地高校教育经费（X）与高校学生人数（y）连续6年的统计资料如下：

教育经费（万元）X

在校学生数（万人）y

教育经费（万元）x

在校学生数（万人）y

316

393

343

418

373

455

要求：

（1）建立回归直线方程，估计教育经费为500万元的在校学生数；

（2）计算估计标准误差。

②有10个同类企业的生产性固定资产年平均价值和工业总产值资料如下：

（1）说明两变量之间的相关方向；

（2）建立直线回归方程；

（3）计算估计标准误差；

（4）估计生产性固定资产（自变量）为1100万元时总产值（因变量）的可能值。

用Excel进行回归分析

第1步：

选择“数据”下拉菜单

第2步：

选择“数据分析”选项

第3步：

在分析工具中选择“回归”，然后选择“确定”

第4步：

当对话框出现时

–在“Y值输入区域”方框内键入Y的数据区域

–在“X值输入区域”方框内键入X的数据区域

–在“置信度”选项中给出所需的数值

–在“输出选项”中选择输出区域

–在“残差”分析选项中选择所需的选项

展开阅读全文

第7章 相关与回归分析.docx

第7章相关与回归分析.docx