计量经济学 第二章简单线性回归模型.docx
《计量经济学 第二章简单线性回归模型.docx》由会员分享,可在线阅读,更多相关《计量经济学 第二章简单线性回归模型.docx(45页珍藏版)》请在冰豆网上搜索。
计量经济学第二章简单线性回归模型
计量经济学第二章简单线性回归模型
*
第二章
简单线性回归模型
计量经济学
未来我国旅游需求将快速增长,根据中国政府所制定的
远景目标,到2020年,中国入境旅游人数将达到2.1亿人
次;国际旅游外汇收入580亿美元,国内旅游收入257><00亿
美元。
到2020年,中国旅游业总收入将超过3<000亿美元,
相当于国内生产总值的8%至11%。
(来源:
《2<008年中国旅行社发展研究咨询报告》)
(参考现状:
第一产业占GDP的15%,建筑业占GDP的7%)
●什么决定性因素能使中国旅游业总收入超过3<000亿美元?
●旅游业的发展与这种决定性因素的数量关系究竟是什么?
●怎样具体测定旅游业发展与这种决定性因素的数量关系?
*
需要研究经济变量之间数量关系的方法
为了不使问题复杂化,我们先在某些标准的(古典的)假定条件下,用最简单的模型,对最简单的变量间数量关系加以讨论
显然,对旅游起决定性影响作用的是“中国居民的收入水平”以及“入境旅游人数”等因素。
“旅游业总收入”(Y)与“居民平均收入”(X1)或者“入境旅游人数”(X2)有怎样的数量关系呢?
能否用某种线性或非线性关系式Y=f(X)去表现这种数量关系呢?
具体该怎样去表现和计量呢?
*
第一节回归分析与回归函数
一、相关分析与回归分析
(对统计学的回顾)
1、经济变量之间的相互关系
性质上可能有三种情况:
◆确定性的函数关系Y=f(X)可用数学方法计算
◆不确定的统计关系—相关关系
Y=f(X)+ε(ε为随机变量)可用统计方法分析
◆没有关系不用分析
◆相关关系的描述
最直观的描述方式——坐标图(散布图、散点图))
?
?
?
?
?
*
函数关系
相关关系(线性)
没有关系
相关关系(非线性)
2、相关关系
*
*
相关关系的类型
●?
?
?
?
从涉及的变量数量看
简单相关
多重相关(复相关)
●?
?
?
?
从变量相关关系的表现形式看
线性相关——散布图接近一条直线
非线性相关——散布图接近一条曲线
●?
?
?
?
从变量相关关系变化的方向看
正相关——变量同方向变化,同增同减
负相关——变量反方向变化,一增一减
不相关
*
3、相关程度的度量—相关系数
如果和总体的全部数据都已知,和的方差和
协方差也已知,则
X和Y的总体线性相关系数:
其中:
-----X的方差-----Y的方差
-----X和Y的协方差
特点:
●总体相关系数只反映总体两个变量和的线性相关程度
●对于特定的总体来说,和的数值是既定的,总体相关系
数是客观存在的特定数值。
●总体的两个变量和的全部数值通常不可能直接观测,所
以总体相关系数一般是未知的。
?
*
如果只知道X和Y的样本观测值,则X和Y的样本线性
相关系数为:
其中:
和分别是变量X和Y的样本观测值,
和分别是变量X和Y样本值的平均值
注意:
是随抽样而变动的随机变量。
X和Y的样本线性相关系数:
相关系数较为简单,也可以在一定程度上测定变量
间的数量关系,但是对于具体研究变量间的数量规律
性还有局限性。
●?
X和Y都是相互对称的随机变量,
●?
线性相关系数只反映变量间的线性相关程度,不能说明非线性相关关系
●?
样本相关系数是总体相关系数的样本估计值,由于抽样波动,样本相关系数是随抽样而变动的随机变量,其统计显著性还有待检验
*
对相关系数的正确理解和使用
*
4、回归分析
回归的古典意义:
高尔顿遗传学的回归概念
(父母身高与子女身高的关系)
子女的身高有向人的平均身高;回归;的趋势
回归的现代意义:
一个被解释变量对若干个
解释变量依存关系的研究
回归的目的(实质):
由解释变量去估计被解释变
量的平均值
*
●被解释变量Y的条件分布和条件概率:
当解释变量X取某固定值时(条件),Y的值不确定,Y的不同取值会形成一定的分布,这是Y的条件分布。
X取某固定值时,Y取不同值的概率称为条件概率。
●被解释变量Y的条件期望:
对于X的每一个取值,
对Y所形成的分布确
定其期望或均值,称
为Y的条件期望或条件均
值,用表示。
注意:
Y的条件期望是随X的变动而变动的
Y
X
明确几个概念(为深刻理解“回归”)
*
●回归线:
对于每一个X的取值,都有Y的条件期望
与之对应,代表Y的条件期望的点的轨迹形成的直线或曲线称为回归线。
●回归函数:
被解释变量Y
的条件期望随
解释变量X的变化而有规律
的变化,如果把Y的条件期
望表现为X的某种函数
,
这个函数称为回归函数。
回归函数分为:
总体回归函数和样本回归函数
X
Y
*
每月家庭可支配收入X
2<000
25<00
3<000
35<00
4<000
45<00
5<000
55<00
6<000
65<00
1312
1530
1631
1843
2037
2277
2469
2924
3515
3521
1340
1619
1726
1974
2210
2388
2889
3338
3721
3954
14<00
1713
1786
2<006
2325
2526
3090
3650
3865
4108
每
1548
1750
1835
2265
2419
2681
3156
3802
4026
4345
月
1688
1814
1885
2367
2522
2887
33<00
4087
4165
4812
家
1738
1985
1943
2485
2665
3050
3321
4298
4380
庭
18<00
2041
2037
2515
2799
3189
3654
4312
4580
消
1902
2186
2078
2689
2887
3353
3842
4413
费
22<00
2179
2713
2913
3534
4074
支
2312
2298
2898
3038
3710
4165
出
2316
2923
3167
3834
?
Y
2387
3053
3310
2498
3187
3510
2689
3286
1591
1915
2092
2586
2754
3039
3396
3853
4036
4148
举例:
假如已知由1<00个家庭构成的总体的数据(单位:
元)
二、总体回归函数(PRF)
*
消费支出的条件期望与收入关系的图形
对于本例的总体,家庭消费支出的条件期望
与家庭收入基本是线性关系,可以把家庭消费支出的条件均值表示为家庭收入的线性函数:
*
1.总体回归函数的概念
前提:
假如已知所研究的经济现象的总体的被解释变量Y
和解释变量X的每个观测值(通常这是不可能的!
),那
么,可以计算出总体被解释变量Y的条件期望,
并将其表现为解释变量X的某种函数
这个函数称为总体回归函数(PRF)
本质:
总体回归函数实际上表现的是特定总体中被解释变量随解释变量的变动而变动的某种规律性。
计量经济学的根本目的是要探寻变量间数量关系的规律,也
就要努力去寻求总体回归函数。
*
●条件期望表现形式
例如Y的条件期望是解
释变量X的线性函数,可表示为:
●个别值表现形式(随机设定形式)
对于一定的,Y的各个别值并不一定等于条件期望,而
是分布在的周围,若令各个与条件期望的
偏差为,显然是个随机变量
则有
2.总体回归函数的表现形式
PRF
●作为总体运行的客观规律,总体回归函数是客观存在
的,但在实际的经济研究中总体回归函数通常是未知的,
只能根据经济理论和实践经验去设定。
计量经济学研究中“计量”的根本目的就是要寻求总体
回归函数。
●我们所设定的计量模型实际就是在设定总体回归函
数的具体形式。
●总体回归函数中Y与X的关系可以是线性的,也可
以是非线性的。
*
3.如何理解总体回归函数
*
计量经济学中,线性回归模型的“线性”有两种解释:
◆就变量而言是线性的
——Y的条件期望(均值)是X的线性函数
◆就参数而言是线性的
——Y的条件期望(均值)是参数β的线性函数
例如:
对变量、参数均为“线性”
对参数“线性”,对变量”非线性”
对变量“线性”,对参数”非线性”
注意:
在计量经济学中,线性回归模型主要指就参数而言是“线性”的,因为只要对参数而言是线性的,都可以用类似的方法去估计其参数,都可以归于线性回归。
“线性”的判断
◆概念
在总体回归函数中,各个
的值与其条件期望
的偏差有很重
要的意义。
若只有的影响,
与不应有偏差。
若偏
差存在,说明还有其他影响因素。
实际代表了排除在模型以外的所有因素对Y的影响。
◆性质是其期望为0有一定分布的随机变量
重要性:
随机扰动项的性质决定着计量经济分析结
果的性质和计量经济方法的选择
*
三、随机扰动项
●是未知影响因素的代表(理论的模糊性)
●是无法取得数据的已知影响因素的代表(数据欠缺)
●?
是众多细小影响因素的综合代表(非系统性影响)
●?
模型可能存在设定误差(变量、函数形式的设定)
●?
模型中变量可能存在观测误差(变量数据不符合实际)
●?
变量可能有内在随机性(人类经济行为的内在随机性)
*
引入随机扰动项的原因
样本回归线:
对于X的一定值,取得Y的样本观测值,可计算其条件均值,
样本观测值条件均值的轨迹,称为样本回归线。
样本回归函数:
如果把被解释变量Y的样本条件均值
表示为解释变量X的某种函数,
这个函数称为样本回归函数(SRF)
*
X
Y
SRF
四、样本回归函数(SRF)
*
样本回归函数如果为线性函数,可表示为
其中:
是与相对应的Y的样本条件均值
和分别是样本回归函数的参数
个别值(实际值)形式:
被解释变量Y的实际观测值不完全等于样本条件均值,二者之差用表示,称为剩余项或残差项:
则或
样本回归函数的函数形式
条件均值形式:
●样本回归线随抽样波动而变化:
每次抽样都能获得一个样本,就可以拟合一条样本回
归线,(SRF不唯一)
●样本回归函数的函数形式
应与设定的总体回归函数的
函数形式一致。
●样本回归线只是样本条件均值的轨迹,还不是总体
回归线,它至多只是未知的总体回归线的近似表现。
*
样本回归函数的特点
SRF1
SRF2
Y
X
A
?
X
*
PRF
SRF
样本回归函数与总体回归函数的关系
如果能够通过某种方式获得和的数值,显然:
●和是对总体回归函数参数和的估计
●是对总体条件期望的估计
●?
在概念上类似总体回归函数中的,可视
为对的估计。
*
对比:
总体回归函数样本回归函数
对样本回归的理解
*
目的:
计量经济分析的目标是寻求总体回归函数。
即用样本回归函数SRF去估计总体回归函数PRF。
由于样本对总体总是存在代表性误差,SRF总会
过高或过低估计PRF。
要解决的问题:
寻求一种规则和方法,使其得到的SRF的参数
和尽可能“接近”总体回归函数中的参数和
的真实值。
这样的“规则和方法”有多种,如矩估计、极大似然估计、最小二乘估计等。
其中最常用的是最小二乘法。
回归分析的目的
用样本去估计总体回归函数,总要使用特定的方法,而任何估
计参数的方法都需要有一定的前提条件——假定条件
一、简单线性回归的基本假定
为什么要作基本假定?
●只有具备一定的假定条件,所作出的估计才具有良好的统计性质。
●模型中有随机扰动项,估计的参数是随机变量,显然参数估计值的分布与扰动项的分布有关,只有对随机扰动的分布作出假定,才能比较方便地确定所估计参数的分布性质,也才可能进行假设检验和区间估计等统计推断。
假定分为:
◆对模型和变量的假定◆对随机扰动项的假定
*
第二节简单线性回归模型的最小二乘估计
例如对于
●假定模型设定是正确的(变量和模型无设定误差)
●假定解释变量X在重复抽样中取固定值。
●假定解释变量X是非随机的,或者虽然X是随机的,
但与扰动项u是不相关的。
(从变量X角度看是外生的)
注意:
解释变量非随机在自然科学的实验研究中相对
容易满足,经济领域中变量的观测是被动不可控的,
X非随机的假定并不一定都满足。
*
1.对模型和变量的假定
假定1:
零均值假定:
在给定X的条件下, 的条件期望为零
假定2:
同方差假定:
在给定X的条件下, 的条件
方差为某个常数
*
X
Y
2.对随机扰动项u的假定
*
假定3:
无自相关假定:
随机扰动项的逐次值互不相关
假定4:
解释变量是非随机的,或者虽然是随机的但与扰动项不相关(从随机扰动角度看)
*
假定5:
对随机扰动项分布的正态性假定,
即假定服从均值为零、方差为的正态分布
(说明:
正态性假定并不影响对参数的点估计,所以有时不列入基本假定,但这对确定所估计参数的分布性质是需要的。
且根据中心极限定理,当样本容量趋于无穷大时,的分布会趋近于正态分布。
所以正态性假定有合理性)
由于
其中的和是非随机的,是随机变量,因此
Y是随机变量,的分布性质决定了的分布性质。
对的一些假定可以等价地表示为对的假定:
假定1:
零均值假定
假定2:
同方差假定
假定3:
无自相关假定
假定5:
正态性假定
*
在对的基本假定下Y的分布性质
1.OLS的基本思想
●对于,不同的估计方法可以得到不同的样本回归参数和,所估计的也就不同。
●理想的估计结果应使估计的与真实的的差(即剩余)总的来说越小越好
●因可正可负,总有,所以可以取最小,即
在观测值Y和X确定时,的大小决定于和。
要解决的问题:
:
如何寻求能使最小的和。
*
二、普通最小二乘法(OLS)(OrdinaryLeastSquares)
用克莱姆法则求解得以观测值表现的OLS估计量:
*
取偏导数并令其为0,可得正规方程
或整理得
即
2.正规方程和估计量
*
为表达得更简洁,或者用离差形式的OLS估计量:
容易证明
由正规方程:
注意:
其中:
本课程中:
大写的和均表示观测值;
小写的和均表示观测值的离差
而且由
样本回归函数可用离差形式写为
用离差表现的OLS估计量
●剩余项的均值为零
●OLS回归线通过样本均值
●估计值的均值等于实际观测
值的均值
*
(由OLS第一个正规方程直接得到)
(由OLS正规方程两边同除n得到)
3.OLS回归线的数学性质
●解释变量与剩余项不相关
由OLS正规方程有:
●被解释变量估计值与剩余项不相关
*
面临的问题:
参数估计值参数真实值
对参数估计式的优劣需要有评价的标准为什么呢?
●参数无法直接观测,只能通过样本去估计。
样本的获得存
在抽样波动,不同样本的估计结果不一致。
●估计参数的方法有多种,不同方法的估计结果可能不相同,通过样本估计参数时,估计方法及所确定的估计量不一定完备,不一定能得到理想的总体参数估计值。
对各种估计方法优劣的比较与选择需要有评价标准。
估计准则的基本要求:
参数估计值应;尽可能地接近;总体参数真实值”。
什么是“尽可能地接近”原则呢?
用统计语言表述就是:
无偏性、有效性、一致性等
4.OLS估计量的统计性质
*
(1)无偏性
前提:
重复抽样中估计方法固定、样本数不变、
由重复抽样得到的观测值,可得一系列参数估计
值,的分布称为的抽样分布,其密度
函数记为
概念:
如果,则称是参数的无偏估计量,
如果,则称是有偏的估计,其偏倚为
(见下页图)
*
概
率
密
度
估计值
偏倚
*
(2)有效性
前提:
样本相同、用不同的方法估计参数,可以找到若
干个不同的无偏估计式
目标:
努力寻求其抽样分布具有最小方差的估计量
(见下页图)
既是无偏的同时又具有最小方差特性的估计量,称为最佳(有效)估计量。
*
概
率
密
度
估计值
思想:
当样本容量较小时,有时很难找到方差最小的无偏估计,
需要考虑样本扩大后的性质(估计方法不变,样本数逐步增大)
一致性:
当样本容量n趋于无穷大时,如果估计式依概率收敛于总体参数的真实值,就称这个估计式是的一致估计式。
即
或
(渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的
估计式)(见下页图)
渐近有效性:
当样本容量n趋于无穷大时,在所有的一致估计
式中,具有最小的渐近方差。
*
3、渐近性质(大样本性质)
*
概
率
密
度
估计值
图4
先明确几点:
●?
由OLS估计式可以看出
都由可观测的样本值和唯一表示。
●?
?
因存在抽样波动,OLS估计是随机变量
●?
?
OLS估计式是点估计量
*
OLS估计是否符合“尽可能地接近总体参数真实值”的要求呢?
4.分析OLS估计量的统计性质
2、?
无偏特性
可以证明(证明见教材P38)
*
OLS估计式的统计性质——高斯定理
(注意:
无偏性的证明中用到了基本假定中零均值等假定)
1、?
线性特征是Y的线性函数
3、?
最小方差特性(有效性)(证明见教材P68附录2·1)
可以证明:
在所有的线性无偏估计中,OLS估计具
有最小方差
(注意:
最小方差性的证明中用到了基本假定中的同方差、无自相关等假
定)
结论(高斯定理):
在古典假定条件下,OLS估计量是最佳线性无偏估计量(BLUE)
*
概念:
样本回归线是对样本数据的
一种拟合。
●不同的模型(不同函数形式)
可拟合出不同的样本回归线
●相同的模型用不同方法去估计
参数,也可以拟合出不同的回归线
拟合的回归线与样本观测值总是有偏离。
样本回归线
对样本观测数据拟合的优劣程度,可称为拟合优度。
如何度量拟合优度呢?
拟合优度的度量建立在对Y的总变差分解的基础上
*
第三节拟合优度的度量
分析Y的观测值、估计值与平均值有以下关系
将上式两边平方加总,可证得(提示:
交叉项)
(TSS)(ESS)(RSS)
或者表示为
总变差(TSS):
被解释变量Y的观测值与其平均值的离差平
方和(总平方和)(说明Y的总变动程度)
解释了的变差(ESS):
被解释变量Y的估计值与其平均值的
离差平方和(回归平方和)
剩余平方和(RSS):
被解释变量观测值与估计值之差的平方
和(未解释的平方和)
*
一、总变差的分解
Y
X
*
变差分解的图示(以某一个观测值为例)
以TSS同除总变差等式两边:
或
定义:
回归平方和(解释了的变差ESS)在总变
差(TSS)中所占的比重称为可决系数,用或
表示:
*
或
二、可决系数
可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。
反之可决系数越小,说明模型对样本观测值的拟合程度越差。
可决系数的特点:
●可决系数取值范围:
●随抽样波动,样本可决系数是随抽样而变
动的随机变量
●可决系数是非负的统计量
*
可决系数的作用
联系:
数值上可决系数是相关系数的平方
*
可决系数与相关系数的关系
区别:
可决系数相关系数
是就模型而言是就两个变量而言
说明解释变量对被解释说明两变量线性依存程度
变量的解释程度
度量不对称的因果关系度量对称的相关关系
取值0≤≤1取值-1≤r≤1
有非负性可正可负
*
*
第四节?
回归系数的区间估计和假设检验
为什么要作区间估计?
运用OLS法可以估计出参数的一个估计值,但OLS估计只是通过样本得到的点估计,它不一定等于真实参数,还需要寻求真实参数的可能范围,并说明其可靠性。
为什么要作假设检验?
OLS估计只是用样本估计的结果,是否可靠?
是否抽样的偶然结果呢?
还有待统计检验。
区间估计和假设检验都是建立在确定参数估计值概率分布性质的基础上。
*
一、OLS估计的分布性质
基本思想
是随机变量,必须确定其分布性质才可能进行区间估计和假设检验
怎样确定的分布性质呢?
是服从正态分布的随机变量,决定
了也是服从正态分布的随机变量;
是的线性函数,决定了也服从正态分布
正态正态正态
只要确定的期望和方差,即可确定的分布性质
线性特征
(线性估计的重要性)
*
●的期望:
(已证明是无偏估计)
●的方差和标准误差(证明见P39、P40)
(标准误差是方差的平方根)
注意:
以上各式中均未知,但是个常数,其余均是已知的样本观测值,这时和都不是随机变量。
的期望和方差
*
基本思想:
是的方差,而不能直接观测,只能从由样本得到的去获得有关的某些信息,去对作出估计。
可以证明(见附录2.2)其无偏估计为
(这里的n-2为自由度,即可自由变化的样本观测值个数)
注意区别:
是未知的确定的常数;
是由样本信息估计的,是个随机变量
对随机扰动项方差的估计
*
对作标准化变换
为什么要对作标准化变换?
在正态性假定下,由前面的分析已知
但在对一般正态变量作实际分析时,要具体确定的取值及对应的概率,要通过正态分布密度函数或
分布函数去计算是很麻烦的,为了便于直接利用“标
准化正态分布的临界值”,需要对作标准化变换。
标准化的方式:
标准正态分布函数
*
●在已知时对作标准化变换,所