计量经济学第二章简单线性回归模型.docx-资源下载

计量经济学第二章简单线性回归模型.docx

1、计量经济学第二章简单线性回归模型计量经济学第二章简单线性回归模型* 第二章简单线性回归模型计量经济学未来我国旅游需求将快速增长，根据中国政府所制定的远景目标，到2020年，中国入境旅游人数将达到2.1亿人次；国际旅游外汇收入580亿美元，国内旅游收入25700亿美元。到2020年，中国旅游业总收入将超过3000亿美元，相当于国内生产总值的8%至11%。（来源：2008年中国旅行社发展研究咨询报告）（参考现状：第一产业占GDP的15%，建筑业占GDP 的7%）什么决定性因素能使中国旅游业总收入超过3000亿美元?旅游业的发展与这种决定性因素的数量关系究竟是什么？怎样具体测定旅游

2、业发展与这种决定性因素的数量关系?*需要研究经济变量之间数量关系的方法为了不使问题复杂化, 我们先在某些标准的(古典的)假定条件下，用最简单的模型，对最简单的变量间数量关系加以讨论显然，对旅游起决定性影响作用的是“中国居民的收入水平”以及“入境旅游人数”等因素。 “旅游业总收入”（Y）与“居民平均收入”（X1）或者“入境旅游人数”（X2）有怎样的数量关系呢？能否用某种线性或非线性关系式 Y= f ( X ) 去表现这种数量关系呢? 具体该怎样去表现和计量呢?* 第一节回归分析与回归函数一、相关分析与回归分析（对统计学的回顾）1、经济变量之间的相互关系性质上可能有三种情况: 确定性的函

3、数关系 Y=f (X) 可用数学方法计算不确定的统计关系相关关系 Y= f（X）+ (为随机变量) 可用统计方法分析没有关系不用分析相关关系的描述最直观的描述方式坐标图（散布图、散点图） ? ? ? ? ? *函数关系相关关系(线性)没有关系相关关系(非线性)2、相关关系* 相关关系的类型 ? 从涉及的变量数量看简单相关多重相关（复相关）? 从变量相关关系的表现形式看线性相关散布图接近一条直线非线性相关散布图接近一条曲线? 从变量相关关系变化的方向看正相关变量同方向变化，同增同减负相关变量反方向变化，一增一减不相关* 3、相关程度的度量相关系数如果和总体的全部数据

4、都已知，和的方差和协方差也已知，则 X和Y的总体线性相关系数：其中： -X 的方差 -Y的方差 -X和Y的协方差特点：总体相关系数只反映总体两个变量和的线性相关程度对于特定的总体来说，和的数值是既定的，总体相关系数是客观存在的特定数值。总体的两个变量和的全部数值通常不可能直接观测，所以总体相关系数一般是未知的。 ?*如果只知道 X 和 Y 的样本观测值，则X和Y的样本线性相关系数为：其中：和分别是变量X和Y的样本观测值，和分别是变量 X 和Y 样本值的平均值注意: 是随抽样而变动的随机变量。X和Y的样本线性相关系数：相关系数较为简单, 也可以在一定程度上测定变量间

5、的数量关系,但是对于具体研究变量间的数量规律性还有局限性。 ? X和Y 都是相互对称的随机变量， ?线性相关系数只反映变量间的线性相关程度，不能说明非线性相关关系 ?样本相关系数是总体相关系数的样本估计值，由于抽样波动，样本相关系数是随抽样而变动的随机变量，其统计显著性还有待检验 *对相关系数的正确理解和使用*4、回归分析回归的古典意义：高尔顿遗传学的回归概念 ( 父母身高与子女身高的关系)子女的身高有向人的平均身高;回归;的趋势回归的现代意义：一个被解释变量对若干个解释变量依存关系的研究回归的目的（实质）：由解释变量去估计被解释变量的平均值*被解释变量Y的条件分布和条件概率：当解释变量X

6、取某固定值时（条件），Y 的值不确定，Y的不同取值会形成一定的分布，这是 Y 的条件分布。 X取某固定值时，Y 取不同值的概率称为条件概率。被解释变量 Y 的条件期望：对于 X 的每一个取值，对 Y 所形成的分布确定其期望或均值，称为 Y 的条件期望或条件均值，用表示。注意:Y的条件期望是随X的变动而变动的 YX明确几个概念（为深刻理解“回归”）*回归线：对于每一个X的取值，都有Y的条件期望与之对应，代表Y的条件期望的点的轨迹形成的直线或曲线称为回归线。回归函数：被解释变量Y的条件期望随解释变量X的变化而有规律的变化，如果把Y的条件期望表现为 X 的某种函数，这个函数称为

7、回归函数。回归函数分为：总体回归函数和样本回归函数 X Y*每月家庭可支配收入 X2000250030003500400045005000550060006500131215301631184320372277246929243515352113401619172619742210238828893338372139541400171317862006232525263090365038654108每1548175018352265241926813156380240264345月1688181418852367252228873300408741654812家17381985

8、1943248526653050332142984380庭180020412037251527993189365443124580消19022186207826892887335338424413费220021792713291335344074支231222982898303837104165出2316292331673834?Y238730533310249831873510268932861591191520922586275430393396385340364148举例: 假如已知由100个家庭构成的总体的数据 (单位:元) 二、总体回归函数（PRF）*消费支出的条件期望与收入关系的图

9、形对于本例的总体，家庭消费支出的条件期望与家庭收入基本是线性关系, 可以把家庭消费支出的条件均值表示为家庭收入的线性函数：* 1. 总体回归函数的概念前提：假如已知所研究的经济现象的总体的被解释变量Y和解释变量X的每个观测值（通常这是不可能的！），那么，可以计算出总体被解释变量Y的条件期望，并将其表现为解释变量X的某种函数这个函数称为总体回归函数（PRF）本质: 总体回归函数实际上表现的是特定总体中被解释变量随解释变量的变动而变动的某种规律性。计量经济学的根本目的是要探寻变量间数量关系的规律,也就要努力去寻求总体回归函数。* 条件期望表现形式例如Y的条件期望是解释变量X的线性函数

10、，可表示为：个别值表现形式（随机设定形式）对于一定的，Y的各个别值并不一定等于条件期望，而是分布在的周围，若令各个与条件期望的偏差为，显然是个随机变量则有 2.总体回归函数的表现形式PRF作为总体运行的客观规律，总体回归函数是客观存在的，但在实际的经济研究中总体回归函数通常是未知的，只能根据经济理论和实践经验去设定。计量经济学研究中“计量”的根本目的就是要寻求总体回归函数。我们所设定的计量模型实际就是在设定总体回归函数的具体形式。总体回归函数中 Y 与 X 的关系可以是线性的，也可以是非线性的。 *3.如何理解总体回归函数*计量经济学中,线性回归模型的“线性” 有两种解释：

11、就变量而言是线性的 Y的条件期望（均值）是X的线性函数就参数而言是线性的 Y的条件期望（均值）是参数的线性函数例如：对变量、参数均为“线性” 对参数“线性”，对变量”非线性” 对变量“线性”，对参数”非线性”注意：在计量经济学中，线性回归模型主要指就参数而言是“线性”的,因为只要对参数而言是线性的,都可以用类似的方法去估计其参数，都可以归于线性回归。“线性”的判断概念在总体回归函数中，各个的值与其条件期望的偏差有很重要的意义。若只有的影响，与不应有偏差。若偏差存在，说明还有其他影响因素。实际代表了排除在模型以外的所有因素对 Y 的影响。性质是其期望为 0 有一定分布的

12、随机变量重要性：随机扰动项的性质决定着计量经济分析结果的性质和计量经济方法的选择* 三、随机扰动项是未知影响因素的代表(理论的模糊性) 是无法取得数据的已知影响因素的代表(数据欠缺)?是众多细小影响因素的综合代表(非系统性影响)?模型可能存在设定误差(变量、函数形式的设定）?模型中变量可能存在观测误差(变量数据不符合实际)?变量可能有内在随机性(人类经济行为的内在随机性)*引入随机扰动项的原因样本回归线：对于X的一定值，取得Y的样本观测值，可计算其条件均值，样本观测值条件均值的轨迹，称为样本回归线。样本回归函数：如果把被解释变量Y的样本条件均值表示为解释变量X的某种函数，这个函数称为

13、样本回归函数（SRF） *XYSRF四、样本回归函数（SRF）* 样本回归函数如果为线性函数，可表示为其中：是与相对应的 Y 的样本条件均值和分别是样本回归函数的参数个别值（实际值）形式：被解释变量Y的实际观测值不完全等于样本条件均值，二者之差用表示，称为剩余项或残差项：则或样本回归函数的函数形式条件均值形式：样本回归线随抽样波动而变化:每次抽样都能获得一个样本，就可以拟合一条样本回归线，（SRF不唯一) 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。样本回归线只是样本条件均值的轨迹，还不是总体回归线，它至多只是未知的总体回归线的近似表现。*样本回归

14、函数的特点 SRF1SRF2 YX A ? X *PRFSRF样本回归函数与总体回归函数的关系如果能够通过某种方式获得和的数值，显然: 和是对总体回归函数参数和的估计是对总体条件期望的估计 ? 在概念上类似总体回归函数中的，可视为对的估计。*对比：总体回归函数样本回归函数对样本回归的理解* 目的：计量经济分析的目标是寻求总体回归函数。即用样本回归函数SRF去估计总体回归函数PRF。由于样本对总体总是存在代表性误差，SRF 总会过高或过低估计PRF。要解决的问题：寻求一种规则和方法，使其得到的SRF的参数和尽可能“接近”总体回归函数中的参数和的真实值。这样

15、的“规则和方法”有多种，如矩估计、极大似然估计、最小二乘估计等。其中最常用的是最小二乘法。回归分析的目的用样本去估计总体回归函数，总要使用特定的方法，而任何估计参数的方法都需要有一定的前提条件假定条件一、简单线性回归的基本假定为什么要作基本假定？只有具备一定的假定条件，所作出的估计才具有良好的统计性质。模型中有随机扰动项，估计的参数是随机变量，显然参数估计值的分布与扰动项的分布有关，只有对随机扰动的分布作出假定，才能比较方便地确定所估计参数的分布性质，也才可能进行假设检验和区间估计等统计推断。假定分为：对模型和变量的假定对随机扰动项的假定 *第二节简单线性回归模型的最小二乘估计例如对

16、于假定模型设定是正确的（变量和模型无设定误差）假定解释变量X在重复抽样中取固定值。假定解释变量X是非随机的，或者虽然X是随机的，但与扰动项u是不相关的。(从变量X角度看是外生的)注意: 解释变量非随机在自然科学的实验研究中相对容易满足，经济领域中变量的观测是被动不可控的，X非随机的假定并不一定都满足。*1.对模型和变量的假定假定1：零均值假定: 在给定X的条件下，的条件期望为零假定2：同方差假定: 在给定X的条件下，的条件方差为某个常数 *X Y2.对随机扰动项u的假定* 假定3：无自相关假定: 随机扰动项的逐次值互不相关假定4：解释变量是非随机的，或者虽然是随机的但与扰动

17、项不相关 (从随机扰动角度看) *假定5：对随机扰动项分布的正态性假定，即假定服从均值为零、方差为的正态分布（说明：正态性假定并不影响对参数的点估计，所以有时不列入基本假定，但这对确定所估计参数的分布性质是需要的。且根据中心极限定理，当样本容量趋于无穷大时，的分布会趋近于正态分布。所以正态性假定有合理性）由于其中的和是非随机的，是随机变量，因此Y是随机变量，的分布性质决定了的分布性质。对的一些假定可以等价地表示为对的假定：假定1：零均值假定假定2：同方差假定假定3：无自相关假定假定5：正态性假定 *在对的基本假定下 Y 的分布性质1. OLS的基本思想

18、对于，不同的估计方法可以得到不同的样本回归参数和，所估计的也就不同。理想的估计结果应使估计的与真实的的差(即剩余 )总的来说越小越好因可正可负，总有，所以可以取最小，即在观测值Y和X确定时，的大小决定于和。要解决的问题:：如何寻求能使最小的和。*二、普通最小二乘法（OLS）（rdinary Least Squares)用克莱姆法则求解得以观测值表现的OLS估计量： *取偏导数并令其为0，可得正规方程或整理得即2. 正规方程和估计量* 为表达得更简洁，或者用离差形式的OLS估计量：容易证明由正规方程：注意：其中：本课程中:大写的和均表示观测值；小

19、写的和均表示观测值的离差而且由样本回归函数可用离差形式写为用离差表现的OLS估计量剩余项的均值为零 OLS回归线通过样本均值估计值的均值等于实际观测值的均值 *(由OLS第一个正规方程直接得到)(由OLS正规方程两边同除n得到)3. OLS回归线的数学性质解释变量与剩余项不相关由OLS正规方程有: 被解释变量估计值与剩余项不相关 * 面临的问题: 参数估计值参数真实值对参数估计式的优劣需要有评价的标准为什么呢? 参数无法直接观测，只能通过样本去估计。样本的获得存在抽样波动，不同样本的估计结果不一致。估计参数的方法有多种，不同方法的估计结果可能不相同，通

20、过样本估计参数时，估计方法及所确定的估计量不一定完备，不一定能得到理想的总体参数估计值。对各种估计方法优劣的比较与选择需要有评价标准。估计准则的基本要求：参数估计值应;尽可能地接近;总体参数真实值”。什么是“尽可能地接近” 原则呢？用统计语言表述就是: 无偏性、有效性、一致性等 4. OLS估计量的统计性质* (1) 无偏性前提：重复抽样中估计方法固定、样本数不变、由重复抽样得到的观测值,可得一系列参数估计值 , 的分布称为的抽样分布，其密度函数记为概念:如果，则称是参数的无偏估计量，如果，则称是有偏的估计，其偏倚为（见下页图）* 概率密度估计值偏倚* (2)有

21、效性前提：样本相同、用不同的方法估计参数，可以找到若干个不同的无偏估计式目标: 努力寻求其抽样分布具有最小方差的估计量（见下页图）既是无偏的同时又具有最小方差特性的估计量，称为最佳（有效）估计量。* 概率密度估计值思想:当样本容量较小时，有时很难找到方差最小的无偏估计，需要考虑样本扩大后的性质（估计方法不变，样本数逐步增大）一致性：当样本容量 n 趋于无穷大时，如果估计式依概率收敛于总体参数的真实值，就称这个估计式是的一致估计式。即或（渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式） (见下页图)渐近有效性：当样本容量 n 趋于无穷大时，在所有的一致估

22、计式中，具有最小的渐近方差。*3、渐近性质（大样本性质）* 概率密度估计值图 4先明确几点:?由OLS估计式可以看出都由可观测的样本值和唯一表示。? 因存在抽样波动，OLS估计是随机变量? OLS估计式是点估计量 *OLS估计是否符合“尽可能地接近总体参数真实值”的要求呢?4. 分析OLS估计量的统计性质 2、? 无偏特性可以证明（证明见教材P38） *OLS估计式的统计性质高斯定理（注意: 无偏性的证明中用到了基本假定中零均值等假定）1、? 线性特征是Y的线性函数3、? 最小方差特性 (有效性) （证明见教材P68附录21）可以证明：在所有的线性无偏估计中，OLS估

23、计具有最小方差（注意:最小方差性的证明中用到了基本假定中的同方差、无自相关等假定）结论（高斯定理）：在古典假定条件下，OLS估计量是最佳线性无偏估计量（BLUE）*概念：样本回归线是对样本数据的一种拟合。不同的模型（不同函数形式)可拟合出不同的样本回归线相同的模型用不同方法去估计参数，也可以拟合出不同的回归线拟合的回归线与样本观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度，可称为拟合优度。如何度量拟合优度呢？拟合优度的度量建立在对 Y 的总变差分解的基础上* 第三节拟合优度的度量分析Y的观测值、估计值与平均值有以下关系将上式两边平方加总，可证得（提示：交叉项）（TS

24、S）（ESS）（RSS）或者表示为总变差（TSS）：被解释变量Y的观测值与其平均值的离差平方和（总平方和）(说明 Y 的总变动程度）解释了的变差（ESS）：被解释变量Y的估计值与其平均值的离差平方和（回归平方和）剩余平方和（RSS）：被解释变量观测值与估计值之差的平方和（未解释的平方和）* 一、总变差的分解 Y X *变差分解的图示(以某一个观测值为例) 以TSS同除总变差等式两边：或定义：回归平方和（解释了的变差ESS）在总变差（TSS）中所占的比重称为可决系数，用或表示: *或二、可决系数可决系数越大，说明在总变差中由模型作出了解释的部分占的比重

25、越大，模型拟合优度越好。反之可决系数越小，说明模型对样本观测值的拟合程度越差。可决系数的特点：可决系数取值范围：随抽样波动，样本可决系数是随抽样而变动的随机变量可决系数是非负的统计量*可决系数的作用联系：数值上可决系数是相关系数的平方*可决系数与相关系数的关系区别：可决系数相关系数是就模型而言是就两个变量而言说明解释变量对被解释说明两变量线性依存程度变量的解释程度度量不对称的因果关系度量对称的相关关系取值 0 1 取值 -1r1 有非负性可正可负*第四节? 回归系数的区间估计和假设检验为什么要作区间估计？运用OLS法可以估计出参数的一个估计值，但OLS估计只

26、是通过样本得到的点估计，它不一定等于真实参数，还需要寻求真实参数的可能范围，并说明其可靠性。为什么要作假设检验？OLS 估计只是用样本估计的结果，是否可靠？是否抽样的偶然结果呢？还有待统计检验。区间估计和假设检验都是建立在确定参数估计值概率分布性质的基础上。* 一、OLS估计的分布性质基本思想是随机变量，必须确定其分布性质才可能进行区间估计和假设检验怎样确定的分布性质呢? 是服从正态分布的随机变量，决定了也是服从正态分布的随机变量；是的线性函数，决定了也服从正态分布正态正态正态只要确定的期望和方差，即可确定的分布性质线性特征（线性估计的重要性)* 的期望：

27、(已证明是无偏估计）的方差和标准误差 (证明见P39、P40) (标准误差是方差的平方根) 注意：以上各式中均未知，但是个常数，其余均是已知的样本观测值，这时和都不是随机变量。的期望和方差* 基本思想：是的方差，而不能直接观测，只能从由样本得到的去获得有关的某些信息，去对作出估计。可以证明（见附录2.2)其无偏估计为 (这里的n-2为自由度, 即可自由变化的样本观测值个数)注意区别：是未知的确定的常数；是由样本信息估计的，是个随机变量对随机扰动项方差的估计*对作标准化变换为什么要对作标准化变换?在正态性假定下，由前面的分析已知但在对一般正态变量作实际分析时，要具体确定的取值及对应的概率，要通过正态分布密度函数或分布函数去计算是很麻烦的，为了便于直接利用“标准化正态分布的临界值”，需要对作标准化变换。标准化的方式：标准正态分布函数* 在已知时对作标准化变换，所

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

计量经济学 第二章简单线性回归模型.docx