ImageVerifierCode 换一换
格式:DOCX , 页数:45 ,大小:126.14KB ,
资源ID:7026123      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/7026123.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(计量经济学 第二章简单线性回归模型.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

计量经济学 第二章简单线性回归模型.docx

1、计量经济学 第二章 简单线性回归模型计量经济学 第二章 简单线性回归模型* 第 二 章 简单线性回归模型 计量经济学未来我国旅游需求将快速增长,根据中国政府所制定的远景目标,到2020年,中国入境旅游人数将达到2.1亿人次;国际旅游外汇收入580亿美元,国内旅游收入25700亿美元。到2020年,中国旅游业总收入将超过3000亿美元,相当于国内生产总值的8%至11%。(来源:2008年中国旅行社发展研究咨询报告) (参考现状:第一产业占GDP的15%,建筑业占GDP 的7%)什么决定性因素能使中国旅游业总收入超过3000亿美元?旅游业的发展与这种决定性因素的数量关系究竟是什么?怎样具体测定旅游

2、业发展与这种决定性因素的数量关系?*需要研究经济变量之间数量关系的方法为了不使问题复杂化, 我们先在某些标准的(古典的)假定条件下,用最简单的模型,对最简单的变量间数量关系加以讨论显然,对旅游起决定性影响作用的是“中国居民的收入水平”以及“入境旅游人数”等因素。 “旅游业总收入”(Y)与“居民平均收入”(X1)或者“入境旅游人数”(X2)有怎样的数量关系呢? 能否用某种线性或非线性关系式 Y= f ( X ) 去表现这种数量关系呢? 具体该怎样去表现和计量呢?* 第一节 回归分析与回归函数 一、相关分析与回归分析 (对统计学的回顾)1、经济变量之间的相互关系 性质上可能有三种情况: 确定性的函

3、数关系 Y=f (X) 可用数学方法计算 不确定的统计关系相关关系 Y= f(X)+ (为随机变量) 可用统计方法分析 没有关系 不用分析 相关关系的描述 最直观的描述方式坐标图(散布图、散点图) ? ? ? ? ? *函数关系相关关系(线性)没有关系相关关系(非线性)2、相关关系* 相关关系的类型 ? 从涉及的变量数量看 简单相关 多重相关(复相关)? 从变量相关关系的表现形式看 线性相关散布图接近一条直线 非线性相关散布图接近一条曲线? 从变量相关关系变化的方向看 正相关变量同方向变化,同增同减 负相关变量反方向变化,一增一减 不相关* 3、相关程度的度量相关系数 如果 和 总体的全部数据

4、都已知, 和 的方差和协方差也已知,则 X和Y的总体线性相关系数: 其中: -X 的方差 -Y的方差 -X和Y的协方差特点:总体相关系数只反映总体两个变量 和 的线性相关程度对于特定的总体来说, 和 的数值是既定的,总体相关系数 是客观存在的特定数值。总体的两个变量 和 的全部数值通常不可能直接观测,所以总体相关系数一般是未知的。 ?*如果只知道 X 和 Y 的样本观测值,则X和Y的样本线性相关系数为: 其中: 和 分别是变量X和Y的样本观测值, 和 分别是变量 X 和Y 样本值的平均值注意: 是随抽样而变动的随机变量。X和Y的样本线性相关系数:相关系数较为简单, 也可以在一定程度上测定变量间

5、的数量关系,但是对于具体研究变量间的数量规律性还有局限性。 ? X和Y 都是相互对称的随机变量, ?线性相关系数只反映变量间的线性相关程度,不能说明非线性相关关系 ?样本相关系数是总体相关系数的样本估计值,由于抽样波动,样本相关系数是随抽样而变动的随机变量,其统计显著性还有待检验 *对相关系数的正确理解和使用*4、回归分析回归的古典意义: 高尔顿遗传学的回归概念 ( 父母身高与子女身高的关系)子女的身高有向人的平均身高;回归;的趋势回归的现代意义:一个被解释变量对若干个解释变量依存关系的研究回归的目的(实质):由解释变量去估计被解释变量的平均值*被解释变量Y的条件分布和条件概率: 当解释变量X

6、取某固定值时(条件),Y 的值不确定,Y的不同取值会形成一定的分布,这是 Y 的条件分布。 X取某固定值时,Y 取不同值的概率称为条件概率。 被解释变量 Y 的条件期望: 对于 X 的每一个取值, 对 Y 所形成的分布确 定其期望或均值,称 为 Y 的条件期望或条件均 值,用 表示。注意:Y的条件期望是随X的变动而变动的 YX明确几个概念(为深刻理解“回归”)*回归线:对于每一个X的取值 ,都有Y的条件期望 与之对应,代表Y的条件期望的点的轨迹形成的直线或曲线称为回归线。回归函数:被解释变量Y的条件期望 随解释变量X的变化而有规律的变化,如果把Y的条件期望表现为 X 的某种函数 ,这个函数称为

7、回归函数。回归函数分为:总体回归函数和样本回归函数 X Y*每 月 家 庭 可 支 配 收 入 X2000250030003500400045005000550060006500131215301631184320372277246929243515352113401619172619742210238828893338372139541400171317862006232525263090365038654108每1548175018352265241926813156380240264345月1688181418852367252228873300408741654812家17381985

8、1943248526653050332142984380庭180020412037251527993189365443124580消19022186207826892887335338424413费220021792713291335344074支231222982898303837104165出2316292331673834?Y238730533310249831873510268932861591191520922586275430393396385340364148举例: 假如已知由100个家庭构成的总体的数据 (单位:元) 二、总体回归函数(PRF)*消费支出的条件期望与收入关系的图

9、形对于本例的总体,家庭消费支出的条件期望与家庭收入 基本是线性关系, 可以把家庭消费支出的条件均值表示为家庭收入的线性函数:* 1. 总体回归函数的概念 前提:假如已知所研究的经济现象的总体的被解释变量Y和解释变量X的每个观测值(通常这是不可能的!),那么,可以计算出总体被解释变量Y的条件期望 ,并将其表现为解释变量X的某种函数 这个函数称为总体回归函数(PRF) 本质: 总体回归函数实际上表现的是特定总体中被解释变量随解释变量的变动而变动的某种规律性。计量经济学的根本目的是要探寻变量间数量关系的规律,也就要努力去寻求总体回归函数。* 条件期望表现形式例如Y的条件期望 是解 释变量X的线性函数

10、,可表示为: 个别值表现形式(随机设定形式) 对于一定的 ,Y的各个别值 并不一定等于条件期望,而是分布在 的周围,若令各个 与条件期望 的偏差为 ,显然 是个随机变量 则有 2.总体回归函数的表现形式PRF作为总体运行的客观规律,总体回归函数是客观存在的,但在实际的经济研究中总体回归函数通常是未知的,只能根据经济理论和实践经验去设定。计量经济学研究中“计量”的根本目的就是要寻求总体回归函数。我们所设定的计量模型实际就是在设定总体回归函数的具体形式。总体回归函数中 Y 与 X 的关系可以是线性的,也可以是非线性的。 *3.如何理解总体回归函数*计量经济学中,线性回归模型的“线性” 有两种解释:

11、 就变量而言是线性的 Y的条件期望(均值)是X的线性函数 就参数而言是线性的 Y的条件期望(均值)是参数的线性函数例如: 对变量、参数均为“线性” 对参数“线性”,对变量”非线性” 对变量“线性”,对参数”非线性”注意:在计量经济学中,线性回归模型主要指就参数而言是“线性”的,因为只要对参数而言是线性的,都可以用类似的方法去估计其参数,都可以归于线性回归。“线性”的判断概念 在总体回归函数中,各个 的值与其条件期望 的偏差 有很重要的意义。若只有 的影响, 与 不应有偏差。若偏差 存在,说明还有其他影响因素。 实际代表了排除在模型以外的所有因素对 Y 的影响。性质 是其期望为 0 有一定分布的

12、随机变量重要性:随机扰动项的性质决定着计量经济分析结 果的性质和计量经济方法的选择* 三、随机扰动项 是未知影响因素的代表(理论的模糊性) 是无法取得数据的已知影响因素的代表(数据欠缺)?是众多细小影响因素的综合代表(非系统性影响)?模型可能存在设定误差(变量、函数形式的设定)?模型中变量可能存在观测误差(变量数据不符合实际)?变量可能有内在随机性(人类经济行为的内在随机性)*引入随机扰动项 的原因样本回归线: 对于X的一定值,取得Y的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹,称为样本回归线。样本回归函数:如果把被解释变量Y的样本条件均值 表示为解释变量X的某种函数,这个函数称为

13、样本回归函数(SRF) *XYSRF四、样本回归函数(SRF)* 样本回归函数如果为线性函数,可表示为 其中: 是与 相对应的 Y 的样本条件均值 和 分别是样本回归函数的参数 个别值(实际值)形式: 被解释变量Y的实际观测值 不完全等于样本条件均值 ,二者之差用 表示, 称为剩余项或残差项: 则 或 样本回归函数的函数形式条件均值形式:样本回归线随抽样波动而变化:每次抽样都能获得一个样本,就可以拟合一条样本回归线,(SRF不唯一) 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。 样本回归线只是样本条件均值的轨迹,还不是总体回归线,它至多只是未知的总体回归线的近似表现。*样本回归

14、函数的特点 SRF1SRF2 YX A ? X *PRFSRF样本回归函数与总体回归函数的关系 如果能够通过某种方式获得 和 的数值,显然: 和 是对总体回归函数参数 和 的估计 是对总体条件期望 的估计 ? 在概念上类似总体回归函数中的 ,可视 为对 的估计。*对比: 总体回归函数 样本回归函数对样本回归的理解* 目的: 计量经济分析的目标是寻求总体回归函数。即用样本回归函数SRF去估计总体回归函数PRF。 由于样本对总体总是存在代表性误差,SRF 总会过高或过低估计PRF。要解决的问题: 寻求一种规则和方法,使其得到的SRF的参数 和 尽可能“接近”总体回归函数中的参数 和 的真实值。这样

15、的“规则和方法”有多种,如矩估计、极大似然估计、最小二乘估计等。其中最常用的是最小二乘法。回归分析的目的用样本去估计总体回归函数,总要使用特定的方法,而任何估计参数的方法都需要有一定的前提条件假定条件 一、简单线性回归的基本假定 为什么要作基本假定? 只有具备一定的假定条件,所作出的估计才具有良好的统计性质。 模型中有随机扰动项,估计的参数是随机变量,显然参数估计值的分布与扰动项的分布有关,只有对随机扰动的分布作出假定,才能比较方便地确定所估计参数的分布性质,也才可能进行假设检验和区间估计等统计推断。假定分为:对模型和变量的假定对随机扰动项的假定 *第二节 简单线性回归模型的最小二乘估计例如对

16、于 假定模型设定是正确的(变量和模型无设定误差)假定解释变量X在重复抽样中取固定值。 假定解释变量X是非随机的,或者虽然X是随机的, 但与扰动项u是不相关的。(从变量X角度看是外生的)注意: 解释变量非随机在自然科学的实验研究中相对容易满足,经济领域中变量的观测是被动不可控的,X非随机的假定并不一定都满足。*1.对模型和变量的假定 假定1:零均值假定: 在给定X的条件下, 的条件期望为零 假定2:同方差假定: 在给定X的条件下,的条件方差为某个常数 *X Y2.对随机扰动项u的假定* 假定3:无自相关假定: 随机扰动项 的逐次值互不相关 假定4:解释变量 是非随机的,或者 虽然是随机的但与扰动

17、项 不相关 (从随机扰动 角度看) *假定5:对随机扰动项分布的正态性假定, 即假定 服从均值为零、方差为 的正态分布 (说明:正态性假定并不影响对参数的点估计,所以有时不列入基本假定,但这对确定所估计参数的分布性质是需要的。且根据中心极限定理,当样本容量趋于无穷大时, 的分布会趋近于正态分布。所以正态性假定有合理性)由于其中的 和 是非随机的, 是随机变量,因此Y是随机变量, 的分布性质决定了 的分布性质。 对 的一些假定可以等价地表示为对 的假定: 假定1:零均值假定 假定2:同方差假定 假定3:无自相关假定 假定5:正态性假定 *在对 的基本假定下 Y 的分布性质1. OLS的基本思想

18、对于 ,不同的估计方法可以得到不同的样本回归参数 和 ,所估计的 也就不同。 理想的估计结果应使估计的 与真实的 的差(即剩余 )总的来说越小越好 因 可正可负,总有 ,所以可以取 最小,即在观测值Y和X确定时, 的大小决定于 和 。要解决的问题:: 如何寻求能使 最小的 和 。*二、普通最小二乘法(OLS) (rdinary Least Squares)用克莱姆法则求解得以观测值表现的OLS估计量: *取偏导数并令其为0,可得正规方程或整理得即2. 正规方程和估计量* 为表达得更简洁,或者用离差形式的OLS估计量: 容易证明由正规方程: 注意:其中: 本课程中:大写的 和 均表示观测值; 小

19、写的 和 均表示观测值的离差而且由样本回归函数可用离差形式写为 用离差表现的OLS估计量 剩余项 的均值为零 OLS回归线通过样本均值 估计值 的均值等于实际观测 值 的均值 *(由OLS第一个正规方程直接得到)(由OLS正规方程 两边同除n得到)3. OLS回归线的数学性质 解释变量 与剩余项 不相关 由OLS正规方程有: 被解释变量估计值 与剩余项 不相关 * 面临的问题: 参数估计值 参数真实值对参数估计式的优劣需要有评价的标准 为什么呢? 参数无法直接观测,只能通过样本去估计。样本的获得存 在抽样波动,不同样本的估计结果不一致。 估计参数的方法有多种,不同方法的估计结果可能不相同, 通

20、过样本估计参数时,估计方法及所确定的估计量不一定完备,不一定能得到理想的总体参数估计值。对各种估计方法优劣的比较与选择需要有评价标准。估计准则的基本要求: 参数估计值应;尽可能地接近;总体参数真实值”。 什么是“尽可能地接近” 原则呢? 用统计语言表述就是: 无偏性、有效性、一致性等 4. OLS估计量的统计性质* (1) 无偏性 前提:重复抽样中估计方法固定、样本数不变、由重复抽样得到的观测值,可得一系列参数估计值 , 的分布称为 的抽样分布,其密度函数记为概念:如果 ,则称 是参数 的无偏估计量,如果 ,则称 是有偏的估计,其偏倚为 (见下页图)* 概 率 密 度 估计值 偏倚* (2)有

21、效性 前提:样本相同、用不同的方法估计参数,可以找到若 干个不同的无偏估计式 目标: 努力寻求其抽样分布具有最小方差的估计量 (见下页图) 既是无偏的同时又具有最小方差特性的估计量,称为最佳(有效)估计量。* 概 率 密 度 估计值思想:当样本容量较小时,有时很难找到方差最小的无偏估计,需要考虑样本扩大后的性质(估计方法不变,样本数逐步增大)一致性: 当样本容量 n 趋于无穷大时,如果估计式 依概率收敛于总体参数的真实值,就称这个估计式 是 的一致估计式。即 或 (渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式) (见下页图)渐近有效性:当样本容量 n 趋于无穷大时,在所有的一致估

22、计式中,具有最小的渐近方差。*3、渐近性质(大样本性质)* 概 率 密 度 估计值 图 4先明确几点:?由OLS估计式可以看出 都由可观测的样本值 和 唯一表示。? 因存在抽样波动,OLS估计 是随机变量? OLS估计式是点估计量 *OLS估计是否符合“尽可能地接近总体参数真实值”的要求呢?4. 分析OLS估计量的统计性质 2、? 无偏特性 可以证明 (证明见教材P38) *OLS估计式的统计性质高斯定理(注意: 无偏性的证明中用到了基本假定中 零均值等假定)1、? 线性特征 是Y的线性函数3、? 最小方差特性 (有效性) (证明见教材P68附录21)可以证明:在所有的线性无偏估计中,OLS估

23、计 具有最小方差(注意:最小方差性的证明中用到了基本假定中的同方差、无自相关等假定)结论(高斯定理):在古典假定条件下,OLS估计量是最佳线性无偏估计量(BLUE)*概念:样本回归线是对样本数据的一种拟合。不同的模型(不同函数形式)可拟合出不同的样本回归线相同的模型用不同方法去估计参数,也可以拟合出不同的回归线拟合的回归线与样本观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度,可称为拟合优度。如何度量拟合优度呢?拟合优度的度量建立在对 Y 的总变差分解的基础上* 第三节 拟合优度的度量 分析Y的观测值 、估计值 与平均值 有以下关系 将上式两边平方加总,可证得(提示:交叉项 ) (TS

24、S) (ESS) (RSS) 或者表示为 总变差 (TSS):被解释变量Y的观测值与其平均值的离差平 方和(总平方和)(说明 Y 的总变动程度) 解释了的变差 (ESS):被解释变量Y的估计值与其平均值的 离差平方和(回归平方和) 剩余平方和 (RSS):被解释变量观测值与估计值之差的平方 和(未解释的平方和)* 一、总变差的分解 Y X *变差分解的图示(以某一个观测值为例) 以TSS同除总变差等式 两边: 或 定义:回归平方和(解释了的变差ESS) 在总变 差(TSS) 中所占的比重称为可决系数,用 或 表示: *或 二、可决系数 可决系数越大,说明在总变差中由模型作出了解释的部分占的比重

25、越大,模型拟合优度越好。反之可决系数越小,说明模型对样本观测值的拟合程度越差。 可决系数的特点: 可决系数取值范围: 随抽样波动,样本可决系数 是随抽样而变 动的随机变量 可决系数是非负的统计量*可决系数的作用联系:数值上可决系数是相关系数的平方*可决系数与相关系数的关系区别: 可决系数 相关系数 是就模型而言 是就两个变量而言 说明解释变量对被解释 说明两变量线性依存程度 变量的解释程度 度量不对称的因果关系 度量对称的相关关系 取值 0 1 取值 -1r1 有非负性 可正可负*第四节? 回归系数的区间估计和假设检验为什么要作区间估计? 运用OLS法可以估计出参数的一个估计值,但OLS估计只

26、是通过样本得到的点估计,它不一定等于真实参数,还需要寻求真实参数的可能范围,并说明其可靠性。为什么要作假设检验?OLS 估计只是用样本估计的结果,是否可靠? 是否抽样的偶然结果呢?还有待统计检验。区间估计和假设检验都是建立在确定参数估计值 概率分布性质的基础上。* 一、OLS估计的分布性质 基本思想 是随机变量,必须确定其分布性质才可能进行区间估计和假设检验 怎样确定 的分布性质呢? 是服从正态分布的随机变量,决定 了 也是服从正态分布的随机变量; 是 的线性函数,决定了 也服从正态分布 正态 正态 正态 只要确定 的期望和方差,即可确定 的分布性质 线性特征(线性估计的重要性)* 的期望:

27、(已证明是无偏估计) 的方差和标准误差 (证明见P39、P40) (标准误差是方差的平方根) 注意:以上各式中 均未知,但是个常数,其余均是已知的样本观测值,这时 和 都不是随机变量。 的期望和方差* 基本思想: 是 的方差,而 不能直接观测,只能从由样本得到的 去获得有关 的某些信息,去对 作出估计。 可以证明(见附录2.2)其无偏估计为 (这里的n-2为自由度, 即可自由变化的样本观测值个数)注意区别: 是未知的确定的常数; 是由样本信息估计的,是个随机变量对随机扰动项方差 的估计*对 作标准化变换为什么要对 作标准化变换?在 正态性假定下,由前面的分析已知但在对一般正态变量 作实际分析时,要具体确定 的取值及对应的概率,要通过正态分布密度函数或分布函数去计算是很麻烦的,为了便于直接利用“标准化正态分布的临界值”,需要对 作标准化变换。标准化的方式: 标准正态分布函数* 在 已知时对 作标准化变换,所

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1