计量经济学知识点.docx
《计量经济学知识点.docx》由会员分享,可在线阅读,更多相关《计量经济学知识点.docx(50页珍藏版)》请在冰豆网上搜索。
计量经济学知识点
第一章
1.计量经济学含义:
以经济理论为基础,以统计资料为材料,运用数理统计知识和计算机技术,建立计量模型,对经济变量进行定量分析,以验证经济理论、分析政策效果、或进行商业预测。
2.计量经济学和其他学科关系
▪1、经济学,尤其是数理经济学,为其提供理论依据
▪2、经济统计学为其提供搜集加工整理统计资料的工具
Ø但价格、收入、投资、储蓄等经济数据是不可控的非实验数据,存在测量误差、遗漏、设计错误等
▪3、数理统计为其提供假设检验的工具,以验证模型正确性
Ø主要有概率、概率分布、随机变量、抽样、参数估计、假设检验和回归分析等内容,只有具备了一定的数理统计学基础,才能很好地掌握计量经济学。
▪4、线性代数
3.经济计量学建模步骤p2
一、寻找研究的理论依据/设立一个理论假说
二、确定统计指标,搜集编制数据
①明确变量对应的统计指标
②数据分类:
Ø时间序列数据:
按时间跨度收集到的数据集合
Ø横截面数据:
某个时点上的数据集合
Ø合并数据:
时间序列数据和横截面数据的组合
③数据来源:
统计年鉴、统计类网站、数据公司
三、建立数学模型
四、设立经济计量模型:
引入误差项
自变量和因变量之间是统计关系,而不是确定的函数关系
Ø解释变量:
函数的自变量
Ø被解释变量:
函数的应变量
五、采用适当方法,估计模型参数
六、进行检验,验证模型的适用性
经济检验:
所估计参数的符号,大小是否符合理论等
统计性检验:
Ø拟合优度检验:
回归线拟合真实值优劣程度
Ø参数显著性检验:
样本是否很好的代表了总体
计量经济检验:
回归模型前提条件的检验,例如多重共线性检验,异方差检验。
预测性检验
本章考核要求
▪识记:
计量经济学含义、统计数据分类、参数、斜率、截距、解释变量和被解释变量、随机误差项等基本概念。
▪领会:
计量经济学与其他学科的关系,计量经济模型基本的建模步骤
第二章
1.求和符号的性质p17
Ø常数的n次求和为常数的n倍
Ø常数可提到求和符号前
Ø两个变量的求和等于对两个变量分别求和
2.几个定义
▪1、实验:
Ø例:
测试某批共1000灯泡的使用寿命
▪2、总体:
实验的所有可能结果的集合
Ø例:
该批灯泡中每个灯泡的使用寿命,以小时计
▪3、样本:
由总体中抽出的若干个体的集合。
Ø从该批灯泡中抽取100个灯泡,测试使用寿命
抽取的原则:
随机抽取。
3.样本、总体和随机变量
所谓样本就是N个相互独立且与总体同分布的随机变量
数理统计的一个主要工作就是由样本去推断总体的数字特征。
总结:
总体可以表示为一个随机变量,样本就是N个与总体同分布的随机变量,总体分布就是样本和总体的联结点。
4.区间概率的计算
5.数学期望有如下性质
6.方差的性质
常数的方差为零,var(k)=0
随机变量加上一个常数不改变变量的方差
Øvar(X+k)=var(X)
随机变量常数倍的方差等于变量方差的常数平方倍
Øvar(aX)=a2var(X)
Ø(随机变量线性变换的方差=?
)
如果两个随机变量相互独立,和之方差等于方差之和
Øvar(X+Y)=var(X)+var(Y)返回
7.协方差
8.相关系数、样本相关系数
9.注意(样本均值)
我们希望知道总体的一些数字特征,特别是均值,方差等。
这只有在获得所有可能的结果时,才能得到。
Ø例:
灯泡的平均寿命
通常只能得到关于总体的一个样本,我们的目标在于,通过获得的样本数据,对总体的数字特征进行估计,因此需要确定一个法则,将样本中我们关心的信息集中起来,这样的法则称为统计量,也称为估计量
样本均值就是一个估计量,拿到样本后,依据样本均值的计算法则得到的具体数字称为估计值
同时样本均值也是一个随机变量,样本均值的估计值依每次抽样不同而按概率取不同的值。
该随机变量有它自己的均值和方差
10.样本均值的均值和样本均值的方差
11.注意(样本方差)
样本方差同样是个估计量,由具体某个样本计算得到的样本方差的数值为估计值
样本方差同样是个随机变量,有它自身的均值和方差
Ø关于1/(n-1):
可以用自由度的概念来解释
Ø可以证明:
样本方差的均值=总体方差的均值
■即样本方差是总体方差的无偏估计。
Ø样本方差存在量纲问题
样本标准差sx:
为样本方差的平方根
12.正太分布性质
围绕均值u中心对称,曲线下总面积为1,钟形分布
ØP(xu)=0.5
根据均值和方差,可求得随机变量落入任何区间的概率
Ø阴影部分面积即为0.95,而>1.96倍标准差的概率为0.025
正态分布变量的线性变换仍然服从正态分布。
两个正态分布变量的线性组合仍然服从正态分布。
13.中心极限理论
注意:
对随机变量{x}本身具体服从什么分布不做要求,只要相互独立,其和渐近于正态分布,主要是大量变量相加后,许多随机因素相互抵消的缘故。
14.卡方的性质
1)卡方分布只取正值
2)卡方分布是斜分布,随着自由度的增大,逐渐对称并接近正态分布。
3)两个服从卡方分布的独立随机变量,其和也服从卡方分布
15.关于卡方分布的两个定理
16.t分布
表示:
性质:
1)t分布和标准正态分布非常类似,对称分布。
2)t分布均值为0,方差为k/(k-2),k为自由度
当样本容量增大时,t分布方差快速趋向1
运用:
总体方差已知时,用正态分布进行假设检验和统计推断,但当总体方差未知时,用t分布进行假设检验和统计推断
17.F分布
表示:
性质:
1)非负,斜分布
2)自由度增大时,趋近与正态分布
本章考核要求
▪领会估计量、估计值、总体各数字特征、样本各个数字特征
▪掌握各分布的随机变量的概率的计算
第三章
1.关于区间估计
1)所得区间为随机区间,因为样本均值为随机变量
2)这样的区间解读为:
以这种方式构造出来的随机区间包含待估参数真值的概率为置信度,
Ø例:
设置信度95%,抽样100次,得到100个这样的区间,其中有95个区间一定包含u这个数值。
3)如果我们预先猜测一个u的真值,而抽样得到一个样本均值,如果依据这个样本均值构造的区间没有包含我们预先猜测的值,发生这种情况的概率=显著性水平
4)一个样本均值有一个固定的区间,不可说这个区间包含待估参数真值的概率为95%。
5)关于精度,即区间宽度,在同样置信度下,我们希望区间越窄越好。
即:
Ø总体方差越小越好
Ø
样本容量越大越好
6)同一个总体,置信度越高,则区间越宽
2.对总体均值的估计
分为总体方差是否已知两种情形
Ø方差已知,估计u的置信区间
■
总体分布未知:
利用切贝谢夫不等式
■若为大样本:
依据中心极限定理
■若为正态总体、小样本
Ø方差未知,估计u的置信区间
■
若为大样本:
依据中心极限定理和大数定律,
■总体方差可用样本方差代替
若为小样本但来自正态总体:
利用t分布
3.对总体方差的估计
小样本下,正态分布总体,方差的置信区间的估计:
利用卡方分布
4.点估计量应具备的性质
评价点估计量是否优良的的标准:
1、线性
若估计量是样本观测值的线性函数,则称该估计量为线性估计量
Ø意义:
线性估计量处理起来相对简单
Ø样本均值就是一个线性估计量
2、无偏性
估计量的均值=其对应的待估参数的真值(作图)。
Ø意义:
随机变量围绕其均值,即数学期望波动,估计量具备无偏性可使其尽量靠近对应的待估参数的真值
样本均值就是一个无偏估计量
3、有效性
同一个参数的所有无偏估计量中,方差最小的那个估计量称为有效估计量
方差衡量了数据的离散程度,估计量具备有效性,即方差最小,可使其尽量靠近对应的待估参数的真值
4、小结:
最佳线性无偏估计量
最佳线性无偏估计量(BLUE):
在所有线性无偏估计量中,方差最小的估计量
评价点估计量是否优良的的标准
5、一致性
5.假设检验
判断标准:
小概率事件原理:
如果一事件发生的概率很小,则我们称该事件在一次试验中为不可能事件
方法:
1、置信区间法
步骤:
给定一个置信度
作区间估计,给出相应的置信区间
给出零假设(即设定待估参数的值)
如果零假设落在置信区间之外,则拒绝零假设;反之接受零假设/无法拒绝零假设
Ø零假设所设定的待估参数的值落在置信区间之外,这是一个小概率事件,在一次试验中为不可能事件,我们与其信零假设为真,不如信其为假
(但拒绝零假设,不意味着零假设一定为假)
两类错误:
我们做出判断的依据是一组样本数据,因而假设结果不可能绝对正确,原因来自抽样误差
弃真错误/第一类错误:
零假设为真,但检验结果把他拒绝了,这类错误的概率为α
取伪错误/第二类错误:
零假设为假,但检验结果把他接受了
2、显著性检验法
通过构造一个统计量,比较该统计量和临界值的大小来判断零假设是否成立
步骤:
提出零假设和备则假设
Ø(备则假设分单边和双边,此处只考虑双边情形)
根据样本信息,构造统计量Z
Ø此时要确定该统计量服从何种分布,即到底要用哪一个分布来做假设检验
确定显著性水平,查对应的概率表得到临界值(此处为双边假设的临界值)
比较|z|和临界值的大小。
返回
Ø如果是双边假设,当|z|<临界值时,接受零假设,反之则反是。
6.两个术语
检验(统计量)是统计显著的,或者称显著地异于零假设/和零假设有显著差异,即拒绝零假设
Ø例如称t检验,或者t统计量是显著的/和零假设有显著差异
检验(统计量)是统计不显著的,或者称和零假设无显著差异。
即无法拒绝零假设
第四章
1、统计关系和确定性关系
Ø确定性关系:
自变量和应变量之间有着精确的对应关系
■例:
加速度=F/M
Ø统计关系:
应变量的值不能依据自变量的值精确求出,但自变量确实对应变量有系统性影响
■例:
农作物的收成和土地、肥料、劳动力投入等因素有关,但我们不能据此得知农作物的精确产量。
2、回归分析:
对自变量(解释变量)设定值,进行重复抽样,得到大量数据,找出应变量(被解释变量)对一个或多个自变量(解释变量)之间的统计关系
总体回归曲线:
当解释变量取给定值时,被解释变量的条件均值的轨迹
具体的支出水平是围绕其条件均值波动的
回归分析的任务就是由样本回归方程推断总体回归方程,并给出这种推断的可靠程度,即由样本推断总体
回归:
SRF向PRF靠拢、回归
3、随机误差项的性质。
误差项代表了未纳入模型的变量对解释变量的影响之和
模型不可能囊括所有解释变量。
即使模型中包括了所有解释变量,其内在随机性也不可避免
随机误差项代表了度量误差/测量误差
随机误差项的均值为0
4、样本回归方程的随机形式
5.总体回归方程与样本回归方程的区别
6.小结
回归分析的任务就是采取有效的估计方法,得到样本回归方程,由样本回归方程再来推断总体回归方程,并给出这种推断的可靠程度,即由样本推断总体
样本回归方程中的各系数、变量分别对应总体回归方程的各系数、变量。
但样本回归方程的各系数为随机变量,有自身的概率分布,这是我们进行统计推断的基础
7.一些结论
OLS估计量是点估计量,对于每次抽样,我们可以得到关于总体参数的点估计值
用OLS法得到的样本回归线一定经过样本均值点
残差和为0,残差均值为0
残差与解释变量积的和为0
本章考核要求
掌握关于回归的一系列基本概念,领会最小二乘的基本思想,掌握最小二乘法的一些常用结论
第五章
1.经典线性回归模型的8个基本假定p122(前5见书)
假定6:
样本容量N>待估参数个数
假定7:
解释变量X值有变异性
即X有一个相对较大的取值范围
如果X只在一个狭窄的范围内变动,则无法充分估计X对被解释变量Y的系统影响。
例:
如果收入差异不大,我们无法观察支出Y的变动
假定8:
如果有多个解释变量,要求解释变量间没有很强的线性关系
无多重共线性
假定的意义:
如果满足这些假定,则高斯-马尔可夫定理成立:
在所有线性无偏估计量中,普通最小二乘(OLS)估计量有最小方差。
这使得OLS估计量有着优良的性质可以进行统计推断
完全满足这些假定的方程在现实中是不存在的,但这些假定为我们提供了一个比较的基准,本课其他部分主要是围绕假定不被满足时,分析后果,提出解决办法
2.ols估计量的概率分布p129
假设检验需要指明总体参数(即总体回归系数)的估计量(即样本回归系数)服从何种分布
Ø如同需要指明样本均值服从何种分布,才可对总体均值进行统计推断一样。
样本回归系数是Y的线性函数,因此其概率分布取决于Y,而Y的概率分布取决于随机误差项
3.稻草人假设
回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。
在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。
这就需要进行变量的显著性检验
计量经计学中,主要是针对变量的参数真值是否为“零”来进行显著性检验的。
即
这样的零假设也称为“稻草人假设”,如果稻草人假设成立,说明解释变量X不是被解释变量Y的一个显著性的影响因素
4.拟合优度检验P134
对样本回归直线与样本观测值之间拟合程度的检验。
度量拟合优度的指标:
判定系数(可决系数)R2
几个概念:
对于所有样本点,则需考虑这些点与样本均值离差的平方和
拟合优度:
回归平方和ESS/Y的总离差TSS
5.一些结论:
对于Y的总体均值E(Y|X)与个体值的预测区间(置信区间)
(1)样本容量n越大,预测精度越高
(2)样本容量一定时,置信带的宽度当在X均值处最小,其附近进行预测(插值预测)精度越大;X越远离其均值,置信带越宽,预测可信度下降。
(3)样本方差越小,预测精度越高
本章逻辑
我们需要进行:
Ø参数显著性检验
Ø拟合优度检验
Ø回归总体线性检验
而高斯-马尔科夫定理给出了进行统计检验的信息
而高斯-马尔科夫定理的成立需要一些假定条件
======================================猫嘎的分割线=======================================
第六章多元线性回归模型
多元回归模型
第一节多元线性回归的模型的表示和基本假定
一、一般线性回归模型的基本表示方法
函数形式
矩阵形式
二、偏回归系数
三、古典(经典)假定
假定1:
随机扰动项的零均值假定
假定2:
随机扰动项的零均值假定的同方差假定
假定3:
无自相关假定(多元线性回归模型)
假定4、随机扰动项与解释变量不相关(相互独立)
假定5、正态性:
随机扰动项服从正态分布
线性回归模型:
例:
一元线性回归模型:
6、无多重共线性,即假定各解释变量之间不存在线性关系(注:
多元线性回归模型才有无多重共线性的假定)
第二节多元线性回归的参数的OLS估计及其性质
一、参数的OLS估计
基本思想(原则):
寻找实际值与拟合值的离差平方和为最小的回归直线。
例如:
多元线性回归模型的“残差平方和”为:
要使“残差平方和”达到最小,其充分条件是
即:
二、参数估计量的性质
在满足基本假设的情况下,总体参数的普通最小二乘估计具有:
线性性、无偏性、有效性。
即高斯-马尔可夫定理一样成立
4、小结:
估计量的统计性质
三、ols估计量的概率分布
假设检验需要指明总体参数(即总体回归系数)的估计量(即样本回归系数)服从何种分布。
如同需要指明样本均值服从何种分布,才可对总体均值进行统计推断一样。
样本回归系数是Y的线性函数,因此其概率分布取决于Y,而Y的概率分布取决于随机误差项。
有了样本回归系数的OLS估计量的分布信息,就可以利用它进行总体回归系数的统计推断。
1、正态性假定:
随机误差项服从正态分布,
随机扰动项代表了未引入模型的随机影响之和,依据中心极限定理,大量独立同分布的随机变量之和趋向于正态分布
第三节多元线性回归的统计检验
一、拟合优度检验p158
1、多元判定系数R2
多元判定系数和一元判定系数的计算方法是一样的:
因为判定系数的计算只和被解释变量Y有关,和解释变量X无关。
2、调整后的多元判定系数(p165)
多元判定系数R2存在一个问题:
当解释变量个数增多时候,离差平方和RSS至少不会增大,则多元判定系数R2一般会随着增大解释变量个数增多而增大。
1)可决系数随解释变量个数的增加而增大。
易造成错觉:
要模型拟合得越好,就应增加解释变量。
然而增加解释变量会降低自由度,减少可用的样本数。
并且有时增加解释变量是不必要的;
2)导致解释变量个数不同模型之间对比困难;可决系数只涉及变差,没有考虑自由度。
因此在比较同一被解释变量,但又不同个数的解释变量的模型的时候,R2存在不合理的地方
调整后的多元判定系数性质
二、对回归参数进行假设检验:
显著性检验法(p135)
多元线性回归的参数的显著性检验
1、同为稻草人假设
2、自由度为n-k-1,k为解释变量个数
3、得到t值后和临界值比较,当t值大于临界值,则拒绝零假设
三、对联合假设的检验(p161)
变差来源
平方和
自由度
方差
回归
残差
总变差
拟合优度检验和F检验的对比:
1)拟合优度检验和F检验都是对回归方程显著性的检验,都是把总离差TSS分解成回归平方和ESS与残差平方和RSS,并在此基础上构造统计量进行检验。
F检验零假设成立等价于判定系数为零
2)模型对观测值的拟合程度越高,模型总体线性关系的显著性就越高。
3)区别:
F检验有精确的分布。
第七章回归方程的函数形式
本章示范如何将一些非线性模型转换为线性模型,有何特殊用途。
第一节对数-对数模型用于测量弹性(p181)
一、对数-对数模型含义
方程两边变量以对数形式出现(注意参数依然是线性的)
二、对数-对数模型用于测量弹性
1、回顾弹性的含义
需求的价格弹性含义:
商品价格每变动1%,
带来需求量变动的百分比,
即两个相对变动的比值
2、对对数-对数模型进行全微分
我们可以看到此时弹性(α,β)在模型中作为回归参数,是不变的,所以我们也称双对数模型为固定弹性模型或者不变弹性模型。
三、对数-对数模型的假设检验
1、视为和普通线性回归相同
2、(了解)但是正态性假定发生了变化
四、线性模型和双对数模型的比较
1、不能单纯根据判定系数或者调整后的判定系数的大小来选择模型
注意:
只有被解释变量相同的模型,判定系数或调整后的判定系数的比较才有意义。
2、一元回归可通过观察散点图来选择模型
3、应从实际出发选择模型,
例如经济理论表明变量间的关系确实是不变弹性的,则选择对数-对数线性模型。
五、例题:
P186,例9-2,C-D生产函数
被解释变量:
实际GDP
解释变量:
资本:
资本存量
劳动投入:
就业人数
LNY^=-1.6524+0.34LNL+0.86LNK
T(-2.73)(1.83)(9.06)
R2=0.995
解释:
系数含义:
0.34表示为劳动的产出弹性,劳动投入每增加1%,带来产出增加0.34%(纠正书本错误),0.86表示资本的产出弹性,意义类似
资本的产出弹性远大于劳动的产出弹性,为资本投入驱动的经济体系
规模经济特征:
0.34+0.85=1.18,1.18>1,为规模报酬递增经济
R2=0.995,回归拟合程度很高(未报告调整后的R2)返回
第二节半对数模型测度增长率(P188)
一、半对数模型含义
方程的某一边采用对数形式,另一边为线性形式
二、半对数模型测度增长率
第三节其他模型
一、双曲线/倒数模型
1、定义:
2、双曲线函数应用
1)当两个参数都大于零时,函数曲线如右图,生产的平均固定成本函数具有此形状。
Y:
平均固定成本
X:
产量
2)当B1>0,B2<0时,函数曲线如右图,
恩格尔消费函数具有此形状。
Y:
在某一商品上的消费支出
X:
消费者收入
3)当B1<0,B2>0时,函数曲线如右图,
菲利普斯函数具有此形状。
Y:
工资增长率(后来演化为通胀率)
X:
失业率
3、例题P194,9-6,菲利普斯曲线
二、多项式回归模型
1、定义
Y=B1+B2X+B3X2+B4X3+……
多项式回归模型的变量间不存在多重共线性,视同多元线性回归返回
2、例题p198例题9-9
三、其他
关于过原点回归p199
->只有在充分理论保证之下才能使用过原点的回归
关于度量单位的说明:
p200
->所有回归的判定系数相同
->度量单位的变动会带来截距或斜率的不同
Y单位不变,如果把X的单位扩大10倍,导致X的数值缩小10倍,为了维持Y不变,斜率需要扩大10倍。
第八章包含虚拟变量的回归
第一节虚拟变量含义P212
一、虚拟变量(dummyvariable)
对某个定性因素人为赋值,成为能进入模型的变量。
例:
解释薪酬差异,设以教育年限X1、工作经验(工作年数)X2,“性别”三个变量来解释:
对于性别,设置虚拟虚拟变量D:
=0,男性
=1,女性
Y=b0+b1X1+b2X2+b3D
当b3能够通过t检验时,说明性别对薪酬有影响,即存在性别歧视
二、方差分析模型(ANOVA)(方差分析模型在其他社会科学中使用较多):
特别的,当回归中解释变量都是虚拟变量时,此类模型称为方差分析模型。
P212
Y=b0+b1D1+b2D2+……
三、协方差模型(ANCOVA)
解释变量有定性变量也有定量变量.(P217)
Y=b0+b1X1+b2X2+b3D
四、小结
1)虚拟变量是一用以反映质的属性的一个人工变量,通常记为D。
2)虚拟变量D只取0或1两个值
3)设D=0,即取值为0的那一类称为基准类/基础类/参照类/比较类
4)虚拟变量引入模型,可以直接使用OLS,不会带来新的估计问题。
第二节虚拟变量设定
一、虚拟变量设置原则
1、模型中只有一个两分定性变量p217
例如性别定性变量,只有两种分类,引入一个虚拟变量即可,设置虚拟变量D:
=0,男性
=1,女性
不可引入两个虚拟变量,否则引起多重共线性
2、模型中一个定性变量,该变量具有多种分类,p218
即多分定性变量
假定根据横截面数据,我们做个人旅游支出Y对其收入X和学历的回归,学历这个定性变量,可分为:
中学以下、中学、大学三个层次,
如何设置虚拟变量?
我们有如下选择
引入一个虚拟变量D
D=2,大学;=1,中学;=0,中学以下
回归方程为:
Y=b0+b1X1+b2D
引入三个虚拟变量
D1=1,大学;=0,其他
D2=1,中学;=0,其他
D3=1,中学以下;=0,其他
回归方程为:
Y=b0+b1X1+c1D1+c2D2+c3D3
引入二个虚拟变量
D1=1,大学;=0,其他
D2=1,中学;=0,其他
Y=b0+b1