高斯一马尔可夫定理:
若前述假定条件成立,则最小二乘估计量#是0的最优线性无偏估计量。
也就是说在P的所有线性无偏估计量中,B具有最小方差特性。
§3.4可决系数
与一元线性回归模型相同,我们要定量判断样本观测值与回归方程的拟和的程度,而这种定量的判断指标就是可决系数。
75S=RSS+ESS
tss=z(i;-y)2=xv72——总离差平方和
ESS二工仗-£)2二工<—残差平方和
IESS
=1
TSS
可决系数人2的性质:
归方程解
®o<^2
释的部分越多,估计的回归方程对样本观测值就拟和得越好;
0
②R~是解释变量个数的递増函数。
万2,W(/7-^-l)
修正的可决系数人=I——TSSig_l);两者的关系:
R-=1-(1-A2)-^1—
n-k-I
实际中,一般来说,人2或卫2趣大,模型拟合的越好r但拟合优度并不是评价模型优劣的唯一标准(如AIC准则#SC准则等),有时
为了使具有重要经济翕义解释变量保留在模型中,宁可牺牲一点拟和优度。
§3・5显著性检验与置信区间
F检验含义:
在一定的显著水平下,从总体上检验模型中被解释变量与解释变量之间的线性关系是否显著成立。
对于多元线性模型:
Y,
=0o+卩\X、i+P2X2i+—卜PkXki+Pi
Ho:
01=02==A=0
H\:
至少有一个A不等于零
思路:
构造一个统计量服从F■分布:
F=RSS/k
一ESSg-k-U~比宀)
①若尸>临界值代如4),则否定原假设H。
,认为总体回归方程
存在显著的线性关系;
程不存在显著的线性关系。
对于多元线性回归模型普通过F检验证明了总体回归方程线性关系显著,并不意味着每个解释变量X],*2,…対被解释变量y的影响都是显著的。
2•解释变量的显著性检验(t检验)
t检验含义:
在一定的显著水平下.检验模型中单个解释变量与被解
释变量之间的线性关系是否显著成立。
对于多元线性回归模型:
X二A+卩\X百+卩2i+・・・+卩kXk+
码:
07二(),Z=l,2,…他
比:
0严0
判断:
预先给出显著水平&,从卜分布表查出临界值L
2」—)f
据样本数据计算
①若人>临界值fa,则否定原假设比,认为解释变量/对被解释变量y存在显著的影响;②若0v临界值匚/2,(n-k-l)「则不否定原假设刃0,认为解释变量X,对被解释变量y不存在显著的影响。
嘶系沁信区间,旷緖推出:
a/2,(n-k-\)X(3/)>Pi+'a/2,(—)X'"(E)]即为回归系
八
数A的置信区间
1.稳定性检验(Chow检验)
对于多元线性回归模型:
X=几+叽+叽+…+/3kXki+“
用第一组容量为耳的样本估计的回归方程为:
X=0()+0/“+02宾\+…十久Xki——其残差平方和记为
ESS];用第一组容量为“2的样本估计的回归方程为:
检验:
日。
:
00=厂0,01=71,…,A=Yk
把这两组样本合并(容量为®+〃2),估计方程,得:
ESS入
_£ss合—(笳$1+£3$2)]/恢+1)
可以证明:
统计BF~(ess]+ESS?
)/[®+“2_2(k+1)]~幷£+1“+〃2-2(力十1))(3.69)
判断方法:
根据公武(3.69)计算出F值r给出显著水平况,从F
分布表中查临界值F匕和、+”2一2(£+1))①若尸>仇+1"+”2-2(21)),则否定原假设,即认为这两个回归模型系数存在显著区别,样本观测值不能合并;
②若FV坯屮®+计2(阳)),则不否定原假设,即认为这两个回归模型系数不存在显著区别,样本观测值可以合并;
例习题:
(Chow检验)
对于多元线性回归模型:
Y=仇+0N+/32X2+/?
3兀+…+卩k—qXg+炕_狞1兀_什1+・・・+炕兀+//
(3.6.2)
检验Ho:
炕_狞1=…=氏=0
y=00+0/1+P2X2+P3X3+…+Pk-qXk-q+“(3.63)
对立假设:
H,:
至少有一个0丿(j=k_q+\,…k)不为零。
(3.62)式包含k个解释变量称之为无约束回归模型,相应地z
(3.63)式包含k-q个解释变量,称之为约束回归模型。
无约束回归模型的残差平方和记为ESS((加);约束回归模型的残差平方和记为ess(r)。
可以证明:
当乩成立时,
)-ESS(UR)]q厂
(3.64)
统计量2赢仏
判断方法:
根据公式(3.65)计算出F值,给出显著水平&,从F
分布表中查临界值
归系数
①若尸>化(少-—1),则否走原假设,即认为q个
0”,…,炕中至少有一个不等于零;
卩”,…,0k都为零‘都对被解释变量丫没有显著的影响;
所谓的回归系数线性约束的检验,即检验模型的回归系数是否满足一左的约束条件。
例:
柯布一道格拉斯生产函数模型:
Y=AKaLpe1'
检验:
Hq:
cc七P=\
无约束模型:
logy二Y+alogK+01og厶+“—
有约束模型:
logY=7+*logK+(l—a)log厶+“,即:
logK-logZ=/+a(logK_logL)+p
其检验原理同"关于若干个回归系数是否为零的检验"
判断方法:
根据公式(3.70)计算出F值,给出显著水平Q「从F分布表中査临界值代(?
心-1)
1若尸>代(么”*1),则否走原假设;
2若Fv代(么”-—i),则不否定原假设;
§3.7预测1.点预测
J关于yfi勺条件期望疋厲/血)的区间预测
2-区间预测j关于旳勺个别值丫。
的区间预测
必的预测区间:
忆-/a/2,n-k-lXS@。
),Yq+af2,n-k-1*"("o)”其中,S(e.)=』1+沪血(疋¥厂疋
(1)研究经济变量之间的关系要剔除物价变动因素。
以上图为例,
按当年价格计算z我国1992年的GDP是1980年的5.9倍,而按
图中还可看出,1980-1992期间按名义价格计算的GDP曲线一直是上升的,而按不变价格(1980年价格)计算的GDP曲线在1989
年出现一次下降。
可见研究经济变量应该剔除物价变动因素。
(2)当引用现成数据时#要注意数据的定义是否与所选定的变量定义相符。
例如,"农业人口"要注意区别所用数据指的是"直接从事农业生产劳动的人口"还是我国户籍管理体制下「相对于城镇人口的"农业人口”。
否则就会给数据带来测量误差。
又如z2002年起我国将执行新的规定划分三次产业。
即将农、
林.牧、畐L渔服翁业从原第三产业划归第一产业。
走义的改变会给产业的统计数据带来变化。
(3)通过散点图,相关系数‘确是解释变量与被解释变量的具
体函数关系(线性.非线性、无关系1
对一个实际研究的问题『如果事先不知道变量之间的具体关系,可通过散点图,相关系数初步确左它们的函数关系。
如是线性关系、非线性关系或无关系等。
(4)改变变量的测量单位可能会引起回归系数值的改变,但不
(5)对多元回归模型『首先应该进行F检验。
F检验是对模型整
体回归显著性的检验。
如检验结果是接受Ho,则检验到此为止。
重新寻找解释变量。
如检验结果是拒绝,那么接下来应逬行f检验。
若回归系数未通过r检验『则相应解释变量应从模型中剔除。
剔除该解釋变量后应重新回归。
按经济理论选择的变量剔出时要慎重。
对于一元回归模型z尸检验与『检验的结果是等价的。
(6)对于多元回归模型,当解释变量的量纲不相同时#不能在估
计的回归系数之间比较大小。
若要在多元回归模型中比较解釋变量的
相对重要性,应该对回归系数作如下变换
八
其中貞&)和分别表示疋和必的样李标准差…0丿是在解释变量的量纲不相同条件下得到的估计值。
〃;是无量纲量,可以直接比较大小。
实际上力;是对变量进行标准化处理后的佶计结果。
以二元模型
为例,标准化的回归模型表示如下(标准化后不存在截距项):
两侧同乘孔闯r得
既是(10.1)式。
(7)利用回归模型预测时,解釋变量的值最好不要禽开样本范
圉太远。
原因是①根据预测公式离样本平均值越远『预测误差越大(见
3.9);②有时,样本以外变量的关系不清楚。
当样本外变量的关
系与样本内变量的关系完全不同时,在样本外预测就会发生错误。
图
3.10给出青铜硬度与锡含量的关系曲线。
若以锡含量为0%~16%
为样本,求得的关系近似是线性的。
当把预测点选在锡含量为16%
之外时,显然这种预测会发生严重错误。
因为锡含量超过16%之后z青铜的硬度急剧下降,不再遵从锡含量为0%~16%时的关系。
(8)残差项应非自相关(用DW检验1否则说明①仍有重要解释变量被遗漏在模型之外;②选用的模型形式不妥。
(见第6章);当模型的误差项存在异方差时,通过对变量取对数可以减弱或消除异方差(见第5章);模型中的解释变量应避免存在多重共线性(见第7章I
(9)模型应具有高度概括性。
若模型的各种检验及预测能力大致相同f应选择解释变量较少、模型形式较简单的一个,而不是把模型做得趣复杂越好。
(10)世界是不断变化的,所以模型形武及参数也不是永远不变
的。
应该随着时间的推移用新的数据及时修改模型。
第四章非线性回归模型的线性化
§4-1变量之间的非线性关系
在现实的社会经济活动中『经济变量之间的数量关系依存关系类型复杂,形式纷繁。
前面讨论的多元线性回归模型:
丫=0。
+队X、+笃兀+…+0a+“『其结构具有两个特点:
⑴被解释变量Y是解释变量的线性函数⑵被解释变量Y也是系数的线性函数称之为标准的线性模型'
的。
一般的非线性回归模型表示如下:
按照形式的不同,非线性回归模型可分为以下三类:
I•非标准线性回归模型
虽然被解释变量y与解释变量八兀,…兀之间不存在线性
关系,但是与系数0。
几…A之间存在线性关系)
心仇+0』(/,兀,・・・兀)+02/2区,兀,・・・兀)+・・・+00(八兀,・・・,兀)+“
例如:
根据平均成本与产量之间存在U型曲线关系‘因此,总
成本C可以用产量X的三次多项式来近似表示,得到下列形式
的总成本函数模型:
(虽然被解释变量Y与解释变量冷乂,£和系数
0。
,沟…似之间都存在线性关系,但是可以通过适当的函数变
换将其化为标准的线性回归函数)例如:
柯布■道格拉斯生产函数f其理论形式为:
Y=AKaLpefl
其中<Y表示产出量rK表示资金投入量#厶表示劳动投入量『
A表示效率系数,/0分别为K和上的产出弹性。
两边取对数:
LogY=LogA+aLogL+pLogK+//
m•不可线性化的非线性回归模型
(不但被解释变量Y与解释变量心心…£和系数几/,…pk之间不存在线性关系,而且也不能通过适当的函数变换转化为标例如:
y二%+&&兀+&2&"兀+“
解决方法―§4・2线性化方法
I•非标准线性回归模型
解决方法:
适当的变量替换
Z=/】(A,K,…,耳)z2=/2(x15x2,-,^)
Z厂厶…乂J
y二0°+0Z+0z+…+0^”+“
,…兀)+…+0p/p(X],X2,…,
几种常见的非标准线性回归模型的变化方法:
⑴多项式函数模型
£=0。
+时+02盂+…+/3X+A
^z.=x1,z2j=x;,…m,
则原方程可化为标准的线性回归模型
Z=00+021Z+02乙7+・・・+02侶+“z
可利用多元线性回归分析方法逬行处理
⑵双曲函数模型
——=a+0—YX
I
令厂
则可将原模型化为标准的线性回归模型:
⑶对数函数模型
对数函数模型的一般形式为:
Yj=a+pLogXj+已令x:
=LogX「
则可将原模型化为标准的线性回归模型:
Y;=a七卩X;七卩
⑷S■型曲线模型
S■型曲线模型的一般形式为
Y=
+儿
7a+pe~Xi
则可将原模型化为标准的线性回归模型:
Y;+卩X:
i
口•可线性化的非线性回归模型
几种常见的可线性化的非线性回归模型的变化方法:
⑴指数函数模型指数函数模型的一般形式为
Y=Ae^x^
7
两边取对数,得:
LogYj=LogA+陆+山
*
令乙二厶#a=LogA
则可将原模型化为标准的线性回归模型:
厂=理+酬+“
⑵專函数模型幕函数模型的一般形式为乙=AXgX帯.赵帥―
两边取对数,得:
Log*=LogA+p.LogXh+(J.LogX2?
.+•••+(3kLogXki+“令厂=LogYt,A=LogA,X:
=LogXv,...,X;=LogXkt
则原方程可化为标准的线性回归模型厂=0。
+0/;+02芯十…+0少;+他
§4.2线性化方法
2.不可线性化的非线性回归模型的线性化估计方法
—般形武:
Y=/(X],尢,…,耳;01,02,…)
1-可线性化的非线性回归模型的线性方法
+卩(4.16)由于/是一个一般的非线性函数>很难根据线形估计求解A。
特殊方法:
(1)直接搜索法
将模型的每一个参数都选择一组数值,然后将所有可能的参数组合代入(4.16)式中‘使残差平方和。
大到最小化的那组参数值组合‘就
作为未知参数的估计值。
缺点:
如果非线性模型的未知数较多r计算量很大;例:
104=10000适用范圉:
未知参数只有一个或两个时。
(2)直接优化法
根据残差平方和极小化的必要条件,即根据
求解出未知参数估计量…屁
缺点:
计算难度很大,很少被采用
(3)迭代线性化法
首先通过泰勒级数展开式将非线性函数在某一组初始参数估计值附近线性化,然后对这一线性化的函数应用普通最小二乘法,得到一自新的参数估计值。
接着星使非线性函数在新的参数附近线性化,对新的线性化的模型应用普通最小二乘法,又得到一组新的参数估计值。
不断重复上述过程,直至参数估计值收敛为止。
优点:
①计算效率比较高;(如果被估计的非线性函数很接近线性函
数,则只需几次迭代就可以得到满意的结果);②由于每一次迭代都各种统计检验。
迭代法的具体步骤:
第一步,根据经济理论和历史统计资料,选定(01,0,020,…,0卩0)作为未知参数(〃1,02,J的一组初始估计值。
接着将模型(4.16)
式在这组初始估计值附近作泰勒级数展开,得
\PPdf/\
+牙££C/?
仏一0人0)(0丿一久0)+・・・+"(4.19)
保留前两项,舍掉二阶和二阶以上的高阶项,得(4.19)式的线性
近似:
y=/(^1,x2,...,^;/7k0,^0,...,^.0)+fM仏-0,)+1/
移项整理后得:
令厂二
则(4.20)式就可以写成
厂二几乙+02Z2+-+0,
,的.0)+亍0皿
7=1
\P
302,0〉•:
0pO)+工07,0
i=l
01=7LJ
(4.20)
<•
Zp+V
(4.22)
第二步,对式(4.22)应用普通最小二乘法估计未知参数。
根据样本观测值和初始估计值
(01.0,023…,0。
),计算一组新的样本观测值
K,Z],,Z2”…,Zpi(z=12…°利用这组新的样本观测值,根
据(4.22)式得到估计量属.”022…0“。
第三步將非线性函数f在这组新的参数估计值A.!
“2,1,…0小附近
作泰勒级数展开,线性化后得到一个新的标准线性回归模型。
对这个新的标准线性回归模型在应用普通最小二乘法■又得到一组新的二乘估计量01,2,角,2,…0p,2。
重复这一过程,直到参数估计值收敛。
注意:
参数估计值收敛与否与参数初始值的选择有关;迭代线性化法不能保证残差平方和达到最小,得到的往往是极小值而非最小值。
例:
两要素不变替代弹性(CES)生产函数的参数估计
CES的一般形贰如下:
Y=+(1-p(4.23)
其中A—效益系数,是广义技术进步水平的反应,应满足A>0;
»—分配系数,应满足;
替代系数,应满足P>1;
m_规模报酬参数,加<1表示规模报酬递减;m=l表示规模
报酬不变;丹>1表示规模报酬递増。
Kementa于1967年提出的线性化估计方法。
首先,对CES生产函数(4.23)式两边去对数,得
LnY=LnA-—L)^)K-p+(1-3)1JP](4.25)
P
设/s)=山[冰-j(i-池存
将/(Q)在。
二0处作泰勒级数展开,并取0阶、1阶、2阶项,
得
/S)=+(1-3)DiL]p+丄p2^)(l--D?
lY
7
=-[SLnK+(1-6)hiL\p+£Q》(i_s}d£jj(4.26)
将(4.26)带入(4.25)武r得到线性化的CES生产函数
则将式(4・27)改写为一个简单的线性回归模型:
(4.28)
Z二00+卩\X\+02%+03兀+“
f进而得到CES生产函数的
结构参数At3tptm的估计值:
/\//\\
_2砒+02)PA八
=A+久
第八章虚拟变量
・许多经济变量是可以定量度量的,如:
商品需求量、价格、收入、产量等
•但也有一些影响经济变量的因素无法定量度量,如:
职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。
・为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”,
这种“量化”通常是通过引入“虚拟变量”来完成的。
根据这些因素的属性类型,构造只取“°”或“彳”的人工平量,通常称为虚拟变量(dummyvariables),记为D。
•例如,反映文程度的虚拟变量可取为:
1,本科学历
D=*
'o,非本科学历
一般地,在虚拟变量的设置中:
・基础类型、肯定类型取值为1;・比较类型,否定类型取值为°。
概念:
同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型。
一个以性别为虚拟变量考察企业职工薪金的模型:
Yi=0o+0\Xi+P2d.+//.
其中:
號为企业职工的薪金,&为工龄,
Di=l,若是男性,Di=0,若是女性。
二、虚拟变量的引入
・虚拟变量做为解释变量引入模型有两种基本方式:
加法方式和乘法方式。
1、加法方式
上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。
在该模型中,如果仍假定玖肉)=0,则
企业女职工的平均薪金为:
E(匕IX厂。
=0)=/?
o+0\Xi
企业男职工的平均薪金为:
E(匕・IX,,2・=1)=(0o+02)+0|X,
几何意义:
•假定卩门。
,则两个函数有相同的斜率,但有不同的截距。
意即,男女职工平均薪金对教龄的变化率是一样的,但两者的平均薪金水平相差址。
・可以通过传统的回归检验,对也的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。
►工龄X
又例:
在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。
教育水平考虑三个层次:
高中以下,
高中,
大学及其以上
这时需要引入两个虚拟变量:
卩高中DP大学及其以上
其他210其他
模型可设定如下:
Y.=00+卩\Xi+PzD\+B3D2+"i
在E(w)=0的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:
・高中以下:
£(KI=o,d2=o)=pq+
・高中:
E(y.i=\,d2=o)=(Z?
o+z?
2)+
•大学及其以上:
E(YiIX,,D,=002=D=(00+03)+0盘
假定卩3>卩2,其几何意义:
・还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。
如在上述职工薪金的例中,再引入代表学历的虚拟变量D2:
1本科及以上学历
0本科以下学历
职工薪金的回归模型可设计为:
Y,"。
+辱+/?
20+恥2+出
于是,不同性别、不同学历职工的平均薪金分别为:
•女职工本科以下学历的平均薪金:
E(YiI=0,D2=O)=/?
o+^1Xz
•男职工本科以下学历的平均薪金:
E(Yi\Xi,Dl=1,Z)2=O)=(0o+02)+QXi
•女职工本科以上学历的平均薪金:
E(Yi\Xi,Dl=0,D2=1)=(00+03)+0儿
•男职工本科以上学历的平均薪金:
E(YiIX,.,/),=1,D2=1)=(/?
0+/?
2+/?
3)+/?
^,.
2、乘法方式
・加法方式引入虚拟变量,考察:
截距的不同,
・许多情况下:
往往是斜率就有变化,或斜率、截距同时发生变化。
・斜率的变化可通过以乘法的方式引入虚拟变量来测度。
例:
根据消费理论,消费水平C主要取决于收入水平Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。
这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。
如,设D=P正常年份消费模型可建立如下:
'|0反常年份
・这