类别数据分析 第二讲.docx
《类别数据分析 第二讲.docx》由会员分享,可在线阅读,更多相关《类别数据分析 第二讲.docx(40页珍藏版)》请在冰豆网上搜索。
类别数据分析第二讲
I.对多元线性回归的深入讨论(续)
1.回归中因变量和自变量间的非线性问题
线性变换:
⏹改变因变量y的测量单位会同时改变回归系数及标准误的单位,但是原有的显著性水平及对其影响方向的解释不变。
⏹改变某个自变量x的测量单位会改变其相应回归系数和标准误的单位但不会改变原有的显著性水平以及对其影响方向的解释。
非线性关系的类型
X和Y关系的一般表达形式:
g(Y)=f(β,X,ε)
变量的非线性:
这种关联可以表达为
g(Y)=α+β1f1(X)+β2f2(X)+β3f3(X)+…+ε
其中g,f1,f2……表示因变量Y和自变量X各自的函数,有可能是非线性的.可以写成上述形式的X与Y的关系也被称为“可加线性关系transformablylinear”,“真线性intrinsicallylinear”或“自线性essentiallylinear”
参数的非线性:
这种关系可以表达为
g(Y)=α+f(β,X,ε)
其中g和f可以是非线性函数.可以写成上述形式的X与Y的关系也被称为“不可化约的线性关系non-transformablylinear”,“真非线性intrinsicallynonlinear”或“自非线性essentiallynon-linear”
▪解决非线性问题:
-如果问题仅存在于变量的非线性中,我们可以对变量施加函数变换以便转化为线性形式,进而使用转换后的变量参与回归分析。
-如果参数本身是非线性的,则需要使用非线性估计方法。
例1:
Y可以写成X及X平方的函数(多项式函数,curvilinear):
Y=α+β1X+β2X2+ε
例2:
近似指数函数关系:
Y=e(α+βX)==log(Y)=α+βX
可能通过对因变量Y取对数化为线性方程。
例3:
乘数关系(MultiplicativeRelationship)(人口流动的重力模型)
其中Yij表示从i处向j处流动的人口总数,Pi表示i处的人口数,Pj表示j处的人口数,Dij表示i处到j处的距离.
我们对上述方程的两边同时取对数化为如下的线性形式:
log(Yij)=log(α)+βlog(Pi)+γlog(Pj)-δlog(Dij)+log(εij)
或Yij*=α*+βPi*+γPj*-δDij*+εij*
例4:
罗吉斯蒂回归(LogisticRegression)
如果我们想研究自变量X对于一个二分的因变量Y的影响,则在X取特定值的时候因变量Y呈现状态1的概率可以写成如下的罗吉斯蒂函数的形式:
而其累积概率密度函数可以图示为:
例5:
“多因多果模型(MultipleIndicatorMultipleCauseModel,MIMICModel)”
假设Y1Y2和Y3是一个潜在变量F的三个指标变量(indicator),而F用来测量社会地位、政治地位和经济地位。
此外,假设F受自变量X1和X2,如收入和教育程度的影响。
则这一模型可以写成如下的“因子模型(FactorModel)”的模式:
Y1i=λ1Fi+ε1i
Y2i=λ2Fi+ε2i
Y3i=λ3Fi+ε3
Fi=γ1X1i+γ2X2i+ζi
这一模型也可以图示为:
但是,如果F是不可以直接观测的变量,而我们只知道变量Y和X的情况。
那么上述模型可以化为:
Y1i=λ1γ1X1i+λ1γ2X2i+λ1ζi+ε1i
Y2i=λ2γ1X1i+λ2γ2X2i+λ2ζi+ε3i
Y3i=λ3γ1X1i+λ3γ2X2i+λ3ζi+ε3i
由于参数λ和γ以乘积的形式进入模型,则这一模型对于参数是非线性的。
同样地,若我们只做X对于Y的回归分析,则其结果中的参数估计要受到非线性约束的影响。
对于非线性模型,我们通常使用最大似然法而不是最小二乘法进行参数估计。
在实际操作的过程中,真实的数据只会近似地服从于某种非线性模型。
如果线性模型与非线性模型的偏别不太大,我们倾向于使用自线性的模型。
在一些特殊情况中,如因变量是二分变量或是使用MIMIC模型时,我们需要可以分析非线性模型的软件。
事实上,当前的多数软件包中都内建了非线性分析的功能。
2.非线性的统计检验:
我们有如下两个模型:
(1)y=β0+β1x+ε
(2)y=β0+β1x+β2x2+ε
我们可以使用F检验来判断相对于模型
(1),模型
(2)的拟合能力是否有显著的增强;也可以使用t检验来检验参数
是否显著。
不论使用那个检验,如果结果显著则说明我们需要使用模型
(2)来更好地拟合数据。
非线性的全局检验(GlobalTest):
-将自变量X离散为k个类别
-对于每个类别建立相应的虚拟变量d1….dk,
-比较下面两个模型
(3)y=β0+δ2d2+δ3d3+…+δk-1dk-1+δkdk+ε
(4)y=β0+β(c1d1+c2d2+c2d2+c3d3+…+ck-1dk-1+ckdk)+ε
使用F检验来判断模型拟合能力的提升是否显著的例子:
除了教育的例子外,社会科学中的许多研究中都需要注意非线性关系的问题。
如:
使用公司内部的科层排序、员工的职位排序以及使用5点量表(由最好到最坏)进行项目评估时。
.setmem100m
Currentmemoryallocation
currentmemoryusage
settablevaluedescription(1M=1024k)
--------------------------------------------------------------------
setmaxvar5000max.variablesallowed1.733M
setmemory100Mmax.dataspace100.000M
setmatsize400max.RHSvarsinmodels1.254M
-----------
102.987M
.use"C:
\DocumentsandSettings\sowu\MyDocuments\data\CHINA07.DTA",clear
.genlnwage=ln(income)*dependentvariable
(4021missingvaluesgenerated)
.keepifsample==1*restrictanalysisforurbansample
(3386observationsdeleted)
*RegularRegression
.reglnwageeduc_hiy
Source|SSdfMSNumberofobs=2016
-------------+------------------------------F(1,2014)=146.99
Model|45.1823903145.1823903Prob>F=0.0000
Residual|619.0686612014.307382652R-squared=0.0680
-------------+------------------------------AdjR-squared=0.0676
Total|664.2510522015.329653127RootMSE=.55442
------------------------------------------------------------------------------
lnwage|Coef.Std.Err.tP>|t|[95%Conf.Interval]
-------------+----------------------------------------------------------------
educ_hiy|.0409952.003381312.120.000.034364.0476265
_cons|5.641996.0342499164.730.0005.5748275.709165
------------------------------------------------------------------------------
*Nowwewanttotestwhetherthelineareffectspecificationisappropriate
*copythevariable
.geneduc=educ_hiy
*recodethenewvariableinto4categories
.recodeeduc0/6=17/9=210/12=313/20=4
(educ:
3079changesmade)
*convertthe4-categoryvariableinto4dummyvariables(inregression,weonly*need3ofthem.
.gened1=educ==1
.gened2=educ==2
.gened3=educ==3
.gened4=educ==4
*tocheckifanythingiswrong
.tab1ed1-ed4
->tabulationofed1
ed1|Freq.PercentCum.
------------+-----------------------------------
0|2,17670.5870.58
1|90729.42100.00
------------+-----------------------------------
Total|3,083100.00
->tabulationofed2
ed2|Freq.PercentCum.
------------+-----------------------------------
0|1,98364.3264.32
1|1,10035.68100.00
------------+-----------------------------------
Total|3,083100.00
->tabulationofed3
ed3|Freq.PercentCum.
------------+-----------------------------------
0|2,31875.1975.19
1|76524.81100.00
------------+-----------------------------------
Total|3,083100.00
->tabulationofed4
ed4|Freq.PercentCum.
------------+-----------------------------------
0|2,77289.9189.91
1|31110.09100.00
------------+-----------------------------------
Total|3,083100.00
.tabeduc
educ|Freq.PercentCum.
------------+-----------------------------------
1|90729.4229.42
2|1,10035.6865.10
3|76524.8189.91
4|31110.09100.00
------------+-----------------------------------
Total|3,083100.00
*everythinglooksfine!
*Dummyvariableregression(Model1)
.xi:
reglnwagei.educ
i.educ_Ieduc_1-4(naturallycoded;_Ieduc_1omitted)
Source|SSdfMSNumberofobs=2016
-------------+------------------------------F(3,2012)=50.08
Model|46.1548818315.3849606Prob>F=0.0000
Residual|618.096172012.307204856R-squared=0.0695
-------------+------------------------------AdjR-squared=0.0681
Total|664.2510522015.329653127RootMSE=.55426
------------------------------------------------------------------------------
lnwage|Coef.Std.Err.tP>|t|[95%Conf.Interval]
-------------+----------------------------------------------------------------
_Ieduc_2|.2119264.03381016.270.000.14562.2782329
_Ieduc_3|.2660832.03536677.520.000.1967241.3354423
_Ieduc_4|.5135847.042550212.070.000.4301377.5970317
_cons|5.804394.026854216.150.0005.7517295.857059
------------------------------------------------------------------------------
*Nowwewouldliketotesttheeffectsforeacheducationallevelonwageis
*linear.Theeasiestwayistojusttreateducasacontinuousvariablewith
*valuesrangingfrom1to4
.xi:
reglnwageeduc
Source|SSdfMSNumberofobs=2016
-------------+------------------------------F(1,2014)=137.63
Model|42.4878501142.4878501Prob>F=0.0000
Residual|621.7632012014.308720557R-squared=0.0640
-------------+------------------------------AdjR-squared=0.0635
Total|664.2510522015.329653127RootMSE=.55563
------------------------------------------------------------------------------
lnwage|Coef.Std.Err.tP>|t|[95%Conf.Interval]
-------------+----------------------------------------------------------------
educ|.1504014.012820411.730.000.1252587.175544
_cons|5.674947.0326433173.850.0005.6109295.738965
------------------------------------------------------------------------------
*TheaboveisequivalenttotheequationofModel2,namely
*lnwage=5.67+0.15(1*d1+2*d2+3d3+4d3)
*WecanconductanFtesttoseeincrementtoR2
F2,2012=
=[(0.0695-0.064)/2]/[(1-0.0695)/2012]
=5.95
.genx=[(0.0695-0.064)/2]/[(1-0.0695)/2012]
.displayx
5.9462652
.displayfprob(2,2014,5.95)
.00265187
*Sincepisfarlessthan.05,werejectthenullhypothesisandacceptthealternative:
addinglinearconstraintssignificantlyimprovesthemodel’sgoodness-of-fit.
*Wecanalsorecodeeducintoacontinuousvariablewith*differentvalueassignmentassignedtoeachcategory.
.geneduc_hiy2=3*ed1+7*ed2+11*ed3+15*ed4
*educ==13yearseduc==27yearseduc==311yearseduc415years
.xi:
reglnwageeduc2
Source|SSdfMSNumberofobs=2016
-------------+------------------------------F(1,2014)=137.63
Model|42.4878501142.4878501Prob>F=0.0000
Residual|621.7632012014.308720557R-squared=0.0640
-------------+------------------------------AdjR-squared=0.0635
Total|664.2510522015.329653127RootMSE=.55563
------------------------------------------------------------------------------
lnwage|Coef.Std.Err.tP>|t|[95%Conf.Interval]
-------------+----------------------------------------------------------------
educ2|.0376003.003205111.730.000.0313147.043886
_cons|5.712547.0297023192.330.0005.6542975.770798
------------------------------------------------------------------------------
*Again,thiscanalsobedonein“recode”inSTATA.
.geneduc_hiy3=educ
.recodeeduc_hiy31=32=73=114=15
(educ_hiy3:
3083changesmade)
.xi:
reglnwageeduc_hiy3
Source|SSdfMSNumberofobs=2016
-------------+------------------------------F(1,2014)=137.63
Model|42.4878501142.4878501Prob>F=0.0000
Residual|621.7632012014.308720557R-squared=0.0640
-------------+------------------------------AdjR-squared=0.0635
Total|664.2510522015.329653127RootMSE=.55563
------------------------------------------------------------------------------
lnwage|Coef.Std.Err.tP>|t|[95%Conf.Interval]
-------------+----------------------------------------------------------------
educ_hiy3|.0376003.003205111.730.000.0313147.043886
_cons|5.712547.0297023192.330.0005.6542975.770798
------------------------------------------------------------------------------
Note,nomatterhowyourecodethevariable,theR2,residualsumofsquareremainsthesame(namely,youwillendupwiththesameFvaluewiththesamedegreeoffreedom,althoughtheestimatecoefficientswillbedifferent.
Anextremeversionofatestfor