类别数据分析 第一讲.docx
《类别数据分析 第一讲.docx》由会员分享,可在线阅读,更多相关《类别数据分析 第一讲.docx(43页珍藏版)》请在冰豆网上搜索。
类别数据分析第一讲
CATEGORICALDATAANALYSIS
类别数据分析
香港科技大学社会科学部
吴晓刚
2012年6月
应用社会科学方法培训暨研讨班
上海大学
一、缺失变量偏误(OmittedVariableBias)
一元对多元回归估计
比较一个一元回归和一个多元回归:
一般地,
除非满足以下条件:
=0(也就是没有
的部分效果),或者
和
在样本中完全不相关。
太多或太少变量的问题
如果我们把本来不应该属于这个模型中的变量包括进来会怎么样呢?
不会影响我们对参数的估计,最小二乘估计还是无偏的。
如果我们把本来应该属于这个模型中的变量排除在模型之外,又会怎么样呢?
最小二乘估计就通常会是有偏的。
这叫做缺失变量偏误。
缺失变量偏误
假定真正的模型应该是:
但是我们估计的是
那么,
回到真正的模型:
所以,分子就是
既然
,
取期望值,我们可以得到,
考虑一个
对
的回归:
那么,
所以,
因此,一般来说,估计的斜率
是有偏的!
只有在两种情况下,这种偏误是零:
1)
=0,也就是
确实不属于这个模型;
2)
和
在样本中确实不相关。
二、奇异值(Outlier)和重要影响点(InfluentialObservation)
有时,回归的结果可能会受到数据中的奇异值和重要影响点的影响。
奇异点是指,如果用其他观察值的标准看,一个变量的值显得非常特别(特别大,或者特别小),我们最称之为奇异点。
奇异点可以是因变量,也可以是自变量,如果是因变量,就会出现大的残差。
重要影响点是指,如果将这些点从模型中剔除,模型的结果将会发生巨大的变化。
这些重要影响点经常是那些自变量的值是野点的观察值。
一个例子:
阿富汗(Afghanistan)、伊拉克(Iraq)、加蓬(Gabon)、利比里亚(Liberia)和波斯尼亚(Bosnia)是很明显的野点。
苏丹(Sudan)和圣多美(SaoTome)可能是重要影响点(但是,我们必须检查一下)。
奇异点和重要影响点为什么会产生问题呢?
一个回归野点是一个给定X的值,y值很不平常的观察值。
或者说,残差非常大的一个观察值(如果一个观察值在x和y各自的分布都是不平常的,但是它不一定是回归野点)。
回归野点的出现可能会导致估计的系数对数据的描述不精确。
回归野点的效果取决于它在x和y的分布中的位置:
如果它靠近x的均值,它可能没有什么问题,除了可能会影响常数项。
图#:
均值附近的野点对回归线的影响
虽然这一点的残差或差异很大,它的杠杆作用却很小,因为它位于x分布的中间。
估计的
率只受到很小的影响。
这一点其实只有很小的影响。
如何侦测奇异点和重要影响点?
a)看残差。
但有时这种方法可能会造成误导,因为有一些观察值会将回归线拉向它们,因此,如果回归分析中不把它们排除在外的话,它们只有很小的残差。
b)看标准化的残差。
原来的残差除以标准差,用来表明有多少残差的变化可以归于通常的抽样可变性(ordinarysamplingvariability),也叫“学者化的残差”(studentizedresidual)。
学者化的残差值在2到3之间就应该引起注意,而在3以上的通常就被看作是奇异点了。
在前面的例子中:
运行一个回归:
.reglIMRlPcGDP95
Source|SSdfMSNumberofobs=194
-------------+------------------------------F(1,192)=404.52
Model|131.0352331131.035233Prob>F=0.0000
Residual|62.1945021192.323929698R-squared=0.6781
-------------+------------------------------AdjR-squared=0.6765
Total|193.2297351931.00119034RootMSE=.56915
------------------------------------------------------------------------------
lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]
-------------+----------------------------------------------------------------
lPcGDP95|-.4984531.0247831-20.110.000-.5473352-.449571
_cons|7.088676.190851937.140.0006.712247.465111
------------------------------------------------------------------------------
预测残差:
.predictyresid,re
(22missingvaluesgenerated)
预测student残差:
.predictyrstud,rstudent
(22missingvaluesgenerated)
列出国家名称、残差和student残差:
.listCountryyresidyrstud
|Countryyresidyrstud|
|------------------------------------------------------|
1.|Afghanistan1.9131583.466067|
2.|Albania-.2531904-.4453237|
3.|Algeria.3510075.6173435|
25.|Bosnia-Herzegovina-1.731333-3.129942|
|------------------------------------------------------|
26.|Botswana1.0238611.815129|
27.|Brazil.8430041.490851|
28.|BruneiDarussalam-.045418-.0801697|
|------------------------------------------------------|
91.|Iceland-.407895-.7224937|
92.|India.1288125.2269194|
93.|Indonesia.235099.413385|
94.|Iran.2345939.4123693|
95.|Iraq2.1173963.875849|
c)测量杠杆作用(预测值(hatvalue))。
Y的预测值可以被写成观测到的Y的加权和。
权重(hi)随着观察值变化,用来测量那个观测值的杠杆作用。
在双变量回归模型中,权重的值仅仅取决于Xi和它的均值
的距离。
接着前面的例子:
预测权重的值:
.predicthatvalue,hat
(19missingvaluesgenerated)
列出国家名称、lPcGDP95和权重的值
.listCountrylPcGDP95hatvalue
+----------------------------------------------------+
|CountrylPcGDP95hatvalue|
|----------------------------------------------------|
1.|Afghanistan7.954372.0055086|
2.|Albania6.760415.0062553|
3.|Algeria7.333676.0052221|
|----------------------------------------------------|
171.|SaoTomeandPrincipe3.89182.0301461|
187.|Sweden10.17554.0185024|
188.|Switzerland10.65528.0237658|
189.|Syria8.181161.0059777|
190.|Tajikistan4.804021.0191651|
|----------------------------------------------------|
有X的极端值的观测值有更大的杠杆作用。
通常两倍于平均权重值的有很大的嫌疑是野点(平均权重值:
,其中k是自变量的个数,N是观测值的个数)。
d)DFBETAS
DFBETAS定义为:
这一指标用来测量由于删除某一观测值而导致的系数
的变化,除以标准误是为了标准化这一指标。
DFBETAS的绝对值越大,这个观测值对参数估计的影响就越大。
接着前面的例子:
先运行一个回归:
.reglIMRlPcGDP95IllitF
Source|SSdfMSNumberofobs=125
-------------+------------------------------F(2,122)=176.35
Model|69.7085454234.8542727Prob>F=0.0000
Residual|24.1124319122.197642885R-squared=0.7430
-------------+------------------------------AdjR-squared=0.7388
Total|93.8209774124.756620785RootMSE=.44457
------------------------------------------------------------------------------
lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]
-------------+----------------------------------------------------------------
lPcGDP95|-.2940304.032851-8.950.000-.3590623-.2289985
IllitF|.0162103.00169259.580.000.0128598.0195608
_cons|5.234517.266880619.610.0004.70625.762834
------------------------------------------------------------------------------
预测DFBETAS:
.predictdfbeta,dfbeta(IllitF)
(91missingvaluesgenerated)
列出国家名称和DFBETAS:
.listCountrydfbeta
+------------------------------------------+
|Countrydfbeta|
|------------------------------------------|
1.|Afghanistan.4373177|
3.|Algeria-.0226851|
95.|Iraq.4998002|
|------------------------------------------|
103.|Kazakhstan-.0908174|
104.|Kenya-.0201081|
e)Cook距离(Cook’sdistance):
另外一种将杠杆作用和偏离性结合起来的测量方法。
如果是杠杆作用大的野点,这个指标的值就很大,如果是杠杆作用小的野点,这个指标的值就很小。
接着前面的例子:
预测Cook距离:
predictcooksd,cooksd
(91missingvaluesgenerated)
列出国家名称和DFBETAS以及Cook距离:
.listCountrydfbetacooksd
+-----------------------------------------------------+
|Countrydfbetacooksd|
|-----------------------------------------------------|
1.|Afghanistan.4373177.0752624|
2.|Albania..|
3.|Algeria-.0226851.0003832|
4.|AmericanSamoa..|
5.|Andorra..|
|-----------------------------------------------------|
95.|Iraq.4998002.1541431|
我们可以用下面的标准判断Cook距离:
所以在这个例子中,如果距离大于0.021,那么它就可以被认为是重要影响点。
当我们发现了奇异点/重要影响点之后,怎么办呢?
a)如果发现了奇异点,首先要去参看原始数据,看是不是有录入错误,如果真的有录入错误,改正它们;
b)如果奇异点并没有对结果有很大的影响,就让它们留在模型中;
c)如果奇异点确实对结果有很大的影响,那么或者把它们从样本中删除,或者使用Robust回归来削弱它们的影响。
接着前面的例子:
先运行回归:
.reglIMRlPcGDP95
Source|SSdfMSNumberofobs=194
-------------+------------------------------F(1,192)=404.52
Model|131.0352331131.035233Prob>F=0.0000
Residual|62.1945021192.323929698R-squared=0.6781
-------------+------------------------------AdjR-squared=0.6765
Total|193.2297351931.00119034RootMSE=.56915
------------------------------------------------------------------------------
lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]
-------------+----------------------------------------------------------------
lPcGDP95|-.4984531.0247831-20.110.000-.5473352-.449571
_cons|7.088676.190851937.140.0006.712247.465111
------------------------------------------------------------------------------
得到这个模型的预测值:
.predictyhat1
(optionxbassumed;fittedvalues)
运行Robust回归:
.rreglIMRlPcGDP95
Huberiteration1:
maximumdifferenceinweights=.64836923
Huberiteration2:
maximumdifferenceinweights=.11915001
Huberiteration3:
maximumdifferenceinweights=.02183241
Biweightiteration4:
maximumdifferenceinweights=.28944065
Biweightiteration5:
maximumdifferenceinweights=.02664897
Biweightiteration6:
maximumdifferenceinweights=.00515436
RobustregressionestimatesNumberofobs=194
F(1,192)=512.99
Prob>F=0.0000
------------------------------------------------------------------------------
lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]
-------------+----------------------------------------------------------------
lPcGDP95|-.5325753.0235141-22.650.000-.5789544-.4861962
_cons|7.329247.181079540.480.0006.9720867.686407
------------------------------------------------------------------------------
得到这个模型的预测值:
.predictyhat2
(optionxbassumed;fittedvalues)
(19missingvaluesgenerated)
分别给这两个预测值命名:
-labelvaryhat2"Fittedvalues:
robust"
-labelvaryhat1"Fittedvalues:
nonadjusted"
画出有两条拟合线的散点图:
.graphyhat1yhat2lIMRlPcGDP95,s(.o)c(ll)border
未调整的拟合线和Robust拟合线
三多重共线性
多重共线性指的是自变量之间高度相关的情况。
当其中一个自变量可以由其他自变量来预测,在模型中就没有必要放如该变量了。
事实上,STATA会自动将其删掉。
当自变量与其他自变量高度相关时,把它们全部放入模型会wreakhavocwithregressionestimates.
经济学:
timeseriesdata;
社会学人口学:
age,period,andcohorteffects
●为什么?
因为共线性会inflatethestandarderrors.
r2j为第j个自变量其它自变量所解释的部分.Sy为应变量的标准误差,and
为第第j个自变量的标准差。
当
接近1时,thesamplingstandarderrorofthe系数bj的标准误会变的非常大。
共线性在多大程度上会成为一个问题,取决于1/(1-
)的值(varianceinflationfactor).
事实上,当rsquare在.6-.7之间时,问题不大。
一旦超过.7,问题会恶化。
如何因对?
如果共线性问题是由于两个以上的变量测量相同的东西,那么放弃一个,或把它们结合起来是一种妥当的做法。
如果变量不是测量理论上相同的概念,那么需要重新考虑我们在模型中所需要研究的实质问题。
●例子
.xi:
reglIMRlPcGDP95
Source|SSdfMSNumberofobs=194
-------------+------------------------------F(1,192)=404.52
Model|131.0352331131.035233Prob>F=0.0000
Residual|62.1945021192.323929698R-squared=0.6781
-------------+------------------------------AdjR-squared=0.6765
Total|193.2297351931.00119034RootMSE=.56915
------------------------------------------------------------------------------
lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]
-------------+----------------------------------------------------------------
lPcGDP95|-.4984531.0247831-20.110.000-.5473352-.449571
_cons|7.088676.190851937.140.0006.712247.465111
.xi:
reglIMRlPcGDP95lPPPGNP
Source|SSdfMSNumberofobs=120
-------------+------------------------------F(2,117)=307.55
Model|109.361762254.6808808Prob>F=0.0000
Residual|20.8019182117.177794173R-squared=0.8402
-------------+------------------------------AdjR-squared=0.8375
Total|130.163681191.09381243RootMSE=.42166
------------------------