类别数据分析第一讲.docx

资源描述

类别数据分析第一讲.docx

《类别数据分析第一讲.docx》由会员分享，可在线阅读，更多相关《类别数据分析第一讲.docx（43页珍藏版）》请在冰豆网上搜索。

类别数据分析第一讲.docx

类别数据分析第一讲

CATEGORICALDATAANALYSIS

类别数据分析

香港科技大学社会科学部

吴晓刚

2012年6月

应用社会科学方法培训暨研讨班

上海大学

一、缺失变量偏误（OmittedVariableBias）

一元对多元回归估计

比较一个一元回归和一个多元回归：

一般地，

除非满足以下条件：

＝0（也就是没有

的部分效果），或者

和

在样本中完全不相关。

太多或太少变量的问题

如果我们把本来不应该属于这个模型中的变量包括进来会怎么样呢？

不会影响我们对参数的估计，最小二乘估计还是无偏的。

如果我们把本来应该属于这个模型中的变量排除在模型之外，又会怎么样呢？

最小二乘估计就通常会是有偏的。

这叫做缺失变量偏误。

缺失变量偏误

假定真正的模型应该是：

但是我们估计的是

那么，

回到真正的模型：

所以，分子就是

既然

，

取期望值，我们可以得到，

考虑一个

对

的回归：

那么，

所以，

因此，一般来说，估计的斜率

是有偏的！

只有在两种情况下，这种偏误是零：

1）

＝0，也就是

确实不属于这个模型；

2）

和

在样本中确实不相关。

二、奇异值（Outlier）和重要影响点（InfluentialObservation）

有时，回归的结果可能会受到数据中的奇异值和重要影响点的影响。

奇异点是指，如果用其他观察值的标准看，一个变量的值显得非常特别（特别大，或者特别小），我们最称之为奇异点。

奇异点可以是因变量，也可以是自变量，如果是因变量，就会出现大的残差。

重要影响点是指，如果将这些点从模型中剔除，模型的结果将会发生巨大的变化。

这些重要影响点经常是那些自变量的值是野点的观察值。

一个例子：

阿富汗（Afghanistan）、伊拉克（Iraq）、加蓬（Gabon）、利比里亚（Liberia）和波斯尼亚（Bosnia）是很明显的野点。

苏丹（Sudan）和圣多美（SaoTome）可能是重要影响点（但是，我们必须检查一下）。

奇异点和重要影响点为什么会产生问题呢？

一个回归野点是一个给定X的值，y值很不平常的观察值。

或者说，残差非常大的一个观察值（如果一个观察值在x和y各自的分布都是不平常的，但是它不一定是回归野点）。

回归野点的出现可能会导致估计的系数对数据的描述不精确。

回归野点的效果取决于它在x和y的分布中的位置：

如果它靠近x的均值，它可能没有什么问题，除了可能会影响常数项。

图＃：

均值附近的野点对回归线的影响

虽然这一点的残差或差异很大，它的杠杆作用却很小，因为它位于x分布的中间。

估计的

率只受到很小的影响。

这一点其实只有很小的影响。

如何侦测奇异点和重要影响点？

a）看残差。

但有时这种方法可能会造成误导，因为有一些观察值会将回归线拉向它们，因此，如果回归分析中不把它们排除在外的话，它们只有很小的残差。

b）看标准化的残差。

原来的残差除以标准差，用来表明有多少残差的变化可以归于通常的抽样可变性（ordinarysamplingvariability），也叫“学者化的残差”（studentizedresidual）。

学者化的残差值在2到3之间就应该引起注意，而在3以上的通常就被看作是奇异点了。

在前面的例子中：

运行一个回归：

.reglIMRlPcGDP95

Source|SSdfMSNumberofobs=194

-------------+------------------------------F（1,192）=404.52

Model|131.0352331131.035233Prob>F=0.0000

Residual|62.1945021192.323929698R-squared=0.6781

-------------+------------------------------AdjR-squared=0.6765

Total|193.2297351931.00119034RootMSE=.56915

------------------------------------------------------------------------------

lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]

-------------+----------------------------------------------------------------

lPcGDP95|-.4984531.0247831-20.110.000-.5473352-.449571

_cons|7.088676.190851937.140.0006.712247.465111

------------------------------------------------------------------------------

预测残差：

.predictyresid,re

（22missingvaluesgenerated）

预测student残差：

.predictyrstud,rstudent

（22missingvaluesgenerated）

列出国家名称、残差和student残差：

.listCountryyresidyrstud

|Countryyresidyrstud|

|------------------------------------------------------|

1.|Afghanistan1.9131583.466067|

2.|Albania-.2531904-.4453237|

3.|Algeria.3510075.6173435|

25.|Bosnia-Herzegovina-1.731333-3.129942|

|------------------------------------------------------|

26.|Botswana1.0238611.815129|

27.|Brazil.8430041.490851|

28.|BruneiDarussalam-.045418-.0801697|

|------------------------------------------------------|

91.|Iceland-.407895-.7224937|

92.|India.1288125.2269194|

93.|Indonesia.235099.413385|

94.|Iran.2345939.4123693|

95.|Iraq2.1173963.875849|

c）测量杠杆作用（预测值（hatvalue））。

Y的预测值可以被写成观测到的Y的加权和。

权重（hi）随着观察值变化，用来测量那个观测值的杠杆作用。

在双变量回归模型中，权重的值仅仅取决于Xi和它的均值

的距离。

接着前面的例子：

预测权重的值：

.predicthatvalue,hat

（19missingvaluesgenerated）

列出国家名称、lPcGDP95和权重的值

.listCountrylPcGDP95hatvalue

+----------------------------------------------------+

|CountrylPcGDP95hatvalue|

|----------------------------------------------------|

1.|Afghanistan7.954372.0055086|

2.|Albania6.760415.0062553|

3.|Algeria7.333676.0052221|

|----------------------------------------------------|

171.|SaoTomeandPrincipe3.89182.0301461|

187.|Sweden10.17554.0185024|

188.|Switzerland10.65528.0237658|

189.|Syria8.181161.0059777|

190.|Tajikistan4.804021.0191651|

|----------------------------------------------------|

有X的极端值的观测值有更大的杠杆作用。

通常两倍于平均权重值的有很大的嫌疑是野点（平均权重值：

，其中k是自变量的个数，N是观测值的个数）。

d）DFBETAS

DFBETAS定义为：

这一指标用来测量由于删除某一观测值而导致的系数

的变化，除以标准误是为了标准化这一指标。

DFBETAS的绝对值越大，这个观测值对参数估计的影响就越大。

接着前面的例子：

先运行一个回归：

.reglIMRlPcGDP95IllitF

Source|SSdfMSNumberofobs=125

-------------+------------------------------F（2,122）=176.35

Model|69.7085454234.8542727Prob>F=0.0000

Residual|24.1124319122.197642885R-squared=0.7430

-------------+------------------------------AdjR-squared=0.7388

Total|93.8209774124.756620785RootMSE=.44457

------------------------------------------------------------------------------

lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]

-------------+----------------------------------------------------------------

lPcGDP95|-.2940304.032851-8.950.000-.3590623-.2289985

IllitF|.0162103.00169259.580.000.0128598.0195608

_cons|5.234517.266880619.610.0004.70625.762834

------------------------------------------------------------------------------

预测DFBETAS：

.predictdfbeta,dfbeta（IllitF）

（91missingvaluesgenerated）

列出国家名称和DFBETAS：

.listCountrydfbeta

+------------------------------------------+

|Countrydfbeta|

|------------------------------------------|

1.|Afghanistan.4373177|

3.|Algeria-.0226851|

95.|Iraq.4998002|

|------------------------------------------|

103.|Kazakhstan-.0908174|

104.|Kenya-.0201081|

e）Cook距离（Cook’sdistance）：

另外一种将杠杆作用和偏离性结合起来的测量方法。

如果是杠杆作用大的野点，这个指标的值就很大，如果是杠杆作用小的野点，这个指标的值就很小。

接着前面的例子：

预测Cook距离：

predictcooksd,cooksd

（91missingvaluesgenerated）

列出国家名称和DFBETAS以及Cook距离：

.listCountrydfbetacooksd

+-----------------------------------------------------+

|Countrydfbetacooksd|

|-----------------------------------------------------|

1.|Afghanistan.4373177.0752624|

2.|Albania..|

3.|Algeria-.0226851.0003832|

4.|AmericanSamoa..|

5.|Andorra..|

|-----------------------------------------------------|

95.|Iraq.4998002.1541431|

我们可以用下面的标准判断Cook距离：

所以在这个例子中，如果距离大于0.021，那么它就可以被认为是重要影响点。

当我们发现了奇异点／重要影响点之后，怎么办呢？

a）如果发现了奇异点，首先要去参看原始数据，看是不是有录入错误，如果真的有录入错误，改正它们；

b）如果奇异点并没有对结果有很大的影响，就让它们留在模型中；

c）如果奇异点确实对结果有很大的影响，那么或者把它们从样本中删除，或者使用Robust回归来削弱它们的影响。

接着前面的例子：

先运行回归：

.reglIMRlPcGDP95

Source|SSdfMSNumberofobs=194

-------------+------------------------------F（1,192）=404.52

Model|131.0352331131.035233Prob>F=0.0000

Residual|62.1945021192.323929698R-squared=0.6781

-------------+------------------------------AdjR-squared=0.6765

Total|193.2297351931.00119034RootMSE=.56915

------------------------------------------------------------------------------

lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]

-------------+----------------------------------------------------------------

lPcGDP95|-.4984531.0247831-20.110.000-.5473352-.449571

_cons|7.088676.190851937.140.0006.712247.465111

------------------------------------------------------------------------------

得到这个模型的预测值：

.predictyhat1

（optionxbassumed;fittedvalues）

运行Robust回归：

.rreglIMRlPcGDP95

Huberiteration1:

maximumdifferenceinweights=.64836923

Huberiteration2:

maximumdifferenceinweights=.11915001

Huberiteration3:

maximumdifferenceinweights=.02183241

Biweightiteration4:

maximumdifferenceinweights=.28944065

Biweightiteration5:

maximumdifferenceinweights=.02664897

Biweightiteration6:

maximumdifferenceinweights=.00515436

RobustregressionestimatesNumberofobs=194

F（1,192）=512.99

Prob>F=0.0000

------------------------------------------------------------------------------

lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]

-------------+----------------------------------------------------------------

lPcGDP95|-.5325753.0235141-22.650.000-.5789544-.4861962

_cons|7.329247.181079540.480.0006.9720867.686407

------------------------------------------------------------------------------

得到这个模型的预测值：

.predictyhat2

（optionxbassumed;fittedvalues）

（19missingvaluesgenerated）

分别给这两个预测值命名：

-labelvaryhat2"Fittedvalues:

robust"

-labelvaryhat1"Fittedvalues:

nonadjusted"

画出有两条拟合线的散点图：

.graphyhat1yhat2lIMRlPcGDP95,s（.o）c（ll）border

未调整的拟合线和Robust拟合线

三多重共线性

多重共线性指的是自变量之间高度相关的情况。

当其中一个自变量可以由其他自变量来预测，在模型中就没有必要放如该变量了。

事实上，STATA会自动将其删掉。

当自变量与其他自变量高度相关时，把它们全部放入模型会wreakhavocwithregressionestimates.

经济学:

timeseriesdata;

社会学人口学:

age,period,andcohorteffects

●为什么?

因为共线性会inflatethestandarderrors.

r2j为第j个自变量其它自变量所解释的部分.Sy为应变量的标准误差,and

为第第j个自变量的标准差。

当

接近1时,thesamplingstandarderrorofthe系数bj的标准误会变的非常大。

共线性在多大程度上会成为一个问题，取决于1/（1-

）的值（varianceinflationfactor）.

事实上,当rsquare在.6-.7之间时，问题不大。

一旦超过.7,问题会恶化。

如何因对?

如果共线性问题是由于两个以上的变量测量相同的东西，那么放弃一个，或把它们结合起来是一种妥当的做法。

如果变量不是测量理论上相同的概念，那么需要重新考虑我们在模型中所需要研究的实质问题。

●例子

.xi:

reglIMRlPcGDP95

Source|SSdfMSNumberofobs=194

-------------+------------------------------F（1,192）=404.52

Model|131.0352331131.035233Prob>F=0.0000

Residual|62.1945021192.323929698R-squared=0.6781

-------------+------------------------------AdjR-squared=0.6765

Total|193.2297351931.00119034RootMSE=.56915

------------------------------------------------------------------------------

lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]

-------------+----------------------------------------------------------------

lPcGDP95|-.4984531.0247831-20.110.000-.5473352-.449571

_cons|7.088676.190851937.140.0006.712247.465111

.xi:

reglIMRlPcGDP95lPPPGNP

Source|SSdfMSNumberofobs=120

-------------+------------------------------F（2,117）=307.55

Model|109.361762254.6808808Prob>F=0.0000

Residual|20.8019182117.177794173R-squared=0.8402

-------------+------------------------------AdjR-squared=0.8375

Total|130.163681191.09381243RootMSE=.42166

------------------------

展开阅读全文

类别数据分析 第一讲.docx

类别数据分析第一讲.docx