类别数据分析 第一讲.docx

上传人:b****5 文档编号:5846213 上传时间:2023-01-01 格式:DOCX 页数:43 大小:388.58KB
下载 相关 举报
类别数据分析 第一讲.docx_第1页
第1页 / 共43页
类别数据分析 第一讲.docx_第2页
第2页 / 共43页
类别数据分析 第一讲.docx_第3页
第3页 / 共43页
类别数据分析 第一讲.docx_第4页
第4页 / 共43页
类别数据分析 第一讲.docx_第5页
第5页 / 共43页
点击查看更多>>
下载资源
资源描述

类别数据分析 第一讲.docx

《类别数据分析 第一讲.docx》由会员分享,可在线阅读,更多相关《类别数据分析 第一讲.docx(43页珍藏版)》请在冰豆网上搜索。

类别数据分析 第一讲.docx

类别数据分析第一讲

CATEGORICALDATAANALYSIS

类别数据分析

 

香港科技大学社会科学部

吴晓刚

2012年6月

应用社会科学方法培训暨研讨班

上海大学

 

一、缺失变量偏误(OmittedVariableBias)

一元对多元回归估计

比较一个一元回归和一个多元回归:

一般地,

除非满足以下条件:

=0(也就是没有

的部分效果),或者

在样本中完全不相关。

太多或太少变量的问题

如果我们把本来不应该属于这个模型中的变量包括进来会怎么样呢?

不会影响我们对参数的估计,最小二乘估计还是无偏的。

如果我们把本来应该属于这个模型中的变量排除在模型之外,又会怎么样呢?

最小二乘估计就通常会是有偏的。

这叫做缺失变量偏误。

缺失变量偏误

假定真正的模型应该是:

但是我们估计的是

那么,

回到真正的模型:

所以,分子就是

既然

取期望值,我们可以得到,

考虑一个

的回归:

那么,

所以,

因此,一般来说,估计的斜率

是有偏的!

只有在两种情况下,这种偏误是零:

1)

=0,也就是

确实不属于这个模型;

2)

在样本中确实不相关。

二、奇异值(Outlier)和重要影响点(InfluentialObservation)

有时,回归的结果可能会受到数据中的奇异值和重要影响点的影响。

奇异点是指,如果用其他观察值的标准看,一个变量的值显得非常特别(特别大,或者特别小),我们最称之为奇异点。

奇异点可以是因变量,也可以是自变量,如果是因变量,就会出现大的残差。

重要影响点是指,如果将这些点从模型中剔除,模型的结果将会发生巨大的变化。

这些重要影响点经常是那些自变量的值是野点的观察值。

一个例子:

阿富汗(Afghanistan)、伊拉克(Iraq)、加蓬(Gabon)、利比里亚(Liberia)和波斯尼亚(Bosnia)是很明显的野点。

苏丹(Sudan)和圣多美(SaoTome)可能是重要影响点(但是,我们必须检查一下)。

奇异点和重要影响点为什么会产生问题呢?

一个回归野点是一个给定X的值,y值很不平常的观察值。

或者说,残差非常大的一个观察值(如果一个观察值在x和y各自的分布都是不平常的,但是它不一定是回归野点)。

回归野点的出现可能会导致估计的系数对数据的描述不精确。

回归野点的效果取决于它在x和y的分布中的位置:

如果它靠近x的均值,它可能没有什么问题,除了可能会影响常数项。

图#:

均值附近的野点对回归线的影响

虽然这一点的残差或差异很大,它的杠杆作用却很小,因为它位于x分布的中间。

估计的

率只受到很小的影响。

这一点其实只有很小的影响。

如何侦测奇异点和重要影响点?

a)看残差。

但有时这种方法可能会造成误导,因为有一些观察值会将回归线拉向它们,因此,如果回归分析中不把它们排除在外的话,它们只有很小的残差。

b)看标准化的残差。

原来的残差除以标准差,用来表明有多少残差的变化可以归于通常的抽样可变性(ordinarysamplingvariability),也叫“学者化的残差”(studentizedresidual)。

学者化的残差值在2到3之间就应该引起注意,而在3以上的通常就被看作是奇异点了。

在前面的例子中:

运行一个回归:

.reglIMRlPcGDP95

Source|SSdfMSNumberofobs=194

-------------+------------------------------F(1,192)=404.52

Model|131.0352331131.035233Prob>F=0.0000

Residual|62.1945021192.323929698R-squared=0.6781

-------------+------------------------------AdjR-squared=0.6765

Total|193.2297351931.00119034RootMSE=.56915

------------------------------------------------------------------------------

lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]

-------------+----------------------------------------------------------------

lPcGDP95|-.4984531.0247831-20.110.000-.5473352-.449571

_cons|7.088676.190851937.140.0006.712247.465111

------------------------------------------------------------------------------

预测残差:

.predictyresid,re

(22missingvaluesgenerated)

预测student残差:

.predictyrstud,rstudent

(22missingvaluesgenerated)

列出国家名称、残差和student残差:

.listCountryyresidyrstud

|Countryyresidyrstud|

|------------------------------------------------------|

1.|Afghanistan1.9131583.466067|

2.|Albania-.2531904-.4453237|

3.|Algeria.3510075.6173435|

25.|Bosnia-Herzegovina-1.731333-3.129942|

|------------------------------------------------------|

26.|Botswana1.0238611.815129|

27.|Brazil.8430041.490851|

28.|BruneiDarussalam-.045418-.0801697|

|------------------------------------------------------|

91.|Iceland-.407895-.7224937|

92.|India.1288125.2269194|

93.|Indonesia.235099.413385|

94.|Iran.2345939.4123693|

95.|Iraq2.1173963.875849|

c)测量杠杆作用(预测值(hatvalue))。

Y的预测值可以被写成观测到的Y的加权和。

权重(hi)随着观察值变化,用来测量那个观测值的杠杆作用。

在双变量回归模型中,权重的值仅仅取决于Xi和它的均值

的距离。

接着前面的例子:

预测权重的值:

.predicthatvalue,hat

(19missingvaluesgenerated)

列出国家名称、lPcGDP95和权重的值

.listCountrylPcGDP95hatvalue

+----------------------------------------------------+

|CountrylPcGDP95hatvalue|

|----------------------------------------------------|

1.|Afghanistan7.954372.0055086|

2.|Albania6.760415.0062553|

3.|Algeria7.333676.0052221|

|----------------------------------------------------|

171.|SaoTomeandPrincipe3.89182.0301461|

187.|Sweden10.17554.0185024|

188.|Switzerland10.65528.0237658|

189.|Syria8.181161.0059777|

190.|Tajikistan4.804021.0191651|

|----------------------------------------------------|

有X的极端值的观测值有更大的杠杆作用。

通常两倍于平均权重值的有很大的嫌疑是野点(平均权重值:

,其中k是自变量的个数,N是观测值的个数)。

d)DFBETAS

DFBETAS定义为:

这一指标用来测量由于删除某一观测值而导致的系数

的变化,除以标准误是为了标准化这一指标。

DFBETAS的绝对值越大,这个观测值对参数估计的影响就越大。

接着前面的例子:

先运行一个回归:

.reglIMRlPcGDP95IllitF

Source|SSdfMSNumberofobs=125

-------------+------------------------------F(2,122)=176.35

Model|69.7085454234.8542727Prob>F=0.0000

Residual|24.1124319122.197642885R-squared=0.7430

-------------+------------------------------AdjR-squared=0.7388

Total|93.8209774124.756620785RootMSE=.44457

------------------------------------------------------------------------------

lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]

-------------+----------------------------------------------------------------

lPcGDP95|-.2940304.032851-8.950.000-.3590623-.2289985

IllitF|.0162103.00169259.580.000.0128598.0195608

_cons|5.234517.266880619.610.0004.70625.762834

------------------------------------------------------------------------------

预测DFBETAS:

.predictdfbeta,dfbeta(IllitF)

(91missingvaluesgenerated)

列出国家名称和DFBETAS:

.listCountrydfbeta

+------------------------------------------+

|Countrydfbeta|

|------------------------------------------|

1.|Afghanistan.4373177|

3.|Algeria-.0226851|

95.|Iraq.4998002|

|------------------------------------------|

103.|Kazakhstan-.0908174|

104.|Kenya-.0201081|

e)Cook距离(Cook’sdistance):

另外一种将杠杆作用和偏离性结合起来的测量方法。

如果是杠杆作用大的野点,这个指标的值就很大,如果是杠杆作用小的野点,这个指标的值就很小。

接着前面的例子:

预测Cook距离:

predictcooksd,cooksd

(91missingvaluesgenerated)

列出国家名称和DFBETAS以及Cook距离:

.listCountrydfbetacooksd

+-----------------------------------------------------+

|Countrydfbetacooksd|

|-----------------------------------------------------|

1.|Afghanistan.4373177.0752624|

2.|Albania..|

3.|Algeria-.0226851.0003832|

4.|AmericanSamoa..|

5.|Andorra..|

|-----------------------------------------------------|

95.|Iraq.4998002.1541431|

我们可以用下面的标准判断Cook距离:

所以在这个例子中,如果距离大于0.021,那么它就可以被认为是重要影响点。

当我们发现了奇异点/重要影响点之后,怎么办呢?

a)如果发现了奇异点,首先要去参看原始数据,看是不是有录入错误,如果真的有录入错误,改正它们;

b)如果奇异点并没有对结果有很大的影响,就让它们留在模型中;

c)如果奇异点确实对结果有很大的影响,那么或者把它们从样本中删除,或者使用Robust回归来削弱它们的影响。

接着前面的例子:

先运行回归:

.reglIMRlPcGDP95

Source|SSdfMSNumberofobs=194

-------------+------------------------------F(1,192)=404.52

Model|131.0352331131.035233Prob>F=0.0000

Residual|62.1945021192.323929698R-squared=0.6781

-------------+------------------------------AdjR-squared=0.6765

Total|193.2297351931.00119034RootMSE=.56915

------------------------------------------------------------------------------

lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]

-------------+----------------------------------------------------------------

lPcGDP95|-.4984531.0247831-20.110.000-.5473352-.449571

_cons|7.088676.190851937.140.0006.712247.465111

------------------------------------------------------------------------------

得到这个模型的预测值:

.predictyhat1

(optionxbassumed;fittedvalues)

运行Robust回归:

.rreglIMRlPcGDP95

Huberiteration1:

maximumdifferenceinweights=.64836923

Huberiteration2:

maximumdifferenceinweights=.11915001

Huberiteration3:

maximumdifferenceinweights=.02183241

Biweightiteration4:

maximumdifferenceinweights=.28944065

Biweightiteration5:

maximumdifferenceinweights=.02664897

Biweightiteration6:

maximumdifferenceinweights=.00515436

RobustregressionestimatesNumberofobs=194

F(1,192)=512.99

Prob>F=0.0000

------------------------------------------------------------------------------

lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]

-------------+----------------------------------------------------------------

lPcGDP95|-.5325753.0235141-22.650.000-.5789544-.4861962

_cons|7.329247.181079540.480.0006.9720867.686407

------------------------------------------------------------------------------

得到这个模型的预测值:

.predictyhat2

(optionxbassumed;fittedvalues)

(19missingvaluesgenerated)

分别给这两个预测值命名:

-labelvaryhat2"Fittedvalues:

robust"

-labelvaryhat1"Fittedvalues:

nonadjusted"

画出有两条拟合线的散点图:

.graphyhat1yhat2lIMRlPcGDP95,s(.o)c(ll)border

 

未调整的拟合线和Robust拟合线

三多重共线性

多重共线性指的是自变量之间高度相关的情况。

当其中一个自变量可以由其他自变量来预测,在模型中就没有必要放如该变量了。

事实上,STATA会自动将其删掉。

当自变量与其他自变量高度相关时,把它们全部放入模型会wreakhavocwithregressionestimates.

经济学:

timeseriesdata;

社会学人口学:

age,period,andcohorteffects

●为什么?

因为共线性会inflatethestandarderrors.

r2j为第j个自变量其它自变量所解释的部分.Sy为应变量的标准误差,and

为第第j个自变量的标准差。

接近1时,thesamplingstandarderrorofthe系数bj的标准误会变的非常大。

共线性在多大程度上会成为一个问题,取决于1/(1-

)的值(varianceinflationfactor).

事实上,当rsquare在.6-.7之间时,问题不大。

一旦超过.7,问题会恶化。

如何因对?

如果共线性问题是由于两个以上的变量测量相同的东西,那么放弃一个,或把它们结合起来是一种妥当的做法。

如果变量不是测量理论上相同的概念,那么需要重新考虑我们在模型中所需要研究的实质问题。

●例子

.xi:

reglIMRlPcGDP95

Source|SSdfMSNumberofobs=194

-------------+------------------------------F(1,192)=404.52

Model|131.0352331131.035233Prob>F=0.0000

Residual|62.1945021192.323929698R-squared=0.6781

-------------+------------------------------AdjR-squared=0.6765

Total|193.2297351931.00119034RootMSE=.56915

------------------------------------------------------------------------------

lIMR|Coef.Std.Err.tP>|t|[95%Conf.Interval]

-------------+----------------------------------------------------------------

lPcGDP95|-.4984531.0247831-20.110.000-.5473352-.449571

_cons|7.088676.190851937.140.0006.712247.465111

 

.xi:

reglIMRlPcGDP95lPPPGNP

Source|SSdfMSNumberofobs=120

-------------+------------------------------F(2,117)=307.55

Model|109.361762254.6808808Prob>F=0.0000

Residual|20.8019182117.177794173R-squared=0.8402

-------------+------------------------------AdjR-squared=0.8375

Total|130.163681191.09381243RootMSE=.42166

------------------------

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1