统计学在社会学中的应用.docx-资源下载

统计学在社会学中的应用.docx

1、统计学在社会学中的应用统计学在社会学中的应用1950-2000：一个简要的回顾Adrian. E. Raftery2001年2月15日概要统计学方法在社会学中的运用已经成功地走过了半个世纪，它对提高社会学这门学科的科学研究水平做出了巨大的贡献。根据研究者所使用的数据类型的不同，我将战后统计学方法在社会学中的应用过程分为三个层叠的时期。第一代统计方法起于1940年代晚期，研究者主要运用交互表(cross-tabulations)的方法，同时对关联测量 (measures of association)和对数线性模型(log-linear models)倾注了许多心血，可以说这是社会学对统计学贡

2、献最大的一个领域。第二代统计方法始现于1960年代，这一时期的研究者主要面对的是个体层次的调查数据，同时他们将注意力集中在具有线性结构关系(LISREL)的因果模型和事件史分析(event history analysis)上。第三代统计方法在1980年代晚期就已经初现端倪，研究者所处理的数据已经不能简单地归入上文所述的任何一个范畴。一方面是因为这些数据都具有与众不同的形式，比如文本和口述，另一方面是因为在与空间的和社会网的数据联系时，依赖性已经成为一个至关重要的方面。尽管有许多新的挑战，但用统计学方法研究这一领域的条件已经成熟，最近，几个主要的研究机构已经开始在统计学和社会科学领域展开新的探

3、索。1 引言为了纪念千禧年的来临，美国统计学会月刊(Journal of the American Statistical Association)刊登了一个由大约50篇短文组成的连载，每篇短文都着力概括统计学中的某一领域在即将过去的一个世纪所取得的进展。这一计划的初衷在于将统计学中一些最优秀的成果做一总结，并且突出未来研究中的具有潜力的领域。我写作了有关统计学在社会学中应用的那篇论文(Raftery,2000)。其他几篇相关的论文或许会对那些对社会学方法论感兴趣的读者有帮助，这些文章涵盖了列联表(contingency table)，对数线性模型(Fienberg,2000)，因果推理在社会

4、科学中的应用(Sobel,2000)，人口学(Xie,2000)，政治学方法论(Beck,2000)，计量心理学(Browne,2000)，经验方法在法律科学中的应用(Eisenberg,2000)等诸多领域。在我这篇论文的初稿问世后，许多同事都对我的文章发表了评论，其中有许多评论正确地指出了我在文章中不慎遗漏的该领域的一些重要发展。然而，由于美国统计学会月刊给我的篇幅有限，我不可能将这些遗漏的部分全部补充进来。幸运的是，社会学方法论(Sociological Methodology)编辑Michael Sobel和Mark Becker请我撰写一篇在此基础上有所扩展的专题论文，或许这篇论文能

5、够为这一不断发展的研究领域提供一个更为合适的概括。社会学起源于十九世纪中期，孔德（他首先引进了“社会学”一词），马克思，韦伯和涂尔干围绕着工业革命后新出现的社会，写下了一系列具有奠基意义的著作。社会学从一开始就使用了定量的研究方法。孔德，这位学科的奠基人，清晰的意识到这门学科应该以统计数据为基础。而涂尔干的自杀论更是成为了广泛运用统计数据的典范。然而，在二战以前，可供研究的数据都显得支离破碎，统计方法也比较简单，仅仅停留在描述性统计的层次上。经过仔细的考证Camic和Wilson(1994)认为，Franklin H. Giddings是美国定量社会学之父。Giddings于1894年在哥伦比

6、亚获得社会学教授职务，1931年逝世，他将社会学界定为研究集体层面社会现象的一门学科。他认为在很大程度上社会学中的统计分析是将诸多的个体分成不同的类别，同时发现每一类别的平均特征。从现代统计学角度来看，缺乏对变化的考察是他著作的一个最为显著的特征。从那以后，研究用的数据变得越来越复杂，同时统计方法也在不断发展，以适应数据分析的需要。这时期的统计学方法的发展，有许多是要归因于社会学家而非统计学家的努力。Clogg(1992)以及他文章的评论者们有力的论证并且记述了这一点。这种情况部分反映了一个事实，即致力于研究社会学问题的统计学家的数量相对较少。更多的统计学家倾向于关注药物学，工程技术以及生物科

7、学方面的问题。这或许反映了在二十世纪后半期不同学科间研究资金分布的不平衡状况。然而，最近有迹象表明这一情况正在发生变化，我将在本文的结尾论述这个问题。在过去的五十年中，社会学总的趋势是向更为严格、清晰的假设；更大更详细的数据集合发展；为了拟合数据，统计模型变得越来越复杂；主要社会学期刊所发表文献的统计分析水平也在不断提高。统计方法在社会学领域成功地走过了半个世纪，使得该学科研究的科学水平有了极大的提高。社会学中广泛的使用了各种各样的统计学方法和统计模型。在这里，我将集中考察那些由社会学家发展的，直接由社会学问题所引致的，或者首先在社会学期刊上发表的那些统计学成就。许多其它的方法，比如逻辑斯蒂回

8、归等适用于有限数量的因变量的方法，虽然也广泛的应用于社会学研究，但是他们是首先在其他的学科中为解决其学科自身的问题而发展出来的。有鉴于此，尽管这些方法很重要，但我们在这里也仅对他们做一简要介绍。对于从计量经济学而不是从统计学中引入到社会学研究中的统计方法，本文省略了与其相关的讨论。这或许对从另一个角度来讨论这一问题有所帮助。计量经济学对社会学方法论产生了非常重要的影响，甚至有些人说这种影响比来自统计学本身的影响更为强大，但是在这里除了个别情况，我将不对这种重要的影响发表评论。为了避免引起争论，我将根据社会学中不同的统计方法所针对的数据类型，而不是根据这些方法本身对他们加以分类。我将区分出战后统

9、计学在社会学中应用的三个不同的阶段。每一阶段的划分都是根据他们通常所适用的数据类型做出的：交互表，单位水平的统计数据，以及种种新的数据形式。就像现实中的代际一样，这三代统计方法前后层叠，而且它们之间的界限也并非十分明晰。虽然这些方法代表着不同的成熟水平，甚至关于他们的起点也并没有一个统一的界定，但是今天这些方法都依然保持着活力。在二战后开始的这一时期，社会学家们所使用的许多数据都是在调查和普查的基础上以交互表的形式呈现的。我在文中所要讨论的第一代统计方法就是以这种方式处理数据的。通常说来，这类交互表都只包含很少的变量，例如性别，年龄组以及职业分类。社会流动表可以称得上是这种方法中的经典之作。这

10、一领域或许是社会学家对统计学贡献最大的地方。实际上，我们可以说是社会学家们主导了这一分支领域，他们发展出来的这些方法已经超出了社会学领域渗透到其他的学科的研究工作当中。Schuessler(1980)所作的调查在很大程度上反映了第一代方法所取得的成就。1960年代早期，社会学家已经不必再依赖于计数的交互表了，来自含有多个变量调查的个体层次的数据越来越容易获得。计算能力也已经发展到能够轻而易举地处理这些数据的水平。第二代的统计方法正是针对处理这类数据而发展出来的。Blau和Duncan的有广泛影响力的著作美国的职业结构(The American Occupational Structure)，为

11、这一代的统计方法披上了金色的外衣，而1969年社会学方法论(Sociological Methodology)以及1972年社会学方法与研究(Sociological Methods and Research)等发表窗口的建立，更为这一方法增光添色。Edgar Borgatta一手创立了这两份刊物，当他创立第二份刊物时，社会学方法论已经远不能满足日益增多的投稿和发表的需要了。这些发展标志了社会学定量研究方法的新时代的到来。1980年代晚期，社会学家们勾画了一个雄心勃勃的计划，就是对那些难以符合标准交互表和数据矩阵要求的数据类型进行统计分析（尽管在有些情况下，这些数据也可以被强行归入这些类别中）

12、。这些数据包含了文本(text)或叙述(narrative)，以及依赖性很强的数据，比如社会网的数据和具有空间参照特性的数据。这其中还包含了一些含有多类型变量的数据集，比如卫星图片，人种学的纪录和其他一些定量测量数据。第三代的统计方法正是为了处理诸如此类的数据而发展出来的。或许是每一个新事物的优点，迄今为止，这一代方法保持着它们的活力，包含了大量的令人激动的想法和进展，但是他们还未形成前两代统计方法所具有的成熟、完备的形式。我对社会学中所应用的统计学方法的分类是根据不同方法所处理的数据类型做出的，而不是以方法本身的类型为标准，但这并不意味着目前研究生课程的编排有什么问题。或许为了训练的方便和有

13、效，社会学的主要方法倾向于按照不同的类别组织在一起，比如回归模型(regression model)，有限因变量模型(limited dependent variable model)，对数线性模型(log-linear model)，结构方程模型(structural equation model)，事件史分析等等。然而，我发现要分辨统计学方法以往的发展趋势以及构想未来的发展，从最初引致这些方法产生的数据的类型入手或许是一条捷径。过去的五十年间，我们已经走过了一条漫长的道路。今天，许多社会学研究都是以巨大的高质量的调查样本为基础进行再分析的。他们较多的利用在公共基金资助下收集的或者是对研究者

14、公开的数据库，这些数据库通常都有着5000到20000，甚至更大的样本规模。这为复证结果提供了一条简便的道路，同时也有助于社会学建立起可以与自然科学或医药科学相媲美甚至高于这些学科的科学标准。或许受以上因素的影响，社会统计学在最近成为了一个迅速扩展的研究领域，许多重要的研究机构也都在最近几年开始了他们对这一领域的探索。2 第一代统计方法:交互表(Cross-Tabulations)2.1 分类数据的分析(Categorical Data Analysis)定量社会学家们分析的许多数据最初都是以交互分类表的形式出现的，所以毫不奇怪这一领域成为了社会学家对统计学贡献最大的地方。交互表分析中的经典的

15、例子是社会流动表，这类表格通常具有两个维度，即应答者的职业类别与应答者父亲的职业类别，而职业类别的数量通常在5个到17个之间。最初的研究焦点是关联程度的测量，在社会流动领域他们称之为流动指数(Glass, 1954; Rogoff, 1953)，然而这些指数不能对结构流动与交互（或称为循环）流动进行区分。为了解决流动表分析中的这一关键问题，研究者需要为这些交互表建立一个清晰的概率模型。为此，Birch针对观察值xij提出了一个对数线性模型, (1)其中，i代表行，j代表列，u1(i)和u2(j)分别代表行和列的主效应，u12(ij)是交互项，用来测量对独立性的偏离。这一模型为所有需要对社会流动

16、表和相似表格进行严格的分析的研究提供了一个总体的框架。然而，模型(1)的原型在分析社会流动和其他相似的交互表时遇到的困难是参数的数量过大，以至于不能进行推论和解释。比如美国的数据库通常使用的分类有17个，因此交互项中就包含了16=256个参数。要改进这一模型，就要使模型的交互项尽量简约（即含有较少的参数），同时又使模型能够拟合数据。在这方面，Duncan(1979)和Goodman(1979)提出了一个成功的解决方案，即关联模型(association model)：, (2)其中，若i=j，则(i,j)=1；若ij，则(i,j)=0。在模型(2)中，i(m)是第i行在第k个维度上的取值，j(

17、m)是在第j列的对应值。这些值既可以事先具体化，也可以从数据中估计出来。最后一项允许在对角线方向上有不同的关联强度。（模型(2)是未经确认的书写形式，可能还有各种各样的确认条件）这个模型常被称为RC(M)模型。目前的应用中大多数情况下都是M为1，而在社会学实际应用中最早在模型中取M1的是Clogg, Eliason和Wahl(1990)进行的对劳动市场经历和劳动力成果的研究。Goodman(1979)最初发展这一模型时，是将其作为用本地优比(Local Odds Ratio)描述关联程度的一种方法。Goodman(1985)表明这一模型与规范的相关和对应分析有紧密的联系，并且为这些方法提供了一

18、个颇具发展潜力的框架。在对类别进行排序时，在i=i=I的条件下，这个标准的关联模型是一个有用的分析起点(Haberman,1979)。在这个模型中，所有的22子表的优比都相等，因此当=k时，这可以被看作二元正态分布的一个非连续的近似。表1：观察频次来源于美国社会流动最大规模的研究，期望频次来源于自由度为4的Goodman关联模型。样本规模19，912。来源：Hout(1983)。子代职业高级非体力劳动低级非体力劳动高级体力劳动低级体力劳动农业劳动父代职业Obs.Exp.Obs.Exp.Obs.Exp.Obs.Exp.Obs.Exp.高级非体力劳动14141414521534302278643

19、6524042低级非体力劳动7247165245242542727036984843高级体力劳动79879064866285685616761666108112低级体力劳动75679491483577181333253325237236农业劳动4093863574094414051611161718321832表1展示了一个简化后的美国社会流动研究的真实案例，拟合数据都是通过关联模型得到的，该模型解释了表中99.6%关联性，因此它的成功是显而易见的。Hout(1984)扩展了这一模型的适用范围，在职业类别的性质等问题上，他使用模型(2)把取值(score)和对角项(diagonal terms

20、)转换成取值的和或者协变量的积。这是对Birch(1965)的线性交互模型(linear-by-linear interaction model)的一个扩展。这种方法也将研究者的以简洁和可解读的方式，模拟相对更高维度和类别更多的交互表的愿望变成可能。并且它还成就了许多重要的发现，其中包括Hout(1988)得到的美国社会的流动性近年来在不断增加的发现。这一个细致的发现是在具有复杂性质的数据基础上做出的，如果没有使用关联模型的方法这一成果将是很难获得的。Ganzeboom、Luijkx和Treiman的研究进一步证实和推进了这一实质性的成果，这一研究依据的是从同一时点的不同国家收集的几百个社会流

21、动表，研究者发现，在二十世纪后半期工业化国家的社会流动性在以每年1%的速度增加。Biblarz和Raftery(1993)以及Biblarz，Raftery和Bucur(1997)将这一模型应用到更高维度的流动表中，用以研究不完整家庭的社会流动性。他们所用的流动表包含有父亲职业、子代职业、性别、种族、年代等5个维度，共计约7000个单元。在这种情况下，标准的对数线性模型不能获得任何信息，但是使用关联模型并且对以前模型进行扩展后，却可以得到可解读的结果，参数估计和结论。他们的研究表明，不完整家庭(nonintact family)的职业相似性比完整家庭的职业相似性弱，在不完整家庭中，由工作的单亲

22、母亲抚养的子女在职业继承方面平均说来要优于其他类型的不完整家庭中的子女。从1960年代到1990年代，尽管家庭结构，职业分布，两性和种族之间的关系，及其职业和劳动力的地位等方面都发生了许多变化，但是这种流动模式在本质上保持了稳定。其他一些应用对数线性模型和与它相联系的模型的重要案例包括了对性别区隔的分析(Charles and Crusky,1995)和对同等地位群体内部的婚配问题的研究(Kalmijn,1991)。从社会学开始，关联模型的使用已经逐渐扩展到其他的学科中，例如流行病学的研究(Becker,1989)。对二维以上的交互表进行分析的一个基本原因是要评估二维的关联性如何依照第三个（或

23、其他几个）维度变化的。Yamaguchi(1987)和Xie(1992)提出了高维度关联模型的具体形式，而Goodman和Hout(1998)在此基础上进行了综合和扩展。后一种方法的一个十分吸引人的特点是它能以图形的形式展现结果，这为解读分析中所出现的更为复杂的数据和模型参数提供了方便。这些模型适用于对不连续的独立变量进行分析。而在分析由连续的独立变量组成的交互分类的依赖性方面，Sobel(1981,1985)的对角流动模型(diagonal mobility models)或许是最为成功的。这一方法被广泛的应用于各个领域，比如对婚姻生育(marital fertility) (Sorense

24、n, 1989)，文化消费(De Graaf,1991)，和投票行为(Weakleim,1992)的研究。模型(1)和模型(2)背后所潜藏的基本原理，可以通过另一个直观的方式表达，这一方式是根据边缘分布(marginal distribution)而不是根据模型(1)中的主效应进行的。由此产生的边缘模型(marginal model)为研究边缘分布和优比开辟了道路，这为非对数线性的联合分布提供了一个新的模型(Lang and Agresti, 1994; Becker,1994; Becker and Yang,1998)。这类模型在社会学中的首次应用便是为了模拟社会流动(Sobel, Bec

25、ker and Minick,1998)。2.2 潜在类别模型(Latent Class Model)解决类似的纷繁复杂问题的另一个途径是使用潜在类别模型(Lazarsfeld,1950;Lazarsfeld and Henry,1968;Goodman,1974a,b)。它的基础形式可以被看作是一个有限个分布的集合体，该集合体中每一个分布所包含的不同的变量都是独立的。这种模型被用来分析可观察的多变项离散数据的关联性，这种方法的最初的动机与用因子分析来处理多变项连续数据的想法相类似。Hagenaars(1988,1990)扩展了潜在类别模型的使用范围，使得在那个多分布集合体中的每一个组成部分都

26、不独立。这一模型的应用实例已经有相当的数量。Clogg(1995)对这一研究领域进行了总结。最近，Roeder，Lynch和Nagin(1999)用这一模型完成了一项有趣的犯罪学方面的研究。这一基础模型已经在其他的情况中被使用和简化。Chickering和Heckerman(1997)在潜藏了一极后将它简化为Bayesian图示模型。这种简化式使得用潜在类别模型研究多变量关系时比较容易做出估计，同时它可以方便地在某些个体含有缺失数据的情况下对模型进行估计，此外它还能够对缺失的数据做出推断。Celeux和Govaert(1991)使用了同一个基础模型来聚合多变项离散观察值，从而为分析大量变量做好

27、了准备。2.3 假设检验和模型选择(Hypothesis Testing and Model Selection)社会学家通常所使用的样本所包含的个案规模都在数千个左右，因此他们较早碰到了一个问题，即标准的p值在样本量相当大的情况下也可能意味着对无差异假设的拒绝，甚至当原模型在理论上看有意义，而对数据考察却不能揭示任何有意义的差异时也是如此。这一问题与下面两个问题结合在一起，首先在通常情况下存在很多模型而不仅是在进行显著性检验时我们所正视的那两个模型。其次我们是用逐步比较法还是用多项比较的方法对模型进行筛选(Goodman,1971)。到1980年代早期，为了解决这一问题，一些社会学家在当基于

28、P值的检验得到的结果看起来有悖于直觉时，索性忽略这一结果。另外一些研究者则更多地使用模型筛选的方法，而不再对模型和数据之间的不一致进行理论性的思考或非正规的评价(Fienberg and Mason, 1979; Hout, 1983, 1984; Grusky and Hauser,1984)。后来有人指出，使用模型筛选比用Bayes因素法能更有效的处理这一问题(Ragery, 1986a)。研究者可以通过选择BIC(BIC=Deviance-自由度*log(n)值比较小的对数线性模型，用近似的方法解决这一问题(Schwarz,1978;Ragery,1986b)。对于嵌套的假设，这种做法可

29、以被看作是在确定一个检验的显著性水平，这以显著性水平将会随着样本规模的扩大而减小。从此以后，许多社会学研究在使用对数线性模型时都应用了这一方法。Kass和Wasserman (1995)表明在对模型参数进行估计时使用的Bayes先验分布是个体信息先验分布时，即与一个“典型”观测包含了同样多信息的一个有限分布时，这种近似方法还是十分精确的。而Raftery(1995)则阐明了将这种方法拓展到其他更多的模型中的策略。Weakliem(1999)对BIC的使用做了批评，他认为在实际中BIC所对应的个体信息先验分布过于分散，如果在此基础上使用BIC的话，将会导致BIC在多数情况下对无差异假设有利。然而

30、，Raftery(1999)指出个体信息先验分布的确为调查者已知的先验信息了一个合理的代表，尤其在当调查者事先有一些，但不是很多关于他所估计模型的参数值信息时更是如此。如果调查者有更多的信息的话他将有一个更为紧凑的先验分布，这样他就有了一个在用BIC不能拒绝无差异假设时，拒绝该假设的基础，但这要建立在先验信息而不是数据的基础上，同时在任何一篇报告中这一点都要被明确的指出来。BIC提供了一个保守的评价标准：人们可以对任何效果的实际意义更有信心，证明这些实际效果存在的信息都受到BIC的有利的支持。Weakliem的论述可以被看作是在暗示如果真实的先验信息确实可资利用的话，它就应该被利用，对此我表示

31、赞同。在先验信息反映实际可用信息的基础上使用Bayes因素法时，这样做可以使对数线性模型以及其他的普通线性模型的应用变得简单。3 第二代统计方法:个体层次的调查数据(Unit-Level Survey Data)第二代统计模型是在个体层次的调查数据出现的基础上应运而生的，这些由独立的个体层次的数据构成巨大的数据矩阵。线性回归模型和由它拓展成的通径模型，结构方程模型，广义线性模型和事件史模型是分析此类数据的大多数成功模型的基础。但是，在仅对变量的分布而不是他们的估计值进行研究时，非参数模型则更为有效(Morris,Bernhardt and Handcock ,1994;Bernhardt, M

32、orris and Handcock,1995; Handcock and Morris, 1998,1999)。我们将从回顾职业地位测量的发展开始，因为这一领域的研究为第二代统计方法的成长提供了强大的推动力。3.1 对职业地位的测量(Measuring Occupational Status)职业地位是社会学中的一个重要的概念，这个研究领域的标志性的成就便是发展出一套实用的，对职业地位进行连续测量的方法。这对于社会统计学方法的发展具有十分重要的意义，因为从1960年代开始，一些学者对工作给人们所带来的可资利用资源和社会后果十分感兴趣，他们在研究这一问题时广泛地使用了回归模型和其他相关的模型。这些方法论的取向迅速扩展到该学科的其他研究领域当中。当1940年代对职业地位的全国性调查刚刚开始时，职业地位这一概念被等同于职业声望。然而，这类调查仅能对

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？