结构方程模型案例.docx
《结构方程模型案例.docx》由会员分享,可在线阅读,更多相关《结构方程模型案例.docx(21页珍藏版)》请在冰豆网上搜索。
结构方程模型案例
结构方程模型〔StructuralEquationModeling,SEM)
20世纪——主流统计方法技术:
因素分析回归分析
20世纪70年代:
结构方程模型时代正式降临
结构方程模型是一门基于统计分析技术的研究方法学,它主要用于解决社会科学研究中的多变量问题,用来处理复杂的多变量研究数据的探究与分析。
在社会科学与经济、市场、管理等研究领域,有时需处理多个原因、多个结果的关系,或者会碰到不可直接观测的变量〔即潜变量〕,这些都是传统的统计方法不能很好解决的问题。
SEM能够对抽象的概念进展估计与检定,而且能够同时进展潜在变量的估计与复杂自变量/因变量预测模型的参数估计。
结构方程模型是一种非常通用的、主要的线形统计建模技术,广泛应用于心理学、经济学、社会学、行为科学等领域的研究。
实际上,它是计量经济学、计量社会学与计量心理学等领域的统计分析方法的综合。
多元回归、因子分析和通径分析等方法都只是结构方程模型中的一种特例。
结构方程模型是利用联立方程组求解,它没有很严格的假定限制条件,同时允许自变量和因变量存在测量误差。
在许多科学领域的研究中,有些变量并不能直接测量。
实际上,这些变量根本上是人们为了理解和研究某类目的而建立的假设概念,对于它们并不存在直接测量的操作方法。
人们可以找到一些可观察的变量作为这些潜在变量的“标识〞,然而这些潜在变量的观察标识总是包含了大量的测量误差。
在统计分析中,即使是对那些可以测量的变量,也总是不断受到测量误差问题的侵扰。
自变量测量误差的发生会导致常规回归模型参数估计产生偏差。
虽然传统的因子分析允许对潜在变量设立多元标识,也可处理测量误差,但是,它不能分析因子之间的关系。
只有结构方程模型即能够使研究人员在分析中处理测量误差,又可分析潜在变量之间的结构关系。
简单而言,与传统的回归分析不同,结构方程分析能同时处理多个因变量,并可比拟与评价不同的理论模型。
与传统的探索性因子分析不同,在结构方程模型中,我们可以提出一个特定的因子结构,并检验它是否吻合数据。
通过结构方程多组分析,我们可以了解不同组别各变量的关系是否保持不变,各因子的均值是否有显著差异。
〞
目前,已经有多种软件可以处理SEM,包括:
LISREL,AMOS,EQS,Mplus.
结构方程模型包括测量方程〔LV和MV之间关系的方程,外部关系〕和结构方程〔LV之间关系的方程,部关系〕,以ACSI模型为例,具体形式如下:
测量方程y=Λyη+εy ,x=Λxξ+εx=(1〕
结构方程 η=Bη+Гξ+ζ或〔I-Β〕η=Гξ+ζ〔2〕
其中,η和ξ分别是生LV和外生LV,y和x分别是和的MV,Λx和Λy是载荷矩阵,Β和Г是路径系数矩阵,ε和ζ是残差。
三种分析方法比照
线性相关分析:
线性相关分析指出两个随机变量之间的统计联系。
两个变量地位平等,没有因变量和自变量之分。
因此相关系数不能反映单指标与总体之间的因果关系。
线性回归分析:
线性回归是比线性相关更复杂的方法,它在模型中定义了因变量和自变量。
但它只能提供变量间的直接效应而不能显示可能存在的间接效应。
而且会因为共线性的原因,导致出现单项指标与总体出现负相关等无法解释的数据分析结果。
结构方程模型分析:
结构方程模型是一种建立、估计和检验因果关系模型的方法。
模型中既包含有可观测的显在变量,也可能包含无法直接观测的潜在变量。
结构方程模型可以替代多重回归、通径分析、因子分析、协方差分析等方法,清晰分析单项指标对总体的作用和单项指标间的相互关系。
结构方程模型假设条件
⑴合理的样本量〔JamesStevens的AppliedMultivariateStatisticsfortheSocialSciences一书中说平均一个自变量大约需要15个case;BentlerandChou(1987)说平均一个估计参数需要5个case就差不多了,但前提是数据质量非常好;这两种说法根本上是等价的;而Loehlin(1992)在进展蒙特卡罗模拟之后发现对于包含2~4个因子的模型,至少需要100个case,当然200更好;小样本量容易导致模型计算时收敛的失败进而影响到参数估计;特别要注意的是当数据质量不好比如不服从正态分布或者受到污染时,更需要大的样本量〕
⑵连续的正态生变量〔注意一种外表不连续的特例:
underlyingcontinuous;对于生变量的分布,理想情况是联合多元正态分布即JMVN〕
⑶模型识别〔识别方程〕〔比拟有多少可用的输入和有多少需估计的参数;模型不可识别会带来参数估计的失败〕
⑷完整的数据或者对不完整数据的适当处理〔对于缺失值的处理,一般的统计软件给出的删除方式选项是pairwise和listwise,然而这又是一对普遍矛盾:
pairwise式的删除虽然估计到尽量减少数据的损失,但会导致协方差阵或者相关系数阵的阶数n参差不齐从而为模型拟合带来巨大困难,甚至导致无法得出参数估计;listwise不会有pairwise的问题,因为但凡遇到case中有缺失值那么该case直接被全部删除,但是又带来了数据信息量利用不足的问题——全杀了吧,难免有冤枉的;不杀吧,又难免影响整体局势〕
⑸模型的说明和因果关系的理论根底〔实际上就是假设检验的逻辑——你只能说你的模型不能拒绝,而不能下定论说你的模型可以被承受〕
结构方程模型的技术特性:
1.SEM具有理论先验性
2.SEM同时处理测量与分析问题
3.SEM以协方差的运用为核心,亦可处理平均数估计
4.SEM适用于大样本的分析——一般而言,大于200以上的样本,才可称得上是一个中型样本。
5.SEM包含了许多不同的统计技术。
6.SEM重视多重统计指标的运用
结构方程模型的实施步骤
⑴模型设定。
研究者根据先前的理论以与已有的知识,通过推论和假设形成一个关于一组变量之间相互关系〔常常是因果关系〕的模型。
这个模型也可以用路径明确制定变量之间的因果联系。
⑵模型识别。
模型识别时设定SEM模型时的一个根本考虑。
只有建设的模型具有识别性,才能得到系统各个自由参数的唯一估计值。
其中的根本规如此是,模型的自由参数不能够多于观察数据的方差和协方差总数。
⑶模型估计。
SEM模型的根本假设是观察变量的反差、协方差矩阵是一套参数的函数。
把固定参数之和自由参数的估计带入结构方程,推导方差协方差矩阵Σ,使每一个元素尽可能接近于样本中观察变量的方差协方差矩阵S中的相应元素。
也就是,使Σ与S之间的差异最小化。
在参数估计的数学运算方法中,最常用的是最大似然法〔ML〕和广义最小二乘法〔GLS〕。
⑷模型评价。
在已有的证据与理论围,考察提出的模型拟合样本数据的程度。
模型的总体拟合程度的测量指标主要有χ²检验、拟合优度指数〔GFI〕、校正的拟合优度指数〔AGFI〕、均方根残差〔RMR〕等。
关于模型每个参数估计值的评价可以用“t〞值。
⑸模型修正。
模型修正是为了改良初始模型的适合程度。
当尝试性初始模型出现不能拟合观察数据的情况〔该模型被数据拒绝〕时,就需要将模型进展修正,再用同一组观察数据来进展检验。
探索性分析
定义:
探索性因子分析法〔ExploratoryFactorAnalysis,EFA〕是一项用来找出多元观测变量的本质结构、并进展处理降维的技术。
因而,EFA能够将将具有错综复杂关系的变量综合为少数几个核心因子。
探索性因子分析〔EFA〕致力于找出事物在的本质结构。
探索性分析的适用情况:
在缺乏坚实的理论根底支撑,有关观测变量部结构,一般用探索性因子分析。
先用探索性因子分析产生一个关于部结构的理论,再在此根底上用验证性因子分析。
但这必须用分开的数据集来做。
探索性分析步骤:
1、区分、收集观测变量。
按照实际情况收集观测变量,并对其进展观测,获得观测值。
针对总体复杂性和统计根本原理的保证,通常采用抽样的方法收集数据来达到研究目的。
2、获得协方差阵〔或Bravais-Pearson的相似系数矩阵〕。
我们所有的分析都是从原始数据的协方差阵〔或相似系数矩阵〕出发的,这样使我们分析得到的数据具有可比性,所以首先要根据资料数据获得变量协方差阵〔或相似系数矩阵〕。
3、确定因子个数。
有时候你有具体的假设,它决定了因子的个数;但更多的时候没有这样的假设,你仅仅希望最后的到的模型能用尽可能少的因子解释尽可能多的方差。
如果你有k个变量,你最多只能提取k个因子。
通过检验数据来确定最优因子个数的方法有很多,例如Kaiser准如此、Scree检验。
方法的选择由,具体操作时视情况而定。
4、提取因子。
因子的提取方法也有多种,主要有主成分方法、不加权最小平方法、极大似然法等,我们可以根据需要选择适宜的因子提取方法。
其中主成分方法一种比拟常用的提取因子的方法,它是用变量的线性组合中,能产生最大样品方差的那些组合〔称主成分〕作为公共因子来进展分析的方法。
5、因子旋转。
因子载荷阵的不唯一性,使得可以对因子进展旋转。
这一特征,使得因子结构可以朝我们可以合理解释的方向趋近。
我们用一个正交阵右乘已经得到的因子载荷阵〔由线性代数可知,一次正交变化对应坐标系的一次旋转〕,使旋转后的因子载荷阵结构简化。
旋转的方法也有多种,如正交旋转、斜交旋转等,最常用的是方差最大化正交旋转。
6、解释因子结构。
最后得到的简化的因子结构是使每个变量仅在一个公共因子上有较大载荷,而在其余公共因子上的载荷如此比拟小,至多是中等大小。
通过这样,我们就能知道所研究的这些变量是由哪些潜在因素〔也就是公共因子〕影响的,其中哪些因素是起主要作用的,而哪些因素的作用较小,甚至可以不用考虑。
7、因子得分。
因子分析的数学模型是将变量表示为公共因子的线性组合,由于公共因子能反映原始变量的相关关系,用公共因子代表原始变量时,有时更利于描述研究对象的特征,因而往往需要反过来将公共因子表示为变量的线性组合,即因子得分。
验证性因子分析
定义:
验证性因子分析是对社会调查数据进展的一种统计分析。
它测试一个因子与想对应的测度项之间的关系是否符合研究者所设计的理论关系。
验证性因子分析(confirmatoryfactoranalysis)的强项在于它允许研究者明确描述一个理论模型中的细节。
因为测量误差的存在,研究者需要使用多个测度项。
当使用多个测度项之后,我们就有测度项的“质量〞问题,即效度检验。
而效度检验就是要看一个测度项是否与其所设计的因子有显著的载荷,并与其不相干的因子没有显著的载荷。
对测度模型的检验就是验证性测度模型。
对测度模型的质量检验是假设检验之前的必要步骤。
而验证性因子分析〔CFA〕是用来检验的特定结构是否按照预期的方式产生作用。
验证性因子分析的步骤:
1、定义因子模型。
包括选择因子个数和定义因子载荷。
因子载荷可以事先定为0或者其它自由变化的常数。
或者在一定的约束条件下变化的数〔比如与另一载荷相等〕。
这是和探索性因子分析在分析方法上的一个重要差异,我们可以用一个直观的比喻,也就是说探索性因子分析是在一白纸上作图,而验证性因子分析是在一有框架的图上完善和修改。
2、收集观测值。
定义了因子模型以后,我们就可以根据研究目的收集观测值了。
这一点与探索性因子分析有一定的相似之处。
3、获得相关系数矩阵。
与探索性因子分析一样,我们的分析都是在原始数据的相关系数矩阵根底上进展的,所以首先就要得到相关系数矩阵。
实际上方差协差阵、相似系数矩阵和相关阵之间是可以相互转化的。
4、根据数据拟合模型。
我们需要选择一个方法来估计自由变化的因子载荷。
在多元正态的条件下,最常用的是极大似然估计,也可采用渐进分布自由估计。
5、评价模型是否恰当。
这一步可以说是验证性因子分析的核心。
当因子模型能够拟合数据时,因子载荷的选择要使模型暗含的相关阵与实际观测阵之间的差异最小。
最好的参数被选择以后,差异量能被用来作为衡量模型与数据一致的程度