SPSS因子分析法例子解释同名4744Word下载.docx
《SPSS因子分析法例子解释同名4744Word下载.docx》由会员分享,可在线阅读,更多相关《SPSS因子分析法例子解释同名4744Word下载.docx(23页珍藏版)》请在冰豆网上搜索。
收集到的诸多变量之间通常都会存在或多或少的相关性。
例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;
学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。
而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。
例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。
类似的问题还有很多。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。
为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。
因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
因子分析的概念起源于20世纪初KarlPearson和CharlesSpearmen等人关于智力测验的统计分析。
目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。
因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。
通常,因子有以下几个特点:
★因子个数远远少于原有变量的个数
原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。
★因子能够反映原有变量的绝大部分信息
因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。
★因子之间的线性关系并不显著
由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。
★因子具有命名解释性
通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。
因子的命名解
因子的方差贡献(特征值)的数学定义为:
,该式表明,因子
的方差贡献是因子载荷矩阵A中第i列元素的平方和。
因子
的方差贡献反映了因子
对原有变量总方差的解释能力。
该值越高,说明相应因子的重要性越高。
因此,因子的方差贡献和方差贡献率是衡量因子重要性的关键指标。
为了便于说明,以三个变量抽取两个共同因素为例,三个变量的线性组合分别为:
转换成因素矩阵如下:
变量
(共同因素一)
(共同因素二)
共同性
(
)
唯一因素
特征值
解释量
所谓共同性,就是每个变量在每个共同因素之负荷量的平方总和(一横列中所有因素负荷量的平方和),也就是个别变量可以被共同因素解释的变异量百分比,这个值是个别变量与共同因素间多元相关的平方。
从共同性的大小可以判断这个原始变量与共同因素之间关系程度。
而各变量的唯一因素大小就是1减掉该变量共同性的值。
(在主成分分析中,有多少个原始变量便有多少个“component”成分,所以共同性会等于1,没有唯一因素)。
至于特征值是每个变量在某一共同因素之因素负荷量的平方总和(一直行所有因素负荷量的平方和)。
在因素分析之共同因素抽取中,特征值大的共同因素会最先被抽取,其次是次大者,最后抽取的共同因素之特征值最小,通常会接近0(在主成分分析中,有几个题项,便有几个成分,因而特征值的总和刚好等于变量的总数)。
将每个共同因素的特征值除以总题数,为此共同因素可以解释的变异量,因素分析的目的,即在因素结构的简单化,希望以最少的共同因素,能对总变异量作最大的解释,因而抽取的因素越少越好,但抽取因素之累积解释的变异量则越大越好。
3、社会科学中因素分析通常应用在三个层面:
(1)显示变量间因素分析的组型(pattern)
(2)侦测变量间之群组(clusters),每个群组所包括的变量彼此相关很高,同构型较大,亦即将关系密切的个别变量合并为一个子群。
(3)减少大量变量数目,使之称为一组涵括变量较少的统计自变量(称为因素),每个因素与原始变量间有某种线性关系存在,而以少数因素层面来代表多数、个别、独立的变量。
因素分析具有简化数据变量的功能,以较少层面来表示原来的数据结构,它根据变量间彼此的相关,找出变量间潜在的关系结构,变量间简单的结构关系称为“成份”(components)或“因素”(factors).
三、因素分析的主要方式
围绕浓缩原有变量提取因子的核心目标,因子分析主要涉及以下五大基本步骤:
1、因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩,即将原有变量中的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。
因此它要求原有变量之间应存在较强的相关关系。
否则,如果原有变量相互独立,相关程度很低,不存在信息重叠,它们不可能有共同因子,那么也就无法将其综合和浓缩,也就无需进行因子分析。
本步骤正是希望通过各种方法分析原有变量是否存在相关关系,是否适合进行因子分析。
SPSS提供了四个统计量可帮助判断观测数据是否适合作因子分析:
(1)计算相关系数矩阵CorrelationMatrix
在进行提取因子等分析步骤之前,应对相关矩阵进行检验,如果相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析;
当原始变量个数较多时,所输出的相关系数矩阵特别大,观察起来不是很方便,所以一般不会采用此方法或即使采用了此方法,也不方便在结果汇报中给出原始分析报表。
(2)计算反映象相关矩阵Anti-imagecorrelationmatrix
反映象矩阵重要包括负的协方差和负的偏相关系数。
偏相关系数是在控制了其他变量对两变量影响的条件下计算出来的净相关系数。
如果原有变量之间确实存在较强的相互重叠以及传递影响,也就是说,如果原有变量中确实能够提取出公共因子,那么在控制了这些影响后的偏相关系数必然很小。
反映象相关矩阵的对角线上的元素为某变量的MSA(MeasureofSampleAdequacy)统计量,其数学定义为:
,其中,
是变量
和其他变量
)间的简单相关系数,
)在控制了剩余变量下的偏相关系数。
由公式可知,某变量
的
统计量的取值在0和1之间。
当它与其他所有变量间的简单相关系数平方和远大于偏相关系数的平方和时,
值接近1。
值越接近1,意味变量
与其他变量间的相关性越强;
当它与其他所有变量间的简单相关系数平方和接近0时,
值接近0。
值越接近0,意味变量
与其他变量间的相关性越弱。
观察反映象相关矩阵,如果反映象相关矩阵中除主对角元素外,其他大多数元素的绝对值均小,对角线上元素的值越接近1,则说明这些变量的相关性较强,适合进行因子分析。
与
(1)中最后所述理由相同,一般少采用此方法。
(3)巴特利特球度检验Bartletttestofsphericity
Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identitymatrix),如果是单位矩阵,则认为因子模型不合适。
Bartlett球体检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。
一般说来,显著水平值越小(<
0.05)表明原始变量之间越可能存在有意义的关系,如果显著性水平很大(如0.10以上)可能表明数据不适宜于因子分析。
(4)KMO(Kaiser-Meyer-OklinMeasureofSmaplingAdequacy)
KMO是Kaiser-Meyer-Olkin的取样适当性量数。
KMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。
通常按以下标准解释该指标值的大小:
KMO值达到0.9以上为非常好,0.8~0.9为好,0.7~0.8为一般,0.6~0.7为差,0.5~0.6为很差。
如果KMO测度的值低于0.5时,表明样本偏小,需要扩大样本。
综上所述,经常采用的方法为巴特利特球度检验Bartletttestofsphericity和KMO(Kaiser-Meyer-OklinMeasureofSmaplingAdequacy)。
2、抽取共同因子,确定因子的数目和求因子解的方法
将原有变量综合成少数几个因子是因子分析的核心内容。
本步骤正是研究如何在样本数据的基础上提取和综合因子。
决定因素抽取的方法,有“主成份分析法”(principalcomponentsanalysis)、主轴法、一般化最小平方法、未加权最小平方法、最大概似法、Alpha因素抽取法与映象因素抽取法等。
使用者最常使用的是主成份分析法与主轴法,其中,又以主成份分析法使用最为普遍,在SPSS使用手册中,也建议研究者多采用主成份分析法来估计因素负荷量(SPSSInc,1998)。
所谓主成份分析法,就是以较少的成份解释原始变量方差的较大部分。
进行主成份分析时,先要将每个变量的数值转换成标准值。
主成份分析就是用多个变量组成一个多维空间,然后在空间内投射直线以解释最大的方差,所得的直线就是共同因子,该直线最能代表各个变量的性质,而在此直线上的数值所构成的一个变量就是第一个共同因子,或称第一因子(
)。
但是在空间内还有剩余的方差,所以需要投射第二条直线来解释方差。
这时,还要依据第二条准则,即投射的第二条直线与第一条直线成直交关系(即不相关),意为代表不同的方面。
第二条直线上的数值所构成的一个变量,称为第二因子(
依据该原理可以求出第三、第四或更多的因子。
原则上,因子的数目与原始变量的数目相同,但抽取了主要的因子之后,如果剩余的方差很小,就可以放弃其余的因子,以达到简化数据的目的。
因子数目的确定没有精确的定量方法,但常用的方法是借助两个准则来确定因子的个数。
一是特征值(eigenvalue)准则,二是碎石图检验(screetest)准则。
特征值准则就是选取特征值大于或等于1的主成份作为初始因子,而放弃特征值小于1的主成份。
因为每个变量的方差为1,该准则认为每个保留下来的因子至少应该能解释一个变量的方差,否则达不到精简数据的目的。
碎石检验准则是根据因子被提取的顺序绘出特征值随因子个数变化的散点图,根据图的形状来判断因子的个数。
散点曲线的特点是由高到低,先陡后平,最后几乎成一条直线。
曲线开始变平的前一个点被认为是提取的最大因子数。
后面的散点类似于山脚下的碎石,可舍弃而不会丢失很多信息。
3、使因子更具有命名可解释性
通常最初因素抽取后,对因素无法作有效的解释。
这时往往需要进行因子旋转(rotation),通过坐标变换使因子解的意义更容易解释。
转轴的目的在于改变题项在各因素负荷量的大小,转轴时根据题项与因素结构