SPSS因子分析法知识讲解.docx

资源描述

SPSS因子分析法知识讲解.docx

《SPSS因子分析法知识讲解.docx》由会员分享，可在线阅读，更多相关《SPSS因子分析法知识讲解.docx（49页珍藏版）》请在冰豆网上搜索。

SPSS因子分析法知识讲解.docx

SPSS因子分析法知识讲解

SPSS因子分析法

因子分析

一、基础理论知识

1概念

因子分析（FactoranalysiS:

就是用少数几个因子来描述许多指标或因素之间的联系，以较少几个因子来反映原资料的大部分信息的统计学分析方法。

从数学角度来看，主成分分析是一种化繁为简的降维处理技术。

主成分分析（PrincipalcomponentanalysiS:

是因子分析的一个特例，是使用最多的因子提取方法。

它通过坐标变换手段，将原有的多个相关变量，做线性变化，转换为另外一组不相关的变量。

选取前面几个方差最大的主成分，这样达到了因子分析较少变量个数的目的，同时又能与较少的变量反映原有变量的绝大部分的信息。

两者关系：

主成分分析（PCA）和因子分析（FA）是两种把变量维数降低以便于描述、理解和分析的方法，而实际上主成分分析可以说是因子分析的一个特例。

2特点

（1）因子变量的数量远少于原有的指标变量的数量，因而对因子变量的分析能够减少分析中的工作量。

（2）因子变量不是对原始变量的取舍，而是根据原始变量的信息进行重新组构，它能够反映原有变量大部分的信息。

（3）因子变量之间不存在显著的线性相关关系，对变量的分析比较方便，但原始部分变量之间多存在较显著的相关关系。

（4）因子变量具有命名解释性，即该变量是对某些原始变量信息的综合和反映。

在保证数据信息丢失最少的原则下，对高维变量空间进行降维处理（即通过因子分析或主成分分析）。

显然，在一个低维空间解释系统要比在高维系统容易的多。

3类型

根据研究对象的不同，把因子分析分为R型和Q型两种。

当研究对象是变量时，属于R型因子分析；

当研究对象是样品时，属于Q型因子分析。

但有的因子分析方法兼有R型和Q型因子分析的一些特点，如因子分析中的对应分析方法，有的学者称之为双重型因子分析，以示与其他两类的区别。

4分析原理

假定：

有n个地理样本，每个样本共有p个变量，构成一个nxp阶的地理数据矩阵：

X11

X12

Xi,

X21

X22

Xni

Xn2

当p较大时，在p维空间中考察问题比较麻烦。

这就需要进行降维处理,即用较少几个综合指标代替原来指标，而且使这些综合指标既能尽量多地反映原来指标所反映的信息，同时它们之间又是彼此独立的。

线性组合：

记x1，x2,…，xP为原变量指标，z1,z2,…，zm（m

新变量指标（主成分），则其线性组合为：

Z|I11X1I12X2

I1pXp

I2pXp

Lij是原变量在各主成分上的载荷

无论是哪一种因子分析方法，其相应的因子解都不是唯一的，主因子解仅仅是无数因子解中之一。

Zi与Zj相互无关；

z1是x1，x2，…，Xp的一切线性组合中方差最大者，z2是与z1不相关的x1，x2,…的所有线性组合中方差最大者。

贝新变量指标z1,z2,…分别称为原变量指标的第一，第二，…主成分。

Z为因子变量或公共因子，可以理解为在高维空间中互相垂直的m个坐标

轴。

主成分分析实质就是确定原来变量xj（j=1,2，…，p）在各主成分zi

（i=1,2,…,m）上的荷载Iij。

从数学上容易知道，从数学上也可以证明，它们分别是相关矩阵的m个较

大的特征值所对应的特征向量。

5分析步骤5.1确定待分析的原有若干变量是否适合进行因子分析（第一步）

因子分析是从众多的原始变量中重构少数几个具有代表意义的因子变量的过程。

其潜在的要求：

原有变量之间要具有比较强的相关性。

因此，因子分析需要先进行相关分析，计算原始变量之间的相关系数矩阵。

如果相关系数矩阵在进行统计检验时，大部分相关系数均小于0.3且未通过检验，则这些原始变量就不太适合进行因子分析。

「11

r12

「1p

r21

r22

r2p

rp1

rp2

rpp

（XkiXi）（XkjXj）

进行原始变量的相关分析之前，需要对输入的原始数据进行标准化计算

（一般采用标准差标准化方法，标准化后的数据均值为0，方差为1）。

SPSS在因子分析中还提供了几种判定是否适合因子分析的检验方法。

主要有以下3种：

巴特利特球形检验（BartlettTestofSphericity）

反映象相关矩阵检验（Anti-imagecorrelationmatrix）

KMO（Kaiser-Meyer-OIkin）检验

（1）巴特利特球形检验

该检验以变量的相关系数矩阵作为出发点，它的零假设H0为相关系数矩阵是一个单位阵，即相关系数矩阵对角线上的所有元素都为1,而所有非对角线上的元素都为0，也即原始变量两两之间不相关。

巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到。

如果该值较大，且其对应的相伴概率值小于用户指定的显著性水平，那么就应拒绝零假设H0，认为相关系数不可能是单位阵，也即原始变量间存在相关性。

（2）反映象相关矩阵检验

该检验以变量的偏相关系数矩阵作为出发点，将偏相关系数矩阵的每个元素取反，得到反映象相关矩阵。

偏相关系数是在控制了其他变量影响的条件下计算出来的相关系数，如果变量之间存在较多的重叠影响，那么偏相关系数就会较小，这些变量越适合进行因子分析。

（3）KMO（Kaiser-Meyer-Olkin）检验

该检验的统计量用于比较变量之间的简单相关和偏相关系数。

KMO值介于0-1，越接近1,表明所有变量之间简单相关系数平方和远大于偏相关系数平方和，越适合因子分析。

其中，Kaiser给出一个KMO检验标准：

KMO>0.9，非常适合；

0.8

5.2构造因子变量

因子分析中有很多确定因子变量的方法，如基于主成分模型的主成分分析

和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。

前者应用最为广泛。

主成分分析法（PrincipalcomponentanalysiS:

该方法通过坐标变换，将原有变量作线性变化，转换为另外一组不相关的

变量Zi（主成分）。

求相关系数矩阵的特征根入i（昭，疋厂；巾＞0）和相应的标准正交的特征向量li;根据相关系数矩阵的特征根，即公共因子Zj的方差贡献（等于因子载荷矩阵L中第j列各元素的平方和），计算公共因子Zj的方差贡献率与累积贡献率。

（i1,2,,P）

主成分分析是在一个多维坐标轴中，将原始变量组成的坐标系进行平移变换，使得新的坐标原点和数据群点的重心重合。

新坐标第一轴与数据变化最大方向对应。

通过计算特征根（方差贡献）和方差贡献率与累积方差贡献率等指标，来判断选取公共因子的数量和公共因子（主成分）所能代表的原始变量信息。

公共因子个数的确定准则：

1）根据特征值的大小来确定，一般取大于1的

特征值对应的几个公共因子/主成分。

2）根据因子的累积方差贡献率来确定，一般取累计贡献率达85-95%的特征值所对应的第一、第二、…、第m（mWp）个主成分。

也有学者认为累积方差贡献率应在80%以上。

5.3因子变量的命名解释

因子变量的命名解释是因子分析的另一个核心问题。

经过主成分分析得到

的公共因子/主成分Z1,Z2,「Zm是对原有变量的综合。

原有变量是有物理含义

的变量，对它们进行线性变换后，得到的新的综合变量的物理含义到底是什么？

在实际的应用分析中，主要通过对载荷矩阵进行分析，得到因子变量和原

有变量之间的关系，从而对新的因子变量进行命名。

利用因子旋转方法能使因子变量更具有可解释性。

计算主成分载荷，构建载荷矩阵A

aijVilij（i,j1,2,P）

a11

a12.

a1m

梟..2..

.hm」m

a21

a21.

..a2m

121..1

12V2..

.Lm[m

ap1

ap1.

..apm

1p1\1

1p12..

pmtm

计算主成分载荷，构建载荷矩阵A。

载荷矩阵A中某一行表示原有变量Xi与公共因子/因子变量的相关关系。

载荷矩阵A中某一列表示某一个公共因子/因子变量能够解释的原有变量Xi的信息量。

有时因子载荷矩阵的解释性不太好，通常需要进行因子旋转，使原有因子变量更具有可解释性。

因子旋转的主要方法：

正交旋转、斜交旋转。

anai2...aim

a2ia2i...a2m

■■■■■■■■■■■■

apiapi...apm

正交旋转和斜交旋转是因子旋转的两类方法。

前者由于保持了坐标轴的正交性，因此使用最多。

正交旋转的方法很多，其中以方差最大化法最为常用。

方差最大正交旋转（varimaxorthogonalrotation）基本思想：

使公共因

子的相对负荷的方差之和最大，且保持原公共因子的正交性和公共方差总和不变。

可使每个因子上的具有最大载荷的变量数最小，因此可以简化对因子的解释。

斜交旋转（obliquerotation）因子斜交旋转后，各因子负荷发生了变化，出现了两极分化。

各因子间不再相互独立，而是彼此相关。

各因子对各变量的贡献的总和也发生了改变。

斜交旋转因为因子间的相关性而不受欢迎。

但如果总体中各因子间存在明显的相关关系则应该考虑斜交旋转。

适用于大数据集的因子分析。

无论是正交旋转还是斜交旋转，因子旋转的目的：

是使因子负荷两极分

化，要么接近于0,要么接近于1。

从而使原有因子变量更具有可解释性。

5.4计算因子变量得分

因子变量确定以后，对于每一个样本数据，我们希望得到它们在不同因子

上的具体数据值，即因子得分。

估计因子得分的方法主要有：

回归法、Bartlette

法等。

计算因子得分应首先将因子变量表示为原始变量的线性组合。

即：

回归法，即Thomson法：

得分是由贝叶斯Bayes思想导出的，得到的因子得分是有偏的，但计算结果误差较小。

贝叶斯（BAYES）判别思想是根据先验概率求出后验概率，并依据后验概率分布作出统计推断。

Bartlett法：

Bartlett因子得分是极大似然估计，也是加权最小二乘回归，得到的因子得分是无偏的，但计算结果误差较大。

因子得分可用于模型诊断，也可用作进一步分析如聚类分析、回归分析等的原始资料。

关于因子得分的进一步应用将在案例介绍一节分析。

5.5结果的分析解释

此部分详细见案例分析

二、案例分析

1研究问题

石家庄18个县市14个指标因子，具体来说有人均GDP（元/人）、人均全社会固定资产投资额、人均城镇固定资产投资额、人均一般预算性财政收入、第三产业占GDP比重（%）、人均社会消费品零售额、人均实际利用外资额（万美元/人）、人均城乡居民储蓄存款、农民人均纯收入、在岗职工平均工资、人才密度指数、科技支出占财政支出比重（％）、每万人拥有执业医师数量、每千人拥有病床数。

要求根据这14项内容进行因子分析，得到维度较少的几个因子。

2实现步骤

【1】在Analyze”菜单DataReduction”中选择Factor”命令，如下图所示

2"Untitled^[DataSetl]-SPSSStatisticsDataEditor

AralyzsGraphsLItililiesAdtl-orisVWido^Help

Reports

fflE

指折

人均GD

高邑县

平山县

嫌樺昙

无桂县

晋州甫

藝城市

赞呈县

亲城县

元氏县

趣县

Fite国itViewRat日[ransfom

DcSGlipllYCStotiiticE

RFMAnalysis

CompareMaars

GeneralLinearModel

GeneralizedLinearModels

MixedModels

Correlate

Regression

Lcglriear

NeuralNetvvorhs

Classify

DtnerisionReduction

人均城缜固定矗声役

人均一般额算性叶政收入

24721.65

2557.7：

10153.33

549.7[

7398.94

332玄

9696.81

52951

5S84.81

92GB1

530989

342©

17143.62

1114.5：

3731.03

350.9（

Factor...

103.3（

58S.2J

Forecasting

TBBQ『

e.4i

Survival

1535753

726.H

MultipleRtsponse

卜

11560.90

529.3E

h/tssingValueAnalxsis...

7437.92

23Z

MultiplemiputAion

9394.12

X4.21

ComplexSamptes

669929

214.9：

QualityControl

13194.04

2805J

ROCCurve.,r

Scale

NlonparametricTests

►CorrespondencsAnalysis..

►上iOptimalScailing...

【2】在弹出的下图所示的FactorAnalysis对话框中，从对话框左侧的变量列表

中选择这14个变量，使之添加到Variables框中

FactorAnalysis

@AftGDPt元从）[人…

A人均墟越固定協严…

少人均一肌帀蠶性朋…

—

茨棄兰产业占GDP出更..炉人西礼会简播曲零..

3人购实歸利用外金…

yariaLles:

EelerfionVsrisNe.

【3】点击Descriptives”按钮，弹出FactorAnalysis：

Descriptives”对话框，如图

所示。

-Statistics

2]Lfcnivariatecfescr^itiveE

[y]Initialsolution

CorrelationMatrix

Inverse

Reproduced

]Anti-lmflge

回Coefficients

]^gnlftcancelevels

]Deicrmimanl

叼1恫0&rd吕日斤规飞怕stofsphaicity

ContinueCancelHe|a

Statistics框用于选择哪些相关的统计量，其中:

Univariatedescriptives（变量描述）：

输出变量均值、标准差;

Initialsolution（初始结果）

CorrelationMatrix框中提供了几种检验变量是否适合做引子分析的检验方法,

其中:

Coefficients（相关系数矩阵）

Significaneeleves（显著性水平）

Determinant（相关系数矩阵的行列式）

Inverse（相关系数矩阵的逆矩阵）

Reproduced（再生相关矩阵，原始相关与再生相关的差值）

Anti-image（反影像相关矩阵检验）

KMOandBartlett'testofsphericity（KMO检验和巴特利特球形检验）

本例中，选中该对话框中所有选项，单击Continue按钮返回Factor

Analysis对话框。

【4】单击Extraction”按钮，弹出FactorAnalysis：

Extraction”对话框，选择因子

提取方法，如下图所示：

Method:

Analyze

■-Corr

Principalcomponents寸

ispla^

VUhrotstedfactorsolution

£preeplot

Principalcomponents

Unweightedleastsquares&flner^liz«dleastsquaresMaximijmlikelihoodPrincipalaxisfactoringAlphafactoring

Esfract

Imagefactoring

』Basedontigenvaiue

Eigenvaluesyeaterthan:

Fixedruinberoffactors

Factorstoextract:

MaximumIterationsforCflnvergtnGe:

因子提取方法在Method下拉框中选取，SPSS共提供了7种方法:

PrincipleComponentsAnalysis（主成分分析）

Unweightedleastsquares（未加权最小平方法）

Generalizedleastsquares（综合最小平方法）

Maximumlikelihood（最大似然估价法）

Principalaxisfactoring（主轴因子法）

Alphafactoring（a因子）

Imagefactoring（影像因子）

Analyze框中用于选择提取变量依据，其中：

Correlationmatrix（相关系数矩阵）

Covarianeematrix（协方差矩阵）

Extract框用于指定因子个数的标准，其中：

Eigenvaluseover（大于特征值）

Numberoffactors（因子个数）

Display框用于选择输出哪些与因子提取有关的信息，其中：

Unrotatedfactorsolution（未经旋转的因子载荷矩阵）

Screenplot（特征值排列图）

MaximuninterationsforConvergenee框用于指定因子分析收敛的最大迭代次数，

系统默认的最大迭代次数为25。

本例选用Principalcomponents方法，选择相关系数矩阵作为提取因子变量的依

据，选中Unrotatedfactorsolution和Screeplot项，输出未经过旋转的因子载荷矩阵与其特征值的碎石图；选择Eigenvaluseover项，在该选项后面可以输入

1，指定提取特征值大于1的因子。

单击Continue按钮返回FactorAnalysis对话框。

【5】单击FactorAnalysis对话框中的Rotation按钮，弹出FactorAnalysis:

Rotation对话框，如下图所示:

该对话框用于选择因子载荷矩阵的旋转方法。

旋转目的是为了简化结构,以帮助我们解释因子。

SPSS默认不进行旋转（None）

Method框用于选择因子旋转方法，其中:

None（不旋转）

Varimax（正交旋转）

DirectOblimin（直接斜交旋转）

Quanlimax（四分最大正交旋转）

Equamax（平均正交旋转）

Promax（斜交旋转）

Display框用于选择输出哪些与因子旋转有关的信息，其中:

Rotatedsolution（输出旋转后的因子载荷矩阵）

Loadingplots（输出载荷散点图）

本例选择方差极大法旋转Varimax，并选中Rotatedsolution和Loadingplot

项，表示输出旋转后的因子载荷矩阵和载荷散点图，单击Continue按钮返回

FactorAnalysis对话框。

【6】单击FactorAnalysis对话框中的Scores按钮，弹出FactorAnalysis:

Scores

对话框，如下图所示:

Fjctorlysit!

FactorScore-s

回S.aveV5*ri^bles

-Method

*'Regression

■B^rtleli

Anclersor-Rubin

叼display怕ctnr酣口帕⑷匕卄iclentmatrix

ContinueCancelHe^

该对话框用以选择对因子得分进行设置，其中:

Regression（回归法）：

因子得分均值为0，采用多元相关平方;

Bartlett（巴特利法）：

因子得分均值为0,采用超出变量范围各因子平方

和被最小化;

Anderson-Rubin（安德森-洛宾法）：

因子得分均值为0，标准差1，彼此不相关;

Displayfactorscorecoefficientmatrix：

选择此项将在输出窗口中显示因子得

分系数矩阵。

【7】单击FactorAnalysis对话框中的Options按钮，弹出FactorAnalysis:

Options对话框，如下图所示：

该对话框可以指定其他因子分析的结果，并选择对缺失数据的处理方法，其中：

MissingValues框用于选择缺失值处理方法：

Excludecaseslistwise去除所有缺失值的个案

Excludecasespairwise含有缺失值的变量，去掉该案例

Replacewithmean用平均值代替缺失值

CofficientDisplayFormat框用于选择载荷系数的显示格式：

Sortedbysize载荷系数按照数值大小排列

Suppressabsolutevalueslessthan不显示绝对值小于指定值的载荷量

本例选中Excludecaseslistwise项，单击Continue按钮返回FactorAnalysis对话框，完成设置。

单击OK，完成计算。

3结果与讨论

（1）SPSS输出的第一部分如下：

第一个表格中列出了18个原始变量的统计结果，包括平均值、标准差和分

析的个案数。

这个是步骤3中选中Univariatedescriptives项的输出结果。

DescriptiveStatistics

Mean

Std.Deviation

AnalysisN

人均GDP（元/人）

人均全社会固定资产投资额人均城镇固定资产投资额人均一般预算性财政收入第三产业占GDP比重（%）人均社会消费品零售额人均实际利用外资额（万美元

/人）

人均城乡居民储蓄存款

农民人均纯收入

在岗职工平均工资

人才密度指数

科技支岀占财政支岀比重

（%）

每万人拥有执业医师数量

每千人拥有病床数

22600.5211

15190.9515

10270.36

展开阅读全文