SPSS因子分析法很全面很全面.docx

资源描述

SPSS因子分析法很全面很全面.docx

《SPSS因子分析法很全面很全面.docx》由会员分享，可在线阅读，更多相关《SPSS因子分析法很全面很全面.docx（74页珍藏版）》请在冰豆网上搜索。

SPSS因子分析法很全面很全面.docx

SPSS因子分析法很全面很全面

实验课：

因子分析

实验目的

理解主成分（因子）分析的基本原理，熟悉并掌握SPSS中的主成分（因子）分析方法及其主要应用。

因子分析

一、基础理论知识

1概念

因子分析（Factoranalysis）:

就是用少数几个因子来描述许多指标或因素之间的联系，以较少几个因子来反映原资料的大部分信息的统汁学分析方法。

从数学角度来看，主成分分析是一种化繁为简的降维处理技术。

主成分分析（Principalcomponentanalysis）：

是因子分析的一个特例，是使用最多的因子提取方法。

它通过坐标变换手段，将原有的多个相尖变量，做线性变化，转换为另外一组不相矢的变疑。

选取前面几个方差最大的主成分，这样达到了因子分析较少变虽个数的目的，同时又能与较少的变量反映原有变量的绝大部分的信息。

两者矢系：

主成分分析（PCA）和因子分析（FA）是两种把变量维数降低以便于描述、理解和分析的方法，而实际上主成分分析可以说是因子分析的一个特例。

2特点

（1）因子变捲的数就远少于原有的指标变就的数駅，因而对因子变量的分析能够减少分析中的工作量。

（2）因子变量不是对原始变量的取舍，而是根据原始变量的信息进行重新组构，它能够反映原有变量大部分的信息。

（3）因子变虽之间不存在显著的线性相矢矢系，对变量的分析比较方便，但原始部分变量之间多存在较显著的相矢矢系。

（4）因子变屋具有命名解释性，即该变疑是对某些原始变量信息的综合和反映。

在保证数据信息丢失最少的原则下，对高维变量空间进行降维处理（即通过因子分析或主成分分析）。

显然，在一彳、低维空间解释系统要比在高维系统容易的多。

3类型

根据研究对象的不同，把因子分析分为R型和0型两种。

当研究对象是变量时，属于R型因子分析；

当研究对象是样品时，属于Q型因子分析。

但有的因子分析方法兼有R型和Q型因子分析的一些特点，如因子分析中的对应分析方法，有的学者称之为双重型因子分析‘以示与其他两类的区别*

4分析原理

假左：

有n个地理样本，每个样本共有P个变量，构成一个nXp阶的地理数据矩阵：

九切•…切

当P较大时，在P维空衍综合指宇謬幾诃题比较憊。

这就需要进行降维处理，即用较少几个尽量多标代替原来指标，爺注〔时它们烦地反映原来指标所反映的信息，同

之间又是彼此独立的。

线性组合：

记xl,x2，•:

zLz2,...,zm（mWp）为新变量指标

Lij是原变量在各主成您

无论是哪一种因子分£解中之一。

（主成分），则其线性组合为：

上鵬軌2卄・・Z］二+/羸2+

・•+砺

0丕是唯一的，主因子解仅仅是无数因子mp“p

9汗曲线棺血例切矽仃席'Z2是与zl不相矢的xl,X2,…

7；Uvi妒77手牛-

的所有线性组合中方差最大者。

则，新变量指标Zl,Z2,…分别称为原变量指标的第一，第二主成分。

Z为因子变量或公共因子，可以理解为在髙维空间中互相垂直的m个坐标轴。

主成分分析实质就是确泄原来变量xj（j=l,2,p）在各主成分zi（i=h2,...,m）上的荷载lijo

从数学上容易知道，从数学上也可以证明，它们分别是相矢矩阵的m个较大的特征值所对应的特征向

5分析步骤

5.1确宦待分析的原有若干变量是否适合进行因（分忻（第一步）

因子分析是从众务的原始变虽中重构少数几个具有代表总义的因子变屋的过程。

其潜在的要求：

原有变量之间要具有比较强的相矢性。

因此，因子分析需要先进行相矢分析，计算原始变疑之间的相矢系数矩阵。

如果相其系数矩阵在进行统计检验时，大部分相尖系数均小于0.3且未通过检验，则这些原始。

太适合进行因子分析。

R准化计算（一般采用标准

差标准化方法，标准化后的数据均值为o,方差为1）。

SPSS在因子分析中还提供了几种判定是否适合因子分析的检验方法。

主要有以下3种：

巴特利特球形检验（BartlettTestofSphericity）反映象相矢矩阵检脸（Anti-imagecorrelationmatrix）

KMO（Kaiser-Meyer-Olkin）检验

（1）巴特利特球形检验

该检验以变量的相矢系数矩阵作为岀发点，它的零假设H0为相矢系数矩阵是一个单位阵，即相矢系数矩阵对角线上的所有元素都为1，而所有非对角线上的元素都为0,也即原始变量两两之间不相矢。

巴特利特球形检验的统汁量是根据相矢系数矩阵的行列式得到。

如果该值较大，且其对应的相伴概率值小于用户指左的显著性水平，那么就应拒绝零假设H0,认为相矢系数不可能是单位阵，也即原始变量间存在相

矢性°

（2）

反映象相尖矩阵检验

该检验以变量的偏相矢系数矩阵作为出发点，将偏相矢系数矩阵的每个元素取反，得到反映象相尖矩阵。

偏相矢系数是在控制了其他变量影响的条件下计算出来的相矢系数，如果变量之间存在较多的重叠影响，那么偏相矢系数就会较小，这些变量越适合进行因子分析。

（3）KMO（Kaiser-Meyer-Olkin）检验

该检验的统计量用于比较变量之间的简单相矢和偏相矢系数。

KMO值介于0-1,越接近1,表明所有变量之间简单相矢系数平方和远大于偏相矢系数平方和，越适合因子分析。

其中，Kaiser给出一个KMO检验标准：

KM0>0•9』诵适合：

0.8

0.7

0.6vKM0v0.7,不太适合:

KMO<0.5,不适合。

5.2构造因子变量

因子分析中有很多确左因子变量的方法，如基F主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。

前者应用最为广泛。

主成分分析法（Principalcomponentanalysis）:

睦换，使得新的0世讣算特征根『数艇和公共因

将原始变占亍

-轴与娄1献率等指彳

主成分分坐标原点和数

（方差贡献R

该方法通过坐标变换，将原有变量作线性变化，转换为另外一组不相矢的变戢Zi（主成分）。

求和数矩阵的特征根XiX1,入2,…，Xp>o）和相应的标准正交的特征向量li：

根据相矢系数矩阵的特征根，即公共因子Zj的方差贡献（等于因子载荷矩阵L中第j列各元素的平方和），计算公共因子Zj的方差员献率与累积贡献率。

子（主成分）所能代表的原始变量信息。

公共因子个数的确左准则：

1）根据特征伉的人小来确定，一般取大于1的特征值对应的几个公共因子/主成分2）根据因子的累积方差贡献率来确定，一般取累计贡献率达85-95%的特征值所对应的第一、第二、…、第m（m^p）个主成分。

也有学者认为累积方差贡献率应在80%以上。

5・3因子变量的命名解释

因子变量的命名解释是因子分析的另一个核心问题。

经过主成分分析得到的公共因子/主成分ZI,Z2,-,Zm是对原有变量的综合。

原有变量是有物理含义的变量，对它们进行线性变换后，得到的新的综合变量的物理含义到底是什么？

在实际的应用分析中，主要通过对载荷矩阵进行分析，得到因子变量和原有变量之间的矢系，从而对新的因子变量进行命名。

利用因子旋转方法能使因子变最更具有可解释竹亠

计算主成分载荷，构建载荷矩阵A。

"iiC112…Ci］血

"2\"2\…"2加

CL"••••%卅pi

•M••••••

丿pi阿城一

3公共因子/

解释的原有

，使原有因

正交旋车®2…

AiaMTAz

••-Kntyl^ntJ正交因止

用最％3人二«21...

方差最7

对负荷的方克5｝⑷”…的具有最大轼

l2m

-A

・SA|”JIJ/VJI丿JIJIFJWbTT©

...pm>[^tn

使公共因子的相

可使每个因子上

斜交旋转（obliquerotation）因子斜交旋转后，各因子负荷发生了变化，出现了

两极分化。

各因子间不再相互独立，而是彼此相矢。

各因子对各变量的贡献的总和也发生了改变。

斜交旋转因为因子间的相矢性而不受欢迎。

但如果总体中各因子间存在明显的相矢矢系则应该考虑斜交旋转。

适用于大数据集的因子分析。

无论是正交旋转还是斜交旋转，因子旋转的目的：

是使因子负荷两极分化，要么接近于

0,要么接近于1。

从而使原有因子变量更具有可解释性。

5.4计算因子变量得分

因子变量确左以后，对于每一彳、样本数据，我们希望得到它们在不同因子上的具体数据值，即因子得分。

估让因子得分的方法主要有:

回门法、Bartlette法等:

计算因子得分应首先将因子变量表示为原始变量的线性组合。

即：

回归法，即Thomson法：

彳目，得到的因子得分是有偏的，概

但计算结果误差较小。

贝叶期验概率求岀后验概率.并依据后

率分布作岀统计推断。

Bartlett法：

Bartlett因子得分是极大似然估计，也是加权最小二乘回归，得到的因子得分是无偏的，但汁算结果渓差较大。

因子得分可用于模型诊断，也可用作进一步分析如聚类分析、回归分析等的原始资料。

矢于因子得分的进一步应用将在案例介绍一节分析。

5.5结果的分析解释

此部分详细见案例分析

二、案例分析

1研究问题

石家庄18个县市14个指标因子，具体来说有人均GDP（元/人）、人均全社会固泄资产投资额、人均城镇固泄资产投资额、人均一般预算性财政收入、第三产业占GDP比重（％）、人均社会消费品零售额、人均实

际利用外资额（万美元/人）、人均城乡居民储蓄存款、农民人均纯收入、在岗职工平均工资、人才密度指数、科技支出占财政支出比重何）.每万人拥有执业医师数量、每千人拥有病床数。

要求根据这14项内容进行因子分析，得到维度较少的几个因子

2实现步骤

[1]在"Analyze”菜单"DataReduction”中选择"Factor”命令，如下图所示。

*Untitled2[DataSetl]-SPSSStatisticsDataEditor

Variables:

少人均GDP（元/人）［人…A人均金祀僉固定说…妙人均塡袒固定熒严…夕人均一股预篦性财…冷第三产业占GDP比虫…夕人均社会涪势品寥…&夕人均雯絹利用外咬…

Cancel

Help

［2］在弹出的下图所示的FactorAnalysis对话框中，从对话框左侧的变量列表中

选择这14个变量5使之添加到Variables框中°

r—■

FactorAnalysis

[3]点击"Descriptives'1按钮，弹出AFactorAnalysis:

DescriptivesM对话框?

如图所示。

FactorAnalysis:

Descriptives

「Statistics

叼Univariatedescriptives

0Initialsolution

Statistics框用于选择哪些相矢的统计量，其中：

Univariatedescriptives（变量描述）：

输出变量均值、标准差;

Initialsolution（初始结果）

CorrelationMatrix框中提供了几种检验变量是否适合做引子分析的检验方法，其中：

Coefficients（相尖系数矩阵）

Significanceleves（显著性水平）

Determinant（相尖系数矩阵的行列式）

Inverse（相尖系数矩阵的逆矩阵）

Reproduced（再生相尖矩阵，原始相矢与再生相尖的差值）

Anti-image（反影像相矢矩阵检验）

KMOandBartlett*stestofsphericity（KMO检验和巴特利特球形检验）

本例中，选中该对话框中所有选项,单击Continue按钮返回FactorAnalysis对话框。

[4]单击''Extraction"按钮，弹出FactorAnalysis:

Extraction'1对话框5选择因子提取方法，如下图所示：

FactorAnalysis:

Extraction

Method:

jPrincipalcomponents▼

Analyze

0Corr

OC0£

-Extract

Principalcomponents

UnweightedleastsquaresGeneralizedleastsquaresiaximumlikelihoodincipalaxisfactoringIphaf&ctoringiagefactoringonEigenvalue

isplaji

0Unrotatedfactorsolution

Screeplot

Eigenvaluesgreaterthan:

Fixednumberoffactors

Factorstoextract:

■

IterationslorConvergenee;25

Continue_j|CanceljjHelp|

因子提取方法在Method下拉框中选取，SPSS共提供了7种方法：

PrincipleComponentsAnalysis（主成分分析）

Unweightedleastsquares（未加权最小平方法）Generalizedleastsquares（综合最小平方法）Maximum1ikelihood（最大似然估价法）Principalaxisfactoring（主轴因子法）

Alphafactoring（a因子）

Imagefactoring（影像因子）

Analyze框中用于选择提取变量依据，其中：

Correlationmatrix（相尖系数矩阵）

Covariancematrix（协方差矩阵）

Extract框用于指定因子个数的标准，其中：

Eigenvaluseover（大于特征值）

Numberoffactors（因子个数）

Display框用于选择输出哪些与因子提取有矢的信息，其中：

Unrotatedfactorsolution（未经旋转的因子载荷矩阵）

Screenplot（特征值排列图）

MaximuninterationsforConvergence框用于指定因子分析收敛的最大迭代次数，系统默认的最大迭代次数为25。

本例选用Principalcomponents方法，选择相尖系数矩阵作为提取因子变量的依据，选中Unrotatedfactorsolution和Screeplot项，输岀未经过旋转的囚子载荷矩阵与其特征值的碎石图；选择Eigenvaluseover项5在该选项后面可以输入1，指定提取特征值大于1的因子。

单击Continue按钮返回FactorAnalysis对话框。

[5]单击FactorAnalysis对话框中的Rotation按钮，弹0Factor

Analysis:

Rotation对话框'如下图所示:

園FactorAnalysis:

Rotation

该对话框用于选择因子载荷矩阵的旋转方法。

旋转U的是为了简化结构，以帮助我们解释因子。

SPSS默认不进行旋转（None）。

Method框用于选择因子旋转方法，其中：

None（不旋转）

Varimax（正交旋转）

DirectObiimin（直接斜交旋转）Quanlimax（四分最大正交旋转）Equamax（平均正交旋转）

Promax（斜交旋转）Display框用于选择输出哪些与因子旋转有矢的信息，其中：

Rotatedsolution（输出旋转后的因子载荷矩阵）

Loadingplots（输出载荷散点图）

本例选择方差极大法旋转Varimax,并选中Rotatedsolution和Loadingplot项，表示输出旋转后的因子载荷矩阵和载荷散点图，单击Continue按钮返回FactorAnalysis对话框。

[6]单击FactorAnalysis对话框中的Scores按钮5弹出FactorAnalysis:

Scores对话框5如下图所示:

该对话框用以选择对因子得分进行设置，其中：

Regression（回归法）：

因子彳I分均值为0,采川乡元相矢平方；

Bartlett（巴特利法）：

因子得分均值为0,采用超出变量范围各因子平方和被最小化；

Anderson-Rubin（安德森■洛宾法）：

因子得分均值为0,标准差1,彼此不相尖；

Displayfactorscorecoefficientmatrix:

选择此项将在输出窗口中显

示因子得分系数矩阵。

[7]单击FactorAnalysis对话框中的Options按钮5弹出FactorAnalysis:

Options对话框，如下图所示：

圍FactorAn创ysis:

Options

MissingValues

（?

）Excludecaseslistwise

"ExcludecasesaQifwise

OReplacewithmean

CoefficientDisplayFormat

[gportedbvsizel

Suppresssmsllcoefficients

Absolutevaluebelow:

ContinueCancelHelp

该对话框可以指定其他因子分析的结果，并选择对缺失数据的处理方法，其中：

MissingValues框用于选择缺失值处理方法：

Excludecaseslistwise:

去除所冇缺失值的个案

Excludecasespairwise：

含有缺失值的变量?

去掉该案例

Replacewithmean:

用平均值代替缺失值

CofficientDisplayFormat框用于选择载荷系数的显示格式：

Sortedbysize:

载荷系数按照数值大小排列

Suppressabsolutevalueslessthan:

不显示绝对值小于指定值的载荷量本例选中Excludecases1istwise项，单击Continue按钮返回Factor

Analysis对话框'完成设置。

单击0K,完成计算。

3结果与讨论

（1）SPSS输出的第一部分如下：

第一个表格中列出了18个原始变量的统计结果，包括平均值、标准差和分析

的个案数。

刖聚3中选中Univariatedescriptives项的输出结果°

DescriptiveStatistics

Mean

Std・Deviation

AnalysisN

人均GDP（元/人）

人均全社会固定资产投资额

人均城镇固定资产投资额人均一

般预算性财政收入第三产业占

GDP比重（钓人均社会消费品零皆额人均实际利用外资额（万芙元/人）

人均城乡居民储蓄存款

农民人均纯收入

在岗职工平均工资

人才密度抬数

科技支出占财政支出比重（%）每万人拥有执业医师数虽每干人拥有病床数

22600.5211

15190.9515

10270.3642

585.171229.06126567.2566

23.5667

12061.2381

4852.5556

18110.3889

8.1518

1.3494

12.6883

2.3608

8110.55461

5289.14499

4874.14616

550.45659

9.46858

306&75463

40.31361

7363.08659

1202.52970

2374.05751

5.37552

•50193

8.88691

1.16077

（2）SPSS输出结果文件中的第二部分如下：

该表格给出的是18个原始变量的相矢矩阵

CorrelationMatrix

人均GDP

人）

（元/

人均全社会固定资

产投资额

人均城镇固定资产

投资额

Correlation人均GDP（元/人）

1.000

•503

•707

人均全社会固定资产投资额

•503

1.000

.883

人均城镇固定资产投资额

.707

.883

1.000

人均一般倾算性财政收入

•776

.571

.821

第三产业占GDP比重（%）

•567

.507

•759

人均社会消费品零售额

•737

.247

•600

人均实际利用外资额（万美元/

•454

.356

•648

人〉

人均城乡居民储蓄存款

•707

.480

•780

农民人均纯收人

.559

-.073

•130

在岗职工平均工资

•789

.325

・544

人才密度抬数

.741

•470

•737

CorrelationMatrix

人均GDP（元/人）

人均全社会固定资

产投资额

人均城镇固定资产

投资额

Correlation人均GDP（元/人）

人均全社会固定资产投资额

人均城镇固定资产投资额

人均一般倾算性财政收入第三产业占GDP比重（%）

人均社会消费品零售额

人均实际利用外资额（万美元/

人〉

人均城乡居民储蓄存款

农民人均纯收入

在岗职工平均工资

人才密度抬数

科技支出占财政支出比重（％）

每万人拥有执业医师数虽

科技支出占财政支出比重（3

每万人拥有执业医师数虽

每千人拥有病床数

1.000

•503

.707

•776

•567

•737

•454

•707

.559

•789

.741

•582

•431

•582

•434

.573

•503

1.000

.883

.571

.507

.247

.356

.480-.073

325

•470

•378

•520

.378

.520

.565

•707

.883

1.000

.821

•759

•600

•648

•780

•130

・544

•737

.486

•733

.486

•733

•761

CorrelationMatrix

人均一般预算性财

政收入

第三产业占GDP

比重偏）

人均社会消费品零

售额

Correlation人均GDP（元/人）

•776

•567

•737

人均全社会固定资产投资额

.571

.507

•247

人均城锁固定资产投资额

•821

•759

.600

人均一般倾算性财

展开阅读全文