0.6vKM0v0.7,不太适合:
KMO<0.5,不适合。
5.2构造因子变量
因子分析中有很多确左因子变量的方法,如基F主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。
前者应用最为广泛。
主成分分析法(Principalcomponentanalysis):
睦换,使得新的0世讣算特征根『数艇和公共因
将原始变占亍
-轴与娄1献率等指彳
主成分分坐标原点和数
(方差贡献R
该方法通过坐标变换,将原有变量作线性变化,转换为另外一组不相矢的变戢Zi(主成分)。
求和数矩阵的特征根XiX1,入2,…,Xp>o)和相应的标准正交的特征向量li:
根据相矢系数矩阵的特征根,即公共因子Zj的方差贡献(等于因子载荷矩阵L中第j列各元素的平方和),计算公共因子Zj的方差员献率与累积贡献率。
子(主成分)所能代表的原始变量信息。
公共因子个数的确左准则:
1)根据特征伉的人小来确定,一般取大于1的特征值对应的几个公共因子/主成分2)根据因子的累积方差贡献率来确定,一般取累计贡献率达85-95%的特征值所对应的第一、第二、…、第m(m^p)个主成分。
也有学者认为累积方差贡献率应在80%以上。
5・3因子变量的命名解释
因子变量的命名解释是因子分析的另一个核心问题。
经过主成分分析得到的公共因子/主成分ZI,Z2,-,Zm是对原有变量的综合。
原有变量是有物理含义的变量,对它们进行线性变换后,得到的新的综合变量的物理含义到底是什么?
在实际的应用分析中,主要通过对载荷矩阵进行分析,得到因子变量和原有变量之间的矢系,从而对新的因子变量进行命名。
利用因子旋转方法能使因子变最更具有可解释竹亠
计算主成分载荷,构建载荷矩阵A。
"iiC112…Ci]血
A=
"2\"2\…"2加
CL"••••%卅pi
•M••••••
丿pi阿城一
3公共因子/
解释的原有
,使原有因
正交旋车®2…
AiaMTAz
••-Kntyl^ntJ正交因止
用最%3人二«21...
方差最7
对负荷的方克5}⑷”…的具有最大轼
M
l2m
pm
-A
・SA|”JIJ/VJI丿JIJIFJWbTT©
...pm>[^tn
使公共因子的相
可使每个因子上
斜交旋转(obliquerotation)因子斜交旋转后,各因子负荷发生了变化,出现了
两极分化。
各因子间不再相互独立,而是彼此相矢。
各因子对各变量的贡献的总和也发生了改变。
斜交旋转因为因子间的相矢性而不受欢迎。
但如果总体中各因子间存在明显的相矢矢系则应该考虑斜交旋转。
适用于大数据集的因子分析。
无论是正交旋转还是斜交旋转,因子旋转的目的:
是使因子负荷两极分化,要么接近于
0,要么接近于1。
从而使原有因子变量更具有可解释性。
5.4计算因子变量得分
因子变量确左以后,对于每一彳、样本数据,我们希望得到它们在不同因子上的具体数据值,即因子得分。
估让因子得分的方法主要有:
回门法、Bartlette法等:
计算因子得分应首先将因子变量表示为原始变量的线性组合。
即:
回归法,即Thomson法:
彳目,得到的因子得分是有偏的,概
但计算结果误差较小。
贝叶期验概率求岀后验概率.并依据后
率分布作岀统计推断。
Bartlett法:
Bartlett因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得分是无偏的,但汁算结果渓差较大。
因子得分可用于模型诊断,也可用作进一步分析如聚类分析、回归分析等的原始资料。
矢于因子得分的进一步应用将在案例介绍一节分析。
5.5结果的分析解释
此部分详细见案例分析
二、案例分析
1研究问题
石家庄18个县市14个指标因子,具体来说有人均GDP(元/人)、人均全社会固泄资产投资额、人均城镇固泄资产投资额、人均一般预算性财政收入、第三产业占GDP比重(%)、人均社会消费品零售额、人均实
际利用外资额(万美元/人)、人均城乡居民储蓄存款、农民人均纯收入、在岗职工平均工资、人才密度指数、科技支出占财政支出比重何).每万人拥有执业医师数量、每千人拥有病床数。
要求根据这14项内容进行因子分析,得到维度较少的几个因子
2实现步骤
[1]在"Analyze”菜单"DataReduction”中选择"Factor”命令,如下图所示。
*Untitled2[DataSetl]-SPSSStatisticsDataEditor
Variables:
少人均GDP(元/人)[人…A人均金祀僉固定说…妙人均塡袒固定熒严…夕人均一股预篦性财…冷第三产业占GDP比虫…夕人均社会涪势品寥…&夕人均雯絹利用外咬…
Cancel
II
Help
[2]在弹出的下图所示的FactorAnalysis对话框中,从对话框左侧的变量列表中
选择这14个变量5使之添加到Variables框中°
r—■
FactorAnalysis
[3]点击"Descriptives'1按钮,弹出AFactorAnalysis:
DescriptivesM对话框?
如图所示。
FactorAnalysis:
Descriptives
「Statistics
叼Univariatedescriptives
0Initialsolution
Statistics框用于选择哪些相矢的统计量,其中:
Univariatedescriptives(变量描述):
输出变量均值、标准差;
Initialsolution(初始结果)
CorrelationMatrix框中提供了几种检验变量是否适合做引子分析的检验方法,其中:
Coefficients(相尖系数矩阵)
Significanceleves(显著性水平)
Determinant(相尖系数矩阵的行列式)
Inverse(相尖系数矩阵的逆矩阵)
Reproduced(再生相尖矩阵,原始相矢与再生相尖的差值)
Anti-image(反影像相矢矩阵检验)
KMOandBartlett*stestofsphericity(KMO检验和巴特利特球形检验)
本例中,选中该对话框中所有选项,单击Continue按钮返回FactorAnalysis对话框。
[4]单击''Extraction"按钮,弹出FactorAnalysis:
Extraction'1对话框5选择因子提取方法,如下图所示:
FactorAnalysis:
Extraction
Method:
jPrincipalcomponents▼
Analyze
0Corr
OC0£
-Extract
Principalcomponents
UnweightedleastsquaresGeneralizedleastsquaresiaximumlikelihoodincipalaxisfactoringIphaf&ctoringiagefactoringonEigenvalue
isplaji
0Unrotatedfactorsolution
Screeplot
Eigenvaluesgreaterthan:
j]
Fixednumberoffactors
Factorstoextract:
■
IterationslorConvergenee;25
Continue_j|CanceljjHelp|
因子提取方法在Method下拉框中选取,SPSS共提供了7种方法:
PrincipleComponentsAnalysis(主成分分析)
Unweightedleastsquares(未加权最小平方法)Generalizedleastsquares(综合最小平方法)Maximum1ikelihood(最大似然估价法)Principalaxisfactoring(主轴因子法)
Alphafactoring(a因子)
Imagefactoring(影像因子)
Analyze框中用于选择提取变量依据,其中:
Correlationmatrix(相尖系数矩阵)
Covariancematrix(协方差矩阵)
Extract框用于指定因子个数的标准,其中:
Eigenvaluseover(大于特征值)
Numberoffactors(因子个数)
Display框用于选择输出哪些与因子提取有矢的信息,其中:
Unrotatedfactorsolution(未经旋转的因子载荷矩阵)
Screenplot(特征值排列图)
MaximuninterationsforConvergence框用于指定因子分析收敛的最大迭代次数,系统默认的最大迭代次数为25。
本例选用Principalcomponents方法,选择相尖系数矩阵作为提取因子变量的依据,选中Unrotatedfactorsolution和Screeplot项,输岀未经过旋转的囚子载荷矩阵与其特征值的碎石图;选择Eigenvaluseover项5在该选项后面可以输入1,指定提取特征值大于1的因子。
单击Continue按钮返回FactorAnalysis对话框。
[5]单击FactorAnalysis对话框中的Rotation按钮,弹0Factor
Analysis:
Rotation对话框'如下图所示:
園FactorAnalysis:
Rotation
该对话框用于选择因子载荷矩阵的旋转方法。
旋转U的是为了简化结构,以帮助我们解释因子。
SPSS默认不进行旋转(None)。
Method框用于选择因子旋转方法,其中:
None(不旋转)
Varimax(正交旋转)
DirectObiimin(直接斜交旋转)Quanlimax(四分最大正交旋转)Equamax(平均正交旋转)
Promax(斜交旋转)Display框用于选择输出哪些与因子旋转有矢的信息,其中:
Rotatedsolution(输出旋转后的因子载荷矩阵)
Loadingplots(输出载荷散点图)
本例选择方差极大法旋转Varimax,并选中Rotatedsolution和Loadingplot项,表示输出旋转后的因子载荷矩阵和载荷散点图,单击Continue按钮返回FactorAnalysis对话框。
[6]单击FactorAnalysis对话框中的Scores按钮5弹出FactorAnalysis:
Scores对话框5如下图所示:
该对话框用以选择对因子得分进行设置,其中:
Regression(回归法):
因子彳I分均值为0,采川乡元相矢平方;
Bartlett(巴特利法):
因子得分均值为0,采用超出变量范围各因子平方和被最小化;
Anderson-Rubin(安德森■洛宾法):
因子得分均值为0,标准差1,彼此不相尖;
Displayfactorscorecoefficientmatrix:
选择此项将在输出窗口中显
示因子得分系数矩阵。
[7]单击FactorAnalysis对话框中的Options按钮5弹出FactorAnalysis:
Options对话框,如下图所示:
圍FactorAn创ysis:
Options
MissingValues
(?
)Excludecaseslistwise
"ExcludecasesaQifwise
OReplacewithmean
CoefficientDisplayFormat
[gportedbvsizel
Suppresssmsllcoefficients
Absolutevaluebelow:
ContinueCancelHelp
该对话框可以指定其他因子分析的结果,并选择对缺失数据的处理方法,其中:
MissingValues框用于选择缺失值处理方法:
Excludecaseslistwise:
去除所冇缺失值的个案
Excludecasespairwise:
含有缺失值的变量?
去掉该案例
Replacewithmean:
用平均值代替缺失值
CofficientDisplayFormat框用于选择载荷系数的显示格式:
Sortedbysize:
载荷系数按照数值大小排列
Suppressabsolutevalueslessthan:
不显示绝对值小于指定值的载荷量本例选中Excludecases1istwise项,单击Continue按钮返回Factor
Analysis对话框'完成设置。
单击0K,完成计算。
3结果与讨论
(1)SPSS输出的第一部分如下:
第一个表格中列出了18个原始变量的统计结果,包括平均值、标准差和分析
的个案数。
1:
刖聚3中选中Univariatedescriptives项的输出结果°
DescriptiveStatistics
Mean
Std・Deviation
AnalysisN
人均GDP(元/人)
人均全社会固定资产投资额
人均城镇固定资产投资额人均一
般预算性财政收入第三产业占
GDP比重(钓人均社会消费品零皆额人均实际利用外资额(万芙元/人)
人均城乡居民储蓄存款
农民人均纯收入
在岗职工平均工资
人才密度抬数
科技支出占财政支出比重(%)每万人拥有执业医师数虽每干人拥有病床数
22600.5211
15190.9515
10270.3642
585.171229.06126567.2566
23.5667
12061.2381
4852.5556
18110.3889
8.1518
1.3494
12.6883
2.3608
8110.55461
5289.14499
4874.14616
550.45659
9.46858
306&75463
40.31361
7363.08659
1202.52970
2374.05751
5.37552
•50193
8.88691
1.16077
18
18
18
18
18
18
18
18
18
18
18
18
18
18
(2)SPSS输出结果文件中的第二部分如下:
该表格给出的是18个原始变量的相矢矩阵
CorrelationMatrix
人均GDP
人)
(元/
人均全社会固定资
产投资额
人均城镇固定资产
投资额
Correlation人均GDP(元/人)
1.000
•503
•707
人均全社会固定资产投资额
•503
1.000
.883
人均城镇固定资产投资额
.707
.883
1.000
人均一般倾算性财政收入
•776
.571
.821
第三产业占GDP比重(%)
•567
.507
•759
人均社会消费品零售额
•737
.247
•600
人均实际利用外资额(万美元/
•454
.356
•648
人〉
人均城乡居民储蓄存款
•707
.480
•780
农民人均纯收人
.559
-.073
•130
在岗职工平均工资
•789
.325
・544
人才密度抬数
.741
•470
•737
CorrelationMatrix
人均GDP(元/人)
人均全社会固定资
产投资额
人均城镇固定资产
投资额
Correlation人均GDP(元/人)
人均全社会固定资产投资额
人均城镇固定资产投资额
人均一般倾算性财政收入第三产业占GDP比重(%)
人均社会消费品零售额
人均实际利用外资额(万美元/
人〉
人均城乡居民储蓄存款
农民人均纯收入
在岗职工平均工资
人才密度抬数
科技支出占财政支出比重(%)
每万人拥有执业医师数虽
科技支出占财政支出比重(3
每万人拥有执业医师数虽
每千人拥有病床数
1.000
•503
.707
•776
•567
•737
•454
•707
.559
•789
.741
•582
•431
•582
•434
.573
•503
1.000
.883
.571
.507
.247
.356
.480-.073
325
•470
•378
•520
.378
.520
.565
•707
.883
1.000
.821
•759
•600
•648
•780
•130
・544
•737
.486
•733
.486
•733
•761
CorrelationMatrix
人均一般预算性财
政收入
第三产业占GDP
比重偏)
人均社会消费品零
售额
Correlation人均GDP(元/人)
•776
•567
•737
人均全社会固定资产投资额
.571
.507
•247
人均城锁固定资产投资额
•821
•759
.600
人均一般倾算性财