5.2构造因子变量
因子分析中有很多确定因子变量的方法,如基于主成分模型的主成分分析
和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。
前者应用最为广泛。
主成分分析法(PrincipalcomponentanalysiS:
该方法通过坐标变换,将原有变量作线性变化,转换为另外一组不相关的
变量Zi(主成分)。
求相关系数矩阵的特征根入i(昭,疋厂;巾>0)和相应的标准正交的特征向量li;根据相关系数矩阵的特征根,即公共因子Zj的方差贡献(等于因子载荷矩阵L中第j列各元素的平方和),计算公共因子Zj的方差贡献率与累积贡献率。
(i1,2,,P)
k
k1
主成分分析是在一个多维坐标轴中,将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。
新坐标第一轴与数据变化最大方向对应。
通过计算特征根(方差贡献)和方差贡献率与累积方差贡献率等指标,来判断选取公共因子的数量和公共因子(主成分)所能代表的原始变量信息。
公共因子个数的确定准则:
1)根据特征值的大小来确定,一般取大于1的
特征值对应的几个公共因子/主成分。
2)根据因子的累积方差贡献率来确定,一般取累计贡献率达85-95%的特征值所对应的第一、第二、…、第m(mWp)个主成分。
也有学者认为累积方差贡献率应在80%以上。
5.3因子变量的命名解释
因子变量的命名解释是因子分析的另一个核心问题。
经过主成分分析得到
的公共因子/主成分Z1,Z2,「Zm是对原有变量的综合。
原有变量是有物理含义
的变量,对它们进行线性变换后,得到的新的综合变量的物理含义到底是什么?
在实际的应用分析中,主要通过对载荷矩阵进行分析,得到因子变量和原
有变量之间的关系,从而对新的因子变量进行命名。
利用因子旋转方法能使因子变量更具有可解释性。
计算主成分载荷,构建载荷矩阵A
aijVilij(i,j1,2,P)
a11
a12.
a1m
s1
梟..2..
.hm」m
a21
A=
a21.
..a2m
121..1
12V2..
.Lm[m
ap1
ap1.
..apm
1p1\1
1p12..
1/
pmtm
计算主成分载荷,构建载荷矩阵A。
载荷矩阵A中某一行表示原有变量Xi与公共因子/因子变量的相关关系。
载荷矩阵A中某一列表示某一个公共因子/因子变量能够解释的原有变量Xi的信息量。
有时因子载荷矩阵的解释性不太好,通常需要进行因子旋转,使原有因子变量更具有可解释性。
因子旋转的主要方法:
正交旋转、斜交旋转。
anai2...aim
a2ia2i...a2m
A=
■■■■■■■■■■■■
apiapi...apm
正交旋转和斜交旋转是因子旋转的两类方法。
前者由于保持了坐标轴的正交性,因此使用最多。
正交旋转的方法很多,其中以方差最大化法最为常用。
方差最大正交旋转(varimaxorthogonalrotation)基本思想:
使公共因
子的相对负荷的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。
可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。
斜交旋转(obliquerotation)因子斜交旋转后,各因子负荷发生了变化,出现了两极分化。
各因子间不再相互独立,而是彼此相关。
各因子对各变量的贡献的总和也发生了改变。
斜交旋转因为因子间的相关性而不受欢迎。
但如果总体中各因子间存在明显的相关关系则应该考虑斜交旋转。
适用于大数据集的因子分析。
无论是正交旋转还是斜交旋转,因子旋转的目的:
是使因子负荷两极分
化,要么接近于0,要么接近于1。
从而使原有因子变量更具有可解释性。
5.4计算因子变量得分
因子变量确定以后,对于每一个样本数据,我们希望得到它们在不同因子
上的具体数据值,即因子得分。
估计因子得分的方法主要有:
回归法、Bartlette
法等。
计算因子得分应首先将因子变量表示为原始变量的线性组合。
即:
回归法,即Thomson法:
得分是由贝叶斯Bayes思想导出的,得到的因子得分是有偏的,但计算结果误差较小。
贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。
Bartlett法:
Bartlett因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得分是无偏的,但计算结果误差较大。
因子得分可用于模型诊断,也可用作进一步分析如聚类分析、回归分析等的原始资料。
关于因子得分的进一步应用将在案例介绍一节分析。
5.5结果的分析解释
此部分详细见案例分析
二、案例分析
1研究问题
石家庄18个县市14个指标因子,具体来说有人均GDP(元/人)、人均全社会固定资产投资额、人均城镇固定资产投资额、人均一般预算性财政收入、第三产业占GDP比重(%)、人均社会消费品零售额、人均实际利用外资额(万美元/人)、人均城乡居民储蓄存款、农民人均纯收入、在岗职工平均工资、人才密度指数、科技支出占财政支出比重(%)、每万人拥有执业医师数量、每千人拥有病床数。
要求根据这14项内容进行因子分析,得到维度较少的几个因子。
2实现步骤
【1】在Analyze”菜单DataReduction”中选择Factor”命令,如下图所示
2"Untitled^[DataSetl]-SPSSStatisticsDataEditor
AralyzsGraphsLItililiesAdtl-orisVWido^Help
Reports
1:
IW
fflE
指折
人均GD
1
2
3
高邑县
4
5
平山县
6
嫌樺昙
7
3
9
无桂县
10
晋州甫
11
藝城市
12
赞呈县
13
亲城县
15
1G
元氏县
17
趣县
19
19
Fite国itViewRat日[ransfom
DcSGlipllYCStotiiticE
RFMAnalysis
CompareMaars
GeneralLinearModel
GeneralizedLinearModels
MixedModels
Correlate
Regression
Lcglriear
NeuralNetvvorhs
Classify
DtnerisionReduction
人均城缜固定矗声役
人均一般额算性叶政收入
24721.65
2557.7:
10153.33
549.7[
7398.94
332玄
9696.81
52951
5S84.81
92GB1
530989
342©
17143.62
1114.5:
3731.03
350.9(
Factor...
103.3(
58S.2J
Forecasting
b
TBBQ『
e.4i
Survival
k
1535753
726.H
MultipleRtsponse
卜
11560.90
529.3E
h/tssingValueAnalxsis...
7437.92
23Z
MultiplemiputAion
9394.12
X4.21
ComplexSamptes
669929
214.9:
QualityControl
13194.04
2805J
ROCCurve.,r
Scale
NlonparametricTests
E
►CorrespondencsAnalysis..
►上iOptimalScailing...
【2】在弹出的下图所示的FactorAnalysis对话框中,从对话框左侧的变量列表
中选择这14个变量,使之添加到Variables框中
FactorAnalysis
@AftGDPt元从)[人…
A人均墟越固定協严…
:
少人均一肌帀蠶性朋…
—
茨棄兰产业占GDP出更..炉人西礼会简播曲零..
3人购实歸利用外金…
yariaLles:
EelerfionVsrisNe.
【3】点击Descriptives”按钮,弹出FactorAnalysis:
Descriptives”对话框,如图
所示。
-Statistics
2]Lfcnivariatecfescr^itiveE
[y]Initialsolution
CorrelationMatrix
Inverse
Reproduced
]Anti-lmflge
回Coefficients
]^gnlftcancelevels
]Deicrmimanl
叼1恫0&rd吕日斤规飞怕stofsphaicity
ContinueCancelHe|a
Statistics框用于选择哪些相关的统计量,其中:
Univariatedescriptives(变量描述):
输出变量均值、标准差;
Initialsolution(初始结果)
CorrelationMatrix框中提供了几种检验变量是否适合做引子分析的检验方法,
其中:
Coefficients(相关系数矩阵)
Significaneeleves(显著性水平)
Determinant(相关系数矩阵的行列式)
Inverse(相关系数矩阵的逆矩阵)
Reproduced(再生相关矩阵,原始相关与再生相关的差值)
Anti-image(反影像相关矩阵检验)
KMOandBartlett'testofsphericity(KMO检验和巴特利特球形检验)
本例中,选中该对话框中所有选项,单击Continue按钮返回Factor
Analysis对话框。
【4】单击Extraction”按钮,弹出FactorAnalysis:
Extraction”对话框,选择因子
提取方法,如下图所示:
Method:
Analyze
■-Corr
Principalcomponents寸
ispla^
VUhrotstedfactorsolution
£preeplot
Principalcomponents
Unweightedleastsquares&flner^liz«dleastsquaresMaximijmlikelihoodPrincipalaxisfactoringAlphafactoring
Esfract
Imagefactoring
IL
』Basedontigenvaiue
Eigenvaluesyeaterthan:
Fixedruinberoffactors
Factorstoextract:
MaximumIterationsforCflnvergtnGe:
25
因子提取方法在Method下拉框中选取,SPSS共提供了7种方法:
PrincipleComponentsAnalysis(主成分分析)
Unweightedleastsquares(未加权最小平方法)
Generalizedleastsquares(综合最小平方法)
Maximumlikelihood(最大似然估价法)
Principalaxisfactoring(主轴因子法)
Alphafactoring(a因子)
Imagefactoring(影像因子)
Analyze框中用于选择提取变量依据,其中:
Correlationmatrix(相关系数矩阵)
Covarianeematrix(协方差矩阵)
Extract框用于指定因子个数的标准,其中:
Eigenvaluseover(大于特征值)
Numberoffactors(因子个数)
Display框用于选择输出哪些与因子提取有关的信息,其中:
Unrotatedfactorsolution(未经旋转的因子载荷矩阵)
Screenplot(特征值排列图)
MaximuninterationsforConvergenee框用于指定因子分析收敛的最大迭代次数,
系统默认的最大迭代次数为25。
本例选用Principalcomponents方法,选择相关系数矩阵作为提取因子变量的依
据,选中Unrotatedfactorsolution和Screeplot项,输出未经过旋转的因子载荷矩阵与其特征值的碎石图;选择Eigenvaluseover项,在该选项后面可以输入
1,指定提取特征值大于1的因子。
单击Continue按钮返回FactorAnalysis对话框。
【5】单击FactorAnalysis对话框中的Rotation按钮,弹出FactorAnalysis:
Rotation对话框,如下图所示:
该对话框用于选择因子载荷矩阵的旋转方法。
旋转目的是为了简化结构,以帮助我们解释因子。
SPSS默认不进行旋转(None)
Method框用于选择因子旋转方法,其中:
None(不旋转)
Varimax(正交旋转)
DirectOblimin(直接斜交旋转)
Quanlimax(四分最大正交旋转)
Equamax(平均正交旋转)
Promax(斜交旋转)
Display框用于选择输出哪些与因子旋转有关的信息,其中:
Rotatedsolution(输出旋转后的因子载荷矩阵)
Loadingplots(输出载荷散点图)
本例选择方差极大法旋转Varimax,并选中Rotatedsolution和Loadingplot
项,表示输出旋转后的因子载荷矩阵和载荷散点图,单击Continue按钮返回
FactorAnalysis对话框。
【6】单击FactorAnalysis对话框中的Scores按钮,弹出FactorAnalysis:
Scores
对话框,如下图所示:
Fjctorlysit!
FactorScore-s
回S.aveV5*ri^bles
-Method
*'Regression
■B^rtleli
Anclersor-Rubin
叼display怕ctnr酣口帕⑷匕卄iclentmatrix
ContinueCancelHe^
该对话框用以选择对因子得分进行设置,其中:
Regression(回归法):
因子得分均值为0,采用多元相关平方;
Bartlett(巴特利法):
因子得分均值为0,采用超出变量范围各因子平方
和被最小化;
Anderson-Rubin(安德森-洛宾法):
因子得分均值为0,标准差1,彼此不相关;
Displayfactorscorecoefficientmatrix:
选择此项将在输出窗口中显示因子得
分系数矩阵。
【7】单击FactorAnalysis对话框中的Options按钮,弹出FactorAnalysis:
Options对话框,如下图所示:
该对话框可以指定其他因子分析的结果,并选择对缺失数据的处理方法,其中:
MissingValues框用于选择缺失值处理方法:
Excludecaseslistwise去除所有缺失值的个案
Excludecasespairwise含有缺失值的变量,去掉该案例
Replacewithmean用平均值代替缺失值
CofficientDisplayFormat框用于选择载荷系数的显示格式:
Sortedbysize载荷系数按照数值大小排列
Suppressabsolutevalueslessthan不显示绝对值小于指定值的载荷量
本例选中Excludecaseslistwise项,单击Continue按钮返回FactorAnalysis对话框,完成设置。
单击OK,完成计算。
3结果与讨论
(1)SPSS输出的第一部分如下:
第一个表格中列出了18个原始变量的统计结果,包括平均值、标准差和分
析的个案数。
这个是步骤3中选中Univariatedescriptives项的输出结果。
DescriptiveStatistics
Mean
Std.Deviation
AnalysisN
人均GDP(元/人)
人均全社会固定资产投资额人均城镇固定资产投资额人均一般预算性财政收入第三产业占GDP比重(%)人均社会消费品零售额人均实际利用外资额(万美元
/人)
人均城乡居民储蓄存款
农民人均纯收入
在岗职工平均工资
人才密度指数
科技支岀占财政支岀比重
(%)
每万人拥有执业医师数量
每千人拥有病床数
22600.5211
15190.9515
10270.36