5.2构造因子变量
因子分析中有很多确定因子变量的方法,如基于主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。
前者应用最为广泛。
主成分分析法(Principalcomponentanalysis):
该方法通过坐标变换,将原有变量作线性变化,转换为另外一组不相关的变量Zi(主成分)。
求相关系数矩阵的特征根λi(λ1,λ2,…,λp>0)和相应的标准正交的特征向量li;根据相关系数矩阵的特征根,即公共因子Zj的方差贡献(等于因子载荷矩阵L中第j列各元素的平方和),计算公共因子Zj的方差贡献率与累积贡献率。
主成分分析是在一个多维坐标轴中,将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。
新坐标第一轴与数据变化最大方向对应。
通过计算特征根(方差贡献)和方差贡献率与累积方差贡献率等指标,来判断选取公共因子的数量和公共因子(主成分)所能代表的原始变量信息。
公共因子个数的确定准则:
1)根据特征值的大小来确定,一般取大于1的特征值对应的几个公共因子/主成分。
2)根据因子的累积方差贡献率来确定,一般取累计贡献率达85-95%的特征值所对应的第一、第二、…、第m(m≤p)个主成分。
也有学者认为累积方差贡献率应在80%以上。
5.3因子变量的命名解释
因子变量的命名解释是因子分析的另一个核心问题。
经过主成分分析得到的公共因子/主成分Z1,Z2,…,Zm是对原有变量的综合。
原有变量是有物理含义的变量,对它们进行线性变换后,得到的新的综合变量的物理含义到底是什么?
在实际的应用分析中,主要通过对载荷矩阵进行分析,得到因子变量和原有变量之间的关系,从而对新的因子变量进行命名。
利用因子旋转方法能使因子变量更具有可解释性。
计算主成分载荷,构建载荷矩阵A。
计算主成分载荷,构建载荷矩阵A。
载荷矩阵A中某一行表示原有变量Xi与公共因子/因子变量的相关关系。
载荷矩阵A中某一列表示某一个公共因子/因子变量能够解释的原有变量Xi的信息量。
有时因子载荷矩阵的解释性不太好,通常需要进行因子旋转,使原有因子变量更具有可解释性。
因子旋转的主要方法:
正交旋转、斜交旋转。
正交旋转和斜交旋转是因子旋转的两类方法。
前者由于保持了坐标轴的正交性,因此使用最多。
正交旋转的方法很多,其中以方差最大化法最为常用。
方差最大正交旋转(varimaxorthogonalrotation)——基本思想:
使公共因子的相对负荷的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。
可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。
斜交旋转(obliquerotation)——因子斜交旋转后,各因子负荷发生了变化,出现了两极分化。
各因子间不再相互独立,而是彼此相关。
各因子对各变量的贡献的总和也发生了改变。
斜交旋转因为因子间的相关性而不受欢迎。
但如果总体中各因子间存在明显的相关关系则应该考虑斜交旋转。
适用于大数据集的因子分析。
无论是正交旋转还是斜交旋转,因子旋转的目的:
是使因子负荷两极分化,要么接近于0,要么接近于1。
从而使原有因子变量更具有可解释性。
5.4计算因子变量得分
因子变量确定以后,对于每一个样本数据,我们希望得到它们在不同因子上的具体数据值,即因子得分。
估计因子得分的方法主要有:
回归法、Bartlette法等。
计算因子得分应首先将因子变量表示为原始变量的线性组合。
即:
回归法,即Thomson法:
得分是由贝叶斯Bayes思想导出的,得到的因子得分是有偏的,但计算结果误差较小。
贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。
Bartlett法:
Bartlett因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得分是无偏的,但计算结果误差较大。
因子得分可用于模型诊断,也可用作进一步分析如聚类分析、回归分析等的原始资料。
关于因子得分的进一步应用将在案例介绍一节分析。
5.5结果的分析解释
此部分详细见案例分析
二、案例分析
1研究问题
石家庄18个县市14个指标因子,具体来说有人均GDP(元/人)、人均全社会固定资产投资额、人均城镇固定资产投资额、人均一般预算性财政收入、第三产业占GDP比重(%)、人均社会消费品零售额、人均实际利用外资额(万美元/人)、人均城乡居民储蓄存款、农民人均纯收入、在岗职工平均工资、人才密度指数、科技支出占财政支出比重(%)、每万人拥有执业医师数量、每千人拥有病床数。
要求根据这14项内容进行因子分析,得到维度较少的几个因子。
2实现步骤
【1】在“Analyze”菜单“DataReduction”中选择“Factor”命令,如下图所示。
【2】在弹出的下图所示的FactorAnalysis对话框中,从对话框左侧的变量列表中选择这14个变量,使之添加到Variables框中。
【3】点击“Descriptives”按钮,弹出“FactorAnalysis:
Descriptives”对话框,如图所示。
Statistics框用于选择哪些相关的统计量,其中:
Univariatedescriptives(变量描述):
输出变量均值、标准差;
Initialsolution(初始结果)
CorrelationMatrix框中提供了几种检验变量是否适合做引子分析的检验方法,其中:
Coefficients(相关系数矩阵)
Significanceleves(显著性水平)
Determinant(相关系数矩阵的行列式)
Inverse(相关系数矩阵的逆矩阵)
Reproduced(再生相关矩阵,原始相关与再生相关的差值)
Anti-image(反影像相关矩阵检验)
KMOandBartlett’stestofsphericity(KMO检验和巴特利特球形检验)
本例中,选中该对话框中所有选项,单击Continue按钮返回FactorAnalysis对话框。
【4】单击“Extraction”按钮,弹出“FactorAnalysis:
Extraction”对话框,选择因子提取方法,如下图所示:
因子提取方法在Method下拉框中选取,SPSS共提供了7种方法:
PrincipleComponentsAnalysis(主成分分析)
Unweightedleastsquares(未加权最小平方法)
Generalizedleastsquares(综合最小平方法)
Maximumlikelihood(最大似然估价法)
Principalaxisfactoring(主轴因子法)
Alphafactoring(α因子)
Imagefactoring(影像因子)
Analyze框中用于选择提取变量依据,其中:
Correlationmatrix(相关系数矩阵)
Covariancematrix(协方差矩阵)
Extract框用于指定因子个数的标准,其中:
Eigenvaluseover(大于特征值)
Numberoffactors(因子个数)
Display框用于选择输出哪些与因子提取有关的信息,其中:
Unrotatedfactorsolution(未经旋转的因子载荷矩阵)
Screenplot(特征值排列图)
MaximuninterationsforConvergence框用于指定因子分析收敛的最大迭代次数,系统默认的最大迭代次数为25。
本例选用Principalcomponents方法,选择相关系数矩阵作为提取因子变量的依据,选中Unrotatedfactorsolution和Screeplot项,输出未经过旋转的因子载荷矩阵与其特征值的碎石图;选择Eigenvaluseover项,在该选项后面可以输入1,指定提取特征值大于1的因子。
单击Continue按钮返回FactorAnalysis对话框。
【5】单击FactorAnalysis对话框中的Rotation按钮,弹出FactorAnalysis:
Rotation对话框,如下图所示:
该对话框用于选择因子载荷矩阵的旋转方法。
旋转目的是为了简化结构,以帮助我们解释因子。
SPSS默认不进行旋转(None)。
Method框用于选择因子旋转方法,其中:
None(不旋转)
Varimax(正交旋转)
DirectOblimin(直接斜交旋转)
Quanlimax(四分最大正交旋转)
Equamax(平均正交旋转)
Promax(斜交旋转)
Display框用于选择输出哪些与因子旋转有关的信息,其中:
Rotatedsolution(输出旋转后的因子载荷矩阵)
Loadingplots(输出载荷散点图)
本例选择方差极大法旋转Varimax,并选中Rotatedsolution和Loadingplot项,表示输出旋转后的因子载荷矩阵和载荷散点图,单击Continue按钮返回FactorAnalysis对话框。
【6】单击FactorAnalysis对话框中的Scores按钮,弹出FactorAnalysis:
Scores对话框,如下图所示:
该对话框用以选择对因子得分进行设置,其中:
Regression(回归法):
因子得分均值为0,采用多元相关平方;
Bartlett(巴特利法):
因子得分均值为0,采用超出变量范围各因子平方和被最小化;
Anderson-Rubin(安德森-洛宾法):
因子得分均值为0,标准差1,彼此不相关;
Displayfactorscorecoefficientmatrix:
选择此项将在输出窗口中显示因子得分系数矩阵。
【7】单击FactorAnalysis对话框中的Options按钮,弹出FactorAnalysis:
Options对话框,如下图所示:
该对话框可以指定其他因子分析的结果,并选择对缺失数据的处理方法,其中:
MissingValues框用于选择缺失值处理方法:
Excludecaseslistwise:
去除所有缺失值的个案
Excludecasespairwise:
含有缺失值的变量,去掉该案例
Replacewithmean:
用平均值代替缺失值
CofficientDisplayFormat框用于选择载荷系数的显示格式:
Sortedbysize:
载荷系数按照数值大小排列
Suppressabsolutevalueslessthan:
不显示绝对值小于指定值的载荷量
本例选中Excludecaseslistwise项,单击Continue按钮返回FactorAnalysis对话框,完成设置。
单击OK,完成计算。
3结果与讨论
(1)SPSS输出的第一部分如下:
第一个表格中列出了18个原始变量的统计结果,包括平均值、标准差和分析的个案数。
这个是步骤3中选中Univariatedescriptives项的输出结果。
DescriptiveStatistics
Mean
Std.Deviation
AnalysisN
人均GDP(元/人)
22600.5211
8410.55464
18
人均全社会固定资产投资额
15190.9515
5289.14499
18
人均城镇固定资产投资额
10270.3642
4874.14616
18
人均一般预算性财政收入
585.1712
550.45659
18
第三产业占GDP比重(%)
29.0612
9.46858
18
人均社会消费品零售额
6567.2566
3068.75463
18
人均实际利用外资额(万美元/人)
23.5667
40.31361
18
人均城乡居民储蓄存款
12061.2384
7363.08659
18
农民人均纯收入
4852.5556
1202.52970
18
在岗职工平均工资
18110.3889
2374.05754
18
人才密度指数
8.1548
5.37552
18
科技支出占财政支出比重(%)
1.3494
.50193
18
每万人拥有执业医师数量
12.6883
8.88691
18
每千人拥有病床数
2.3608
1.16077
18
(2)SPSS输出结果文件中的第二部分如下:
该表格给出的是18个原始变量的相关矩阵
CorrelationMatrix
人均GDP(元/人)
人均全社会固定资产投资额
人均城镇固定资产投资额
Correlation
人均GDP(元/人)
1.000
.503
.707
1、荣晓华、孙喜林《消费者行为学》东北财经大学出版社2003年2月人均全社会固定资产投资额
(三)DIY手工艺品的“自助化”.503
手工艺制品是我国一种传统文化的象征,它品种多样,方式新颖,制作简单,深受广大学生朋友的喜欢。
当今大学生的消费行为表现在追求新颖,追求时尚。
追求个性,表现自我的消费趋向:
购买行为有较强的感情色彩,比起男生热衷于的网络游戏,极限运动,手工艺制品更得女生的喜欢。
1.000
“漂亮女生”号称全国连锁店,相信他们有统一的进货渠道。
店内到处贴着“10元以下任选”,价格便宜到令人心动。
但是转念一想,发夹2.8元,发圈4.8元,皮夹子9.8元,好像和平日讨价还价杀来的心理价位也差不多,只不过把一只20元的发夹还到5元实在辛苦,现在明码标价倒也省心省力。
.883
据介绍,经常光顾“碧芝”的都是些希望得到世界上“独一无二”饰品的年轻人,他们在琳琅满目的货架上挑选,然后亲手串连,他们就是偏爱这种DIY的方式,完全自助。
人均城镇固定资产投资额
.707
2、Google网站www。
people。
com。
cn.883
(1)位置的优越性1.000
人均一般预算性财政收入
.776
2003年,上海市总人口达到1464万人,上海是全国第一个出现人口负增长的地区。
.571
.821
第三产业占GDP比重(%)
.567
.507
.759
人均社会消费品零售额
.737
.247
.600
人均实际利用外资额(万美元/人)
.454
.356
.648
人均城乡居民储蓄存款
.707
.480
.780
农民人均纯收入
.559
-.073
.130
在岗职工平均工资
.789
.325
.544
人才密度指数
.741
.470
.737
科技支出占财政支出比重(%)
.582
.378
.486
每万人拥有执业医师数量
.434
.520
.733
每千人拥有病床数
.573
.565
.761
CorrelationMatrix
人均一般预算性财政收入
第三产业占GDP比重(%)
人均社会消费品零售额
Correlation
人均GDP(元/人)
.776
.567
.737
人均全社会固定资产投资额
.571
.507
.247
人均城镇固定资产投资额
.821
.759
.600
人均一般预算性财政收入
1.000
.830
.693
第三产业占GDP比重(%)
.830
1.000
.646
人均社会消费品零售额
.693
.646
1.000
人均实际利用外资额(万美元/人)
.797
.822
.616
人均城乡居民储蓄存款
.907
.882
.839
农民人均纯收入
.132
.278
.516
在岗职工平均工资
.736
.548
.609
人才密度指数
.795
.745
.812
科技支出占财政支出比重(%)
.729
.575
.490
每万人拥有执业医师数量
.818
.844
.627
每千人拥有病床数
.911
.806
.629
CorrelationMatrix
人均实际利用外资额(万美元/人)
人均城乡居民储蓄存款
农民人均纯收入
Correlation
人均GDP(元/人)
.454
.707
.559
人均全社会固定资产投资额
.356
.480
-.073
人均城镇固定资产投资额
.648
.780
.130
人均一般预算性财政收入
.797
.907
.132
第三产业占GDP比重(%)
.822
.882
.278
人均社会消费品零售额
.616
.839
.516
人均实际利用外资额(万美元/人)
1.000
.792
-.007
人均城乡居民储蓄存款
.792
1.000
.264
农民人均纯收入
-.007
.264
1.000
在岗职工平均工资
.388
.647
.411
人才密度指数
.752
.868
.315
科技支出占财政支出比重(%)
.570
.626
.210
每万人拥有执业医师数量
.795
.885
-.075
每千人拥有病床数
.784
.866
.000
CorrelationMatrix
在岗职工平均工资
人才密度指数
科技支出占财政支出比重(%)
Correlation
人均GDP(元/人)
.789
.741
.582
人均全社会固定资产投资额
.325
.470
.378
人均城镇固定资产投资额
.544
.737
.486
人均一般预算性财政收入
.736
.795
.729
第三产业占GDP比重(%)
.548
.745
.575
人均社会消费品零售额
.609
.81