毕业设计因子分析.docx
《毕业设计因子分析.docx》由会员分享,可在线阅读,更多相关《毕业设计因子分析.docx(35页珍藏版)》请在冰豆网上搜索。
毕业设计因子分析
第八章因子分析
§8.1什么是因子分析及基本思想
1904年CharlesSpearman发表一篇著名论文《对智力测验得分进行统计分析》视为因子分析的起点。
因子分析的形成和发展有相当长的历史,最早用以研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。
后来由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。
目前这一方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。
1什么是因子分析
因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。
例如,某公司对100名招聘人员的知识和能力进行测试,出了50道题的试卷,其内容
包括的面较广,但总的来讲可归纳为六个方面:
语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子,显然这里所说的因子不同于回归分析中因素,因为前者是比较抽象的一种概念,而后者有着极为明确的实际意义,如人口密度、工业总产值、产量等。
假设100人测试的分数Xi,i1,,100可以用上述六个因子表示成线性函数:
Xiai1F1ai2F2ai6F6ii1,,100
其中Fi,,F6表示六个因子,它对所有Xi是共有的因子,通常称为公共因子,它们的系数
i是第i个应试人
~N(0,i2),仔
Fi,,F6的值未知的,
aii,ai6称为因子载荷,它表示第i个应试人员在六个因子方面的能力。
的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定细观察这个模型与回归模型在形式上有些相似,实质很不同。
这里的并且有关参数的统计意义更不一样。
因子分析的任务,首先是估计出
后将这些抽象因子Fi赋予有实际背景和因子之间的相互关系,行分类的目的。
因子分析的内容十分丰富,本章仅介绍因子分析常用的两种类型:
R型因子分析(对变
量作因子分析)和Q型因子分析(对样品作因子分析)。
2基本思想因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)
内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。
然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。
从全部计算过程来看作R型因子分析与作Q型因子分析都是一样的,只不过出发点不
同,R型从相关系数矩阵出发,Q型从相似系数阵出发都是对同一批观测数据,可以根据其
所要求的目的决定哪一类型的因子分析。
§8.2因子分析的数学模型
1数学模型(正交因子模型)
R型因子分析数学模型
Xp
apiap2apmFmp
简记为
XAF
(pi)(pm)(mi)(pi)
且满足:
i)
mp
ii)
Cov(F,)0
即F和
是不相关的;
i
0
iii)
i
D(F)0i
i
Im即Fi-Fm不相关且方差皆为1。
2
1
其中X(Xi,Xp)是可实测的p个指标所构成p维随机向量,F(Fi,,Fm)是
不可观测的向量,F称为X的公共因子或潜因子,即前面所说的综合变量,可以把它们理解为在高维空间中的互相垂直的m个坐标轴;aj称为因子载荷是第i个变量在第j个公共因子
投影,矩阵A称为因子载荷矩阵;角阵,中包括了随机误差。
由上述模型满足的条件可知:
称为X的特殊因子,通常理论上要求的协方差阵是对
F1,F2,,Fm是不相关的。
若F1,F2,,Fm相关时,则
D(F)就不是对角阵,这时的模型称为斜交因子模型,本章将不讨论这种模型。
类似地,Q型因子分析数学模型为:
一的,若为任一个mm阶正交阵,则因子模型XAF
仍满足约束条件,即D(F)D(F)lm,Cov(F,)Cov(F,)0,所以F也是
公共因子,A也是因子载荷阵。
因子载荷这个不唯一性,从表面上看是不利的,但后面将会看到当因子载荷阵A的结构不够简化时,可对A实行变换以达到简化目的,使新的因子更具有鲜明的实际意义。
从因子分析的数学模型上看,它与多变量回归分析也有类似之处,但本质的区别是因子分析模型作为“自变量”的F是不可观测的。
2因子模型中公共因子、因子载荷和变量共同度的统计意义为了便于对因子分析计算结果做解释,将因子分析数学模型中各个量的统计意义加以说明是十分必要的。
假定因子模型中,各个变量以及公共因子、特殊因子都已经是标准化(均值为0,方差
为1)的变量。
(1)因子戴荷的统计意义
已知模型:
Xi
ai1F1ai2F2
aijFj
aimFmi
两端后乘
Fj得:
XiFjai1
F1Fjai2F2Fj
aijF1Fj
aimFmFjiFj
于是
E(XiFj)
ai1E(F1Fj)
ai2E(F2Fj)
aijE(FjFj)
aimE(FmFj)E(iFj)
由于在标准化下有:
E(F)0,E()0,Var(i)1,E(Xi)0,VarXi1
rFiFj,E(iFj)riFj
因此E(XiFj)rXiFj,E(FiFj)
所以上式可写成:
所以相关系数为0)
为了说明它的统计意义,将下式两边求方差,即
由于Xi已标准化了,所以有
hi2
1hi2
Xi的总方差所作的贡献,hi2越接近1,说明该变量的几乎全部原始信息都被所选取的公共因
子说明了,如hi20.97则说明Xi的97%的信息被m个公共因子说明了,也就是说由原始变
Sja2j1,,p
i1
称S为公共因子Fj对X的贡献,即Sj表示同一公共因子Fj对诸变量所提供的方差贡献之总和,它是衡量公共因子相对重要性指标。
§8.3因子载荷阵的估计方法
要建立某实际问题的因子模型,关键是要根据样本数据矩阵估计因子载荷矩阵A。
对A
的估计方法有很多,这里仅介绍使用较为普遍的主成分法。
设随机向量X(Xi,,Xp)的协差阵为,12p0为的特征根,
因为这时因子模型为:
XAF,其中D(F)lm
所以D(X)D(AF)AD(F)AAA即AA,对照的分解式,则因子载荷阵A
的j列应该是—jej,也就是说除常数.~夕卜,第j列因子载荷恰是第j个主成分的系数ej,故称为主成分法。
上边给出的表达式是精确的,但实际应用时总是希望公共因子个数小于变量的个数即
m
AA
S与相关阵R相同,仍
当未知,可用样本协差阵S去代替,要经过标准化处理,则
然可作上面类似的表示。
般设?
?
p为样本相关阵R的特征根,相应的标准正交化特征向量为
%,,Sp,设mp,则因子载荷阵的估计A(a)即
§8.4因子旋转
建立因子分析数学模型的目的不仅要找出公共因子以及对变量进行分组,更重要的是要
知道每个公共因子的意义,以便对实际问题作出科学的分析,如果每个公共因子的涵义不清,
不便于进行实际背景的解释,这时根据因子载荷阵的不唯一性,可知因子载荷实际旋转即用
一个正交阵右乘A(由线性代数知道一个正交变换,对应坐标系的一次旋转)使旋转后的因
子载荷阵结构简化,便于对公共因子进行解释。
所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上的载荷比较小,至多是中等大小。
这种变换因子
载荷阵的方法称为因子轴的旋转,而旋转的方法有多种,如正交旋转,斜交旋轴等,本节只
介绍常用的方差最大正交旋转法。
首先考虑m=2的情形。
al1al2aplap2
2
对A按行计算共同度hj2a2,i1,,p。
考虑到各个变量Xi的共同度之间的差异所
ji
造成的不平衡,需对A中的元素进行规格化处理,即每行的元素用每行的共同度除之。
然后对规格化后的矩阵,为书写方便仍记为A,施行方差最大正交旋转。
设正交阵T
COSsin
sincos
记B=AT
a〔1cos
a12sin
a11sin
a〔2cos
b11b12
ap1cos
ap2sin
ap1sin
ap2cos
—bp1bp2
这样做的目的是使因子载荷阵A的结构简化,换句话说,使载荷阵的每一列元素的平
方值向0或1两极分化或者说公共因子的贡献越分散越好,这实际上希望将变量X,,,Xp
分成两部分,一部分主要与第一公共因子有关,另一部分与第二公共因子有关,因此,要求
(bi,,bpi),(bi2,,b:
2)两组数据的方差V和V2要尽可能地大。
为此,正交旋的角度必
须满足使旋转后所得到因子载荷阵的总方差
V5、达到最大值,即
2,p,2
VVV2
(bi2)2(bj)2达到最大值(这里V的表达式形式类似一
j1Pi1Pi1
根据求极值原理,先求V对的导数。
dVd
D2ABp
C(A2B2)p
(ai1..hi)(ai2hi)
P
Vi
Vi2),D
i1
分子取值符号
分母取值符号
A取值范围
取值范围
+
+
0〜
0〜-—
2
8
+
2
84
2
48
—
+
0
0
2
8
p
2iVi
i1
p
C(
i1
根据tg4的分式的分子和分母取值的正负号来确定角的取值范围如下表:
如果公共因子有m个,则需逐次对每两个公共因子进行上述旋转,也就是说对每两个
因子所决定的因子面FkFj(k1,,(m1);jk1,,m)正交旋转一个角度©,每次的
转角kj,必须满足使旋转后所得到的因子载荷阵的总方差达到最大值,即
311
312
a1m
bn
b12
4m
321
322
32mTkj
b21
b22
b2m
A
B
pm
pm
3p1
3p2
3pm
bp1
bp2
bpm
1
没有标明的元素均为0。
A经过Tkj旋转(变换)后,矩阵BATkj,其元素为
bikaikcosaijsin
p
bijaijcosaijcosi1,
bnaH(lk,j)
其中旋转角度仍按下面公式求得:
D2ABp
C(A2B2)p
完毕,如果循环完毕得出的因子载荷阵还没有达到目的,则可以继续进行第二枪次配对
B⑴AT12Tim
T(m1)mATkjAC1
k1jk1—
即对A施行正交变换C1而得B
(1),并计算载荷阵B
(1)的方差记为V
(1),在第一轮循环完毕的
基础上,从B
(1)出发进行第二轮旋转循环,旋转完毕得B
(2),则B
(2)可写:
m1m
B
(2)B
(1)Tkj_B
(1)C2AC1C2
k1jk1—
从B
(2)算出V⑵。
显然
m1m
B(3)B
(2)Tkj_B
(2)C3AC1C2C3(
k1jk1—
从B(3)算出V(3)。
如此不断重复旋转循环可得V值的一个非降序列:
V
(1)V
(2)V(3)
因为因子载荷的绝对值不大于1,故这个序列是有上界的,于是有极限记为V,即为V的最
大值。
因此只要循环次数k充分大,就有
V(k)V
为所要求的精度。
在实际应用中,经过若干次旋转之后,若相对方差改变不大,则停止旋转,最后得
k
B(k)ACiAC
i1
即为旋转后的因子载荷矩阵。
§8.5因子得分
因子分析的数学模型是将变量(或样品)表示为公共因子的线性组合:
Xiai1F1aimFmi1,,p
由于公共因子能反映原始变量的相关关系,用公共因子代表原始变量时,有时更有利于描述
研究对象的特征,因而往往需要反过来将公共因子表示为变量(或样品)的线性组合,即
FjjXjpXpj1,,m
称上式为因子得分的函数。
用它来计算每个样品的公共因子得分。
比如m2,则将每个样
品的p个变量值代入上式即可算出每个样品的因子得分F1和F2,这样就可以在二维平面上
作出因子得分的散点图,进而对样品进行分类或作为下一步分析原始数据时对问题做更深入的研究。
由于因子得分函数中方程的个数m小于变量的个数p,因此不能精确计算出因子得分,
只能对因子得分进行估计。
估计因子得分有很多方法如加权最小二乘法、回归法等。
下面仅介绍回归法,它是1939
年由Thomson提出来的,所以又称为汤姆森回归法。
Thomson假设公共因子可以对p个变量作回归,Fj(j1,,m)对变量X“,Xp的回归方程为
F?
jbjobjMibjpXpj1,,m
由于假设变量及公共因子都已经标准化了,所以bj0Fjbj1XibipXpo。
下面
先求这些回归系数,然后给出因子得分的计算公式。
由于因子得分Fj的值是待估的,我们仅知道利用样本值可得因子载荷阵A(aij)pm。
由因子载荷的意义知:
aij
E(XiFj)
EXi(bj1X1
bjpXp)
bj1E(Xi
X1)
bjpE(Xi
Xp)
bj1ri1
bjprip
i1,
p
即
bj1r11
bj2r12
bjpr1p
a1j
j1,
m
bj1rp1
bj2「p2
bjprpp
apj
Rbj
aj
j1,
m
其中
bj
(bj1,bj2
,bjp)
aj
(a1j,a2j
,bpj)
因此
bj
R1aj
j
1,,m
记
b|b11
b1p
B_
bmbm1
bmp
则
其中X(Xi,,Xp)
这就是估计因子得分的计算公式。
§8.6计算步骤及实例
设原始数据资料如下表:
样品
____变量
X1
X2-
Xp
1
X11
X12-
X1p
2
X21
X22-
-X2p
n
Xn1
Xn2-
Xnp
第一步将原始数据标准化,为书写方便仍记为Xjj。
第二步建立变量的相关系数阵R(5)卩p
第三步求R的特征根及相应的单位特征向量,分别记为
Ui,U2,,Up记
U(Ui,U2,,Up)
写出因子载荷阵:
aima2m
Xi
X2
X3
X4
X5
X6
X7
X8
Xi
i.ooo
0.267
0.951
0.191
0.617
-0.274
-0.264
0.874
X2
0.267
1.000
0.426
0.718
-0.151
-0.234
-0.593
0.363
X3
0.95i
0.426
1.000
0.400
0.431
-0.282
-0.359
0.792
X4
0.191
0.718
0.400
1.000
-0.356
-0.134
-0.539
0.104
X5
0.6i7
-0.151
0.431
-0.356
1.000
-0.255
0.022
0.659
X6
-0.274
-0.234
-0.282
-0.134
-0.255
1.000
0.760
-0.126
X7
-0.264
-0.593
-0.359
-0.539
0.022
0.760
1.000
-0.192
X8
0.874
0.363
0.792
0.104
0.659
-0.126
-0.192
1.000
Ro
第四步
第五步
例1将上一章例子对全国30个省市自治区的经济发展八项指标作因子分析。
首先对原始数据标准化,以消除量纲的影响;
第二步建立指标间的相关系数阵
对A放行方差最大正交旋转。
计算因子得分。
第三步求R的特征值和特征向量。
序号
特征值
方差贡献率%
累积贡献率%
1
3.755
46.943
46.943
2
2.195
27.443
74.386
3
1.214
15.178
89.564
4
0.403
5.033
94.596
5
0.213
2.660
97.256
6
0.139
1.737
98.993
7
6.594E-02
0.824
99.817
81.462E-02
0.183
100.00
田于刖三个特征值的累计贝献率已达89.564%。
所以取刖三个特征值所对应的特征冋量
如下:
第一特征向量
第二特征向量
第三特征向量
U1
U2
U3
0.470641
0.107995
0.19241
0.456708
0.256512
0.109819
0.424712
0.287536
0.19241
-0.31944
0.400931
0.397525
0.312729
0.40431
0.24505
0.250802
0.498801
-0.24777
0.240481
-0.48868
0.332179
-0.26267
0.167392
0.723351
第四步建立因子载荷阵。
j因子
Component
指标
1
2
3
X1
0.885
0.383
0.121
X2
0.606
-0.599
0.270
X3
0.912
0.160
0.212
X4
0.466
-0.724
0.366
X5
0.486
0.739
-0.273
X6
-0.509
0.248
0.797
X7
-0.619
0.594
0.438
X8
0.823
0.426
0.212
第五步对因子载荷阵实行方差最大旋转,旋转后的矩阵如下:
正交因子表
因子
Component
指标
1
2
3
X1
0.955
0.125
-0.132
X2
0.217
0.841
-0.212
X3
0.817
0.352
-0.138
X4
5.102E-02
0.927
-0.114
X5
0.752
-0.505
-0.190
X6
-0.136
-8.325E-03
0.968
X7
-0.102
-0.496
0.820
X8
0.944
0.111
-1.465E-02
以上表可见,每个因子只有少数几个指标的因子载荷较大,因此可根据上表进行分类,将8个指标按高载荷分成三类,列于下表:
高载荷指标
意义
1
X1:
GDP
总量因子
X3
X8
固定资产投资
工业总产值
2
X2
X4
X5
居民消费水平职工平均工资货物周转量
消费因子
3
X6
X7
居民消费价格指数
商品零售价格指数
价格因子
第一个因子在指标Xi、X2、X有较大的载荷,这些是从GDP、固定资产投资、工业
总产值三个方面反映经济发展状况的,因此命名为总量因子。
第二个因子在指标X2、X4、X5有较大的载荷,这些是从居民消费水平,职工平均工资、货物周转量这三方面反映经济发展状况的,因此命名为消费因子。
第三个因子在指标X6、X7有较大的载荷,因此命名为价格因子。
例2利用1995年的数据对我国社会发展状况进行综合考察。
原始数据如下:
地区
人均GDP
(元)
Xi
新增固定资产(亿元)
X2
城镇居民人均年可支配收入(元)
X3
农村居民冢庭人均纯收
入(元)
X4
高等学校数
(所)
X5
卫生机构数(个)
X6
北京
10265
30.81
6235
3223
65
4995
天津
8164
49.13
4929
2406
21
3182
河北
3376
77.76
3921
1668
47
10266
山西
2819
33.97
3305
1206
26
5922
内蒙
3013
54.51
2863
1208
19
4915
辽宁
6103
124.02
3706
1756
61
6719
吉林
3703
28.65
3174
1609
43
3891
黑龙江
4427
48.51
3375
1766
38
7637
上海
15204
128.93
7191
4245
45
5288
江苏
5785
101.09
4634
2456
67
12039
浙江
6149
41.88
6221
2966
37
8721
安徽
2521
55.74
3795
1302
35
6593
福建
5386
18.35
4506
2048
30
4537
江西
2376
26.28
3376
1537
31
5423
山东
4473
102.54
4264
1715
48
10463
河南
2475
71.36