因子分析论文.docx
《因子分析论文.docx》由会员分享,可在线阅读,更多相关《因子分析论文.docx(24页珍藏版)》请在冰豆网上搜索。
因子分析论文
关于2000年美国各州犯罪数量的因子分析
【摘要】本文采用因子分析方法对美国各州的犯罪情况州际差异及结构差异进行了探讨,研究表明人口与犯罪数量有密切相关,其主要为因贪图财色而进行犯罪,人口越多,犯罪数量越多,尤其是因财物而引起的抢劫、入室行窃、盗窃、自盗数量越多,而大部分的攻击性犯罪发生在美国南部,可能是由于历史原因。
【关键字】美国各州犯罪数量因子提取正交旋转因子分析因子得分
【正文】
一、因子分析原理
因子分析是一种将多变量化简的多元统计方法,它可以看作是主成份分析的推广。
因子分析的目的是分解原始变量,从中归纳出潜在的“类别”,相关性较强的变量归为一类,不同类间的变量的相关性则较低。
每类变量代表了一个“共同因子”,即一种内在结构(联系)。
因子分析就是寻找这种内在结构(联系)的方法。
从全部计算过程来看作R型因子分析与作Q型因子分析都是一样的,只不过出发点不同,R型从相关系数矩阵出发,Q型从相似系数阵出发都是对同一批观测数据,可以根据其所要求的目的决定用哪一类型的因子分析。
(一)模型
主要模型形式:
(2)矩阵型式
(二)相关概念解释
1、因子载荷
aij称为因子载荷(实际上是权数)。
因子载荷的统计意义:
就是第i个变量与第j个公共因子的相关系数,即表示变量xi依赖于Fj的份量(比重),心理学家将它称为载荷。
2、变量共同度
二、主要计算方法及步骤
(一)方法说明
1、因子载荷矩阵估计方法
因子载荷的求解方法主要有主成分法,主轴因子旋转法和极大似然法。
主成分法指在进行因子分析之前先对数据进行主成分分析,把前几个主成分作为未旋转的公因子,但是此种方法得到的特殊因子间并不相互独立,当变量的共同度较大时,特殊因子所起的作用较小,它们之间的相关性可以忽略。
主轴因子法与主成分分析方法类似,都是都分析矩阵的结构入手,主轴因子法的不同之处在于,其假定m个公因子只能解释原始变量的部分方差,利用变量共同度来代替相关矩阵中对角元素1,并以新矩阵为出发点求解特征值和特征向量。
极大似然估计法假定公因子与特殊因子服从正态分布,通过构造似然函数求因子载荷和特殊因子方差的极大似然估计。
2、因子旋转
因子分析的目的不仅是找出主因子,更重要的是知道每个主因子的意义。
主因子的意义是根据主因子与可观测变量Xi的关系来确定的。
因此希望主因子Fj对Xi(i=1,2,…,p)的载荷平方,有的值很大,有的值很小,(向0,1两极分化),因子载荷矩阵的这种特征称“因子简单结构”。
但是用上述方法所求出的主因子解,初始因子载荷矩阵并不满足“简单结构准则”,各因子的典型代表变量不很突出,因而容易使因子的意义含糊不清,不便于对因子进行解释。
为此须对因子载荷矩阵施行旋转,因子轴方差最大正交旋转的目的即使因子载荷矩阵成为“简单结构”的因子载荷矩阵。
使得因子载荷的平方按列向0和1两极转化,较大的载荷值只集中在少数X变量上,达到其结构简化的目的。
易于因子命名。
经过旋转后,主因子对Xi的方差贡献(变量共同度)并不改变,但各主因子的方差贡献可能有较大的改变,即不再与原来相同,因此,可以通过适当的旋转求得令人满意的主因子。
为了对公因子F能够更好的解释,可通过因子旋转的方法得到一个好解释的公因子。
所谓对公因子更好解释,就是使每个变量仅在一个公因子上有较大的载荷,而在其余的公因子上的载荷比较小。
这种变换因子载荷的方法称为因子轴的旋转。
因子旋转的方法很多,常用的为方差最大正交旋转。
3、因子得分
在分析中,人们往往更愿意用公共因子反映原始变量,这样更有利于描述研究对象的特征。
因而往往将公共因子表示为变量(或样品)的线性组合,即:
称上式为因子得分函数,用它可计算每个样品的公因子得分。
估计因子得分的方法很多。
(一)、背景介绍
犯罪是危害他人、社会或者国家的行爲,订立法律在于保护人民所享有的法律权益,凡是违反法律,破坏他人受到法律所保障的权益行为,都是犯罪行为。
本文将以美国2000年各类犯罪数据为样本,研究美国各州各类犯罪的差异性和相似性,收集到2000年美国50个州7类犯罪(谋杀、强奸、抢劫、攻击、入室行窃、盗窃、自盗)的犯罪数量数据(数据来源:
美国司法统计局BureauofJusticeStatistics,BJS)。
由于涉及变量较多,直接进行地区间的比较分析较为繁琐,因此首先考虑因子分析方法减少变量个数,之后在进行比较和综合分析。
(二)、分析过程详解
1、数据标准化
2、考察原有变量是否适合进行因子分析
利用SPSS软件,correlate功能计算相关系数矩阵,计算皮尔森相关系数并进行卡方双尾检验,可以看出变量间存在这很大的相关性。
表2-1
相关性
谋杀
强奸
抢劫
攻击
入室行窃
盗窃
自盗
谋杀
Pearson相关性
1
.520**
.294*
.813**
.167
.072
.110
显著性(双侧)
.000
.038
.000
.245
.618
.448
N
50
50
50
50
50
50
50
强奸
Pearson相关性
.520**
1
.478**
.696**
.679**
.585**
.441**
显著性(双侧)
.000
.000
.000
.000
.000
.001
N
50
50
50
50
50
50
50
抢劫
Pearson相关性
.294*
.478**
1
.545**
.549**
.398**
.572**
显著性(双侧)
.038
.000
.000
.000
.004
.000
N
50
50
50
50
50
50
50
攻击
Pearson相关性
.813**
.696**
.545**
1
.468**
.318*
.330*
显著性(双侧)
.000
.000
.000
.001
.024
.019
N
50
50
50
50
50
50
50
入室行窃
Pearson相关性
.167
.679**
.549**
.468**
1
.748**
.678**
显著性(双侧)
.245
.000
.000
.001
.000
.000
N
50
50
50
50
50
50
50
盗窃
Pearson相关性
.072
.585**
.398**
.318*
.748**
1
.529**
显著性(双侧)
.618
.000
.004
.024
.000
.000
N
50
50
50
50
50
50
50
自盗
Pearson相关性
.110
.441**
.572**
.330*
.678**
.529**
1
显著性(双侧)
.448
.001
.000
.019
.000
.000
N
50
50
50
50
50
50
50
**.在.01水平(双侧)上显著相关。
*.在0.05水平(双侧)上显著相关。
表2-1是原有变量的相关系数矩阵。
可以看到:
大部分的相关系数都较高,除了少数变量间的相关性较低外,其他变量的相关性都大于0.3,各变量呈交较强的线性关系,能够从中提取公因子,适合进行分析。
表2-2
KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin度量。
.780
Bartlett的球形度检验
近似卡方
218.365
df
21
Sig.
.000
KMO值:
0.9以上非常好;0.8以上好;0.7一般;0.6差;0.5很差;0.5以下不能接受。
通过观察上面的计算结果,可以知道,巴特利球体检验的统计量的观测值为218.365,相应的概率P接近0,则应拒绝零假设,认为相关系数阵与单位阵有显著的差异。
同时KOM值为0.780,接近比较好的范围内,根据Kaiser给出的KOM度量标准可知原有变量适合进行因子分析。
3、提取因子
表3-1
公因子方差
初始
提取
Zscore(谋杀)
1.000
.910
Zscore(强奸)
1.000
.748
Zscore(抢劫)
1.000
.548
Zscore(攻击)
1.000
.919
Zscore(入室行窃)
1.000
.850
Zscore(盗窃)
1.000
.719
Zscore(自盗)
1.000
.680
提取方法:
主成份分析。
表3-1是因子分析的初始解,显示了所有变量的共同度数据。
第一列是因子分析初始解下的变量共同度,它表明:
对原有10个变量如果采用主成分分析法提取所有特征根,那么原有变量的所有方差都可被解释,变量的共同度都为1(原有变量标准化后的方差为1)。
事实上,因子个数小于原有变量个数才是因子分析的目标,所以不可以提取全部特征根,第二列是在指定提取条件(特征根大于1)提取特征根时的共同度。
可以看到,谋杀、强奸、攻击、入室行窃、盗窃、自盗等变量的绝大部分信息可被因子解释,因子提取的总体效果较好。
表3-2
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
合计
方差的%
累积%
1
3.914
55.909
55.909
3.914
55.909
55.909
3.048
43.549
43.549
2
1.459
20.839
76.748
1.459
20.839
76.748
2.324
33.198
76.748
3
.679
9.704
86.451
4
.378
5.406
91.857
5
.262
3.742
95.599
6
.193
2.760
98.359
7
.115
1.641
100.000
提取方法:
主成份分析。
提取2个公因子,从方差贡献率可以看出,其中第一个公因子解释了总体方差的43.549%,第二个公因子解释了总体方差的33.198,两个公因子的累计方差贡献率为76.748%,可以较好的解释总体方差。
图3-1
通过此图可以明显看出前三个因子可以解释大部分的方差,到第四个因子以后,线逐渐平缓,解释能力不强。
但提取三个因子后,因子含义不如提取两因子明晰,因此我们提取两个公因子。
表3-3
成份矩阵a
成份
1
2
Zscore(谋杀)
.539
.787
Zscore(强奸)
.853
.140
Zscore(抢劫)
.738
-.055
Zscore(攻击)
.787
.548
Zscore(入室行窃)
.844
-.370
Zscore(盗窃)
.717
-.452
Zscore(自盗)
.710
-.419
提取方法:
主成份。
a.已提取了2个成份。
通过因子载荷矩阵可以看出因子的意义并不是十分明确,为了对因子进行解释与说明,进行因子旋转,选取方差最大因子旋转方法,并保留因子得分。
4、因子旋转
表4-1
旋转成份矩阵a
成份
1
2
Zscore(谋杀)
-.033
.953
Zscore(强奸)
.604
.619
Zscore(抢劫)
.627
.394
Zscore(攻击)
.308
.908
Zscore(入室行窃)
.899
.204
Zscore(盗窃)
.845
.062
Zscore(自盗)
.820
.084
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在3次迭代后收敛。
通过上表中旋转的结果,我们可以看出第一个公因子在强奸、抢劫、入室行窃、盗窃、自盗上有较大的载荷,主要由于求财及求色,可以将其命名为财色欲望因子;第二个因子在谋杀、强奸、攻击上有较大的载荷,可以理解为攻击欲望因子;
最后,通过上面的因子我们可以通过两个主要的因子来表示七个犯罪变量,分别为财色欲望因子和攻击欲望因子。
接下来计算各因子得分。
图4-1
5、因子得分
表5-1
成份得分系数矩阵a
成份
1
2
Zscore(谋杀)
-.209
.516
Zscore(强奸)
.119
.206
Zscore(抢劫)
.174
.082
Zscore(攻击)
-.061
.422
Zscore(入室行窃)
.324
-.076
Zscore(盗窃)
.331
-.141
Zscore(自盗)
.317
-.124
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
构成得分。
a.系数已被标准化。
表5-1中,得出因子得分系数矩阵,根据因子得分系数和原始变量的标准化值,可以观测各犯罪类型的各因子的得分数,旋转后的因子表达式可以写成:
F1=-0.209谋杀+0.119强奸+0.174抢劫-0.061攻击+0.324入室行窃+0.331盗窃+0.317自盗
F1=0.516谋杀+0.206强奸+0.082抢劫+0.442攻击-0.076入室行窃-0.141盗窃-0.124自盗
因子表达式中各变量均为标准化后的变量。
表5-2
成份得分协方差矩阵
成份
1
2
1
1.000
.000
2
.000
1.000
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
构成得分。
表5-2为因子间的相关矩阵,可以看出旋转后F1和F2是完全不相关的,这也是由于正交旋转后因子仍然正交。
6、各州的综合评价
表6-1
排名
财色欲望因子得分
攻击欲望因子
综合得分
人口
1
加利福尼亚州
北卡罗来纳州
加利福尼亚州
加利福尼亚州
2
内华达州
佛罗里达州
密歇根州
纽约州
3
密歇根州
路易斯安那州
佛罗里达州
得克萨斯州
4
科罗拉多州
南卡罗来纳州
马里兰州
宾夕法尼亚州
5
纽约州
阿拉巴马州
阿利桑那州
伊利诺斯州
6
夏威夷州
乔治亚州
纽约州
佛罗里达州
7
阿利桑那州
马里兰州
科罗拉多州
俄亥俄州
8
华盛顿州
得克萨斯州
内华达州
密歇根州
由上表可知,加利福尼亚州人口最多,而其在财色欲望因子上得分最高,在综合得分中也是最高,其犯罪数量最多。
在综合得分中得分较高的州其人口较多。
而在攻击欲望因子中得分较高的八个州均是位于美国南部的州,这可能与黑人和白人的矛盾,以及南部各州的经济有关系,也可能与其历史有一定的原因。
可知,人口与犯罪数量有密切相关,其主要为因贪图财色而进行犯罪,人口越多,犯罪数量越多,尤其是因财物而引起的抢劫、入室行窃、盗窃、自盗数量越多,而大部分的攻击性犯罪发生在美国南部,可能是由于历史原因。
参考文献:
[1]于秀林,任雪松《多元统计分析》中国统计出版社
[2]SPSS统计分析从基础到实践(第2版):
北京:
电子工业出版社,2009
[3]何晓群.多元统计分析[M].中国人民大学出版社,2004
[4]茆诗松,周纪芗.概率论与数理统计[M].高等统计出版社,1999
[5]高惠璇应用多元统计分析[M].北京大学出版社2005
[6]薛微《基于SPSS的数据分析》中国人民大学出版社
原始数据:
该数据集包括了7个变量的50个观测值度量,它报告了美国2000年50个州的7种罪行的犯罪数量。
其中,地区一栏中,1代表东北部,2代表中西部,3代表南部,4代表西部。
州名
人口
谋杀
强奸
抢劫
攻击
入室行窃
盗窃
自盗
地区
缅因州
1,164
1.5
7.0
12.6
62
562
1,055
146
1
新罕布什尔州
998
2.0
6.0
12.1
36
566
929
172
1
佛蒙特州
535
1.3
10.3
7.6
55
731
969
124
1
马萨诸塞州
5,822
3.5
12.0
99.5
88
1,134
1,531
878
1
罗得岛州
968
3.2
3.6
78.3
120
1,019
2,186
859
1
康涅狄格州
3,174
3.5
9.1
70.4
87
1,084
1,751
484
1
纽约州
17,783
7.9
15.5
443.3
209
1,414
2,025
682
1
新泽西州
7,562
5.7
12.9
169.4
90
1,041
1,689
557
1
宾夕法尼亚州
11,853
5.3
11.3
106.0
90
594
11
340
1
俄亥俄州
10,744
6.6
16.0
145.9
116
854
1,944
493
2
印第安纳州
5,499
4.8
17.9
107.5
95
860
1,791
429
2
伊利诺斯州
11,535
9.6
20.4
251.1
187
765
2,028
518
2
密歇根州
9,088
9.4
27.1
346.6
193
1,571
2,897
464
2
威斯康辛州
4,775
2.0
6.7
33.1
44
539
1,860
218
2
明尼苏达州
4,193
2.0
9.7
89.1
51
802
1,902
346
2
爱荷华州
2,884
1.9
6.2
28.6
48
507
1,743
175
2
密苏里州
5,029
10.7
27.4
2.8
167
1,187
2,074
538
2
北达科他州
685
0.5
6.2
6.5
21
286
1,295
91
2
南达科他州
708
3.8
11.1
17.1
60
471
1,396
94
2
内布拉斯加州
1,606
3.0
9.3
57.3
115
505
1,572
292
2
堪萨斯州
2,450
4.8
14.5
75.1
108
882
2,302
257
2
特拉华州
622
7.7
18.6
105.5
196
1,056
2,320
559
3
马里兰州
4,392
9.2
23.9
388.6
253
1,051
2,417
548
3
弗吉尼亚州
5,706
8.4
15.4
92.0
143
806
1,980
297
3
西弗吉尼亚州
1,936
6.2
6.7
27.3
84
389
774
92
3
北卡罗来纳州
6,255
11.8
12.9
53.0
293
766
1,338
169
3
南卡罗来纳州
3,347
14.6
18.1
60.1
193
1,025
1,509
256
3
乔治亚州
5,976
15.3
10.1
95.8
177
90
1,869
309
3
佛罗里达州
11,366
12.7
22.2
186.1
277
1,562
2,861
397
3
肯塔基州
3,726
11.1
13.7
72.8
123
704
1,212
346
3
田纳西州
4,762
8.8
15.5
82.0
169
807
1,025
289
3
阿拉巴马州
4,021
11.7
18.5
50.3
215
763
1,125
223
3
密西西比州
2,613
11.5
8.9
19.0
140
351
694
78
3
阿肯色州
2,359
10.1
17.1
45.6
150
885
1,211
109
3
路易斯安那州
4,481
11.7
23.1
140.8
238
890
1,628
385
3
俄克拉荷马州
3,301
5.9
15.6
54.9
127
841
1,661
280
3
得克萨斯州
16,370
11.6
21.0
134.1
195
1,151
2,183
394
3
蒙大拿州
826
3.2
10.5
22.3
75
594
1,956
222
4
爱达荷州
15
4.6
12.3
20.5
86
674
2,214
144
4
怀俄明州
509
5.7
12.3
22.0
73
646
2,049
165
4
科罗拉多州
3,231
6.2
36.0
129.1
185
1,381
2,992
588
4
新墨西哥州
1,450
9.4
21.7
66.1
196
1,142
2,408
392
4
阿利桑那州
3,187
9.5
27.0
120.2
214
1,493
3,550
501
4
犹他州
1,645
3.4
10.9
53.1
70
915
2,833
316
4
内华达州
936
8.8
19.6
188.4
182
1,661
3,044
661
4
华盛顿州
4,409
3.5
18.0
93.5
106
1,441
2,853
362
4
俄勒冈州
2,687
4.6
18.0
102.5
132
1,273
2,825
333
4
加利福尼亚州
26,365
6.9
35.1
206.9
226
1,753
3,422
689
4
阿拉斯加州
521
12.2
26.1
71.8
168
790
2,183
551
4
夏威夷州
1,054
3.6
11.8
63.3
43
1,456
3,106
581
4
标准化数据:
州名
Z谋杀
Z强奸
Z抢劫
Z攻击
Z入室行窃
Z盗窃
Z自盗
缅因州
-1.39242
-1.17253
-0.91416
-1.07702
-0.92758
-1.15943
-1.11147
新罕布什尔州
-1.26248
-1.30862
-0.91948
-1.45842