例:
表1为某地区农业生态经济系统各区域单元相关指标数据,运用主成分分析方法可以用更少的指标信息较为精确地描述该地区农业生态经济的发展状况。
表1某农业生态经济系统各区域单元的有关数据
样本序号
x1:
人口密度(人/km2)
x2:
人均耕地面积(ha)
x3:
森林覆盖率(%)
x4:
农民人均纯收入(元/人)
x5:
人均粮食产量(kg/人)
x6:
经济作物占农作物播面比例(%)
x7:
耕地占土地面积比率(%)
x8:
果园与林地面积之比(%)
x9:
灌溉田占耕地面积之比(%)
1
363.912
0.352
16.101
192.11
295.34
26.724
18.492
2.231
26.262
2
141.503
1.684
24.301
1752.35
452.26
32.314
14.464
1.455
27.066
3
100.695
1.067
65.601
1181.54
270.12
18.266
0.162
7.474
12.489
4
143.739
1.336
33.205
1436.12
354.26
17.486
11.805
1.892
17.534
5
131.412
1.623
16.607
1405.09
586.59
40.683
14.401
0.303
22.932
6
68.337
2.032
76.204
1540.29
216.39
8.128
4.065
0.011
4.861
7
95.416
0.801
71.106
926.35
291.52
8.135
4.063
0.012
4.862
8
62.901
1.652
73.307
1501.24
225.25
18.352
2.645
0.034
3.201
9
86.624
0.841
68.904
897.36
196.37
16.861
5.176
0.055
6.167
10
91.394
0.812
66.502
911.24
226.51
18.279
5.643
0.076
4.477
11
76.912
0.858
50.302
103.52
217.09
19.793
4.881
0.001
6.165
12
51.274
1.041
64.609
968.33
181.38
4.005
4.066
0.015
5.402
13
68.831
0.836
62.804
957.14
194.04
9.110
4.484
0.002
5.790
14
77.301
0.623
60.102
824.37
188.09
19.409
5.721
5.055
8.413
15
76.948
1.022
68.001
1255.42
211.55
11.102
3.133
0.010
3.425
16
99.265
0.654
60.702
1251.03
220.91
4.383
4.615
0.011
5.593
17
118.505
0.661
63.304
1246.47
242.16
10.706
6.053
0.154
8.701
18
141.473
0.737
54.206
814.21
193.46
11.419
6.442
0.012
12.945
19
137.761
0.598
55.901
1124.05
228.44
9.521
7.881
0.069
12.654
20
117.612
1.245
54.503
805.67
175.23
18.106
5.789
0.048
8.461
21
122.781
0.731
49.102
1313.11
236.29
26.724
7.162
0.092
10.078
对于上述例子,Matlab进行主成分分析,可以得到如下结果。
1以及每一个主成分的贡献率和累计贡献率,如表2和图1。
表2.特征根及主成分贡献率
主成分
特征值
贡献率%
累积贡献率%
1
4.661
51.791
51.791
2
2.089
23.216
75.007
3
1.043
11.589
86.596
4
0.507
5.638
92.234
5
0.315
3.502
95.736
6
0.193
2.140
97.876
7
0.114
1.271
99.147
8
4.533E-02
0.504
99.650
9
3.147E-02
0.350
100.000
图1特征根
2前3几个主成分的载荷系数如表3所示。
表3前三个主成分在原变量上的载荷
前三个主成分
变量
1
2
3
X1
0.158
-0.255
-0.059
X2
0.026
0.424
-0.027
X3
-0.207
0.046
0.091
X4
0.009
0.415
0.036
X5
0.174
0.212
-0.011
X6
0.176
0.086
0.120
X7
0.200
-0.064
-0.241
X8
0.042
-0.048
0.930
X9
0.207
-0.012
0.088
2.直接调用SPSS软件实现
多元分析处理的是多指标的问题。
由于指标太多,使得分析的复杂性增加。
观察指标的增加本来是为了使研究过程趋于完整,但反过来说,为使研究结果清晰明了而一味增加观察指标又让人陷入混乱不清。
由于在实际工作中,指标间经常具备一定的相关性,故人们希望用较少的指标代替原来较多的指标,但依然能反映原有的全部信息,于是就产生了主成分分析、对应分析、典型相关分析和因子分析等方法。
调用DataReduction菜单的Factor过程命令项,可对多指标或多因素资料进行因子分析。
因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量,这与上一章的聚类分析不同),以较少的几个因子反映原资料的大部分信息。
基本操作
以以上例子来说明在SPSS中进行因子分析的整个过程。
将以上数据导入到数据窗口中,先定义各变量为numberic型。
①激活Analysis菜单选DataReduction的Factor...命令项,弹出FactorAnalysis对话框(图1)。
在对话框左侧的变量列表中选变量X1至X9,点击钮使之进入Variables框。
图1因子分析对话框
点击Descriptives...钮,弹出FactorAnalysis:
Descriptives对话框(图2),在Statistics中选Univariatedescriptives项要求输出各变量的均数与标准差,在CorrelationMatrix栏内选Coefficients项要求计算相关系数矩阵,并选KMOandBartlett’stestofsphericity项,要求对相关系数矩阵进行统计学检验。
点击Continue钮返回FactorAnalysis对话框。
图2描述性指标选择对话框
点击Extraction...钮,弹出FactorAnalysis:
Extraction对话框(图3),系统提供如下因子提取方法:
图3因子提取方法选择对话框
Principalcomponents:
主成分分析法;
Unweightedleastsquares:
未加权最小平方法;
Generalizedleastsquares:
综合最小平方法;
Maximumlikelihood:
极大似然估计法;
Principalaxisfactoring:
主轴因子法;
Alphafactoring:
α因子法;
Imagefactoring:
多元回归法。
本例选用Principalcomponents方法,之后点击Continue钮返回FactorAnalysis对话框。
点击Rotation...钮,弹出FactorAnalysis:
Rotation对话框,系统有5种因子旋转方法可选:
None:
不作因子旋转;
Varimax:
正交旋转;
Equamax:
全体旋转,对变量和因子均作旋转;
Quartimax:
四分旋转,对变量作旋转;
DirectOblimin:
斜交旋转。
旋转的目的是为了获得简单结构,以帮助我们解释因子。
本例选正交旋转法,之后点击Continue钮返回FactorAnalysis对话框。
点击Scores...钮,弹出弹出FactorAnalysis:
Scores对话框,系统提供3种估计因子得分系数的方法,本例选Regression(回归因子得分),之后点击Continue钮返回FactorAnalysis对话框,再点击OK钮即完成分析。
结果解释
在输出结果窗口中将看到如下统计数据:
系统首先输出各变量的均数(Mean)与标准差(StdDev),并显示共有21例观察单位进入分析;接着输出相关系数矩阵(CorrelationMatrix),经Bartlett检验表明:
Bartlett值=159.767,P<0.0001,即相关矩阵不是一个单位矩阵,故考虑进行因子分析。
CorrelationMatrix
人口密度
人均耕地面积
森林覆盖率
农民人均纯收入
人均粮食产量
经济作物占农作物播面比例
耕地占土地面积比率
果园与林地面积之比
灌溉田占耕地面积之比
人口密度
1.000
-.327
-.714
-.336
.309
.408
.790
.156
.744
人均耕地面积
-.327
1.000
-.035
.644
.420
.255
.009
-.078
.094
森林覆盖率
-.714
-.035
1.000
.070
-.740
-.755
-.930
-.109
-.