K主成分分析DOC.docx
《K主成分分析DOC.docx》由会员分享,可在线阅读,更多相关《K主成分分析DOC.docx(23页珍藏版)》请在冰豆网上搜索。
K主成分分析DOC
第十一章主成分分析
第一节主成分分析及其基本思想
地理系统是多要素的复杂系统,在地理学研究中,经常会遇到多变量问题。
变量太多,会增加分析问题的难度与复杂性,而在许多实际问题中,多个变量之间是具有一定的相关关系的。
能否在相关分析的基础上,通过某些线性组合使原始变量减少为有代表意义的少数几个新的变量,而且这些较少的新变量尽可能多地保留原来变量所反映的信息?
解决这个问题的数学方法就是主成分分析。
主成分分析的数学原理简单易懂,在地理学研究中应用较为广泛。
主成分分析(PrincipalComponentsAnalysis,PCA)也称为主分量分析,是一种通过降维来简化数据结构的方法:
如何把多个变量(指标)化为少数几个综合变量(综合指标),而这几个综合变量可以反映原来多个变量的大部分信息。
为了使这些综合变量所含的信息互不重叠,应要求它们之间互不相关。
一、主成分分析的基本思想
主成分分析在数学 上就是将原来m个指标作线性组合,求得新的综合指标,并选取几个具有代表性的综合指标(原指标的线性组合)。
下面介绍这种选择的方法原理和实现过程。
如果将选取的第一个线性组合即第一个综合指标记为z1,自然希望z1尽可能多地反映原来的指标信息,这里的“信息”用什么来表示呢?
最经典的方法就是用z1的方差来表示,z1的方差越大,表示z1包含的信息越多。
因此,在所有的线性组合中,选取的z1应该是方差最大的,称z1为第一主成分。
如果z1没有包含原来m个指标的绝大部分信息,则需要考虑选取第二个线性组合z2,且希望z1中已有的信息不出现在z2中,即z1与z2的协方差Cov(z1,z2)=0。
那么z2就是第二主成分,依此可以建立第三、第四等主成分,要求这些主成分互不相关,且方差依次减小。
二、主成分分析的几何意义和数学模型
为了方便,下面通过一个例子在二维空间中讨论主成分的几何意义。
图17-115主成分的几何意义
设有n个样品,每个样品测量了两个变量x1和x2,在由x1和x2确定的样品空间中,n个样品点的分布如图所示。
从图可以看到,变量x1和x2都有较大的波动(方差较大),而且二者具有明显的相关性。
如果作一坐标旋转,取z1和z2为新坐标轴。
在新坐标系中,n个样品点的新坐标的相关性很小,几乎为0;n个点的方差大部分归结为z1的方差,而z2的方差很小,故用z1就可以反映变量的大部分信息;z1和z2与x1和x2之间的关系为:
将以上结果推广到m维的情况,设有n个样品,每个样品有m个变量,经过适当的线性组合,可以得到m个新变量:
系数
由下列原则决定
(1)
与
(
)互相无关;
(2)z1是原始变量
的一切线性组合中方差最大的;z2与z1不相关且除z1外在原始变量
的一切线性组合中方差最大;……;zm与
不相关且除
外在原始变量
的一切线性组合中方差最大。
这样确定的新变量
称为原始变量的第一,第二,……,第m主成分,其中z1在总的方差中占的比例最大,其余的
的方差依次递减,其重要性也依次减小,这样就可以取前面少数几个主成分对样本数据的主要性质进行分析。
第二节 主成分分析的计算步骤
找主成分就是确定原始变量
在诸主成分
上的载荷
。
从数学上可以得到证明,它们分别是
的相关矩阵中较大特征值所对应的特征向量。
根据主成分分析的基本思想和基本原理,可以把主成分分析的计算步骤归纳如下:
1、对地理数据进行标准化处理。
由于变量的量纲的数值的差别,在做主成分分析时,需要对变量进行标准化处理,常用的标准化处理方法是标准差标准化法。
设原始数据为n个样品,每个样品p个观察值组成的矩阵。
2、计算相关系数矩阵R
3、计算特征值和特征向量
4、计算贡献率和累计贡献率
5、计算主成分载荷
6、计算主成分得分
第三节 主成分分析在PASWStatistics中的实现
表13-1给出了某农业生态经济系统各个区域单元的有关数据,下面我们对这个农业生态经济做主成分分析,得出维度较少的几个代表性因子。
表13-1某农业生态经济系统各个区域单元的有关数据
样本
序号
人口密
度x1/
(人·.km-2)
人均耕
地面积
x2/hm2)
森林覆
盖率
x3/%
农民人
均纯收
入x4/(元·人-1)
人均粮
食产量
x5(kg·人-1)
经济作物
占农作物
播面比例
x6/%
耕地占
土地面
积比率
x7/%
果园与
林地面
积之比
x8/%
灌溉田
占耕地
面积之
比x9/%
1
363.912
0.352
16.101
192.110
295.340
26.724
18.492
2.231
26.262
2
141.503
1.684
24.301
1752.350
452.260
32.314
14.464
1.455
27.066
3
100.695
1.067
65.601
1181.540
270.120
18.266
0.162
7.474
12.489
4
143.739
1.336
33.205
1436.120
354.260
17.486
11.805
1.892
17.534
5
131.412
1.623
16.607
1405.090
586.590
40.683
14.401
0.303
22.932
6
68.337
2.032
76.204
1540.290
216.390
8.128
4.065
0.011
4.861
7
95.416
0.801
71.106
926.350
291.520
8.135
4.063
0.012
4.862
8
62.901
1.652
73.307
1501.240
225.250
18.352
2.645
0.034
3.201
9
86.624
0.841
68.904
897.360
196.370
16.861
5.176
0.055
6.167
10
91.394
0.812
66.502
911.240
226.510
18.279
5.643
0.076
4.477
11
76.912
0.858
50.302
103.520
217.090
19.793
4.881
0.001
6.165
12
51.274
1.041
64.609
968.330
181.380
4.005
4.066
0.015
5.402
13
68.831
0.836
62.804
957.140
194.040
9.110
4.484
0.002
5.790
14
77.301
0.623
60.102
824.370
188.090
19.409
5.721
5.055
8.413
15
76.948
1.022
68.001
1255.420
211.550
11.102
3.133
0.010
3.425
16
99.265
0.654
60.702
1251.030
220.910
4.383
4.615
0.011
5.593
17
118.505
0.661
63.304
1246.470
242.160
10.706
6.053
0.154
8.701
18
141.473
0.737
54.206
814.210
193.460
11.419
6.442
0.012
12.945
19
137.761
0.598
55.901
1124.050
228.440
9.521
7.881
0.069
12.654
20
117.612
1.245
54.503
805.670
175.230
18.106
5.789
0.048
8.461
21
122.781
0.731
49.102
1313.110
236.290
26.724
7.162
0.092
10.078
注:
数据来源于徐建华《计量地理学》(2006年第1版)
PASWStatistics中的实现步骤:
步骤1:
在“分析”菜单的“降维”子菜单中选择“因子分析”命令,如图11-1所示。
图11-1菜单中选择“因子分析”命令
步骤2:
在弹出的如图11-2所示的“因子分析”对话框中,从左侧的变量列表中选择这9个变量,添加到“变量”框中。
步骤3:
单击“描述”按钮,弹出“因子分析:
描述统计”对话框,如图13-3所示。
图11-2“因子分析”对话框
图11-3“因子分析:
描述统计”对话框
“统计量”框用于选择输出哪些相关的统计量,选项如下。
★单变量描述性:
要求输出各变量的平均数与标准差。
★原始分析结果:
表示输出初始分析结果。
输出的是因子提取前分析变量的公因子方差,是一个中间结果。
对主成分分析来说,这些值是要进行分析变量的相关或协方差矩阵的对角元素;对因子分析模型来说,输出的是每个变量是否合适作因子分析的检验方法。
“相关矩阵”框中提供了以下几种变量是否适合作因子分析的方法。
★系数:
要求计算相关系数矩阵
★显著性水平:
选择此项给出每个相关系数的单尾假设检验的水平。
★行列式:
相关系数矩阵的行列式。
★逆模型:
相关系数矩阵的逆矩阵
★再生:
再生相关阵。
选择此项给出因子分析后的相关阵,还给出残差,即原始相关与再生相关之间的差值。
★反映像:
反映像相关矩阵检验。
反映像相关阵,包括偏相关系数的取反;反映像协方差阵,偏协方差的取反。
★KMO和Bartlett的球形度检验:
即KMO检验和巴特利特球形检验。
KMO检验,检验变量间的偏相关是否很小;巴特利特球形检验,检验相关阵是否为单位阵。
在本例中,选择该对话框中所有选项。
单击“继续”,返回“因子分析”对话框。
步骤4:
单击“抽取”按钮,弹出“因子分析:
抽取”对话框,选择因子提取方法。
如图11-4所示。
图11-4“因子分析:
抽取”对话框
因子提取方法在“方法”下拉框中选取,PASWStatistics提供了7种方法。
★主成份(主成分分析法)
★未加权最小平方法
★综合最小平方法
★最大似然(极大似然估计法)
★主轴因子分解(主轴因子法)
★α因子分解(α因子法)
★映像因子分解(映像因子提取法)
“分析”框用于选择提取因子变量的依据,选项如下:
★相关性矩阵:
表示依据相关系数矩阵
★协方差矩阵:
表示依据协方差矩阵
“抽取”框用于指定因子个数的标准,选项如下。
★基于特征值:
表示该选项下面“特征值大于”后面文本框中可以输入一个特征值,PASWStatistics将提取特征值大于该值的因子,PASWStatistics默认为1。
指定特征值提取因子个数是PASWStatistics默认的方法。
★因子的固定数量:
表示该选项下面“要提取的因子”后面文本框中可以输入要提取因子的个数。
PASWStatistics将提取指定个数的因子。
“输出”框用于选择哪些与因子提取有关的信息,选项如下。
★未旋转的因子解:
输出未经旋转的因子载荷矩阵
★碎石图:
输出因子与其特征值的碎石图,按特征值大小排列。
“最大收敛性迭代次数”框用于指定因子分析收敛的最大迭代次数,系统默认的最大迭代次数为25。
本例选用“主成份”方法,选择相关系数矩阵作为提取因子变量的依据。
选中“未旋转的因子解”和“碎石图”项,输出未经旋转的因子载荷矩阵和因子与其特征值的碎石图;选择“基于特征值”项,在该选项的后面输入“1”,指定提出特征值大于1的因子。
单击“继续”按钮,返回“因子分析”对话框
步骤5:
单击“因子分析”对话框中的“旋转”按钮,弹出“因子分析:
旋转”对话框,如图11-5所示。
该对话框用于选择因子载荷矩阵的旋转方法。
旋转的目的是为了简单化结构,以帮助我们解释因子。
PASWStatistics默认不进行旋转(无)。
“方法”框用于选择因子旋转方法,选项出。
★无:
不作因子旋转
★最大方差法:
方差极大法旋转,又称正交旋转。
★直接Oblimin方法:
直接斜交旋转
★最大四次方值法:
四分最大正交旋转
★最大平衡值法:
平均正交旋转
★Promax:
斜交旋转方法
“输出”框用于选择输出哪些与因子旋转有关的信息,选项如下。
★旋转解:
输出旋转后的因子载荷矩阵
★载荷图:
输出载荷散点图
本例选择方差极大法旋转“最大方差法”,并选中“旋转解”和“载荷图”项,表示输出旋转后的因子载荷矩阵和载荷散点图。
单击“继续”按钮,返回“因子分析”对话框
步骤6:
单击“因子分析”对话框中的“得分”按钮,弹出“因子分析:
因子得分”对话框,如图11-6所示。
图11-5“因子分析:
旋转”对话框
图11-6“因子分析:
因子得分”对话框
该对话框用于选择对因子得分进行设置,选项如下。
★保存为变量:
将因子得分作为新变量保存在数据文件中。
系统提供3种估计因子得分系数的方法,可以在方法框中进行以下选择:
★回归:
即回归法。
其因子得分均值为0,方差等于估计因子得分与实际因子得分之间的多元相关的平方。
★Bartlett:
巴特利特法。
因子得分均值为0,超出变量范围的各因子平方和被最小化。
★Andson-Rubin:
因子得分均值为0,标准差为1,彼此不相关。
★显示因子得分系数矩阵:
选择此项将在输出窗口中显示因子得分系数矩阵。
本例选择“回归”,并选中“显示因子得分系数矩阵”。
单击“继续”按钮,返回“因子分析”对话框。
步骤7:
单击“因子分析”对话框中的“选项”按钮,弹出“因子分析:
选项”对话框,如图11-7所示。
该对话框可以指定输出其他因子分析的结果,并选择对缺失值数据的处理方法。
其中选项如下。
“缺失值”框用于选择以下缺失值处理方法。
★按列表排除个案:
去除所有含缺失值的个案后再进行分析。
★按对排除个案:
当分析计算涉及到含有缺失值的变量,由去掉在该变量是缺失值的个案。
★使用均值替换:
当分析计算涉及到含有缺失值的变量,用平均值代替该缺失值。
“系数显示格式”框用于选择以下载荷系数的显示格式。
★按大小排序:
载荷系数按照数值的大小排列,并构成矩阵。
使得在同一因子上具有较高载荷的变量排列在一起,便于得到结论。
图11-7“因子分析:
选项”对话框
★取消小系数:
不显示那些绝对值小于指定值的载荷系数。
选中此项,需要在下面“绝对值如下”后面的框中输入一个0~1之间的数,系统默认该值为0.1。
选择该项可以突出载荷较大的变量。
本例中选中“按列表排除个案”项。
单击“继续”按钮,返回“因子分析”对话框,完成设置。
单击“确定”按钮,完成计算。
三、PASWStatistics主成分分析的结果解释
(1)PASWStatistics输出的结果文件中的第一部分如下表所示。
DescriptiveStatistics
Mean
Std.Deviation
AnalysisN
x1
1.13076E2
64.256539
21
x2
1.00981
.434209
21
x3
5.50178E1
17.881644
21
x4
1.06700E3
405.633315
21
x5
2.57298E2
99.471271
21
x6
1.66431E1
9.249556
21
x7
6.72110
4.457147
21
x8
.90533
1.936717
21
x9
1.03561E1
7.300629
21
该表列出了9个原始变量的统计描述结果。
包括平均值、标准差和分析个案的个数。
这是在步骤3中选中了“单变量描述性”项的输出结果。
(2)PASWStatistics输出的结果文件中的第二部分如下表所示。
CorrelationMatrixa
x1
x2
x3
x4
x5
x6
x7
x8
x9
Correlation
x1
1.000
-.327
-.714
-.336
.309
.408
.790
.156
.744
x2
-.327
1.000
-.035
.644
.420
.255
.009
-.078
.094
x3
-.714
-.035
1.000
.070
-.740
-.755
-.930
-.109
-.924
x4
-.336
.644
.070
1.000
.383
.069
-.046
-.031
.073
x5
.309
.420
-.740
.383
1.000
.734
.672
.098
.747
x6
.408
.255
-.755
.069
.734
1.000
.658
.222
.707
x7
.790
.009
-.930
-.046
.672
.658
1.000
-.030
.890
x8
.156
-.078
-.109
-.031
.098
.222
-.030
1.000
.290
x9
.744
.094
-.924
.073
.747
.707
.890
.290
1.000
Sig.(1-tailed)
x1
.074
.000
.068
.087
.033
.000
.250
.000
x2
.074
.440
.001
.029
.132
.485
.369
.342
x3
.000
.440
.382
.000
.000
.000
.318
.000
x4
.068
.001
.382
.044
.383
.421
.447
.377
x5
.087
.029
.000
.044
.000
.000
.336
.000
x6
.033
.132
.000
.383
.000
.001
.167
.000
x7
.000
.485
.000
.421
.000
.001
.449
.000
x8
.250
.369
.318
.447
.336
.167
.449
.102
x9
.000
.342
.000
.377
.000
.000
.000
.102
a.Determinant=5.11E-005
该表格上半部分给出的是9个原始变量的相关矩阵。
下半部分则给出了每个相关系数的单尾显著性水平(1-tailed)。
表格下面给出了相关系数矩阵的行列式的值,Determinant=5.11E-005
(3)PASWStatistics输出的结果文件中的第三部分如下表所示。
InverseofCorrelationMatrix
x1
x2
x3
x4
x5
x6
x7
x8
x9
x1
6.022
.920
-2.968
1.200
1.374
.134
-4.603
-.192
-4.366
x2
.920
2.219
-.835
-.801
-.340
-.631
.011
.384
-1.028
x3
-2.968
-.835
18.334
-3.001
1.826
2.294
7.638
-1.032
9.958
x4
1.200
-.801
-3.001
2.690
-1.134
.387
-.827
.244
-2.546
x5
1.374
-.340
1.826
-1.134
4.956
-1.171
-.319
.232
-1.877
x6
.134
-.631
2.294
.387
-1.171
3.251
-.384
-.769
1.192
x7
-4.603
.011
7.638
-.827
-.319
-.384
15.756
3.246
-3.919
x8
-.192
.384
-1.032
.244
.232
-.769
3.246
2.377
-4.073
x9
-4.366
-1.028
9.958
-2.546
-1.877
1.192
-3.919
-4.073
18.959
该表格是相关系数矩阵的逆矩阵。
(4)PASWStatistics输出的结果文件中的第四部分如下表所示。
KMOandBartlett'sTest
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
.759
Bartlett'sTestofSphericity
Approx.Chi-Square
159.767
df
36
Sig.
.000
该表格给出了KMO检验和Bartlett球度检验结果。
其中KMO值为0.759,根据统计学家Kaiser给出的标准,KMO取值大于0.6,比较适合作因子分析。
Bartlett球度检验给出的相伴概率值为0.000,小于显著性水平0.05,因此拒绝Bartlett球度检验的零假设,认为适合作因子分析。
(5)PASWStatistics输出的结果文件中的第五部分如下表所示。
该表给出了反映像相关矩阵检验结果。
如果反映像相关矩阵中某些绝对值比较大,说明这些变量有可能不太适合作因子分析,需要对这些变量进行进一步的考虑。
Anti-imageMatrices
x1
x2
x3
x4
x5
x6
x7
x8
x9
Anti-imageCovariance
x1
.166
.069
-.027
.074
.046
.007
-.049
-.013
-.038
x2
.069
.451
-.021
-.134
-.031
-.088
.000
.073
-.024
x3
-.027
-.021
.055
-.061
.020
.038
.026
-.024
.029
x4
.074
-.134
-.061
.372
-.085
.044
-.020
.038
-.050
x5
.046
-.031
.020
-.085
.202
-.073
-.004
.020
-.020
x6
.007
-.088
.038
.044
-.073
.308
-.007
-.100
.019
x7
-.049
.000
.026
-.020
-.004
-.007
.063
.087
-.013
x8
-.013
.073
-.024
.038
.020
-.100
.087
.