K主成分分析DOC.docx

资源描述

K主成分分析DOC.docx

《K主成分分析DOC.docx》由会员分享，可在线阅读，更多相关《K主成分分析DOC.docx（23页珍藏版）》请在冰豆网上搜索。

K主成分分析DOC.docx

K主成分分析DOC

第十一章主成分分析

第一节主成分分析及其基本思想

地理系统是多要素的复杂系统，在地理学研究中，经常会遇到多变量问题。

变量太多，会增加分析问题的难度与复杂性，而在许多实际问题中，多个变量之间是具有一定的相关关系的。

能否在相关分析的基础上，通过某些线性组合使原始变量减少为有代表意义的少数几个新的变量，而且这些较少的新变量尽可能多地保留原来变量所反映的信息？

解决这个问题的数学方法就是主成分分析。

主成分分析的数学原理简单易懂，在地理学研究中应用较为广泛。

主成分分析（PrincipalComponentsAnalysis，PCA）也称为主分量分析，是一种通过降维来简化数据结构的方法：

如何把多个变量（指标）化为少数几个综合变量（综合指标），而这几个综合变量可以反映原来多个变量的大部分信息。

为了使这些综合变量所含的信息互不重叠，应要求它们之间互不相关。

一、主成分分析的基本思想

主成分分析在数学　上就是将原来m个指标作线性组合，求得新的综合指标，并选取几个具有代表性的综合指标（原指标的线性组合）。

下面介绍这种选择的方法原理和实现过程。

如果将选取的第一个线性组合即第一个综合指标记为z1，自然希望z1尽可能多地反映原来的指标信息，这里的“信息”用什么来表示呢？

最经典的方法就是用z1的方差来表示，z1的方差越大，表示z1包含的信息越多。

因此，在所有的线性组合中，选取的z1应该是方差最大的，称z1为第一主成分。

如果z1没有包含原来m个指标的绝大部分信息，则需要考虑选取第二个线性组合z2，且希望z1中已有的信息不出现在z2中，即z1与z2的协方差Cov（z1，z2）＝0。

那么z2就是第二主成分，依此可以建立第三、第四等主成分，要求这些主成分互不相关，且方差依次减小。

二、主成分分析的几何意义和数学模型

为了方便，下面通过一个例子在二维空间中讨论主成分的几何意义。

图17-115主成分的几何意义

设有n个样品，每个样品测量了两个变量x1和x2，在由x1和x2确定的样品空间中，n个样品点的分布如图所示。

从图可以看到，变量x1和x2都有较大的波动（方差较大），而且二者具有明显的相关性。

如果作一坐标旋转，取z1和z2为新坐标轴。

在新坐标系中，n个样品点的新坐标的相关性很小，几乎为0；n个点的方差大部分归结为z1的方差，而z2的方差很小，故用z1就可以反映变量的大部分信息；z1和z2与x1和x2之间的关系为：

将以上结果推广到m维的情况，设有n个样品，每个样品有m个变量，经过适当的线性组合，可以得到m个新变量：

系数

由下列原则决定

（1）

与

（

）互相无关；

（2）z1是原始变量

的一切线性组合中方差最大的；z2与z1不相关且除z1外在原始变量

的一切线性组合中方差最大；……；zm与

不相关且除

外在原始变量

的一切线性组合中方差最大。

　这样确定的新变量

称为原始变量的第一，第二，……，第m主成分，其中z1在总的方差中占的比例最大，其余的

的方差依次递减，其重要性也依次减小，这样就可以取前面少数几个主成分对样本数据的主要性质进行分析。

第二节　主成分分析的计算步骤

　找主成分就是确定原始变量

在诸主成分

上的载荷

。

从数学上可以得到证明，它们分别是

的相关矩阵中较大特征值所对应的特征向量。

根据主成分分析的基本思想和基本原理，可以把主成分分析的计算步骤归纳如下：

1、对地理数据进行标准化处理。

由于变量的量纲的数值的差别，在做主成分分析时，需要对变量进行标准化处理，常用的标准化处理方法是标准差标准化法。

设原始数据为n个样品，每个样品p个观察值组成的矩阵。

2、计算相关系数矩阵R

　3、计算特征值和特征向量

4、计算贡献率和累计贡献率

　5、计算主成分载荷

6、计算主成分得分

第三节　主成分分析在PASWStatistics中的实现

表13－1给出了某农业生态经济系统各个区域单元的有关数据，下面我们对这个农业生态经济做主成分分析，得出维度较少的几个代表性因子。

表13－1某农业生态经济系统各个区域单元的有关数据

样本

序号

人口密

度x1/

（人·.km-2）

人均耕

地面积

x2/hm2）

森林覆

盖率

x3/%

农民人

均纯收

入x4/（元·人-1）

人均粮

食产量

x5（kg·人-1）

经济作物

占农作物

播面比例

x6/％

耕地占

土地面

积比率

x7/％

果园与

林地面

积之比

x8/％

灌溉田

占耕地

面积之

比x9/％

363.912

0.352

16.101

192.110

295.340

26.724

18.492

2.231

26.262

141.503

1.684

24.301

1752.350

452.260

32.314

14.464

1.455

27.066

100.695

1.067

65.601

1181.540

270.120

18.266

0.162

7.474

12.489

143.739

1.336

33.205

1436.120

354.260

17.486

11.805

1.892

17.534

131.412

1.623

16.607

1405.090

586.590

40.683

14.401

0.303

22.932

68.337

2.032

76.204

1540.290

216.390

8.128

4.065

0.011

4.861

95.416

0.801

71.106

926.350

291.520

8.135

4.063

0.012

4.862

62.901

1.652

73.307

1501.240

225.250

18.352

2.645

0.034

3.201

86.624

0.841

68.904

897.360

196.370

16.861

5.176

0.055

6.167

91.394

0.812

66.502

911.240

226.510

18.279

5.643

0.076

4.477

76.912

0.858

50.302

103.520

217.090

19.793

4.881

0.001

6.165

51.274

1.041

64.609

968.330

181.380

4.005

4.066

0.015

5.402

68.831

0.836

62.804

957.140

194.040

9.110

4.484

0.002

5.790

77.301

0.623

60.102

824.370

188.090

19.409

5.721

5.055

8.413

76.948

1.022

68.001

1255.420

211.550

11.102

3.133

0.010

3.425

99.265

0.654

60.702

1251.030

220.910

4.383

4.615

0.011

5.593

118.505

0.661

63.304

1246.470

242.160

10.706

6.053

0.154

8.701

141.473

0.737

54.206

814.210

193.460

11.419

6.442

0.012

12.945

137.761

0.598

55.901

1124.050

228.440

9.521

7.881

0.069

12.654

117.612

1.245

54.503

805.670

175.230

18.106

5.789

0.048

8.461

122.781

0.731

49.102

1313.110

236.290

26.724

7.162

0.092

10.078

注：

数据来源于徐建华《计量地理学》（2006年第1版）

PASWStatistics中的实现步骤：

步骤1：

在“分析”菜单的“降维”子菜单中选择“因子分析”命令，如图11-1所示。

图11-1菜单中选择“因子分析”命令

步骤2：

在弹出的如图11-2所示的“因子分析”对话框中，从左侧的变量列表中选择这9个变量，添加到“变量”框中。

步骤3：

单击“描述”按钮，弹出“因子分析：

描述统计”对话框，如图13－3所示。

图11-2“因子分析”对话框

图11-3“因子分析：

描述统计”对话框

“统计量”框用于选择输出哪些相关的统计量，选项如下。

★单变量描述性：

要求输出各变量的平均数与标准差。

★原始分析结果：

表示输出初始分析结果。

输出的是因子提取前分析变量的公因子方差，是一个中间结果。

对主成分分析来说，这些值是要进行分析变量的相关或协方差矩阵的对角元素；对因子分析模型来说，输出的是每个变量是否合适作因子分析的检验方法。

“相关矩阵”框中提供了以下几种变量是否适合作因子分析的方法。

★系数：

要求计算相关系数矩阵

★显著性水平：

选择此项给出每个相关系数的单尾假设检验的水平。

★行列式：

相关系数矩阵的逆矩阵

★再生：

再生相关阵。

选择此项给出因子分析后的相关阵，还给出残差，即原始相关与再生相关之间的差值。

★反映像：

反映像相关矩阵检验。

反映像相关阵，包括偏相关系数的取反；反映像协方差阵，偏协方差的取反。

★KMO和Bartlett的球形度检验：

即KMO检验和巴特利特球形检验。

KMO检验，检验变量间的偏相关是否很小；巴特利特球形检验，检验相关阵是否为单位阵。

在本例中，选择该对话框中所有选项。

单击“继续”，返回“因子分析”对话框。

步骤4：

单击“抽取”按钮，弹出“因子分析：

抽取”对话框，选择因子提取方法。

如图11-4所示。

图11-4“因子分析：

抽取”对话框

因子提取方法在“方法”下拉框中选取，PASWStatistics提供了7种方法。

★主成份（主成分分析法）

★未加权最小平方法

★综合最小平方法

★最大似然（极大似然估计法）

★主轴因子分解（主轴因子法）

★α因子分解（α因子法）

★映像因子分解（映像因子提取法）

“分析”框用于选择提取因子变量的依据，选项如下：

★相关性矩阵：

表示依据相关系数矩阵

★协方差矩阵：

表示依据协方差矩阵

“抽取”框用于指定因子个数的标准，选项如下。

★基于特征值：

表示该选项下面“特征值大于”后面文本框中可以输入一个特征值，PASWStatistics将提取特征值大于该值的因子，PASWStatistics默认为1。

指定特征值提取因子个数是PASWStatistics默认的方法。

★因子的固定数量：

表示该选项下面“要提取的因子”后面文本框中可以输入要提取因子的个数。

PASWStatistics将提取指定个数的因子。

“输出”框用于选择哪些与因子提取有关的信息，选项如下。

★未旋转的因子解：

输出未经旋转的因子载荷矩阵

★碎石图：

输出因子与其特征值的碎石图，按特征值大小排列。

“最大收敛性迭代次数”框用于指定因子分析收敛的最大迭代次数，系统默认的最大迭代次数为25。

本例选用“主成份”方法，选择相关系数矩阵作为提取因子变量的依据。

选中“未旋转的因子解”和“碎石图”项，输出未经旋转的因子载荷矩阵和因子与其特征值的碎石图；选择“基于特征值”项，在该选项的后面输入“1”，指定提出特征值大于1的因子。

单击“继续”按钮，返回“因子分析”对话框

步骤5：

单击“因子分析”对话框中的“旋转”按钮，弹出“因子分析：

旋转”对话框，如图11-5所示。

该对话框用于选择因子载荷矩阵的旋转方法。

旋转的目的是为了简单化结构，以帮助我们解释因子。

PASWStatistics默认不进行旋转（无）。

“方法”框用于选择因子旋转方法，选项出。

★无：

不作因子旋转

★最大方差法：

方差极大法旋转，又称正交旋转。

★直接Oblimin方法：

直接斜交旋转

★最大四次方值法：

四分最大正交旋转

★最大平衡值法：

平均正交旋转

★Promax：

斜交旋转方法

“输出”框用于选择输出哪些与因子旋转有关的信息，选项如下。

★旋转解：

输出旋转后的因子载荷矩阵

★载荷图：

输出载荷散点图

本例选择方差极大法旋转“最大方差法”，并选中“旋转解”和“载荷图”项，表示输出旋转后的因子载荷矩阵和载荷散点图。

单击“继续”按钮，返回“因子分析”对话框

步骤6：

单击“因子分析”对话框中的“得分”按钮，弹出“因子分析：

因子得分”对话框，如图11－6所示。

图11-5“因子分析：

旋转”对话框

图11-6“因子分析：

因子得分”对话框

该对话框用于选择对因子得分进行设置，选项如下。

★保存为变量：

将因子得分作为新变量保存在数据文件中。

系统提供3种估计因子得分系数的方法，可以在方法框中进行以下选择：

★回归：

即回归法。

其因子得分均值为0，方差等于估计因子得分与实际因子得分之间的多元相关的平方。

★Bartlett：

巴特利特法。

因子得分均值为0，超出变量范围的各因子平方和被最小化。

★Andson-Rubin：

因子得分均值为0，标准差为1，彼此不相关。

★显示因子得分系数矩阵：

选择此项将在输出窗口中显示因子得分系数矩阵。

本例选择“回归”，并选中“显示因子得分系数矩阵”。

单击“继续”按钮，返回“因子分析”对话框。

步骤7：

单击“因子分析”对话框中的“选项”按钮，弹出“因子分析：

选项”对话框，如图11-7所示。

该对话框可以指定输出其他因子分析的结果，并选择对缺失值数据的处理方法。

其中选项如下。

“缺失值”框用于选择以下缺失值处理方法。

★按列表排除个案：

去除所有含缺失值的个案后再进行分析。

★按对排除个案：

当分析计算涉及到含有缺失值的变量，由去掉在该变量是缺失值的个案。

★使用均值替换：

当分析计算涉及到含有缺失值的变量，用平均值代替该缺失值。

“系数显示格式”框用于选择以下载荷系数的显示格式。

★按大小排序：

载荷系数按照数值的大小排列，并构成矩阵。

使得在同一因子上具有较高载荷的变量排列在一起，便于得到结论。

图11-7“因子分析：

选项”对话框

★取消小系数：

不显示那些绝对值小于指定值的载荷系数。

选中此项，需要在下面“绝对值如下”后面的框中输入一个0～1之间的数，系统默认该值为0.1。

选择该项可以突出载荷较大的变量。

本例中选中“按列表排除个案”项。

单击“继续”按钮，返回“因子分析”对话框，完成设置。

单击“确定”按钮，完成计算。

三、PASWStatistics主成分分析的结果解释

（1）PASWStatistics输出的结果文件中的第一部分如下表所示。

DescriptiveStatistics

Mean

Std.Deviation

AnalysisN

1.13076E2

64.256539

1.00981

.434209

5.50178E1

17.881644

1.06700E3

405.633315

2.57298E2

99.471271

1.66431E1

9.249556

6.72110

4.457147

.90533

1.936717

1.03561E1

7.300629

该表列出了9个原始变量的统计描述结果。

包括平均值、标准差和分析个案的个数。

这是在步骤3中选中了“单变量描述性”项的输出结果。

（2）PASWStatistics输出的结果文件中的第二部分如下表所示。

CorrelationMatrixa

Correlation

1.000

-.327

-.714

-.336

.309

.408

.790

.156

.744

-.327

1.000

-.035

.644

.420

.255

.009

-.078

.094

-.714

-.035

1.000

.070

-.740

-.755

-.930

-.109

-.924

-.336

.644

.070

1.000

.383

.069

-.046

-.031

.073

.309

.420

-.740

.383

1.000

.734

.672

.098

.747

.408

.255

-.755

.069

.734

1.000

.658

.222

.707

.790

.009

-.930

-.046

.672

.658

1.000

-.030

.890

.156

-.078

-.109

-.031

.098

.222

-.030

1.000

.290

.744

.094

-.924

.073

.747

.707

.890

.290

1.000

Sig.（1-tailed）

.074

.000

.068

.087

.033

.000

.250

.000

.074

.440

.001

.029

.132

.485

.369

.342

.000

.440

.382

.000

.318

.000

.068

.001

.382

.044

.383

.421

.447

.377

.087

.029

.000

.044

.000

.336

.000

.033

.132

.000

.383

.000

.001

.167

.000

.485

.000

.421

.000

.001

.449

.000

.250

.369

.318

.447

.336

.167

.449

.102

.000

.342

.000

.377

.000

.102

a.Determinant=5.11E-005

　　该表格上半部分给出的是9个原始变量的相关矩阵。

下半部分则给出了每个相关系数的单尾显著性水平（1-tailed）。

表格下面给出了相关系数矩阵的行列式的值，Determinant=5.11E-005

（3）PASWStatistics输出的结果文件中的第三部分如下表所示。

InverseofCorrelationMatrix

6.022

.920

-2.968

1.200

1.374

.134

-4.603

-.192

-4.366

.920

2.219

-.835

-.801

-.340

-.631

.011

.384

-1.028

-2.968

-.835

18.334

-3.001

1.826

2.294

7.638

-1.032

9.958

1.200

-.801

-3.001

2.690

-1.134

.387

-.827

.244

-2.546

1.374

-.340

1.826

-1.134

4.956

-1.171

-.319

.232

-1.877

.134

-.631

2.294

.387

-1.171

3.251

-.384

-.769

1.192

-4.603

.011

7.638

-.827

-.319

-.384

15.756

3.246

-3.919

-.192

.384

-1.032

.244

.232

-.769

3.246

2.377

-4.073

-4.366

-1.028

9.958

-2.546

-1.877

1.192

-3.919

-4.073

18.959

该表格是相关系数矩阵的逆矩阵。

（4）PASWStatistics输出的结果文件中的第四部分如下表所示。

KMOandBartlett'sTest

Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.

.759

Bartlett'sTestofSphericity

Approx.Chi-Square

159.767

Sig.

.000

该表格给出了KMO检验和Bartlett球度检验结果。

其中KMO值为0.759，根据统计学家Kaiser给出的标准，KMO取值大于0.6，比较适合作因子分析。

Bartlett球度检验给出的相伴概率值为0.000，小于显著性水平0.05，因此拒绝Bartlett球度检验的零假设，认为适合作因子分析。

（5）PASWStatistics输出的结果文件中的第五部分如下表所示。

该表给出了反映像相关矩阵检验结果。

如果反映像相关矩阵中某些绝对值比较大，说明这些变量有可能不太适合作因子分析，需要对这些变量进行进一步的考虑。

Anti-imageMatrices

Anti-imageCovariance

.166

.069

-.027

.074

.046

.007

-.049

-.013

-.038

.069

.451

-.021

-.134

-.031

-.088

.000

.073

-.024

-.027

-.021

.055

-.061

.020

.038

.026

-.024

.029

.074

-.134

-.061

.372

-.085

.044

-.020

.038

-.050

.046

-.031

.020

-.085

.202

-.073

-.004

.020

-.020

.007

-.088

.038

.044

-.073

.308

-.007

-.100

.019

-.049

.000

.026

-.020

-.004

-.007

.063

.087

-.013

.073

-.024

.038

.020

-.100

.087

展开阅读全文