主成分分析法在排序中的应用.pptx

资源描述

主成分分析法在排序中的应用.pptx

《主成分分析法在排序中的应用.pptx》由会员分享，可在线阅读，更多相关《主成分分析法在排序中的应用.pptx（32页珍藏版）》请在冰豆网上搜索。

主成分分析法在排序中的应用.pptx

*1主成分分析法在植被排序中的应用Contents排序的概述主分量分析典范主分量分析主坐标分析排序方法的比较排序的概述50年代，许多学者强调植被的连续性，认为分类是确定植被间断性的有效方法，但不能用于解释植被的连续性，因此，对排序方法才开始研究而得以发展。

当时的排序是用于分析群落之间的连续分布关系。

到50年代后期，排序概念已趋于完善，其不仅排列样方，也可以排列植物种及环境因素，用于研究群落之间、群落与成员之间、群落与其环境之间的复杂关系。

排序最初的概念是指植被样方在某一空间（一维或多维）的排列，这里的空间指植物种空间或环境因素空间。

它是随着“植被连续体”概念的提出而诞生的。

排序的目的和意义排序的过程是将样方或植物种排列在一定的空间，使得排序轴能够反映一定的生态梯度，从而能够解释植被或植物种的分布与环境因子间的关系，也就是说排序是为了揭示植被-环境间的生态关系。

因此，排序也叫梯度分析（gradientanalysis）。

简单的梯度分析是研究植物种和植物群落在某一环境梯度或群落线（coenocline）上的变化，也就是一维排序。

复杂的梯度分析是揭示植物种和群落在某些环境梯度（群落面coenoplane或群落体coenocube）上的变化，这相当于二维或多维排序。

直接梯度分析间接梯度分析梯度分析同时使用植物种的组成数据和环境因子组成数据的排序只使用植物种的组成数据的排序直接梯度分析因为使用了环境因子组成数据，排列轴的生态意义往往是一目了然的，在结果解释上比较容易。

间接梯度分析完成后，研究者需要通过再分析找出排列轴的生态意义，再用其解释植物群落或植物种在排序图上的分布排序和分类由于排序的结果能够客观地反映群落间的关系，所以它可以与分类方法结合使用，而检验分类的结果，就是先用某一分类方法对样方进行分类。

比如用传统的定性方法或某一数量方法进行分类，然后再在排序图上圈定群落的界限，这样可以直观地看出各植被类型间的关系，以检验分类的合理性，并且可以用排序轴所含的生态意义来帮助解释分类的结果。

正因为如此，有些学者也将排序归入植被数量分类方法中。

在排序方法中，相似关系的计算，一般各排序分类方法都有特殊的要求而成为方法的组成部分；所有排序方法对二元数据和数量数据都适合，没有特殊要求。

分类方法有的只能使用二元数据。

种类环境关系模型关系模型线性模型非线性模型所有排序方法都是基于一定的模型之上，这种模型反映植物种和环境之间的关系以及在某一环境梯度上的种间关系。

最常用的关系模型有两种：

直线线性关系曲线线性关系二次曲线模型（高斯模型或高斯曲线）基于线性模型上所建立的排序方法线性排序（以主分量分析（PCA）为主）基于单峰模型上的排序非线性排序（以对应分析（CA）为主）1主分量分析主分量分析（PCA）也叫做主成分分析，它是1954年由Goodall引入植被分析，但该方法的数学分析早在1933年Hotelling就已开始使用。

PCA是第一个完全基于植被结构或组成数据之上而不须要考虑环境梯度、不须要选择端点和权重的排序方法。

Goodall（1954）当时称PCA为因子分析，但现在已明确了分量和因子的区别，主分量分析的名称早已被公认了。

PCA不需要主观选择端点、权重等，因此其结果更接近实际。

但PCA计算复杂，必须使用计算机才能完成，致使PCA直到20世纪60年代后期才被大量应用，从那时起到80年代中期，PCA一直是较普遍使用的方法。

PCA的分析过程1标准化种中心化：

样方中心化：

中心化后的数据矩阵为：

2计算属性间内积矩阵S3求内积矩阵S的特征根根据S矩阵的特征方程求得P个特征根，并依大小排列：

4求特征根所对应的特征向量根据S矩阵的特征方程，第i个特征根和第i个特征向量有如下关系：

解方程可以得到特征向量，重复多次可得出P个特征向量，构成矩阵U5求排序坐标矩阵Y6求属性的负荷量是第i个属性（种）对第j个主分量的负荷量。

矩阵表示：

例子假定调查得到6个样方两个种的数据，得原始数据矩阵Z为第一步，数据中心化得第二步，计算内积矩阵S第三步，求S的特征根得第四步，求S的特征向量展开两个联立方程分别解联立方程得特征向量的分量比再依正交矩阵的特点特征向量矩阵排序结果用图形表示，得6个样方的PCA排序图：

第五步，求排序坐标123456PCA是首次在低维空间排列样方而包含了大多数数据信息的多元排序方法，受到不少学者的喜爱，它在排序方法发展的过程中有着重要的地位。

PCA的最大缺点是它的线性模型，一般认为，线性模型不能很好的反映植物种、植被与环境间的关系，因此PCA结果的解释较为困难而且带有较大的主观性。

2典范主分量分析为了更好地研究环境因子对群落的作用，将主分量分析与环境因子结合起来，就形成了典范主分量分析（CPCA）。

由于它结合了环境矩阵，能够更好地反映群落与环境间的生态关系。

CPCA是PCA与多元回归的结合，其结合方式为：

在PCA分析的每一步都与环境因子进行回归，再将回归系数结合到下一步排序值的计算之中。

与环境因子的结合方式：

为截距；为第i个环境因子的回）可以用多元线性回归求得；式中，为第j个样方的排序值；归系数（为第i个环境因子观测值。

用迭代过程进行CPCA计算首先对原始数据进行中心化，将中心化后的种类数据矩阵记为1）任意选一组样方排序初始值,不应全部为02）计算种类排序值3）计算新的样方排序值4）以多元线性回归求各环境因子的回归系数，这是普通回归分析。

然后用新得到的值就是结合了环境因子的排序值，记作。

求样方排序值，5）对样方排序值进行利差标准化式中，为标准化后的值；S为离差，6回到第2）步，重新计算种类排序新值，重复迭代，直到两次迭代结果基本一致，这样就得到CPCA的第一排序轴，含种类第一排序轴和样方第一排序轴。

7求第二排序轴。

与第一排序轴一样，先进行1-4）步。

接下来对样方排序值进行正交化。

计算正交化系数v正交化对正交化后的样方排序值再进行标准化，方法第一轴的第5步和第6步，最终求得第二轴的排序值。

用前两个排序轴就可绘制排序图。

EleCuMnPKAsppHOrgZnNSloCPCA排序图CPCA排序图中箭头表示环境因子，箭头连线的长短表示植物种和群落的分布与该环境因子相关性的大小，箭头连线与排序轴夹角的大小表示环境因子与环境轴相关性的大小，夹角小说明关系密切，箭头所处的象限表示环境因子与排序轴之间的正、负相关性。

从CPCA排序图中可以看出，CPCA排序较好地描述了群落与环境间的生态关系。

第一轴主要反映了海拔的梯度变化，沿轴从左到右，海拔逐渐降低。

随着海拔的变化，水热条件发生一系列变化，因而对群落产生影响。

第二轴基本上表现出植物群落所在环境的坡度、坡向的变化趋势，沿轴从下到上，坡度渐缓、群落越向阳，说明地形因子对群落也有重要作用。

图中，海拔与排序轴的关系最密切，说明群落的分布主要受海拔这一环境因子的制约。

土壤有机质、N、P、Cu、Mn、Zn、坡度等与排序有明显作用关系，说明这些因子对植被有明显影响。

3主坐标分析主坐标分析（principalcoordinatesanalysis,PCOA）在外文文献中也有叫做principalaxesanalysis（PAA）的，它是Gower（1966,1967）建立的排序方法。

PCoA的计算原理与PCA相同，只是不像PCA只用欧氏距离计算点间距离，它可以用各种距离系数。

所以，PCoA实际上是PCA的普通化。

这一改进是有益的，并在一些研究中表现出优越性。

PCoA的分析步骤如下：

1）计算样方间的距离系数，构成距离矩阵D，这里使用距离系数的平方。

式中，表示样方j和k间的距离平方。

2）计算离差矩阵S其中3）求S矩阵的特征根，其中必有0根，因可解得N个特征根，依其大小可排成为N个点最多只有N-1维。

假定非0的特征根的个数为m。

4）求特征根相对应的特征向量代表第k个特征根；代表第k个特征根相对应的特征向量。

5）求排序坐标式中，表示样方j在第k个排序轴上的坐标值；表示第k个特征根所对应的第k个特征向量中的第j个值。

于是我们就求得前k个主要排序轴，可以表示为式中，m为非0特征根的数目。

例子假使得到三个样方的数据，它们之间的距离系数分别为由距离平方所组成的矩阵为由D计算离差矩阵S。

比如：

同样算出其他元素，最后得到再求其特征值解此方程得算出特征向量计算样方排序坐标，比如：

求其他元素，得到前面两个排序轴的排序坐标PCoA的分析结果一般与PCA一致，对某些数据类型稍优于PCA，但在整个植被研究中PCoA用的并不十分普遍。

在某些地区，如东欧，该方法用的比较多，匈牙利学者Podani（1999）编写了国际通用软件SYN-TAX，直到20世纪80年代末，该软件第三版只包括两种排序方法：

PCA和PCoA。

因此，这两种方法得到东欧学者的厚爱。

前面介绍的三种排序方法均为线性排序，还有非线性排序方法：

对应分析（CA/RA）以及由其衍生的其他方法，如除趋势对应分析（DCA）、典范对应分析（CCA）、除趋势典范对应分析（DCCA）、协惯量分析（COIA）。

此外还有模糊数学排序（FSO）、自组织神经映射网络排序（SOFM）、典范相关分析（CCoA）、无度量多维标定排序、以分类为基础的排序等。

排序方法的比较对于同一样方集合，可以用不同的数据进行排序，如用种类数据和环境数据、数量数据和二元数据等。

比较不同的排序结果有重大的生态意义。

在某些情况下，研究凭经验难以判断数据的结构，因此较难决定哪一种排序方法更适合于该数据类型。

通常需要用两种或几种排序方法对同一数据类型进行处理，然后比较它们的结果。

所以，我们要有比较排序结果的方法。

主要有：

相关分析法和排序图的比较法。

分别第i个样方分别为它们的平式中，r为两个排序方法排序轴间的相关系数；和在第1个和第2个排序方法中的排序坐标值；和均值；N为样方数，相关系数的检验可查相关表。

一、相关相分析关就是分计算析排序轴间的相关系数。

对只有一维排序轴的方法，如加权平均法、连续带分析等，可以直接进行相关分析，计算相关系数对于二维和多维排序，要看排序轴所揭示的生态梯度是否一致，如果不一致，一般不用相关分析法。

二维和多维排序一般用排序图比较结果。

二、排序图的比较排序图比较的步骤：

首先，将两个排序图上下重叠；其次，平行移动其中之一，使二者的坐标原点重合；然后，在保持第一个排序图不动的情况下，以坐标轴原点为中心，适当转动第二个排序图，使二者所反映的生态梯度重合一致。

对于实际研究数据，两个排序完全一致的可能性非常小，只要二者所反映的梯度趋势一致，一般就认为两个排序结果相吻合，在梯度明显的情况下，不进行转动也可以直观的看出二者的差异。

谢谢！

展开阅读全文