第九章对应分析.docx

资源描述

第九章对应分析.docx

《第九章对应分析.docx》由会员分享，可在线阅读，更多相关《第九章对应分析.docx（10页珍藏版）》请在冰豆网上搜索。

第九章对应分析.docx

第九章对应分析

应用多元统计分析

第九章对应分析

对应分析又称相应分析,于1970年由法国统计学家J.P.Beozecri提出的.它是在R型和Q型因子分析基础上发展起来的多元统计分析方法,故也称为R-Q型因子分析.

因子分析方法是用少数几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,又把握住了研究对象的相互关系.在因子分析中根据研究对象的不同,分为R型和Q型,如果研究变量间的相互关系时采用R型因子分析;如果研究样品间相互关系时采用Q型因子分析.

无论是R型或Q型都未能很好地揭示变量和样品间的双重关系.

另方面在处理实际问题中,样本的大小经常是比变量个数多得多.当样品个数n很大（如n>100）,进行Q型因子分析时,计算n阶方阵的特征值和特征向量对于微型计算机的容量和速度都是难以胜任的.

还有进行数据处理时,为了将数量级相差很大的变量进行比较,常常先对变量作标准化处理,然而这种标准化处理对于变量和样品是非对等的,这给寻找R型和Q型之间的联系带来一定的困难.

第九章什么是对应分析

对应分析方法是在因子分析的基础上发展起来的,它对原始数据采用适当的标度方法.把R型和Q型分析结合起来,同时得到两方面的结果---在同一因子平面上对变量和样品一块进行分类,从而揭示所研究的样品和变量间的内在联系.

对应分析由R型因子分析的结果,可以很容易地得到Q型因子分析的结果,这不仅克服样品量大时作Q型因子分析所带来计算上的困难,且把R型和Q型因子分析统一起来,把样品点和变量点同时反映到相同的因子轴上,这就便于我们对研究的对象进行解释和推断.

第九章对应分析的基本思想

由于R型因子分析和Q型分析都是反映一个整体的不同侧面,因而它们之间一定存在内在的联系.对应分析就是通过一个变换后的过渡矩阵Z将二者有机地结合起来.

具体地说,首先给出变量间的协差阵

=Z'Z和样品间的协差阵

=ZZ',由于Z'Z和ZZ'有相同的非零特征根,记为

如果

的特征根

对应的特征向量为

则

的特征根

对应的特征向量

.由此可以很方便地由R型因子分析而得到Q型因子分析的结果.

对应分析的基本思想

由A的特征根和特征向量即可写出R型因子分析的因子载荷阵（记为

）和Q型因子分析的因子载荷阵（记为

）.

§9.1什么是对应分析

基本思想

由于A和B具有相同的非零特征根,而这些特征根又正是各个公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类.

第十章典型相关分析

相关分析是研究多个变量与多个变量之间的相关关系.如研究两个随机变量之间的相关关系可用简单相关系数表示;研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表示.

1936年Hotelling首先将相关分析推广到研究多个随机变量与多个随机变量之间的相关关系,故而产生了典型相关分析,广义相关系数等一些有用的方法.

第十章什么是典型相关分析

在实际问题中,经常遇到要研究一部分变量和另一部分变量之间的相关关系,例如:

在工业中,考察原料的主要质量指标（

）与产品的主要质量指标（

）间的相关性;

在经济学中,研究主要肉类的价格与销售量之间的相关性;

在地质学中,为研究岩石形成的成因关系,考察岩石的化学成份与其周围围岩化学成份的相关性;

在气象学中为分析预报24小时后天气的可靠程度,研究当天和前一天气象因子间的相关关系;

第十章什么是典型相关分析

在教育学中,研究学生在高考的各科成绩与高二年级各主科成绩间的相关关系;

在婚姻的研究中,考察小伙子对追求姑娘的主要指标与姑娘想往的小伙子的主要尺度之间的相关关系;

在医学中,研究患某种疾病病人的各种症状程度与用科学方法检查的一些结果之间的相关关系;

在体育学中,研究运动员的体力测试指标与运动能力指标之间的相关关系等.

第十章什么是典型相关分析

一般地,假设有一组变量

与另一组变量

（也可以记为

）,我们要研究这两组变量的相关关系,如何给两组变量之间的相关性以数量的描述,这就是本章研究的典型相关分析.

当p=q=1时,就是研究两个变量X与Y之间的相关关系.简单相关系数是最常见的度量.其定义为

第十章什么是典型相关分析

当p≥1,q=1时（或q≥1,p=1）

设

则称

为Y与（X1,…,Xp）的全相关系数.

其实Y对X的回归为

且并称R为全相关系数

第十章什么是典型相关分析

当p,q>1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新变量之间的相关.

也就是求=（1,…,p）和=（1,…,q）,使得新变量:

V=1X1+…+pXp=X

W=1Y1+…+qYq=Y之间有最大可能的相关,基于这个思想就产生了典型相关分析（Canonicalcorrelatinalanalysis）.

第十章总体典型相关

设X=（X1,...,Xp）及Y=（Y1,...,Yq）为随机向量（不妨设p≤q）,记随机向量

Z的协差阵为

其中Σ11是X的协差阵,Σ22是Y的协差阵,

Σ12=Σ’21是X,Y的协差阵.

第十章总体典型相关

我们用X和Y的线性组合V=aX和W=bY之间的相关来研究X和Y之间的相关.我们希望找到a和b,使ρ（V,W）最大.由相关系数的定义:

又已知

第十章总体典型相关

故有

对任给常数c1,c2,d1,d2,显然有

ρ（c1V+d1,c2W+d2）=ρ（V,W）

即使得相关系数最大的V=aX和W=bX并不唯一.

故加附加约束条件Var（V）=aΣ11a=1,

Var（W）=bΣ22b=1.

问题化为在约束条件Var（V）=1,Var（W）=1下,

求a和b,使得ρ（V,W）=aΣ12b达最大.

第十章样本典型相关

设总体Z=（X1,...,Xp,Y1,…,Yq）’.在实际问题中,总体的均值E（Z）=和协差阵D（Z）=通常是未知的,因而无法求得总体的典型相关变量和典型相关系数.

首先需要根据观测到的样本资料阵对其进行估计.

已知总体Z的n个样品:

第十章样本典型相关

样本资料阵为

若假定Z～N（,）,则协差阵的最大似然估

计为

第十章样本典型相关

我们从协差阵的最大似然估计S*（或样本协差阵S）出发,按上节的方法可以导出样本典型相关变量和样本典型相关系数.还可以证明样本典型相关变量和样本典型相关系数是总体典型相关变量和样本典型相关系数的极大似然估计.

也可以从样本相关阵R出发来导出样本典型相关变量和样本典型相关系数.

第十章样本典型相关

典型相关系数的显著性检验：

总体Z的两组变量X=（X1,...,Xp）’和Y=（Y1,…,Yq）’如果不相关,即COV（X,Y）=12=0,以上有关两组变量典型相关的讨论就毫无意义.

故在讨论两组变量间相关关系之前,应首先对以下假设H0作统计检验.

（1）检验H0:

12=0（即1=0）

设总体Z～Np+q（,）.用似然比方法可导出检验H0的似然比统计量为（A,A11,A22为离差阵）

第十章样本典型相关

典型相关系数的显著性检验

（2）检验H0（i）:

i=0（i=2,...,p）

当否定H0时,表明X,Y相关,进而可得出至少第一个典型相关系数1≠0.相应的第一对典型相关变量V1,W1可能已经提取了两组变量相关关系的绝大部分信息.

在实际问题中,经常迂到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量（常称为自变量或预测变量）去预测另一组变量（常称为因变量或响应变量）,除了最小二乘准则下的经典多元线性回归分析（MLR）,提取自变量组主成分的主成分回归分析（PCR）等方法外,还有近年发展起来的偏最小二乘（PLS）回归方法.

第十一章什么是偏最小二乘回归

偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量（样本量）又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。

偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线性回归分析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息。

第十一章什么是偏最小二乘回归

本章结合SAS/STAT软件中用于完成偏最小二乘回归的PLS过程,介绍偏最小二乘回归分析的建模方法；

并通过例子从预测角度对所建立的回归模型进行比较。

第十一章偏最小二乘回归分析

考虑p个因变量Y1,…,Yp与m个自变量X1,…,Xm的建模问题。

偏最小二乘回归的基本作法是首先在自变量集中提取第一成分T1（T1是X1,…,Xm的线性组合,且尽可能多地提取原自变量集中的变异信息）;

同时在因变量集中也提取第一成分U1,并要求T1与U1相关程度达最大。

然后建立因变量Y1,…,Yp与T1的回归，如果回归方程已达到满意的精度，则算法终止。

第十一章什么是偏最小二乘回归

否则继续第二对成分的提取,直到能达到满意的精度为止。

若最终对自变量集提取r个成分T1,T2,…,Tr,偏最小二乘回归将通过建立Y1,…,Yp与T1,T2,…,Tr的回归式,然后再表示为Y1,…,Yp与原自变量的回归方程式,即偏最小二乘回归方程式.

第十一章偏最小二乘回归分析

假定p个因变量Y1,…,Yp与m个自变量X1,…,Xm均为标准化变量。

因变量组和自变量组的n次标准化观测数据阵分别记为：

第十一章偏最小二乘回归分析

偏最小二乘回归分析建模的具体步骤如下：

（1）分别提取两变量组的第一对成分T1和U1,并使之相关性达最大。

为了回归分析的需要,要求：

①T1和U1各自尽可能多地提取所在变量组的变异信息；

②T1和U1的相关程度达到最大。

（2）建立Y1,…,Yp对T1的回归及X1,…,Xm对T1的回归,得:

第十一章偏最小二乘回归分析

（3）用残差阵E1和F1代替X0和Y0重复以上步骤.

如果残差阵F1中元素的绝对值近似为0，则认为用第一个成分建立的回归式精度已满足需要了，可以停止抽取成分.否则用残差阵E1和F1代替X0和Y0重复以上步骤.

第十一章偏最小二乘回归分析

（4）设n×m数据阵X0的秩为r≤min（n-1,m）,则存在r个成分t1,t2,…,tr,并建立Yj*与t1,t2,…,tr的回归式:

即得p个标准化因变量的偏最小二乘回归方程

然后再还原为原始变量的偏最小二乘回归方程:

第十一章偏最小二乘回归分析

（5）确定抽取成分的个数l.

一般情况下,偏最小二乘回归并不需要选用存在的所有r个成分t1,t2,…,tr来建立回归式,而像主成分分析一样,只选用前k个成分（k≤r）,即可得到预测能力较好的回归模型.

抽取k个成分时第j个因变量Yj（j=1,…,p）的预测残差平方和为

第十一章应用例子

以下通过康复俱乐部20名成员测试数据的偏最小二乘回归分析例子介绍PLS过程的用法.例11.2.1康复俱乐部对20名中年人测量了三个生理指标：

WEIGHT（体重），WAIST（腰围），PULSE（脉膊）和三个训练指标：

CHINS（拉单杠次数），SITUPS（仰卧起坐次数），JUMPS（跳高）（数据见第十章例10.3.1）.试用偏最小二乘回归方法建立由三个生理指标分别预测三个训练指标回归模型，并对计算结果进行分析.

第十一章应用例子

解使用SAS/STAT软件中PLS过程来完成偏最小二乘回归分析.假设测试数据已生成为

d1121的SAS数据集，SAS程序如下：

procplsdata=d1121details;

/*cv=one或nfac=2*/

modelchinssitupsjumps=weightwaistpulse

/solution;

outputout=outplsyscore=uxscore=t

predicted=pr1-pr3;

run;

第十一章应用例子

展开阅读全文

第九章 对应分析.docx

第九章对应分析.docx