ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:158.35KB ,
资源ID:5386056      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5386056.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第九章 对应分析.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

第九章 对应分析.docx

1、第九章 对应分析应用多元统计分析第九章 对应分析 对应分析又称相应分析,于1970年由法国统计学家J.P.Beozecri提出的.它是在R型和Q型因子分析基础上发展起来的多元统计分析方法,故也称为R-Q型因子分析.因子分析方法是用少数几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,又把握住了研究对象的相互关系.在因子分析中根据研究对象的不同,分为R型和Q型,如果研究变量间的相互关系时采用R型因子分析;如果研究样品间相互关系时采用Q型因子分析. 无论是R型或Q型都未能很好地揭示变量和样品间的双重关系. 另方面在处理实际问题中,样本的大小经常是比变量个数多得多.当样品个数n很大(如n

2、100),进行Q型因子分析时,计算n阶方阵的特征值和特征向量对于微型计算机的容量和速度都是难以胜任的. 还有进行数据处理时,为了将数量级相差很大的变量进行比较,常常先对变量作标准化处理,然而这种标准化处理对于变量和样品是非对等的,这给寻找R型和Q型之间的联系带来一定的困难.第九章 什么是对应分析 对应分析方法是在因子分析的基础上发展起来的,它对原始数据采用适当的标度方法.把R型和Q型分析结合起来,同时得到两方面的结果-在同一因子平面上对变量和样品一块进行分类,从而揭示所研究的样品和变量间的内在联系. 对应分析由R型因子分析的结果,可以很容易地得到Q型因子分析的结果,这不仅克服样品量大时作Q型因

3、子分析所带来计算上的困难,且把R型和Q型因子分析统一起来,把样品点和变量点同时反映到相同的因子轴上,这就便于我们对研究的对象进行解释和推断.第九章 对应分析的基本思想 由于R型因子分析和Q型分析都是反映一个整体的不同侧面,因而它们之间一定存在内在的联系. 对应分析就是通过一个变换后的过渡矩阵Z将二者有机地结合起来. 具体地说,首先给出变量间的协差阵=ZZ和样品间的协差阵=ZZ ,由于ZZ和ZZ有相同的非零特征根,记为,如果的特征根对应的特征向量为,则的特征根对应的特征向量.由此可以很方便地由R型因子分析而得到Q型因子分析的结果.对应分析的基本思想 由A的特征根和特征向量即可写出R型因子分析的因

4、子载荷阵(记为)和Q型因子分析的因子载荷阵(记为).9.1 什么是对应分析 基本思想 由于A和B具有相同的非零特征根,而这些特征根又正是各个公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类.第十章 典型相关分析 相关分析是研究多个变量与多个变量之间的相关关系.如研究两个随机变量之间的相关关系可用简单相关系数表示;研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表示. 1936年Hotelling首先将相关分析推广到研究多个随机变量与多个随机变量之间的相关关系,故而产生了典型相关分

5、析,广义相关系数等一些有用的方法.第十章 什么是典型相关分析 在实际问题中,经常遇到要研究一部分变量和另一部分变量之间的相关关系,例如: 在工业中,考察原料的主要质量指标() 与产品的主要质量指标()间的相关性; 在经济学中,研究主要肉类的价格与销售量之间的相关性; 在地质学中,为研究岩石形成的成因关系,考察岩石的化学成份与其周围围岩化学成份的相关性; 在气象学中为分析预报24小时后天气的可靠程度,研究当天和前一天气象因子间的相关关系;第十章 什么是典型相关分析 在教育学中,研究学生在高考的各科成绩与高二年级各主科成绩间的相关关系; 在婚姻的研究中,考察小伙子对追求姑娘的主要指标与姑娘想往的小

6、伙子的主要尺度之间的相关关系; 在医学中,研究患某种疾病病人的各种症状程度与用科学方法检查的一些结果之间的相关关系; 在体育学中,研究运动员的体力测试指标与运动能力指标之间的相关关系等.第十章 什么是典型相关分析 一般地,假设有一组变量与另一组变量(也可以记为),我们要研究这两组变量的相关关系,如何给两组变量之间的相关性以数量的描述,这就是本章研究的典型相关分析.当p=q=1时,就是研究两个变量X与Y之间的相关关系.简单相关系数是最常见的度量.其定义为第十章 什么是典型相关分析 当p 1 ,q=1时(或 q 1 , p =1)设则称 为Y与(X1,Xp) 的全相关系数. 其实Y对X的回归为 且

7、 并称R为全相关系数 . 第十章 什么是典型相关分析 当p,q1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新变量之间的相关.也就是求=(1, p) 和 =(1, q ) , 使得新变量: V= 1X1+pXp = XW= 1Y1+ qYq = Y之间有最大可能的相关,基于这个思想就产生了典型相关分析(Canonical correlatinal analysis).第十章 总体典型相关 设X=(X1,.,Xp )及Y=(Y1,.,Yq)为随机向量(不妨设pq),记随机向量 Z的协差阵为其中11是X的协差阵,22是Y的协差阵, 12 =21是X,Y的协差阵.第十章 总体

8、典型相关我们用X和Y的线性组合V=a X和W=b Y之间的相关来研究X和Y之间的相关.我们希望找到a和b,使(V,W) 最大.由相关系数的定义:又已知第十章 总体典型相关故有对任给常数c1,c2,d1,d2,显然有 (c1V+d1, c2W+d2)=(V,W)即使得相关系数最大的V=aX和W=bX并不唯 一. 故加附加约束条件 Var(V)=a11 a=1, Var(W)=b22 b=1. 问题化为在约束条件Var(V)= 1,Var(W)=1下,求a和b,使得(V,W)= a12 b达最大 .第十章 样本典型相关 设总体Z=(X1,.,Xp,Y1,Yq ).在实际问题中,总体的均值E(Z)=

9、 和协差阵D(Z)= 通常是未知的,因而无法求得总体的典型相关变量和典型相关系数. 首先需要根据观测到的样本资料阵对其进行估计. 已知总体Z的n个样品:第十章 样本典型相关 样本资料阵为若假定ZN(,),则协差阵 的最大似然估计为 第十章 样本典型相关 我们从协差阵 的最大似然估计S*(或样本协差阵S)出发,按上节的方法可以导出样本典型相关变量和样本典型相关系数.还可以证明样本典型相关变量和样本典型相关系数是总体典型相关变量和样本典型相关系数的极大似然估计. 也可以从样本相关阵R出发来导出样本典型相关变量和样本典型相关系数. 第十章 样本典型相关典型相关系数的显著性检验: 总体Z的两组变量X=

10、(X1,.,Xp)和Y=(Y1, ,Yq )如果不相关,即COV(X,Y)=12=0,以上有关两组变量典型相关的讨论就毫无意义. 故在讨论两组变量间相关关系之前,应首先对以下假设H0作统计检验. (1) 检验H0 : 12=0 (即1=0) 设总体ZNp+q(,).用似然比方法可导出检验H0的似然比统计量为(A,A11,A22为离差阵) 第十章 样本典型相关典型相关系数的显著性检验(2)检验H0(i): i=0 (i=2,.,p) 当否定H0时,表明X,Y相关,进而可得出至少第一个典型相关系数1 0.相应的第一对典型相关变量V1,W1可能已经提取了两组变量相关关系的绝大部分信息. 在实际问题中

11、,经常迂到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法.第十一章 什么是偏最小二乘回归 偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。 偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线性回归分析方

12、法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息。 第十一章 什么是偏最小二乘回归 本章结合SAS/STAT软件中用于完成偏最小二乘回归的PLS过程,介绍偏最小二乘回归分析的建模方法; 并通过例子从预测角度对所建立的回归模型进行比较。 第十一章 偏最小二乘回归分析考虑p个因变量Y1,Yp与m个自变量X1,Xm的建模问题。 偏最小二乘回归的基本作法是首先在自变量集中提取第一成分T1(T1是X1,Xm的线性组合,且尽可能多地提取原自变量集中的变异信息); 同时在因变量集中也提取第一成分U1,并要

13、求T1与U1相关程度达最大。然后建立因变量Y1,Yp与T1的回归,如果回归方程已达到满意的精度,则算法终止。第十一章 什么是偏最小二乘回归 否则继续第二对成分的提取,直到能达到满意的精度为止。 若最终对自变量集提取r个成分T1,T2,Tr,偏最小二乘回归将通过建立Y1,Yp与T1,T2,Tr的回归式,然后再表示为Y1,Yp与原自变量的回归方程式,即偏最小二乘回归方程式.第十一章 偏最小二乘回归分析 假定p个因变量Y1,Yp与m个自变量X1,Xm 均为标准化变量。因变量组和自变量组的n次标准化观测数据阵分别记为: 第十一章 偏最小二乘回归分析偏最小二乘回归分析建模的具体步骤如下: (1)分别提取

14、两变量组的第一对成分T1和U1,并使之相关性达最大。为了回归分析的需要,要求: T1和U1各自尽可能多地提取所在变量组的变异信息; T1和U1的相关程度达到最大。 (2) 建立Y1,Yp对T1的回归及X1,Xm 对T1的回归,得: 第十一章 偏最小二乘回归分析 (3) 用残差阵E1和F1代替X0和Y0重复以上步骤. 如果残差阵F1中元素的绝对值近似为0,则认为用第一个成分建立的回归式精度已满足需要了,可以停止抽取成分.否则用残差阵E1和F1代替X0和Y0重复以上步骤. 第十一章 偏最小二乘回归分析(4) 设nm数据阵X0的秩为rmin(n-1,m),则存在r个成分t1,t2,tr,并建立Yj*

15、与t1,t2,tr的回归式: 即得p个标准化因变量的偏最小二乘回归方程 然后再还原为原始变量的偏最小二乘回归方程:第十一章 偏最小二乘回归分析 (5) 确定抽取成分的个数l . 一般情况下,偏最小二乘回归并不需要选用存在的所有r个成分t1,t2,tr来建立回归式,而像主成分分析一样,只选用前k个成分(kr),即可得到预测能力较好的回归模型. 抽取k个成分时第j个因变量Yj (j=1,p)的预测残差平方和为 第十一章 应用例子 以下通过康复俱乐部20名成员测试数据的偏最小二乘回归分析例子介绍PLS过程的用法. 例11.2.1 康复俱乐部对20名中年人测量了三个生理指标:WEIGHT(体重),WA

16、IST(腰围),PULSE(脉膊)和三个训练指标:CHINS(拉单杠次数),SITUPS(仰卧起坐次数),JUMPS(跳高)(数据见第十章例10.3.1).试用偏最小二乘回归方法建立由三个生理指标分别预测三个训练指标回归模型,并对计算结果进行分析. 第十一章 应用例子 解 使用SAS/STAT软件中PLS过程来完成偏最小二乘回归分析.假设测试数据已生成为d1121的SAS数据集,SAS程序如下:proc pls data=d1121 details ; /* cv=one 或 nfac=2 */ model chins situps jumps=weight waist pulse / solution; output out=outpls yscore=u xscore=t predicted=pr1-pr3; run;第十一章 应用例子

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1