1、费宇39.1 典型相关分析基本理论典型相关分析基本理论典型相关分析是研究两组变量之间整体的相典型相关分析是研究两组变量之间整体的相关关系关关系,它将每一组变量作为一个整体来进它将每一组变量作为一个整体来进行研究行研究,所研究的两组变量可以是一组变量所研究的两组变量可以是一组变量是自变量是自变量,另一组变量是因变量另一组变量是因变量;当然当然,也可也可以两组变量处于同等地位以两组变量处于同等地位.2022/11/1主编:费宇49.1 典型相关分析基本理论典型相关分析基本理论典型相关分析的基本原理典型相关分析的基本原理借助主成分分析的思想借助主成分分析的思想,在每组变量中找出变量的在每组变量中找出
2、变量的线性组合即新的综合变量线性组合即新的综合变量,使生成的综合变量能代使生成的综合变量能代表原始变量的主要信息表原始变量的主要信息,同时同时,与由另一组变量生成与由另一组变量生成的新的综合变量的相关程度最大的新的综合变量的相关程度最大,这样得到的一组这样得到的一组新变量称为第一对典型相关变量新变量称为第一对典型相关变量;同样的方法可以同样的方法可以找到第二对典型相关变量找到第二对典型相关变量,第三对典型相关变量第三对典型相关变量要求各对典型相关变量之间互不相关要求各对典型相关变量之间互不相关.典型相关变典型相关变量间的相关系数称为典型相关系数量间的相关系数称为典型相关系数,可以衡量两组可以衡
3、量两组变量之间的相关性变量之间的相关性.2022/11/1主编:费宇59.1 典型相关分析基本理论典型相关分析基本理论1.1.总体典型相关变量总体典型相关变量假设有两组假设有两组变量变量,一一组变量组变量为为x=(x1,x2,xp)T,另一组变量为另一组变量为y=(y1,y2,yq)T,且且pq,变量变量x与变量与变量y的的协方差阵协方差阵为为2022/11/1主编:费宇61.1.总体典型相关变量总体典型相关变量为研究变量为研究变量x与变量与变量y之间的线性相关之间的线性相关关系关系,我们我们考虑它们之间的考虑它们之间的线性组合线性组合u和和v的的方差和协方差分别为方差和协方差分别为2022/
4、11/1主编:费宇71.1.总体典型相关变量总体典型相关变量两个新两个新变量变量u和和v之间之间的相关系数的相关系数(即典型相关系即典型相关系数数)为为由于变量由于变量u和和v乘乘以不为零以不为零常数不常数不改变它们之间的改变它们之间的相关性相关性,即即对任意对任意常数常数c0,有有Corr(cu,cv)=Corr(u,v),所以所以通常需通常需对对a和和b附加约附加约束条件束条件,使变量使变量a和和b唯一唯一,最好最好的约束条件是的约束条件是2022/11/1主编:费宇81.1.总体典型相关变量总体典型相关变量我们的问题我们的问题就变成在上述约束条件下就变成在上述约束条件下求求a和和b,使得
5、使得达到最大达到最大.由拉格朗日乘数由拉格朗日乘数法法,这个这个问题等价于问题等价于求求a和和b使使达到达到最大最大,其中其中和和是是拉格朗日乘数拉格朗日乘数.2022/11/1主编:费宇91.1.总体典型相关变量总体典型相关变量将将(9.7)(9.7)两边分别对两边分别对向量向量a和和b求导求导,并并令其为令其为0 0,得方程组得方程组以以aT和和bT分别分别左乘左乘(9.8)(9.8)两式两式得得但但(bT21a)T=aT21b=,所以所以=,即即恰好就是恰好就是u和和v的的相关系数相关系数.2022/11/1主编:费宇101.1.总体典型相关变量总体典型相关变量由方程组由方程组(9.8)
6、(9.8)的第二式的第二式得得 ,将将其其代代入入(9.8)9.8)的第一的第一式式得得 ,两两边边左乘左乘以以 得得 ,同理同理可可得得 ,记记 ,则得则得这这说明说明2既是既是A的的特征根特征根又是又是B的的特征特征根根,a和和b是是其相应的其相应的特征向量特征向量.2022/11/1主编:费宇111.1.总体典型相关变量总体典型相关变量于是于是求求和和a,b的的问题就转化为求问题就转化为求矩阵矩阵A和和B的的特征特征根和特征向量的问题根和特征向量的问题.设设A的的p个个特征根为特征根为 ,则称则称1 2 p 0为典型相关系数为典型相关系数,相应相应的特征向量的特征向量为为a1,a2,ap
7、和和b1,b2,bp,从而从而可可得得p对线性组合对线性组合每每一对变量称为一对一对变量称为一对典型变量典型变量,其中其中u1和和v1称为称为第一第一对对典型变量典型变量,它们它们之间的之间的相关系数相关系数1称为称为第一典型相第一典型相关系数关系数.2022/11/1主编:费宇122.2.典型相关变量的性质典型相关变量的性质我们不加证明的给出典型变量以下三个性质我们不加证明的给出典型变量以下三个性质:(1)(1)每一对每一对典型变量典型变量ui及及vi(i=1,2,p)的标准差的标准差为为1 1.(2)(2)任意两个任意两个典型变量典型变量ui(i=1,2,p)彼此不相关彼此不相关,任意任意
8、两个两个典型变量典型变量vi(i=1,2,p)彼此不相关彼此不相关,且且当当 ,ui及及vi也也彼此不相关彼此不相关.(3)(3)典型变量典型变量ui及及vi的的相关系数相关系数为为i(i=1,2,p),典型相关系数典型相关系数满足满足关系式关系式1 1 2 p 0.2022/11/1主编:费宇132.2.典型相关变量的性质典型相关变量的性质在在理论上理论上,典型变量典型变量的对数和相对应的典型相的对数和相对应的典型相关系数的个数可以等于两组变量中数目较少关系数的个数可以等于两组变量中数目较少的那一组变量的的那一组变量的个数个数,其中其中,u1及及v1的的相关系数相关系数 反映的相关成分反映的
9、相关成分最多最多,所以所以称为第一对称为第一对典型变典型变量量;u2及及v2的的相关系数相关系数 反映的相关成分反映的相关成分次之次之,所以所以称为第二对称为第二对典型变量典型变量;以此类推以此类推.2022/11/1主编:费宇143.3.样本典型相关变量样本典型相关变量前面我们是从前面我们是从变量变量x与变量与变量y的协方差阵的协方差阵出发考虑出发考虑x与与y的的典型相关典型相关变量变量,这这称为总体典型相关称为总体典型相关变量变量,但但在实际例子中一般并在实际例子中一般并不知道不知道,因此因此通常采用通常采用样本协样本协方差阵方差阵S代替代替.但是但是这时的特征根可能不在这时的特征根可能不
10、在0 0和和1 1的的范围范围内内,因此因此会出现软件输出中的特征根(比如远会出现软件输出中的特征根(比如远远大于远大于1 1)不等于相关系数的平方的)不等于相关系数的平方的情况情况,这时这时,各各种种软件会给出调整后的相关系数软件会给出调整后的相关系数.2022/11/1主编:费宇153.3.样本典型相关变量样本典型相关变量因此因此,在在大多数情况大多数情况下下,我们我们在进行典型相在进行典型相关分析关分析时时,需需将数据将数据标准化标准化,这时样本协方这时样本协方差阵差阵S即即为为样本相关阵样本相关阵R,就就不会出现这种情不会出现这种情况况.根据根据样本相关阵样本相关阵R计算计算得到的典型
11、相关得到的典型相关变量变量,称为称为样本典型相关样本典型相关变量变量,具体具体计算过计算过程如下程如下.2022/11/1主编:费宇163.3.样本典型相关变量样本典型相关变量设容量设容量为为n的的样本来自正态样本来自正态总体总体,两两组变量的观测值组变量的观测值分别记分别记为为x=(x1,x2,xp)T和和y=(y1,y2,yq)T,不妨设不妨设p0对对应的特征向量应的特征向量 ,它是它是b1,b2,bp的估的估计值计值.这里这里r1 r2 rp0称为样本称为样本典型相关典型相关系数系数,而而 称为样称为样本典型相关变量本典型相关变量.2022/11/1主编:费宇184.典型相关系数的显著性
12、检验典型相关系数的显著性检验典型相关系数是否显著的不为典型相关系数是否显著的不为零零,可以通过可以通过Bartlett大样本卡方检验来完成大样本卡方检验来完成.设设 的的p个特征根为个特征根为 ,则典型相关系数则典型相关系数1的的显著性检验等价于以下显著性检验等价于以下检验检验H0:1=0,H1:10.检验统计量检验统计量为为 ,其中其中 .在检验水平在检验水平下下,如果如果 则则拒绝原假设拒绝原假设,认为第一对典型变量显著相关认为第一对典型变量显著相关.2022/11/1主编:费宇194.典型相关系数的显著性检验典型相关系数的显著性检验一般一般地地,若若前前j-1个典型相关系数在个典型相关系
13、数在水平水平下下是是显著显著的的,则则当检验第当检验第j个典型相关系数的显著个典型相关系数的显著性性时时,检验统计量为检验统计量为其中其中 .2022/11/120主编:费宇4.典型相关系数的显著性检验典型相关系数的显著性检验需要指出的需要指出的是是,在在实际应用实际应用上上,通常通常通过典型通过典型相关系数的显著性检验以及典型变量和典型相关系数的显著性检验以及典型变量和典型相关系数的实际相关系数的实际解释解释,来来确定究竟保留几对确定究竟保留几对典型变量典型变量.所求得的典型变量的对数愈少愈所求得的典型变量的对数愈少愈容易容易解释解释,最好是最好是第一对典型变量就能反映第一对典型变量就能反映
14、足够多的相关足够多的相关成分成分,只只保留一对典型变量便保留一对典型变量便比较理想比较理想.2022/11/121主编:费宇9.2 案例案例表表9.1 9.1 我国我国科学研究与开发机构科技活动情况表科学研究与开发机构科技活动情况表2022/11/122主编:费宇9.2 案例案例表表9.19.1给给出了出了2005-20122005-2012年我国科学研究与开发机年我国科学研究与开发机构科技投入和产出的部分代表指标构科技投入和产出的部分代表指标.其中其中,科技科技投投入指标为入指标为:x1,R&D人员全时当量(单位:万人年人员全时当量(单位:万人年)、x2,R&D经费支出(单位:亿元)经费支出
15、(单位:亿元)、x3,政府政府资资金(单位:亿元)金(单位:亿元)、x4,企业企业资金(单位:亿元)资金(单位:亿元);科技产出指标为;科技产出指标为:y1,发表发表科技论文(篇)科技论文(篇)、y2,专利专利申请受理数(件)申请受理数(件)、y3,发明发明专利(件专利(件);利用利用这些数据进行典型相关分析来分析我国科这些数据进行典型相关分析来分析我国科学研究与开发机构科技投入和产出关系学研究与开发机构科技投入和产出关系.2022/11/123主编:费宇(1)计算相关系数矩阵)计算相关系数矩阵(1 1)计算相关系数)计算相关系数矩阵:矩阵:,下面程序求下面程序求各分块矩阵的值各分块矩阵的值.其中其中,R11=R1:4,1:4,R12=R1:4,5:7,R21=R5:7,1:4,R21=R5:7,5:7.2022/11/124主编:费宇 X=read.csv(dxxgkykf.csv,header=T)R=cor(X);R R.D人员全时当量 R.D经费支出 政府资金 企业资金 发表科技论文 专利申请受理数 发明专利R.D人员全时当量 1.0000000 0.9908535 0.9911356 0.9504280 0.9844693 0.9840037 0.9363118R.D经费支出 0.9908535 1.0
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1