因子分析和典型相关分析.pptx
《因子分析和典型相关分析.pptx》由会员分享,可在线阅读,更多相关《因子分析和典型相关分析.pptx(23页珍藏版)》请在冰豆网上搜索。
演讲者:
王彤,因子分析与典型相关分析,因子分析是主成分分析的推广和发展,它也是多元统计分析中降维的一种方法,是一种用来分析隐藏在表面现象背后的因子作用的一类统计模型。
因子分析是研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。
因子分析起源于20世纪初,K.Pearson和C.Spearman等学者为定义和测定智力所作的统计分析。
目前因子分析在心理学、社会学、经济学等学科取得了成功的应用。
因子分析函数,1.factanal函数factanal()函数完成因子分析的计算,它可以从样本、样本方差矩阵或者是样本相关矩阵出发对数据做因子分析,采用极大似然法估计参数,可以给出方差最大的载荷因子矩阵,其使用格式为factanal(x,factors,data=NULL,covmat=NULL,n.obs=NA,subset,na.action,start=NULL.scores=c(“none”,”regression”,”Bartlett”),rotation=”varimax”,control=NULL,.),2.varimax函数varimax()函数可以完成因子载荷矩阵的旋转变换(或反射变换),其使用格式为varimax(x,normalize=TRUE,eps=1e-5)varimax()函数的返回值为一个列表,有:
loadings表示旋转后的因子载荷矩阵,rotmat表示旋转矩阵。
3.promax函数在计算中,有时需要做斜交变换,得到的旋转矩阵允许彼此相关。
promax()函数就是完成一种斜交变换的方法,其使用格式为pormax(x,m=4)promax()函数的返回值与varimax()函数相同,只是得到rotmat(旋转矩阵),即矩阵T,不再是正交阵,(TTT)(-1)为旋转因子的相关矩阵。
因子分析的计算,例7.21对55个国家和地区的男子竞赛记录作统计,每位运动员记录8项指标:
100m跑(X1)、200m跑(X2)、400m跑(X3)、800m跑(X4)、1500m跑(X5)、5000m跑(X6)、10000m跑(X7)、马拉松(X8).8项指标的相关矩阵R如表7.18所示.取因子个数为2,用factanal()函数计算因子载荷共性方差等指标,参数选择方差最大.,例7.22现有48位应聘者应聘某公司的某职位,公司为这些应聘者的15项指标打分,这15项指标分别是:
求职信的形式(FL)、外貌(APP)、专业能力(AA)、讨人喜欢(LA)、自信心(SC)、洞察力(LC)、诚实(HON)、推销能力(SMS)、经验(EXP)、驾驶水平(DRV)、事业心(AMB)、理解能力(GSP)、潜在能力(POT)、交际能力(KJ)和适应性(SUIT)。
每项分数是从0分到10分,0分最低,10分最高。
每位求职者的15项指标列在表7.19中。
试用因子分析的方法对15项指标做因子分析,在因子分析中选取5个因子。
解:
读数据(数据放在数据文件employ.dat中),再调用factanal()函数进行因子分析。
例7.23(继例7.22)假如公司计划录用6名最优秀的申请者,公司将如何挑选这些应聘者?
解:
简单的做法是计算每位申请者的总得分,按分数由高向低录取。
但这种做法并不是最合适的,应该根据不同部分的需要按照公共因子的得分来录取。
计算因子得分,7.6典型相关分析,典型相关分析是用于分析两组随机变量之间的相关程度的一种统计方法,它能够有效地揭示两组随机变量之间的相互线性依赖关系,这一方法是由Hotelling(霍特林,1935)首先提出来的。
假设有两组随机变量X1,X2,Xp和Y1,Y2,,Yp,研究它们的相关关系,当p=q=1时,就是通常两个变量X与Y的相关关系。
当p1,q1时,采用类似与主成分分析的方法,找出第一组变量的线性组合U和第二组变量的线性组合V,即,U=a1X1+a2X2+apXp,V=b1Y1+b2Y2+bqYq,于是将两组变量的线性相关问题转化成研究两个变量的相关性问题,并且可以适当的调整相应的系数a,b,使得变量U和V的相关性达到最大,称这种相关为典型相关,基于这种原则的分析方法称为典型相关分析。
7.6.1典型相关分析的数学模型,7.6.2典型相关分析的计算在R中,cancor()函数完成典型相关分析的计算,其使用格式为cancor(x,y,xcenter=TURE,ycenter=TURE)参数x,y为两个随机变量样本构成的矩阵,xcenter,ycenter为逻辑变量,取TURE(默认值)表示将数据中心化。
cancor()函数的返回值为一个列表,有:
cor表示典型相关系数,xcoef表示变量X的典型相关系数,ycoef表示变量Y的典型相关系数,xcenter表示变量X的样本均值,ycenter表示变量Y的样本均值。
例7.24某康复俱乐部对20名中年人测量了3个生理指标:
体重(X1)、腰围(X2)、脉搏(X3)和3个训练指标:
引体向上(Y1)、仰卧起坐次数(Y2)、跳跃次数(Y3)。
其数据列在表7.20中。
是对这组数据进行典型相关分析。
谢谢大家!