因子分析(研究生课程).ppt
《因子分析(研究生课程).ppt》由会员分享,可在线阅读,更多相关《因子分析(研究生课程).ppt(60页珍藏版)》请在冰豆网上搜索。
因子分析因子分析暨南大学管理学院企业管理系陈晓曦历史历史l1947年,美国统计学家Stone关于国民经济的研究。
l1927-1938年的数据,得到了17个反映国民收入与支出的变量,l后来通过因子分析发现,只需要用3个新的综合变量,就可以解释95%的原始信息。
l总收入l总收入率l积极发展或衰退趋势案例案例l在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。
但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。
因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。
而这三个公共因子可以表示为:
称是不可观测的潜在因子。
24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分,称为特殊因子。
(一)什么是因子分析
(一)什么是因子分析因子分析(factoranalysis)是一种数据简化的技术。
它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。
这几个假想变量能够反映原来众多变量的主要信息。
原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。
因子分析与回归分析不同,因子分析中的因因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明子是一个比较抽象的概念,而回归因子有非常明确的实际意义。
确的实际意义。
因子分析的数学模型为:
X为原有变量(标准化变量,均值为0,标准差为1)F为因子变量,互不相关,方差为1。
原变量被表示为公共因子的线性组合。
概念概念l因子变量(公共因子):
Fl因子负荷l特殊因子:
相当于残差l变量共同度l公共因子的方差贡献率
(二)
(二)因子分析中的几个统计特征因子分析中的几个统计特征11、因子载荷的统计意义(假定、因子载荷的统计意义(假定xx已经标准化)已经标准化)当各个因子变量不相关时,因子载荷是第i个变量与第j个公共因子的相关系数。
反映了第i个变量与第j个公共因子的相关重要性。
绝对值越大,相关的密切程度越高。
22、变量共同度的统计意义、变量共同度的统计意义定定义义:
变量的共同度是因子载荷矩阵的第i行的元素的平方和。
记为统计意义统计意义:
两边求方差所有的公共因子和特殊因子对变量的贡献为1。
如果非常靠近1,非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。
33、公共因子、公共因子方差贡献的统计意义方差贡献的统计意义定义为:
因子载荷矩阵中第j列上各个元素的平方和称为对的方差贡献和。
衡量的相对重要性。
反映了:
该因子对所有的原始变量总方差的解释能力。
(三)因子旋转(正交变换)(三)因子旋转(正交变换)建立了因子分析数学目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。
由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。
目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化。
有三种主要的正交旋转法、四次方最大法、方差最大法和等量最大法。
为什么要旋转因子为什么要旋转因子百米跑成绩跳远成绩铅球成绩跳高成绩400米跑成绩百米跨栏铁饼成绩撑杆跳远成绩标枪成绩1500米跑成绩奥运会十项全能运动项目奥运会十项全能运动项目得分数据的因子分析得分数据的因子分析因子载荷矩阵可以看出,除F1在所有的变量上有较大的正载荷,可以称为一般运动因子。
其他的3个因子不太容易解释。
于是考虑旋转因子,得下表旋转因子之后短跑速度因子爆发性臂力因子爆发腿力因子长跑耐力因子通过旋转,因子有了较为明确的含义。
百米跑,跳远和400米跑,需要爆发力的项目在有较大的载荷,可以称为短跑速度因子;铅球,铁饼和标枪在上有较大的载荷,可以称为爆发性臂力因子;百米跨栏,撑杆跳远,跳远和为跳高在上有较大的载荷,爆发腿力因子;长跑耐力因子。
(四)因子分析的步骤(四)因子分析的步骤l确定待分析的原有若干变量是否适合于因子分析l构造因子变量l主成分分析法l利用旋转使得因子变量更具可解释性l计算因子变量得分因子得分的概念因子得分的概念前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。
如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。
因子分析的数学模型为:
原变量被表示为公共因子的线性组合,当载荷矩阵旋转之后,公共因子可以做出解释,通常的情况下,我们还想反过来把公共因子表示为原标量的线性组合。
因子得分函数:
可见,要求得每个因子的得分,必须求得分函数的系数,而由于pm,所以不能得到精确的得分,只能通过估计。
l确定待分析的原有若干变量是否适合于因子分析l原有变量之间要有较强的相关l计算变量之间的相关系数矩阵,如果大部分的相关系数都小于0.3,且未达到显著,那么这些变量不适合进行因子分析。
lSPSS提供的检验方法lBartlett球形检验依据相关矩阵l零假设:
原有变量的相关系数矩阵是单位阵(对角线为1,其余为0),如果相关系数矩阵的行列式较大,适合作因子分析。
lKMO(Kaiser-Meyer-Olkin)检验比较相关与偏相关l取值:
01l越接近于1,则所有变量之间的简单相关系数平方和远大于偏相关系数平方和,因此适合作因子分析。
0.9KMO:
非常适合0.7KMO0.8:
一般KMO0.5:
不适合l反映像相关矩阵检验l以变量的偏相关系数矩阵为出发点,将偏相关系数矩阵的每个元素取反,得到反映像相关矩阵。
如果变量之间存在较多的重叠影响,那么偏相关系数就会较小。
l因此如果反映像相关矩阵中有些元素的绝对值较大,那么说明这些变量不适合于因子分析。
SPSS实现l选择菜单AnalyzeDimensionReductionFactor命令因子分析主对话框l将要分析的原有变量选入右侧variablesFactorFactor过程的选择项过程的选择项lFACTOR过程的选择项共分为五类,分别使用主对话框中的五个子对话框按钮展开相应的子对话框进行选择。
lDescriptivesDescriptives展开相应的子对话框可以选择单变量的描述统计量和初始分析结果。
lExtractionExtraction展开相应的子对话框可以选择不同的提取公因子的方法和控制提取结果的判据。
lRotationRotation展开相应的子对话框可以选择因子旋转方法。
lScoresScores展开相应的子对话框可以要求计算因子得分,选择显示或作为新变量保存。
lOptionsOptions展开相应的子对话框可以进一步选择各种输出项。
1、Descriptives子对话框中的选择项子对话框中的选择项lDescriptives子对话框。
描述统计量分的选择项为两组:
(1)Statistics统计量组,共有两项供选择:
UnivariateDescriptives单变量描述统计量,选择此项可以输出参与分析的各原始变量的均值、标准差等。
Initialsolution初始分析结果,选择此项可以给出原始变量的公因子方差、与变量数相等的因子、各因子的特征值、各因子特征值占总方差的百分比以及累积百分比。
(2)CorrelationMatix相关矩阵组Coeffients相关系数选择此项给出原始变量间的相关系数矩阵。
这是分析的基础。
Significancelevels显著性水平选择此项给出每个相关系数相对于相关系数为0的设检验的概率水平。
Determinant相关系数矩阵的行列式。
Inverse相关系数矩阵的逆矩阵。
Reproduced再生相关阵,选择此项给出因子分析后的相关阵,还给出残差,即原软关与再生相关之间的差值。
Anti-image反映像相关阵。
包括偏相关系数的负数;反映像协方差阵,包括偏协方差的负数;在一个好的因子模型中除对角线上的系数较大外,远离对角线的元素应该比较小。
KMOandBartlettstestofsphericityKMO和球形Bartlett检验。
选择此项给出对采样充足度的Kaisex-Meyer-Olkin测度。
检验变量间的偏相关是否很小。
Bartlett球形检验,检验的书相关阵是否是单位阵。
它表明因子模型是否是不合适宜的。
lContinue按钮确认选择,返回主对话框;Cancle按钮使选择作废,返回主对话框。
2、Extraction因子提取子对话框因子提取子对话框lExtraction因子提取子对话框。
有关因子提取的选择项共分四部分(如果是主成分分析,则选PrincipalComponents)。
(1)因子提取方法选择项l子对话框第一项Method:
是一组指定提取方法的选择项。
单击矩形框右面的箭头可以展开提取方法选择项表,提供七种提取方法可以选择:
Principalcomponents主成份法。
该方法假设变量是因子的纯线性组合。
Unweightedleastsquare不加权最小平方法。
该方法使观测的和再生的相关阵之差平方最小。
Generalizedleastsquare用变量的单位加权一体观测的和再生的相关阵之差的平方最小。
MaximumLikelihoud最大似然法。
此方法不要求多元正态分布。
给出参数估计,如果样本来自多元正态总体它们与原始变量的相关阵极为相似。
PrincipalAxisfactoring使用多元相关的平方作为对公因子方差的初始估计。
Alpha因子提取法Image映象因子提取法。
是根据变量映象的概念提取公因子的方法。
把一个变量看作其它各变量的多元回归。
(2)Extract控制提取进程和提取结果的选择项控制提取进程和提取结果的选择项l理论上因子数目与原始变量数目相等,但因子分析的目的是用少量因子代替多个原始变量,选择提取多少个因子由本组选择项决定。
Eigenvaluseover该选择项指定提取的因子的特征值。
在此项后面的矩形框中给出系统默认值为1即要求提取那些特征值大于1的因子。
指定特征值决定提取因子数目的方法是系统默认的方法。
Numberoffactor该选择项指定提取公因子的数目。
用鼠标单击选择此项后,将指定的数目键人到该选择项后面的矩形框中。
(33)DisplayDisplay指定与因子提取有关的输出项指定与因子提取有关的输出项Unrotatedfactorsolution要求显示未经旋转的因子提取结果。
此项为系统默认的输出项。
Screeplot要求显示按特征值大小排列的因子序号与特征值为两个坐标轴的碎石图。
(4)MaximumiterationsforConvergencel因子分析收敛的最大迭代次数。
系统默认的最大迭代次数为25。
lContinue按钮确认所有选择,返回主对话框;Cancel按钮作废本次所有选择,返回主对话框。
l3、Rotation旋转方法选择子对话框旋转方法选择子对话框lRotation旋转方法选择子对话框,选择项分三组。
(1)Method旋转方法选择项None不进行旋转。
此为系统默认的选择项。
Varimax方差极大法旋转,也叫正交旋转,对因子作旋转。
Quartimax四次方最大正交旋转,对变量作旋转Equamax平均正交旋转(和结合)DirectOblimin斜交旋转,指定此项可以在下面的矩形框中键入值(该值应该在01之间,是因子映象自相关的范围。
0值产生最高相关因子。
Promax斜交旋转,允许因子间相关,速度快,适用于大数据。
(2)Display有关输出显示的选择项Rotatedsolution旋转结果。
指定此项将对正交旋转显示旋转后的因子矩阵模式、因子转换矩阵;对斜交旋转显示旋转后的因子矩阵模式、因子结构矩阵和因子间的相关阵。
Loadingpl