多元统计分析课程设计Word格式文档下载.docx
《多元统计分析课程设计Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《多元统计分析课程设计Word格式文档下载.docx(14页珍藏版)》请在冰豆网上搜索。
第三次(4-6天):
写论文的问题描述、问题分析以及求解计算部分
第四次(7天):
写论文的结论部分以及最后的审核和排版、打印等
摘要
在科学研究中,往往希望尽可能多的收集反映事物(研究对象)的多个变量,以期能对问题有比较全面、完整的把握与认识。
多变量的大样本虽然能为科学研究提供大量的信息,但是在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性,这意味着表面上看来彼此不同的变量并不能从各个侧面反映事物的不同属性,而恰恰是事物同一种属性的不同表现。
如何从众多相关的指标中找出少数几个综合性指标来反映原来指标所包含的主要信息,这就需要进行因子分析(FactorAnalysis),它是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子反映原始数据的大部分信息的统计方法。
因子分析的特点为:
(1)因子变量的数量远少于原有的指标变量的数量,对因子变量的分析能够减少分析中的计算工作量。
(2)因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重组结构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在线性相关关系,对变量的分析比较方便。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
关键词因子变量,因子载荷,变量共同度,公共因子
因子分析在大学生价值观测验中的应用
第一章绪论
在社会、政治、经济和医学等领域的研究中往往需要反映事物的多个变量进行大量的观察,收集大量的数据以便进行分析,寻找规律。
在大多数情况下,许多变量之间存在一定的相关关系。
因此,有可能用较少的综合指标分析存在的于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标成为因子。
因子分析就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子反映原资料的大部分信息的统计学方法。
因子分析,也叫因素分析,就是通过寻找众多变量的公共因素来简化变量中存在复杂关系的一种统计方法,它将多个变量综和为少数几个“因子”以再现原始变量与“因子”之间的相关关系。
因子分析的主要应用有:
寻找基本结构。
在多元统计中,经常遇到诸多变量之间存在强相关的问题,它会对分析带来许多困难。
通过因子分析,可以找出几个较少的有实际意义的因子,反映出原来数据的基本机构。
例如,调查高校师生具有的素质中,通过因子分析从20个指标中概括出师德、专业知识、教学实践性知识、教学操作能力、社会适应能力、班主任工作能力、语言表达能力和心理素质8个基本指标。
数据化简。
通过因子分析可以找出少数的几个因子代替原来的变量做回归分析、聚类分析、判断分析等。
第二章基本理论
2.1数学模型
因子分析的出发点是用较少的相互独立的因子变量代替原来数据的大部分信息,可以通过下面的数学模型来表示:
其中,
、
为
个原有变量,是均值为零、标准差为1的标准化变量,
个因子变量,
小于
,表示成矩阵形式为:
其中
为因子变量或公共因子,它们可以理解为高维空间中互相垂直的
个坐标轴。
为因子载荷矩阵,如果把变量
看成是
维因子空间中的一个向量,则
在坐标轴
上的投影,相当于多元回归中的标准回归系数。
为特殊因子,表示了原有变量不能被因子变量所解释的部分,相当于多元回归分析中的残差部分。
因子分析把每个原始变量分解成两部分:
一部分由所有变量共同具有的少数几个因子构成,即所谓公共因素部分;
另一部分是每个变量独自具有的因素,即所谓独特因子部分。
叫做公共因子,它们是在各个变量中共同出现的因子。
我们可以把它们看做多维空间分布中互相垂直的
表示影响
的独特因子,指原有变量不能被因子变量所解释的部分,相当于回归分析中的残差部分。
叫做因子负荷(载荷),它是第
个变量在第
个主因子上的负荷或叫做第
个主因子上的权值,它反映了第
个主因子的相对重要性。
因子分析中的几个概念说明如下:
1.因子载荷
在各个因子变量不相关情况下,因子载荷
就是第
个原有变量和第
个因子变量的相关系数,即
在第
个公共因子变量上的相对重要性。
因此
绝对值越大,则公共因子
和原有变量
关系越强。
2.变量共同度
变量共同度,也称为公共方差,反映全部公共因子变量对原有变量
的总方差解释说明比例。
原有变量
的共同度为因子载荷矩阵
中的第
行元素的平方和,即:
。
的方差可以表示成两个部分:
和
第一部分
,反映公共因子对原有变量的方差解释比例,第二部分
反映原有变量方差中无法被公共因子表示的部分。
因此,第一部分
越接近于1,说明公共因子解释原有变量越多的信息。
可以通过该值,掌握该变量的信息有多少被丢失了。
如果大部分变量共同度都高于0.8,则说明提取的公共因子已经基本反映了个原始变量80%以上的信息,仅有较少的信息丢失,因子分析效果较好。
可以说,
各个变量的共同度是衡量因子分析效果的一个指标。
3.公共因子
的方差贡献
公共因子
的方差贡献定义为因子载荷矩阵A中第j列各元素的平方和,即:
的的方差贡献反映了该因子对所有原始变量总方差的解释能力,其值越高,说明因子重要程度越高。
2.2因子分析的基本步骤
因子分析的主要过程可简述为如下几个步骤。
1.确定因子分析的前提条件
因子分析是众多的原始变量中综合出少数几个具有代表性的因子,这必定有一个前提要求,即原有变量之间具有较强的相关性。
如果原有变量之间不存在较强的相关关系,则无法找出其中的公共因子。
因此,在因子分析时,需要对原有变量做相关分析。
通常可采用如下几种方法。
(1)计算相关系数矩阵
计算原有变量的简单相关系数矩阵。
观察相关系数矩阵,如果相关系数矩阵中的大部分相关系数值小于0.3,则各个变量之间大多为若相关,这就不适合做因子分析。
如果一个变量与其他变量间相关很低,则在下一分析步骤中可考虑剔出此变量。
(2)进行统计检验
在因子分析过程中提供了几种检验方法来判断变量是否适合做因子分析。
主要统计方法有如下两种。
巴特利特球形检验
KMO检验
2.提取因子
决定因子提取的方法(即求初始因子)的方法很多,有“主成分分析法”、“主轴因子法”、“极大然法”、“最小乘法”、“Alpha因子提取法”和“映像因子提取法”等等。
最常用的是“主成分分析法”和“主轴因子法”,其中又以“主成分分析法”的使用最为普遍。
在提取因子的过程中涉及下列名词,现分别说明。
(1)特征值
特征值是指每个变量在某一公共因子上的因子负荷量的平方总和,又叫特征根。
在因子分析的公共因子提取中,特征值最大的公共因子会最先被提取,最后提取的公共因子的特征值最小。
因子分析的目的就是使因子维度简单化,希望以最小的公共因子能对总变异量做最大的解释,因而提取的因素愈少愈好,而提取因子之积累解释的变异量则愈大愈好。
(2)因子的贡献率
每个公共因子对原始数据的解释能力,可以用该因子所解释的总方差来衡量,通常称为该因子的贡献率,它等于和该因子有关的因子负荷的平方和,实际中常用相对指标来表示。
相对指标体现公共因子的相对重要性,即每个公共因子所解释的方差占所有变量总方差的比例。
3.决定旋转方法
旋转法使得因子负荷量更易于解释。
在因子提取时通常提取初始因子后,对因子无法做有效的解释。
为了更好地解释因子,必须对负荷矩阵进行旋转,旋转目的在于改变每个变量在各因子的负荷量的大小。
旋转方法有两种:
一种为正交旋转,如“方差极大正交旋转法”、“四次方极大正交旋转法”、“等量方差极大正交旋转法”;
另一种为斜交旋转,如“斜交旋转法”、“迫近最大方差斜旋转法”等。
正交旋转时,坐标轴在旋转过程中始终保持垂直,新生成的因子保持不相关性。
斜交旋转中坐标轴中的夹角可以是任意度数,新生成的因子之间不能保持不相关性。
在使用过程中一般选用正交旋法。
4.因子的命名
因子的命名是因子分析的一个核心问题。
旋转后可决定因子个数,并对其进行命名。
对于新因子变量的命名解释要根据新因子变量与原变量的关系,即观察旋转后的因子负荷矩阵中某个新因子变量能够同时解释多少原变量的信息。
5.计算因子得分
计算因子得分是因子分析的最后一步。
因子变量确定后,便可计算各因子在每个样本上的具体数值,这些数值就是因子的得分,形成的新变量成为因子变量,它和原变量的得分相对应。
有了因子得分,在以后分析中就可以因子变量代替原有变量进行数据建模,或利用因子变量对样本进行分类或评价等研究,进而实现降维和简化的目标。
第三章问题的描述
如表1所示为20名大学生关于价值观的9项测验结果,包括合作性、对分配的看法、行为出发点、工作投入程度、对发展机会的看法、社会地位的看法、权力距离、对职位升迁的态度、以及领导风格的偏好。
要求根据这9项内容进行因子分析,得到维度较少的几个因子。
表120个大学生的9项测验结果
第四章问题的分析以及求解计算
实现步骤
步骤1:
在“Analyze”菜单“DataReduction”中选择Factor命令。
步骤2:
在弹出的FactorAnalysis对话框中,从对话框左侧的变量列表中选择这9个变量,使之添加到Variables框中。
步骤3:
单击Descriptives按钮,弹出FactorAnalysis:
Descriptives对话框。
Statistics框用于选择输出哪些相关的统计量。
步骤4:
单击Extraction按钮,弹出FactorAnalysis:
Extraction对话框,选择因子提取方法。
因子提取方法在Method下拉框中选取。
步骤5:
单击FactorAnalysis对话框中的Rotation按钮,弹出FactorAnalysis:
Rotation对话框。
该对话框用于选择因子载荷矩阵的旋转方法。
旋转的目的是为了简化结构,以帮助我们解释因子。
步骤6:
单击FactorAnalysis对话框中的Scores按钮,弹出FactorAnalysis:
Scores对话框。
该对话框用以选择对音质得分进行设置。
步骤7:
单击FactorAnalysis对话框中的Options按钮,弹出FactorAnalysis:
Options对话框。
该对话框可以指定输出其他因子分析的结果,并选择对缺失数据的处理方法。
选中Excludecaseslistwise项,单击Continue按钮返回FactorAnalysis对话框,完成设置。
单击OK按钮,完成计算。
第五章结论
FactorAnalysis
KMOandBartlett'
sTest
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
.585
Bartlett'
sTestofSphericity
Approx.Chi-Square
74.733
df
36
Sig.
.000
Communalities
Initial
Extraction
合作性
1.000
.722
分配
.848
出发点
.708
工作投入
.504
发展机会
.863
社会地位
.871
权力距离
.799
职位升迁
.681
领导风格
.486
ExtractionMethod:
PrincipalComponentAnalysis.
ComponentMatrix(a)
Component
1
2
3
.493
-.626
.295
.596
-.701
-.029
.823
-.130
-.120
-.222
.537
-.407
.787
.479
.122
.133
.558
.737
.763
.248
-.394
.781
.239
.117
.650
.194
-.162
a3componentsextracted.
RotatedComponentMatrix(a)
.157
.835
-.024
.314
-.333
.733
.400
-.105
.090
-.698
-.095
.834
.004
.409
.100
-.071
.925
.879
-.045
-.154
.752
.191
.282
.695
.051
.010
PrincipalComponentAnalysis.RotationMethod:
VarimaxwithKaiserNormalization.
aRotationconvergedin5iterations.
ComponentTransformationMatrix
.902
.424
.078
.330
-.797
.506
-.276
.431
.859
ComponentScoreCoefficientMatrix
-.065
.447
.091
.035
.355
-.199
.217
.102
-.118
.148
-.425
-.203
.249
-.058
-.068
.772
.343
-.181
-.248
.207
.041
.180
.242
-.073
-.070
VarimaxwithKaiserNormalization.ComponentScores.
ComponentScoreCovarianceMatrix
总结
因子分析的形成和发展有相当长的历史,最早用以研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。
后来由于电子计算机的出现,才是因子分析的理论研究和计算问题有了很大的进展。
目前这以方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。
参考文献
1.《SPSS统计分析实用教程》谭荣波梅晓仁科学出版社
2.《数据统计分析与SPSS应用》余建英何旭宏人民邮电出版社
3.《SPSS在统计分析中的应用》朱建平殷瑞飞清华大学出版社
4.《多元统计分析》于秀林任雪松中国统计出版社
课程设计评阅书
课程设计报告评语:
(评阅意见主要对设计任务的合理性、规范性和正确性以及设计报告书的完整性、规范性和通顺性等方面作出评价)
报告成绩:
答辩记录与评语:
答辩成绩:
课程设计总成绩:
教师签名:
年月日