因子分析作业.docx

资源描述

因子分析作业.docx

《因子分析作业.docx》由会员分享，可在线阅读，更多相关《因子分析作业.docx（10页珍藏版）》请在冰豆网上搜索。

因子分析作业.docx

因子分析作业

基于因子分析的学生成绩信息挖掘

一、研究背景

进入21世纪以来，高校学生的综合素养培育愈来愈成为关注的热点。

如何科学地对学生的综合成绩进行评判也愈来愈受到教育人士的重视。

在中国的目前，大多数高校采取的是以学习成绩加权平均的传统评判方式，但这一方式存在很多短处，比如说它掩盖了学生的个性，对学生的评判不够全面，不能够突出学生的独特优势和特点。

这就大大降低了评判本身鼓励、调剂等作用的发挥，使得很多学生一味地追求总成绩，而忽略自己的特长进展和自身成长。

2002年12月，国家教育部发布了表现全新教育理念的中小学评判与考试制度改革方案，要求评判内容要多远、评判方式要多样。

就在即将要来临的高等教育“大文大理”教育改革中，如何正确地评判一个学生，就显得更为重要。

一个好的评判体系，应该形成有效的鼓励机制，全面而且有针对性地评判学生，使得学生能够了解自我，进展自我优势，扬长避短。

进而也帮忙学校和用人单位能够了解学生情形，更有针对性地选拔人材。

针对这种依照综合成绩对学生进行笼统排队的方式所存在的各类诟病，考虑到现代教育改革对科学评判方式的迫切需求，本文将利用因子分析的方式，尝试提出更为科学、全面的评判方面，尽力能从学生的考试成绩中挖掘出最有价值的信息。

二、数听说明

本案例的数据来自于北京师范大学某专业21名学生，前两个学年的部份考试成绩。

成绩来源于教务处内部数据库，可信度与准确度都较高。

数据均为百分制的数值型数据，代表每一名学生在这门课上的所得有效成绩。

本次研究将要紧运用回归分析的方式对数据进行研究。

具体包括线性（慢慢）回归、参数查验、显著性查验等方式。

三、研究方式

其实关于如何科学、综合评判一个学生质量和水平，一直以来都困扰着很多教育工作者和评判计量学家。

有的学者通过相关分析、回归分析等手腕来探讨学生成绩与某些指标之间的关系【1】，有的是以学分绩点为标准来对学生成绩进行分析【2】。

美国哈佛大学的闻名心理学家加德纳曾经提出了多元智力理论，该理论以为人类的所有智力大体分为以下七类：

语言智力、节拍智力、数理智力、运动智力、自我认知智力和人际关系智力。

本文从其中取得方式：

是不是能利用因子分析的方式，将学生各个学科的成绩降维为类似于多元智力理论中的分类。

因子分析是指研究从变量群中提取共性因子的统计技术。

最先有英国心理学家斯皮尔曼提出。

他发觉学生的各科成绩之间存在着必然的相关性，一科成绩好的学生，往往其他各科成绩也比较好，从而猜想是不是存在某些潜在的共性因子，或称为某些一样智力条件阻碍着学生的成绩。

因此分析可在许多变量中找出隐藏的具有代表性的因子，将相同本质的变量归入一个因子，可减少变量的数量，达到降维的作用，还可查验变量间关系的假设【3】。

四、数据查验和预处置

（一）奇异点的剔除和数据的挑选

由于部份同窗没有选修某些课程，加上某些同窗由于特殊情形存在缺考现象，关于这些课程进行了删除，从头挑选出了部份课程共计15门。

最后利用的数据是21名同窗两学年中共15门课程的成绩。

（二）前提条件查验

因子分析是将多个实测变量转换为少数几个不相关的综合指标的多远统计分析方式，它要求自变量之间要有必然的关联，表现出必然程度的共线性。

因此在进行因子分析之前要先进行查验。

查验方式要紧有以下三种：

相关系数矩阵、巴特利球形查验、KMO查验。

一样来讲，当变量之间的相关系数一样都大于时比较适合做因子分析。

而巴特利球形查验用于查验相关阵是不是是单位阵，即各变量是不是独立，查验的零假设是“相关系数矩阵是一个单位阵”若是巴特利球形查验统计量的数值较大且符合显著性查验时，就以为变量之间相关，适合进行因子分析，反之那么不能拒绝零假设，不适合做因子分析。

而KMO是用于比较变量间简单相关系数和偏相关系数的指标，当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时，KMO值越接近1，意味着变量间的相关性越强，越适合做因子分析。

Kaiser给出的经常使用kmo气宇标准如下：

极不适合

不太适合

一般适合

比较适合

很适合

非常适合

表格1KMO气宇标准

依照以上查验方式，利用SPSS查验结果如下（相关性系数矩阵见附录）：

KMOandBartlett'sTest

Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.

.728

Bartlett'sTestofSphericity

Approx.Chi-Square

105

Sig.

.000

表格2条件查验

由查验结果看，相关系数矩阵大部份都大于；KMO值为，比较适合做因子分析；同时巴特利球形查验的P值为小于，拒绝原假设。

综上所述，关于本研究中的数据，大体符合因子分析中的前提假设。

五、具体计算

学生在大学期间所修课程众，可是不同课程之间存在某些或多或少的联系，因为不管是哪些课程——公共课、专业课、选修课等，决定其成绩高低的都是逻辑思维能力、经历能力等等，只要能找出这些潜在的、一起的因子，那么就能够够化繁为简。

而因子分析的大体思想就能够表现出这些。

第一成立正交因子的模型如下：

其中

表示学生成绩，

表示成绩背后隐藏的“一起因子”，

表示一些不可测量的误差因子。

用向量的方式进行表示，那么上式可看做是

。

而其中

组成的矩阵A是被称为因子载荷矩阵，

表示为第i门课成绩在第j个一起因子上的载荷。

而因子分析的目的确实是通过实际数据

来求解载荷矩阵，据此对公共因子进行归类和推导。

在提取因子的时候，可利用主成份分析法、最小平方式、主因子解法、极大似然法等等，本文采纳比较普遍的主成份法。

六、结果分析与模型修正

（一）结果分析与说明

依照上述方式的进程，第一取得方差奉献率表如下：

TotalVarianceExplained

Component

InitialEigenvalues

ExtractionSumsofSquaredLoadings

RotationSumsofSquaredLoadings

Total

%ofVariance

Cumulative%

Total

%ofVariance

Cumulative%

Total

%ofVariance

Cumulative%

.764

.710

.561

.552

.442

.336

.196

.158

.107

.713

.081

.539

.050

.336

.030

.202

ExtractionMethod:

PrincipalComponentAnalysis.

表格3方差奉献率表

从上述结果能够看出，在选取三个公因子以后累计方差奉献率就已经达到73.414%，第四个特点根相较下降比较快，因此那个地址选取了三个公共因子。

而下面的碎石图也能从直观上印证这一点：

前3个特点值的转变比较明显，而后面12个转变都比较缓慢。

图表1碎石图

在确信抽取的公共因子有三个以后，能够来看选取的因子的说明能力，这一点通过公因子方差表来表现，结果如下：

Communalities

Initial

Extraction

线性代数

.750

数据库

.772

普通物理学2

.754

毛泽东思想

.870

数理方法

.775

windows程序设计

.785

matlab基础与应用

.781

计算机基础

.599

大学数学1

.742

管理学原理

.795

经济学原理

.592

大学数学2

.764

信息管理概论

.621

C语言

.660

普通物理学1

.752

ExtractionMethod:

PrincipalComponentAnalysis.

表格4公因子方差表

从表格4能够看出，所有课程信息抽取比例都超过50%，大部份都超过70%，这意味着这三个因子已经都能反映出课程成绩大部份的信息，说明能力已经知足要求，而且遗失的信息也不是很多。

取得的载荷图如下：

ComponentMatrixa

Component

线性代数

.861

.035

数据库

.837

普通物理学2

.581

.229

毛泽东思想

.456

.694

.423

数理方法

.829

.294

windows程序设计

.870

.115

matlab基础与应用

.806

.350

计算机基础

.535

.358

大学数学1

.765

.176

管理学原理

.736

经济学原理

.554

.516

大学数学2

.854

.107

.152

信息管理概论

.692

.371

.074

C语言

.733

.245

普通物理学1

.743

a.3componentsextracted.

表格5载荷图

为了取得意义明确的因子含义，在那个地址咱们将因子载荷矩阵进行方差最大法旋转，取得旋转后的因子载荷矩阵如下，通过此法，咱们能够加倍清楚的来对因子进行概念。

RotatedComponentMatrixa

Component

线性代数

.541

.571

.363

数据库

.542

.672

.165

普通物理学2

.837

.232

毛泽东思想

.145

.920

数理方法

.732

.244

.425

windows程序设计

.724

.409

.305

matlab基础与应用

.777

.182

.379

计算机基础

.774

.006

大学数学1

.269

.740

.349

管理学原理

.469

.755

经济学原理

.042

.453

.621

大学数学2

.609

.378

.500

信息管理概论

.317

.356

.627

C语言

.761

.219

.179

普通物理学1

.680

.530

a.Rotationconvergedin6iterations.

表格6旋转后载荷图

能够看出数理方式、windows程序设计、Matlab基础与应用、运算机基础、c语言等课程在因子1上的载荷比较大；一般物理学2、大学数学1、治理学原理在因子2上的载荷比较大；毛泽东思想、经济学原理、信息治理概论在因子3上的载荷比较大；还有像线性代数、数据库、一般物理学1等课程在因子1、2上的载荷相对都比较大。

通过和实际课程设置与考察导向来看，特归纳因子意义如下：

因子

载荷比较大的课程

因子意义

因子1

数理方法、windows程序设计、matlab、计算机基础、C语言、线性代数、数据库、普通物理学1、大学数学2

算法与程序思维

因子2

大学数学1、普通物理学2、普通物理学1、管理学原理、数据库、线性代数

逻辑与理解能力

因子3

毛泽东思想、经济学原理、信息管理概论、大学数学2

记忆与文字能力

表格7因子意义

因子1要紧反映的是算法思与逻辑思维，其中的程序设计课程是显而易见的，可是想数理方式、线性代数什么缘故载荷也不低呢？

因为这些课程都有较为固定和成熟的解题算法，在考试进程中考查的也是这一能力。

因子2反映的是逻辑与明白得能力，因为大学数学、一般物理等课程的考查更偏重于对概念或概念的真正明白得，还有对待一个新题型的逻辑能力；而治理学原理尽管是偏向文科的课程，但依照现实情形，本门课程的教师在考察中更关切的是学生的逻辑明白得能力（比如大量的主观案例分析题）并非是考查背诵，因此也有较强的载荷。

因子3反映的是经历与文字能力，毛泽东思想、信管概论、经济学原理都是偏向于考查概念概念（名词说明）等等，而像大学数学2什么缘故载荷也较高呢。

作者以为，可能是由于大学数学2的教师在最后考试的时候所有题目均出自讲义课后题原题，因此存在某些同窗由于将所有题目都做过并记住，因此考试成绩相对较高的情形。

同时也取得因子得分系数矩阵如下：

ComponentScoreCoefficientMatrix

Component

线性代数

.033

.112

.043

数据库

.037

.194

普通物理学2

.403

.008

毛泽东思想

.509

数理方法

.182

.100

windows程序设计

.156

.009

matlab基础与应用

.223

.077

计算机基础

.321

大学数学1

.268

.049

管理学原理

.021

.290

经济学原理

.133

.279

大学数学2

.088

.140

信息管理概论

.015

.258

C语言

.236

普通物理学1

.166

.125

表格8因子得分系数矩阵

通过以上矩阵，就能够够得出每一个因子的计算公式，进而取得每一名学生在各个因子上的得分情形，以此来判定学生的各项素养。

（二）模型反思

以上模型尽管能比较好的对繁杂的课程成绩数据进行降维并取得各项素养因子的得分，可是能够看到的是，某些课程在因子上的分类并非明确，尽管有一些现实意义的说明，但这些都属于主观试探，说服力较弱。

因此能够考虑一些更为理想的旋转方式。

另外，由于某些成绩加入到因子分析的模型中后，会造成结果不睬想的状态，便进行了数据挑选。

但如此也致使了必然程度上的信息浪费，而通过这些已经挑选后的课程来给学生的素养因子进行打分，可能会引发部份同窗的不满。

七、明白得与反思

当咱们面临大量的、彼此联系的数据时，将其降维是咱们第一容易做取得的，如此的处置不仅会使数据的本质信息取得挖掘，一样还会使研究者对数据的熟悉加倍深切、快捷。

而因子分析确实是进行数据降维的首选方式。

在现在“大数据”火爆的时期，因子分析方式的重腹地位也愈来愈凸显。

但从本文的建模进程中，作者也发觉，因子分析并非必然会是想象中的那种全能药，有时候进行正交旋转后取得的载荷不必然界限分明，毕竟现实中存在着各类阻碍因子和不确信因素。

因此并非能抱着“一招鲜吃遍天”的思想来研究问题，能够尝试一下聚类分析等等其方式结合的方式。

【参考文献】

[1].王显金.《新建本科院校大学数学学业成绩的统计分析报告》宁波大红鹰学院学报2020

[2].朱宁，徐表.《学生成绩的学分绩与主成份排序模型》大学数学2007

[3].王民川.《基于因子分析的学生成绩综合评判方式研究》学习交流2010

展开阅读全文