利用spss对某个班成绩的多元统计分析.docx-资源下载

利用spss对某个班成绩的多元统计分析.docx

1、利用spss对某个班成绩的多元统计分析对一所重点学校某个班成绩的综合分析摘要随着社会竞争的越来越激烈，家长和老师对于学生成绩的态度愈加重视，对于学生将来的发展与前途也同样感到一丝忧虑，因此及时公布学生的学习成绩并且能够增其长补其短对于学生将会有很大的帮助。本文利用某所重点学校某个班的成绩单来分析这个班学生成绩的优劣，以达到取长补短的目的，主要应用了SPSS软件对成绩进行了综合性的分析。关键词：综合分析；SPSS软件；成绩1.对应分析的概述对应分析（correspondence analysis）又称为相应分析，是一种目的在于揭示变量和样品之间或者定性变量资料中变量与其类别之间的相互关系的多元

2、统计分析方法。根据分析资料的类型不同，对应分析分为定性资料（分类资料）的对应分析和连续性资料的对应分析（基于均数的对应分析）。其中，根据分析变量个数的多少，定性资料的对应分析又分为简单对应分析和多重对应分析。对两个分类变量进行的对应分析称为简单对应分析，对两个以上的分类变量进行的对应分析称为多重对应分析。对应分析实际是在型因子分析和型因子分析的基础上发展起来的一种方法。对应分析将型因子分析和型因子分析结合起来进行统计分析，它是从型因子分析出发，而直接获得型因子分析的结果。克服了由于样品容量大，进行型因子分析带来的计算上的困难。另外根据对原始数据进行规格化处理，找出型因子分析和型因子分析的内在联

3、系，可将变量和样品同时反映到相同坐标轴的一张图形上，便于对问题的分析和解释。对应分析的重要输出结果之一在于，把变量与样品同时反映到相同坐标轴(因子轴)的一张图形上,结合计算结果,在绘出的图形上能够直观地观察变量之间的关系、样品之间的关系以及变量与样品之间的对应关系。为此也有人认为，对应分析的实质是将变量、样品的交叉表变换成为一张散点图，从而将表格中包含的变量、样品的关联信息用各散点空间位置关系的形式表现出来。随着计算机软件的应用，对应分析的方法在社会科学和自然科学领域都有着广泛的应用价值。特别是近年来在市场调查与研究中，有关市场细分、产品定位、品牌形象以及满意度研究等领域正得到越来越广泛的重视

4、和应用。对应分析的关键是利用一种数据变换，使含有个变量个样品的原始数据矩阵，变换成为一个过渡矩阵，并通过矩阵将型因子分析和型因子分析有机地结合起来。具体地说，首先给出进行型因子分析时变量点的协差阵和进行型因子分析时样品点的协差阵，由于和有相同的非零特征根，记为，依据证明，如果的特征根对应的特征向量为，则的特征根对应的特征向量就是，根据这个结论就可以很方便地借助型因子分析而得到型因子分析的结果。因为求出的特征根和特征向量后很容易地写出变量点协差阵对应的因子载荷矩阵，记为。则这样，利用关系式也很容易地写出样品点协差阵对应的因子载荷阵，记为。则从分析结果的展示上，由于和具有相同的非零特征根，而这些特

5、征根正是公共因子的方差，因此可以用相同的因子轴同时表示变量点和样品点，即把变量点和样品点同时反映在具有相同坐标轴的因子平面上，以便显示出变量点和样品点之间的相互关系，并且可以一并考虑进行分类分析。2.聚类分析的概述2.1聚类分析的定义聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚类分析又称群分析，它是研究对样品或指标进行分类的一种多元统计方法。所谓的“类”，通俗地说就是相似元素的集合。2.2聚类的方法分类聚类分析的内容十分丰富，按其聚类的方法可分为以下几种：系统聚类法、调优法、最优分割法、模糊聚类法、图论聚类法、聚类预报法。本文中应用的是系统聚类法：开始每个对象自成一类，然后每次

6、将最相似的两类合并，合并后重新计算新类与其他类的距离或相近性测度，这一过程一直继续直到所有对象归为一类为止。并类的过程可用一张谱系聚类图描述。2.3系统聚类法的基本步骤（1）计算n个样品两两间的距离，得样品间的距离矩阵。类与类之间的距离本文应用的是类平均法。所谓类平均法就是：两类样品两两之间平方距离的平均作为类之间的距离，即：采用这种类间距离的聚类方法，称为类平均法。（2）初始（第一步：i=1）n个样本各自构成一类，类的个数k=n，第t类（t=1,2，n）。此时类间的距离就是样品间的距离（即）。（3）对步骤i得到的距离矩阵，合并类间距离最小的两类为一新类。此时类的总个数k减少1类，

7、即k=n-i+1. （4）计算新类与其他类的距离，得新的距离矩阵。若合并后类的总个数k扔大于1，重新步骤（3）和（4）；直到类的总个数为1时转到步骤（5）。（5）画谱系聚类图；（6）决定总类的个数及各类的成员。3.判别分析的概述3.1判别分析的基本思想判别分析是用于判断个体所属类别的一种统计方法。根据已知观测对象的分类和若干表明观测对象特征的变量值，建立判别函数和判别准则，并使其错判率最小，对于一个未知分类的样本，将所测指标代入判别方程，从而判断它来自哪个总体。当然，这种准则在某种意义上是最优的，如错判概率最小或错判损失最小等。其前提是总体均值有显著差异，否则错分率大，判别分析无意义。3

8、.2判别分析与聚类分析的关系区别：判别分析是在研究对象分类已知的情况下，根据样本数据推导出一个或一组判别函数，同时指定一种判别准则，用于确定待判样品的所属类别，使错判率最小。聚类分析预先不知道分类，它要解决的问题，正是对给定的未知分类的样品进行分类，它是一种纯统计技术，只要有多指标存在，就能根据各观测的变量值近似程度排序，只是描述性的统计，而判别分析能对未知分类观测判别分类，带有预测性质。联系：两者都是研究分类问题，两种方法往往联合起来使用。样品聚类是进行判别分析之前的必要工作，根据样品聚类的结果进行判别分析。4.在SPSS软件上的操作步骤4.1对应分析的操作步骤（1）打开SPSS文件，在表格

9、下方有两个选项，分别是数据试图和变量视图，点击变量视图选项，在前三行分别输入“学号”、“科目”、“成绩”，其中学号与科目的值项需要做如下设置：在弹出的值标签对话框里，在值这一项里输入“1”，标签输入“1”，再点击“添加”按钮，依次添加到40为止，在科目的值标签对话框内，在值这一项中输入“1”，标签输入“语文”，点击“添加”按钮，再依次添加“2”对应标签为“数学”，“3”对应标签为“外语”，“4”对应标签为“体育”，综上分别完成对1号至40号学号以及4项科目进行数字的赋值。然后点击数据视图进行数据输入，数据输入按照成绩单输入（成绩单见附录），如：第一行第一列输入“1”，第二列输入“1”，第三列输

10、入“82”，第二行第一列输入“2”，第二列输入“1”，第三列输入“81”，以此类推，共输入160行数据。在SPSS的数据视图中输入数据后，再依次点选数据加权个案，进入加权个案的对话框，系统默认是对观测值不使用权重，选中加权个案选项，此时下面的频率变量被激活，选中成绩并点击箭头，使变量成绩充当权数的作用，点击确定。（2）数据输入完成后，选择分析降维对应分析，然后把“学号”选入“行”，再点击“定义范围”来定义范围为1（最小数值）到40（最大数值），之后点击更新，再点击继续。之后同样地，把“科目”选入“列”，并定义其范围为14。然后点选“模型”，在出现的对话框中选择数据标准化方法，本次分析距离度量

11、点选Eucliden，下面的标准化方法选择选项被激活，有5种可供选择的数据标准化方法，本次分析选择第5种：使列总和相等，删除均值，其余选项为默认，点击确定运行。（3）图表编辑：根据SPSS对数据的计算，会得到一系列的表格，对对后一张叠加散点图进行部分操作，双击叠加散点图会弹出一个图表编辑器，点击“向X轴添加参考线”又会弹出一个属性对话框，把位置坐标改为0，关闭对话框，点击“向Y轴添加参考线”，同上步骤将位置坐标改为0，关闭图表编辑器，此时叠加散点图被分为4各区域，方便于接下来的结果分析。4.2聚类分析与判别分析的操作步骤1.再次打开SPSS文件，点击变量视图选项，在前七行分别输入“学号”、“语

12、文”、“数学”、“外语”、“体育”、“总分”、“概况”，其中概况的值项需要做如下设置：在弹出的值标签对话框里，在值这一项里输入“1”，标签输入“优”，再点击“添加”按钮，依次添加“2”对应标签为“良”，“3”对应标签为“及格”，“4”对应标签为“不及格”，综上分别完成对4种概况进行数字的赋值。然后同样点击数据视图进行数据输入，数据输入依然按照成绩单输入（成绩单见附录）。2. 数据输入完成后，选择分析分类系统聚类，然后把“语文”、“数学”、“外语”、“体育”选入变量中，然后点击“绘图”，在出现的对话框中勾选谱系图，其余选项为默认，点击继续，确定运行。3.再次选择分析分类判别，然后把“概况”选入分

13、组变量中，再点击“定义范围”来定义范围为1（最小数值）到4（最大数值），然后将“语文”、“数学”、“外语”、“体育”选入自变量中，然后点击“Statistics”，在出现的对话框中勾选平均值与Fishers，其余选项为默认，点击继续，确定运行。5.结果分析5.1对应表表5.1对应表学号科目语文数学外语体育有效边际1 82.000120.00071.00095.000368.0002 81.000119.00077.00090.000367.0003 83.000115.00069.00091.500358.5004 72.000115.00075.00095.000357.000输出的第一部分

14、对应表是由原始数据学号与科目分类的列联表，可以看出观测总数n=40，说明原始数据中没有记录缺失，有效边际为行列数的总和。5.2汇总汇总维数惯量比例置信奇异值相关奇异值惯量解释累积标准差21.075.006.548.548.002-.0412.052.003.264.813.0023.044.002.1871.000总计.0101.0001.000表5.2第二部分汇总表给出了总惯量以及每一维度所揭示的总惯量的百分比的信息。可知总惯量为0.01，卡方值为0.4，有关系式：总惯量=卡方值*观测总数（0.4=0.01*40），由此可以清楚地看到总惯量与卡方值的关系，同时说明总惯量描述了列联表行与列之间

15、总的相关关系。奇异值所反映的是行与列个状态在二维图中分值的相关程度，实际上是对行与列进行因子分析产生的新的综合变量的典型相关系数，其在取值上等于特征值的平方根。惯量比例部分是各维度分别解释总惯量的比例及累计百分比，从表中可以看出第一维和第二维的惯量比例占总惯量的81.3%，因此可以选取两维来进行分析。5.3概述行点和概述列点表5.3概述行点a学号维中的得分贡献点对维惯量维对点惯量质量12惯量1212总计1 .025.242-.385.000.020.071.348.611.9592 .025.403-.322.000.054.050.659.293.9523 .025.168-.301.000

16、.009.044.259.575.8354 .025.341-.172.000.039.014.767.136.903表5.4概述列点a科目维中的得分贡献点对维惯量维对点惯量质量12惯量1212总计语文 .250.000-.143.002.000.099.000.135.135数学 .250.082-.427.003.022.880.047.887.934外语 .250.540.065.005.975.021.989.010.999体育 .250.029-.013.000.003.001.039.006.045有效总计1.000.0101.0001.000第三部分是对列联表行与列个状态有关信息

17、的概括（概述行点只截取了部分数据）。其中，质量部分分别指列联表中行与列的边缘概率。维中的得分是各维度的分值，指行列各状态在二维图中的坐标值。如语文坐标为（-0.00，-0.143）。惯量是每一行（列）与其重心的加权距离的平方，可以看出I=J=0.01,即行剖面的总惯量等与列剖面的总惯量。贡献部分是指行（列）的每一状态对每一维度（公共因子）特征值的贡献及每一维度对行（列）各个状态的特征值等贡献。如第一维度中，外语对应的数值最大，为0.975，说明外语这一状态对第一维度的贡献最大。5.4叠加散点图图5.1由以上两张坐标表可以得出如下的叠加散点图，也是输出的最后一部分，是学号各状态与科目各状态同时在

18、一张二维图上的投影。在图上既可以看到每一变量内部各状态之间的相关关系，又可以同时考察两变量之间的相关关系。在同一变量内部，在各学科间，体育与各状态之间距离相近，而外语可以单独归为一类，对于语文，各学号之间的距离均很近，语文与体育距离比较相近，则可以将体育和语文归为一类，外语分为一类，数学分为一类，很明显的形成了三大类。同时考察两变量各状态，可以看出这个班的同学的成绩语文与体育偏好，周围的学号也较为集中，分数比较接近，也就是说这个班语文成绩与体育成绩没有特别显著的特点。学号7与学号36离数学较远，说明他与数学的相关性越小，学号28、学号26与学号35离外语较远，说明他与位于的相关性越小，换言之，

19、他们该科成绩较低。而再观察学号较为集中的区域内，也说明大部分学号都与体育和语文的相关性较大。再从每个学号出发，如1号距离外语的距离相对于它距离其他三个科目而言是较远的，所以1号要加强对外语的练习，2号和1号的不同在于它离外语的距离接近它离数学的距离，也就是说2号在加强外语练习的同时还要兼顾着对语文的练习。以上是由SPSS默认设置得到的结果。实际研究中，可以采用创新思维，根据不同的研究目的对散点图进行研究。运用向量分析了解学科偏好排序。我们可以从中心向任意点连线作向量，例如从中心向语文做向量，然后让所有的学号往这条向量及延长线上作垂线，垂点越靠近向量正向的表示越偏好这种学科。即偏好语文的学生学号

20、依次是9号、1号、2号、3号等等。依次类推，也可以从中心往所有的学号作向量，得到每一个学生在选择4学科上的偏好排名，如28号的偏科情况为数学、语文、体育、外语。接着，我们可以从向量夹角的角度看不同学科或不同学生之间的相似情况，从余弦定理的角度看相似性。从图上我们可以看出，当我们从中心向任意两个学号（相同类别）做向量的时候，夹角是锐角的话表示两个学生具有相似性，锐角越小越相似。也就是说，2号和5号是相似成绩，当然也是竞争者，也具有替代性；我们也看出数学与外语就有非常大的差异了。因为如果作向量他们是几乎是直角了。5.5树状图图5.25.6 特征值表5.5特徵值函數特徵值變異的 %累加 %典型相關性

21、110.291a99.399.3.9552.057a.699.9.2333.010a.1100.0.100a. 前 3 個典型區別函數用於分析。第六部分反映了判别函数的特征根，解释方差的比例和典型相关系数，第一判别函数解释了99.3%的方差，第二判别函数解释了0.6%的方差，第三判别函数解释了0.1%的方差。5.7 显著性检验表5.6Wilks Lambda ()函數的檢定Wilks Lambda ()卡方df顯著性1 至 3.08387.14212.0002 至 3.9362.3026.8903.990.3522.839第七部分是对三个判别函数的显著性检验，看出第一判别函数在0.05的显著性

22、水平上是显著的，第二与第三判别函数不显著。5.8 标准化典型判别式函数系数表5.7標準化典型區別函數係數函數123语文.903.134.539数学1.387-.246-.578外语1.463-.268.392体育.772.947.024第八部分可以看出判别系数表示为：5.9 结构矩阵表5.8結構矩陣函數123体育.142.952*-.126数学.282-.218-.879*外语.288-.226.604*语文.086-.113.479*區別變數與標準化典型區別函數之間的聯合組內相關性依函數內相關性絕對大小排序的變數。*. 每一個變數與任何區別函數之間最大的絕對相關性第九部分是结构矩阵，即判别

23、载荷，由权重和判别载荷可以看出，外语对判别函数1与判别函数3的贡献较大，体育对判别函数2的贡献较大。5.10 群组重心的函数表5.9群組重心的函數概况函數123优4.568-.216.119良1.191.064-.101及格-2.343.244.090不及格-5.289-.450-.021以群組平均值求值的非標準化典型區別函數第十部分是反应判别函数在各组的重心，根据结果，判别函数在y=1这一组的重心为（4.568，-0.216，0.119），在y=2这一组的重心为（1.191，0.064，-0.101），在y=3这一组的重心为（-2.343，0.244，0.09），在y=4这一组的重心为（-

24、5.289，-0.45，-0.021），这样我们就可以根据每个观测的判别Z得分对观测进行分类。5.11 分类函数系数表5.10分類函數係數概况优良及格不及格语文10.3769.9109.4549.036数学10.2629.7029.0918.625外语11.95211.25810.5599.992体育20.59919.91719.17618.325（常數）-2400.472-2190.839-1982.558-1799.533費歇 (Fisher) 線性區別函數第十一部分是每组的分类函数（区别于判别函数），也称费歇现行判别函数，由表中结果可以说明：y=1这一组的分类函数是y=2这一组的分类函数

25、是y=3这一组的分类函数是y=4这一组的分类函数是可以计算出每个观测在各组的分类函数值，然后将观测分类到较大的分类函数值中。6.结论我们通过联系所学的课程多元统计分析，用对应分析、聚类分析、判别分析相结合解决实际问题，并发散思维，跳出书本，运用不同的方法解读统计学的多元统计分析。在判别分析的结果中也可以看出17号，27号与39号同学与原始概况有所不同，17号成绩概述为良，而判别分析后为及格，27号成绩概述为及格，判别分析后为良，39号成绩概述为及格，判别分析后为不及格，说明这三位同学的观测值（即成绩）处于判别分类的交界处，只要成绩稍一提高就可以进入上一类别，也就是说老师的辅导重心不用放在这三

26、位同学身上。从输出结果中得出结论，这个班级的体育成绩是最为平衡的，也体现出这个班学生的身体素质是很好的，其次是这个班的语文成绩也是相对平均的，但是也不难看出，外语与数学是这个班的软肋。同时可以说明28号同学与7号同学是偏科最为严重的，另外35号同学和26号同学也比较偏科。从这个班目前的学习状况来看，这个班体育成绩应当继续保持，拥有健康的体质才是学习的前提条件，语文成绩要从整体来提高，从整个班级入手，加强对学生平时的课程练习，争取下一次的考试成绩能够稳定到90分以上，对于数学与外语科目，老师要多多的关注那些偏科的学生，例如外语老师就要多关注学号为28、26、35的这三位同学，数学老师就要多关注学

27、号为36、7的这两位同学，这样补上他们的短板，对整个班级成绩的影响也是非常重要的。我们本次课设将创新主要应用在对应分析这一方面，具体体现在散点图分析中，之前只考虑了变量间点与点的距离，通过创新以后，本次新引入了向量分析与余弦定理，能够更全面的看出变量与变量之间更多的联系。 7.对创新的认识创新就是主体根据一定的目的和任务，在一定的基础上，开展理性的、理智的能动思维，产生出新颖独特的、前所未有精神成果和物质成果的行为活动。统计事业发展的过程本身就是一个创新的过程。统计萌芽于原始社会末期。从统计社会实践几千年的发展史我们知道：无论是统计对象、还是统计数据的观测手段、运算工具等，都不是一成不变的，无

28、不随着时间的推移而变化发展，而他们变化发展的过程就是一个对旧事物扬弃的过程，就是一个创新的过程。统计事业的现在和未来更需要创新。随着市场经济体制的确立和发展，我国在全面走向小康社会的同时，如何与时俱进地依托国际、国内两种资源，利用国际、国内两个市场，有效地应对经济全球化给我们带来的影响，将不可避免的会出现更多、更复杂的新情况、新问题，这也给统计工作带来了更高、更新的挑战，我们只有不断拓展我们的统计对象、统计思维、统计视觉、统计分析方法、统计制度、统计手段、统计理论，才能使我们的工作做的更加的有效，反映不断变化的客观实际，从而使我们的工作变得更加的有意义和价值。参考文献1 赵选民主编. 试验设计方法M. 科学出版社，2006年版2 何晓群编. 多元统计分析M. 中国人民大学出版社,2015年版3 宇传华编. SPSS 与统计分析M. 电子工业出版社,2007年版4 罗积玉主编. 经济统计分析方法与预测M. 清华大学出版社,1990年版附录

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？