数学课程的成绩分析数模.docx
《数学课程的成绩分析数模.docx》由会员分享,可在线阅读,更多相关《数学课程的成绩分析数模.docx(17页珍藏版)》请在冰豆网上搜索。
数学课程的成绩分析数模
数学课程的成绩分析(数模大作业)
数学课程的成绩分析
摘要:
本文讨论了B题中给出的对大学数学课程的成绩分析的一种分析方法,根据题目中提供的甲乙两专业4门数学学科的成绩,对成绩进行分类汇总,再通过数理统计的方法进行对成绩的分析,运用Excel、Matlab绘出图表,直观的分析甲乙专业,各数学学科的一些统计量。
再查找数学教育的相关资料,建立合理的数学水平评价模型。
最后建立数学学科之间的相关回归模型,利用Matlab进行回归检验,从而讨论各个数学学科之间的关系。
关键词:
层次分析法统计回归方法一元线性回归数学水平评估模型
1问题重述
附件是甲专业和乙专业的高等数学上册、高等数学下册、线性代数、概率论与数理统计等三门数学课程的成绩数据,请根据数据分析并回答以下问题:
(1)针对每门课程分析,两个专业的分数是否有明显差异?
(2)针对专业分析,两个专业学生的数学水平有无明显差异?
(3)高等数学成绩的优劣,是否影响线性代数、概率论与数理统计的得分情况?
(4)根据你所作出的以上分析,面向本科生同学阐述你对于大学数学课程学习方面的看法。
2模型假设和符号说明
2.1模型假设
1)甲专业24号同学高数I成绩433,不属于0-100分,所以当无效数据处理,不考虑它的影响。
2)考试成绩反映的是学生的真实水平。
3)高数成绩和线性代数、概率论与数理统计有相关关系。
4)将高数成绩定义为将高数I的成绩和高数II的成绩取平均。
5)两个专业的老师教课水平是一样的。
6)学生本科前的数学水平是相近的。
7)两专业的人数可以真实反应学生水平。
2.2符号说明
:
把高数成绩作为一元线性回归模型的自变量。
:
把线性代数成绩作为一元线性回归模型的因变量1。
:
把概率论与数理统计成绩作为一元线性回归模型的因变量2。
:
一元线性回归模型的回归系数。
:
一元线性回归模型的回归系数的估计值。
:
随机误差(均值为0的正态分布随机变量)
:
相关系数的平方。
3问题分析
3.1问题
(1)分析
问题要求针对每门课程分析两专业的分数差异,因此分成4门课,每门课再分甲乙专业,然后用Excel制表,画图,算出其中的数理统计量,最后通过比较各个统计量和比较图表来得到结论。
3.2问题
(2)分析
将成绩按照专业分开进行对照比较,定义一个模型来评估学生的数学水平,建立数学水平评估模型后再将两专业的成绩、各个统计量带入模型中,然后求出结果再经行比较得出结论。
3.3问题(3)分析
将高数成绩分别与线性代数成绩和概率论与数理统计成绩进行相关性分析,建立一元线性回归模型,利用Matlab处理数据,求出相关系数、回归系数的点估计和区间估计并检验回归模型的可靠性,进行残差分析。
3.4问题(4)分析
结合问题
(1)至问题(3)然后对其结果进行总结分析。
4模型建立与求解
4.1问题
(1)求解
将附件数据中甲乙专业按照数学学科分开,用Excel统计出每科甲乙两专业人数、最高分、最低分、极差、众数、中位数、平均分、标准差、及格率、优秀率等统计量,再统计甲乙各个分数段的频数,作出频率分布直方图,再根据平均分和标准差作出成绩的正态分布图,观察比较两者是否基本吻合,一般情况下成绩会遵循正态分布,由此可以判断试卷出的题目有无过难或过易。
4.1.1甲乙专业高数成绩的差异分析
表1甲乙专业高数I成绩统计结果
人数
最高分
最低分
极差
众数
中位数
平均分
标准差
及格率
优秀率
甲专业高数I
152
95
0
95
60
72
71.51
15.11
94.74%
28.29%
乙专业高数I
108
100
0
100
60
66
69.34
13.89
95.37%
21.30%
表2甲乙专业高数II成绩统计结果
人数
最高分
最低分
极差
众数
中位数
平均分
标准差
及格率
优秀率
甲专业高数II
153
96
40
56
60
67
70.12
10.23
96.73%
18.95%
乙专业高数II
108
97
0
97
64
65
65.43
14.33
89.81%
12.04%
通过表1分析发现:
甲专业高数I的均分要高于乙专业,但标准差也大于乙,说明离散程度甲要大一些,既分数分布更为分散些,再比较及格率和优秀率,及格率基本差不多,但优秀率上甲要高于乙。
再分析表2发现:
甲乙专业的极差差距比较大,均分还是甲专业要大于乙专业,标准差是甲要小于乙,说明乙的分数分布更为分散,甲专业的及格率和优秀率普遍要比乙专业的高。
因此仅由表1和表2的统计结果可以得出一个结论:
综合来看甲专业的高数成绩要好于乙专业的高数成绩。
图1甲专业高数I成绩频率分布直方图和正态分布示意图图2乙专业高数I成绩频率分布直方图和正态分布示意图
利用Excel作出甲乙专业关于高数成绩的频率直方图和正态分布图,根据图1分析:
甲专业学生落在60-65分数段的频率最大,再比较甲乙专业高数I成绩的频率分布直方图和正态分布曲线,发现频率最高的分数段都要落后于平均分一点,都是在60-65分这个分数段,而图中50-60分这个分数段频率为0,由此分析可能是老师把一些不及格的同学拉到及格了,使得图上显示的结果不太符合一般考试的成绩分布状态。
图3甲专业高数II成绩频率分布直方图和正态分布示意图图4乙专业高数II成绩频率分布直方图和正态分布示意图
分析图3和图4:
发现甲乙专业高数II成绩的频率分布直方图基本上落在正态分布曲线内,说明成绩的分布还是比较理想,甲乙专业都是在65-70这个分数段频率最大,从图中可以清楚观察出,甲专业分数的分布更为集中些,这与表2的分析结果是相符的。
最后通过图1-图4可以得出结论:
甲专业的学生高数成绩要好于乙专业的。
分数的分布也更为平均。
4.1.2甲乙专业线性代数成绩的差异分析
表3甲乙专业线性代数成绩统计结果
人数
最高分
最低分
极差
众数
中位数
平均分
标准差
及格率
优秀率
甲专业线代
153
98
0
98
60
72
70.68
14.61
95.42%
24.84%
乙专业线代
108
100
0
100
60
69
70.19
13.16
95.37%
20.37%
通过表3分析发现:
乙专业有满分的,并且两个专业的均分也相差不大,标准差是甲专业大于乙专业,甲专业的成绩相对于乙要分散些,及格率两专业也相差不大,优秀率甲专业要好于乙专业。
因此仅由表3的统计结果可以得出一个结论:
综合来看甲专业的线代成绩和乙专业的线代成绩相仿。
图5甲专业线代成绩频率分布直方图和正态分布示意图图6乙专业线代成绩频率分布直方图和正态分布示意图
分析图5和图6:
发现甲专业线代成绩的频率分布直方图基本上落在正态分布曲线内,说明成绩的分布还是比较理想,而乙专业线代成绩的频率分布直方图和正态分布曲线还是有些差距的。
甲专业在55-60分数段频率最大,而且在55-90分数段中成绩的分布较为均匀,乙专业是在55-60分数段和65-70分数段频率最大。
4.1.3甲乙专业概率论与数理统计成绩的差异分析
表4甲乙专业概率论与数理统计成绩统计结果
人数
最高分
最低分
极差
众数
中位数
平均分
标准差
及格率
优秀率
甲专业概率
153
97
22
75
90
76
75.09
14.04
94.12%
39.22%
乙专业概率
108
97
0
97
60
75
74.45
14.11
96.30%
38.89%
通过表4分析发现:
甲乙专业的最高分相同,但乙专业有0分的学生,甲乙专业的均分相近,标准差相近,及格率是乙专业好于甲专业,但优秀率是甲专业好于乙专业。
因此仅由表4的统计结果可以得出一个结论:
综合来看甲专业的概率论与数理统计成绩和乙专业的概率论与数理统计成绩相仿。
图7甲专业概率成绩频率分布直方图和正态分布示意图图8乙专业概率成绩频率分布直方图和正态分布示意图
分析图7和图8:
发现甲专业概率成绩的频率分布直方图和正态分布曲线还是有微小的差距,乙专业概率成绩的频率分布直方图基本上落在正态分布曲线内。
甲专业在60-70分数段和75-90分数段的分布比较平均,乙专业在85-90分数段频率最大。
4.2问题
(2)求解
4.2.1数学水平评估模型建立
建模背景:
基于我们学校对这三门课程的一个学分安排——高数I为6学分,高数II为6学分,线性代数为3学分,概率论与数理统计为3学分。
总共为18学分,因此建立一个加权平均的模型来定义学生的数学水平。
建立如下模型:
4.2.2数学水平分析求解
将甲乙专业分开,分别计算各个学生的数学水平,得到相关统计量,并绘制表格:
表5甲乙专业数学水平统计结果
人数
最高分
最低分
极差
众数
中位数
平均分
标准差
及格率
优秀率
甲专业数学水平
152
94.50
45.50
49.00
70.67
70.67
71.55
9.51
94.74%
16.45%
乙专业数学水平
108
95.33
0.00
95.33
67.50
67.83
69.03
11.70
93.52%
13.89%
从表5可以看出甲专业极差小于乙专业,众数、中位数、均分都要高于乙专业,而起标准差要小于乙专业,说明数学水平分布更为集中,并且甲专业的及格率和优秀率都要好于乙专业。
由此可以粗略的得出一个结论:
甲专业的数学水平要好于乙专业。
为了能更近一步的了解甲乙两专业的数学水平情况,我们绘制了2张甲乙专业单独的各个数学学科的频率图,并希望从图中有所发现:
图9甲专业数学学科成绩频率分布图图10乙专业数学学科成绩频率分布图图11甲乙专业数学水平频率分布图
通过比较图9和图10,发现:
甲专业的数学水平更为集中,比较集中在65-85这个分数段,数学水平在75-80分数段的人数最多,而乙专业的数学水平相比就比较分散些,数学水平在70-75分数段的人数最多。
就4门数学单科的成绩频率分布而言,在问题
(1)的求解中已经详细的讨论过了,再由图11比较甲乙专业的数学水平,这里可以更加直观的观察到甲乙专业间的数学水平差异。
因此得出结论:
甲专业学生的数学水平要比乙专业高些,而且多数集中在75-85分数段,反观乙专业学生的数学水平就低一些了。
4.3问题(3)求解
4.3.1一元线性回归模型建立
由于是分析高数成绩与线代成绩、概率成绩的相互影响关系,因此可以建立关于高数-线代成绩的一元线性回归模型和高数-概率成绩的一元线性回归模型。
关于模型参数的估计:
有n组独立观测值,(x1,y1),(x2,y2),…,(xn,yn)
设
记
最小二乘法就是选择
和
的估计
,
使得
解得
或
其中
,
得出回归方程为:
4.3.2模型求解与检验
因为高数分为高数I和高数II,所以依据开始的假设,取两者均值来代替高数成绩,还有由于甲专业24号高数I成绩433,视作无效数据,因此样本容量从原来的261变为260。
再定义高数成绩x为横坐标,以线性代数成绩y1(概率论与数理统计成绩y2)为纵坐标,在平面直角坐标系上标出,利用Matlab来进行数据的处理和图表输出。
1.相关标示的解释
bint是回归系数的区间估计,r是残差,rint是置信区间,stats是用于检验回归模型的统计量值:
相关系数
,F值,与F对应的概率p,alpha是显著水平(缺省的时候为0.05)。
相关系数
越大,说明回归方程越显著,与F对应的概率p,回归模型成立。
2.高数-线代成绩的一元线性回归模型求解与检验:
1)利用Matlab处理数据
1输入数据:
x=[x1x2…x260];X=[ones(260,1)x];Y1=[y11y12…y1260];
2回归分析及检验:
[b,bint,r,rint,statas]=regress(Y1,X);
3Matlab计算的结果:
b=22.41560.6929
bint=13.512631.31850.56630.8196
statas=0.3104116.12780136.1914
4残差分析:
作残差图rcoplot(r,rint)
5预测及作图:
z1=b
(1)+b
(2)*x;plot(x,Y1,’k+’,x,z1,’r’)
2)分析计算结果
图9y1-x残差图图10y1-x回归方程和y1-x散点图
通过Matlab计算得出
=22.4156,
=0.6929;
的置信区间为[13.5126,31.3185],
的置信区间为[0.5663,0.8196]
=0.3104,F=116.1278,p=0,估计误差方差=136.1914。
从残差图可以看出,除了8个数据点外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,再观察图10发现数据点基本上均匀的分布在回归方程的两侧。
这说明回归模型
能较好的符合原始数据,而那8个数据点可视为异常点。
因此可以得出结论:
高数成绩的好坏将影响到线代成绩的好坏,而且是正相关。
3.高数-概率成绩的一元线性回归模型求解与检验:
1)利用Matlab处理数据
6输入数据:
x=[x1x2…x260];X=[ones(260,1)x];Y2=[y21y22…y2260];
7回归分析及检验:
[b,bint,r,rint,statas]=regress(Y2,X);
8Matlab计算的结果:
b=31.12690.6305
bint=21.869740.38410.49880.7621
statas=0.256388.92130147.2453
9残差分析:
作残差图rcoplot(r,rint)
10预测及作图:
z2=b
(1)+b
(2)*x;plot(x,Y2,’k+’,x,z1,’r’)
2)分析计算结果
图11y2-x残差图图12y2-x回归方程和y2-x散点图
通过Matlab计算得出
=31.1269,
=0.6305;
的置信区间为[21.8697,40.3841],
的置信区间为[0.4988,0.7621]
=0.2563,F=88.9213,p=0,估计误差方差=147.2453。
从残差图可以看出,除了13个数据点外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,再观察图12发现数据点基本上均匀的分布在回归方程的两侧。
这说明回归模型
能较好的符合原始数据,而那8个数据点可视为异常点。
因此可以得出结论:
高数成绩的好坏将影响到概率成绩的好坏,而且是正相关。
4.结论:
通过2个模型的建立,得出
和
两个线性回归方程,这就说明了高数成绩的好坏将影响到线性代数、概率论与数理统计的得分情况,而且是正相关。
4.4问题(4)求解
基于对上述问题的综合分析与检验,通过正确建立模型、求解模型、检验模型的过程后可以得出以下一些结论:
a.大学数学课程学习的优劣会直接影响到后续相关数学课程的学习。
b.不同专业同学之间关于不同课程的学习有差异,而且班级不同学生的学习水平有一定差异。
鉴于对上述问题的分析,以及本人亲身学习经验和对本班、不同专业同学的调查,对当下大学生关于大学数学课程的学习提出一些建议:
第一:
对基本课程的学习要认真,为后续的相关课程的学习打下坚实的基础。
第二:
根据本班同学的学习情况可以建立相应解决方法,互相帮助促进班级学习建设。
同学之间可以互相交流,像一些学习成绩好的同学借鉴学习经验,通过努力提高自身大学数学课程的成绩。
第三:
通过对数据分析可得60分左右的同学较多,说明较多同学以及格为目标,希望同学平时能较好的掌握所学知识,给自己定较高的目标,获得好成绩,为以后课程学习打下坚实的基础。
5模型评价
5.1模型优缺点
模型优点:
在问题
(1)、
(2)、(3)中建立的模型是图解模型,频率分布直方图,线性回归拟合图形可以很直观的分析各个学科成绩的差异。
模型缺点:
数学水平是一个很难定义的量,因为数学水平的衡量涉及到很多变量,这个模型中的数学水平的定义比较简单,不一定能反应现实中学生的数学水平,还有在考虑高数与另两门课的相关关系时没有去考虑有无可能是二次回归方程。
5.2模型改进
问题(4)可以分专业分析,再合起来比较,这样可以得到更加完整的结论,还有通过查找更多的资料数据来定义出一个比较好的数学水平计算公式。
参考文献:
[1]任治斌,单荣.基于Matlab的学生成绩综合分析[J].宁夏师范学院学报,2010,(06).
[2]任治斌,单荣.基于Matlab的试卷质量分析方法研究[J].广西民族师范学院学报,2011,(03).
[3]郭变.基于MATLAB的班级成绩分析[J].价值工程,2011,(02).
[4]刘文艳,龙润生.SPSS在高等数学成绩分析中的应用[J].数理医药学杂志,2009,(03).
[5]俞能福.成绩统计与试卷分析的Excel实现[J].安徽建筑工业学院学报(自然科学版),2008,(05).
[6]张峰,付瑞雪,郭春东.对我校研究生入学考试数学成绩的分析[J].河北科技大学学报(社会科学版),2003,(03).
[7]陆小华,付申,李媛媛.2003-2004学年高等数学成绩分析[J].北京农业职业学院学报,2004,(04)