数理统计程序设计.docx
《数理统计程序设计.docx》由会员分享,可在线阅读,更多相关《数理统计程序设计.docx(16页珍藏版)》请在冰豆网上搜索。
数理统计程序设计
《数理统计》课程设计
题目统计分析在学生成绩评估中的应用
姓名
杨秋燕
学号
11001010128
成绩
指导教师
答辩评语:
日期:
2012-7-10
统计分析在学生成绩评估中的应用
【摘要】 随着社会办学规模的不断扩大,教学质量的保证和提高的问题日益凸显,各种教学研究和教学实践层出不穷,但是学生学习状况的评价作为提高教学质量和激励学生努力学习的重要手段,却没有得到应有的重视,显然传统的评价方法忽略了学生基础条件的差异,并不能对学生的学习状况进行全面、客观、合理的评价,建立一种科学的评价方法势在必行。
主要目的在于实践一种基于统计思想的新方法,用以改善现行教育体制在学生成绩评估中不足。
以一个班级的期末成绩为案例,用基本统计的思想和方法提取出了对于学生有效的信息,并根据现行教育的宗旨,在每位同学的个人成绩信息表的制作上给出了建议。
从统计思想出发提出的“学科突破概率”和“目标值上下限”两个新工具,将有助于学生目标的量化。
【关键字】 正态分布条件概率影响因子学科突破概率水平基准线
0、引言
2003年5月16日,教育部公布了“中国教育与人力资源问题报告”。
报告中指出,我国人力资源基本现状:
整体国民素质偏低,中高层次人才严重缺乏。
2000年我国从业人员中受教育比例远不能满足现代经济对劳动者知识、技能的需要。
如表1所示:
表12000年我国从业人员中受教育水平
教育水平
所占比例
小学及小学以下教育水平
33%
初中以下教育水平
42%
高中和中等职业技术教育
12.7%
高等教育
4.7%
基于我国目前人力资源的基本状况,专家们提出了今后教育发展的重要趋势:
大力发展高等教育,培养大批高层级创新人才,教育发展的主攻方向应是高中阶段教育。
随着这股高教育需求之风的来临,相应的,我国的本科、研究生等教育的招生规模在这几年内也出现了空前的发展。
“凡事立则兴,不立则废”,目标在学习动力上的推进作用是不容忽视的。
在学习中,能够充分了解自己的全局地位,以及获得老师对自己的学习建议,对于高中生而言是极其重要的一件事情。
不仅有利于学生树立不同时期的个人短期、中长期的目标,而且有利于班主任获得更多的关于学生个人学习信息的资料,从而更好的安排任课教师的教学计划。
如何能够在大型的考试后,通过一些技术处理得出一些充分反映学生总体的成绩水平的信息,以及针对每个学生的个性水平提出相应的建议对于现今的高中教育是很有意义的。
另外,在高中阶段,一些老师偏爱优秀学生的情况屡见不鲜,这对于成绩中下学生的学习积极性产生了不小的负面影响,更甚者会产生对某些学科学习的抵触情绪。
如何从学生现有的水平出发,发掘出他在薄弱学科上的潜能,为他打入“强心剂”,这也是很有意义的研究方向。
下面将通过对于一组真实数据的案例分析,结合基本统计的思想和方法,对上述问题的解决进行一些尝试,最后给出理性的建议和思考。
1、原始数据
选取重庆市第一中学2006级高二的理科某重点实验班56位学生的期末成绩作为原始数据.
表2
名次
姓名
语文
数学
外语
理科综合
综合
1
赵健锋
106
130
118
246
600
2
王世豪
115
138
121
225
599
3
郝梵程
108
130
128
233
599
4
宋娜
116
138
108
236
598
5
周子奇
117
132
120
224
593
6
周正杰
110
125
115
229
579
7
王宇晨
96
133
98
251
578
8
吕盼
111
121
111
230
573
9
李君杰
110
133
126
201
570
10
谢子娣
108
124
127
209
568
11
张丽达
112
130
111
214
567
12
张凌菡
107
139
106
209
561
13
龚浩
109
142
88
218
557
14
周伊然
101
117
123
216
557
15
郑襄南
104
132
88
231
555
16
何嘉欢
114
112
116
209
551
17
谢红阳
100
124
92
233
549
18
胡家豪
93
117
99
237
546
19
张竹君
117
133
100
195
545
20
朱瑞琴
113
111
113
202
539
21
杨丹洁
108
115
103
213
539
22
杜靖文
110
122
124
181
537
23
陈俊猛
110
116
96
212
534
24
申坤
115
136
102
177
530
25
张俊
108
116
92
213
529
26
孙自谦
103
113
103
204
523
27
李爽
103
125
92
203
523
28
海懿伦
103
98
111
209
521
29
吴俊杰
91
116
104
208
519
30
石建桥
103
118
97
199
517
31
陈艳玲
109
103
114
191
517
32
杨语涵
109
111
121
171
512
33
白浩文
92
132
85
197
506
34
杨晨
95
126
102
182
505
35
宋甜甜
98
119
103
183
503
36
赵仁杰
94
120
105
181
500
37
王晓璐
112
123
90
174
499
38
张立旌
99
105
74
221
499
39
柳杨杰
88
119
93
196
496
40
谷志鹏
97
118
96
181
492
41
张博彬
101
100
102
187
490
42
赵文凯
110
115
81
183
489
43
刘娇琳
93
98
116
173
480
44
刘皓葳
106
109
90
175
480
45
李艾明
90
139
93
155
477
46
吴逸飞
74
108
109
186
477
47
杨舟
104
102
100
168
474
48
李亚玲
87
117
109
160
473
49
周坤
90
104
83
191
468
50
赵一凡
93
119
75
172
459
51
申凯凯
96
111
91
156
454
52
琚亚楠
97
99
93
163
452
53
李杰
97
104
86
164
451
54
高昊
91
83
100
170
444
55
张咏秋
101
89
98
153
441
56
陈博文
93
96
107
141
437
2、数据的基本统计分析
表3
语文
数学
外语
理科综合
平均
102.4464
117.9464
102.6429
197.1607
标准误差
1.228694
1.807887
1.77417
3.49933
中位数
103
118
102
198
众数
110
130
111
209
标准差
9.194701
13.52899
13.27668
26.18659
方差
84.54253
183.0334
176.2701
685.7373
峰度
0.08608
-0.31211
-0.57233
-0.77346
偏度
-0.52634
-0.33309
0.023896
0.003243
区域
43
59
54
110
最小值
74
83
74
141
最大值
117
142
128
251
求和
5737
6605
5748
11041
观测数
56
56
56
56
最大
(1)
117
142
128
251
最小
(1)
74
83
74
141
置信度(95.0%)
2.462357
3.623086
3.555517
7.012814
1)样本方差
从表中该项可以看出数学和理科综合的成绩相对于其它两门学科的成绩分散度显得更加厉害,这就表示:
在考试的总得分中,这两科是最容易拉开距离的科目,得分容易,失分也很容易。
因此,按拉开成绩距离的容易程度排序就是:
理科综合>数学>外语>语文。
2)偏斜度
偏斜度表示的是分数段的分布对称情况。
当偏斜度p>0时,表示左偏,也即高分人数较多,没能拉开距离,试卷的难度适中或偏低;相反而言p<0,就是右偏,高分人数较少,距离拉得较大,可能出现分数段的空挡,试卷的难度较大。
从上面可以看出,该年的试卷对于该班全体同学来说,总体上偏难。
3、相关系数
现行的教育方针和社会都要求学生在学习阶段能够做到全面素质的提高,在考试中亦是如此。
学习生活的每一个方面,都和周围的大千世界有着千丝万缕的联系,没有完全独立的物体存在。
用统计分析中的相关系数来简单分析一下考试科目中的一些内在的联系:
表4相关系数分析
语文
数学
外语
理科综合
综合
语文
1
0.375832
0.335848
0.374844
0.630782
数学
0.375832
1
0.128547
0.507279
0.706356
外语
0.335848
0.128547
1
0.227185
0.531349
理科综合
0.374844
0.507279
0.227185
1
0.872858
综合
0.630782
0.706356
0.531349
0.872858
1
从表中相关系数可以总结以下几点:
(1)、总分和高考的四个考试科目:
语文、数学、外语和理科综合(理化生)的相关系数都很大,且相差不多。
如此看来,要想在考试中取得好的成绩,任何一门的瘸腿科目都最好不要有,这样才能有效的保证考试总分;
(2)、很多人认为语文和数学是两门完全没有联系的课程,就如同看待文理分班一样。
现在从表中结果可以发现,这两门之间存在不小的联系的,毕竟理性思维和逻辑思维之间是互相补充,而学习的目的正是为了充分开发人的大脑的思考问题、解决问题的能力。
(3)每科虽然没有必然的外在联系,但是他们的内里却是千丝万缕的。
4、学科影响因子
用Y表示总分,X1表示语文成绩,X2表示数学成绩,X3表示外语成绩,X4表示综合科成绩,记X=(X1 X2 X3 X4)′,则有:
Y=X1+X2+X3+X4=βX,其中β=(1 1 1 1)
常规的想法会希望假定:
X服从多元的正态分布,从而得到Y也是一元正态分布.这样延续下去的分析方法很容易陷入理论分析的误区,因为现实中的数据不是那么恰好服从正态分布;虽然给出了假定,但是实际操作人员会迟疑于最后得到的结果,因为结果的精确性和现实的某些不规则的随机性产生了极端的抵触,相信这也是为什么统计学在某些领域的应用发展方面受到阻碍的原因.在现实问题的分析中,将统计的思想有效的融合在实际问题中,在合理性的前提下采取统计的精确公式理论,这样才可能有效的利用统计这个分析工具.这和工业试验设计中采用的解决思路是一样的:
理论来源于实践,在实际中检验理论,将理论结果更好的反馈到实践应用中.先采用简单的学科对总分的线性回归来观察它们之间的依赖关系.
语文和综合
方差分析
df
SS
MS
F
SignificanceF
回归分析
1
44843.74
44843.74
35.68409
1.88E-07
残差
54
67861.1
1256.687
总计
55
112704.8
数学和综合
方差分析
df
SS
MS
F
SignificanceF
回归分析
1
56232.87
56232.87
53.77137
1.19E-09
残差
54
56471.97
1045.777
总计
55
112704.8
英语和综合
方差分析
df
SS
MS
F
SignificanceF
回归分析
1
31820.13
31820.13
21.24365
2.51E-05
残差
54
80884.71
1497.865
总计
55
112704.8
理科综合和综合
方差分析
df
SS
MS
F
SignificanceF
回归分析
1
85867.67
85867.67
172.7774
1.84E-18
残差
54
26837.16
496.9845
总计
55
112704.8
图1个成绩和总成绩的回归分析
每个回归方程在实际中表达的意义都要取决于实际问题的背景,而不是简单的将一些结果呈现给别人看,实际问题的理论结果要比较真实的反映到实践中去。
这样才会使得学习的层面不是仅仅停留在理论意义上,而要把它深入到实际中去。
在这里,容易陷入的误区是:
将回归系数就看成学科的重要程度,或影响因子.这里称之为误区就是因为直接应用理论的结论,而没有结合实际。
在实际中,总分的获得取决于4个学科的成绩的总和,简单的排除其中的3科而得到的回归系数并不能有效的解释学科的重要程度。
5、学科突破概率
通过上面的分析,已经得到全局意义下各个学科对于总分的影响因子。
更进一步的分析要着眼于对于个人表现的分析,从而为每个同学确定其最优的突破口来提高成绩。
假定某位同学的当前成绩是Xi=xi(i=1,…,4),那么他在当前的水平下优先考虑哪个科目对于他自己的成绩提高是最有帮助的?
在概率论中有一个结论:
“当X~F(x)时,有F(X)~U(0,1)”,这个结论很好的避开了分布假设问题。
一个直观的认识来源于:
如果某位同学一个学科当前成绩的累积分布Fj(x3i)很大时,那么在这个学科上提高成绩的难度应该比其他学科中累积分布Fj(x3j)较小的要大;也就是说如果总分提高1分的话,那么这1分出现在学科i中的概率小于出现在其它学科j中的概率.基于上面的考虑,用pi(xi)=1-Fi(xi)=.Fi(xi)表示1分出现在学科i中的概率,那么qi(xi)=Fi(xi)就是1分不出现在学科i的概率(当前学科i的分数为xi)。
从而得到的条件概率称为“学科突破概率”
其中X=(x1 x2 x3 x4)为当前各科的成绩.
对于周子奇同学当前成绩而言,他的学习重心应该放在综合科和英语上,这两门课程是使得他最容易提高分数的学科,尤其是综合科.上面结果表明:
周同学在当前成绩水平下,总分提高1分有一半以上的可能性来自于综合科的提高.
6、“基准线”分析法
“瘸腿科目”对于年轻人知识的积累是一个不好的现象,而且现在的学科发展越来越讲究多学科的交融,许多成果都来自于学科间碰撞的火花。
不仅如此,在各个学科之间,还有着千丝万缕的联系,它们之间往往有着互补的作用,可以互相促进共同提高.那么一个自然而然的问题产生了:
如果一个同学的当前成绩是Xi=xi(i=1,…,4),其中Xj是他的弱势科目,基于他个人现有的综合实力,为了达到学科的平衡,他的弱势科目成绩应该至少达到多少?
以语文成绩的分析为例,将所有语文成绩的累积概率和总分的累积概率做P-P图分析:
从图2可以发现,点几乎布满了整个区域,但还是可以看出有一个向上增长的趋势(这条趋势线一定是自左向右上升的)。
在摒除了实际分数的尺度意义下,考虑语文和总分之间的水平因素是比较科学的,因为在实际生活中,这些定量分数的比较是在没有办法衡量相互之间的优劣关系时采用的折衷处理。
用所有的点在平方损失下做回归,得到的这条直线被称为“平均水平基准线”。
将图中基准线以上的点,以点A(01176,01686)为
例,向“基准线”做投影,得到在高水平对应的相应水平
下的低水平的一个“目标值下限”———点B;再作水平线
与“基准线”交于“目标值上限”———点C.求得两点坐标
为B(01349,01408)和C(01794,01686),然后根据语文成绩的累积分布将B、C两点坐标反运算得到对应的语文成绩,即该同学的与其水平相一致的语文成绩的范围应该为(100,111),而他实际的语文单科得分为91分,也就是说在他的水平正常发挥的情况下,他应该至少拿到100分才是与其实力相符的分数。
这里仅对“基准线”上方的点进行分析,因为基准线上方的点表明:
语文对于该学生而言是“瘸腿科目”,应该要引起个人的足够重视;而基准线下方的点,单科成绩已经达到了平均水平的要求范围,就不需要再作分析。
“基准线”分析法的好处在于:
让同学们明确的知道,凭自己现今的水平能够达到的分数和实际分数的距离究竟有多大,继而给他们树立了一个针对“瘸腿科目”的目标范围,有益于今后在该学科上的提高、改进。
8、结束语
一方面,通过案例分析的方法,将统计分析的思想与实际教学的需要相结合,为教学工作提供了有用的信息。
而且,在条件允许的情况下,可以很容易的应用到平时考试的成绩分析中。
另一方面,统计不是一门脱离实际的学科,它来源于实践生活,而且更应该无时无刻的反馈到生活的每个角落,这样的意义会更大。
参考文献:
[1]杨振明.概率论[M].北京:
科学出版社,2001.
[2]茆诗松,等.高等数理统计[M].北京:
高等教育出版社,2003.
[3]王松桂,等.线性统计模型[M].北京:
科学出版社,2004.
[4]欧贵兵,等.概率统计及其应用[M].北京科学出版社2011.
[5]宇传华等.Excel与数据分析[M]北京:
电子工业出版社,2002.