教学考试测评统计分析指标说明.docx

资源描述

教学考试测评统计分析指标说明.docx

《教学考试测评统计分析指标说明.docx》由会员分享，可在线阅读，更多相关《教学考试测评统计分析指标说明.docx（12页珍藏版）》请在冰豆网上搜索。

教学考试测评统计分析指标说明.docx

教学考试测评统计分析指标说明

1.虚拟科目

用户设定的不存在的考试科目。

例如：

水寨中学要求统计除X科以外的四科总分，那么我们可以设定一个虚拟科目，公式定义为虚拟科目=语文分+数学分+英语分+综合分。

那么在最后统计过程中将多出这个虚拟科目的指标来代替四科总分指标。

（注意：

虚拟科目并非真实的考试科目，而是人为创造用来代表某几个科目分数总和的指标，仅供参考作用。

）

2.总分

一次考试各科目得分的总和。

3.客观分

一次考试中一个学科选择题、多选题、判断题的得分总和，只需要选择，不需要书写的题目。

4.主观分

一次考试中一个学科排除选择题、多选题、判断题之外的得分总和，即需要书写作答的题目。

5.卷面得分（得分）

一次考试一个学科试卷的得分

6.人数

应该参加考试的人的数量

7.实考人数（实考）

实际参加考试的人的数量

8.缺考人数

没有参加考试的人的数量

9.作答人数

等同于实际参加考试的人的数量

10.平均分（排名）、级均分（排名）、班均分（排名）、联考均分（排名）

个人（群体）在一次考试中个人（群体）的平均成绩，直接反映出一个人（一个群体）的成绩素质。

11.离均差

个体差异=Xi－`X。

[1]

式中的Xi表示一名个体的一项特质的表现程度，而`X（读作X巴或X杠）是一项特质在一个群体里的平均表现程度，比如一个班级或一个年级的数学成绩或音乐成绩等等的平均值；相对于Xi而言，`X在数学上被假定为是每个Xi都达到的表现程度，因此是个体之间的共同性。

于是整个式[1]表征着特定个体的特质表现程度扣除了他（她）与别人的共同性后剩下的个人独特性，它在数学上叫作“离均差”或“离差”，即个体距离其所属群体的平均值的差量。

这就是关于个体差异的离（均）差定义。

从这个定义看过去，任何两人之间的差异，就是他俩各自对平均值的差量之间的差异，见式[2]，式中的下标i和j表示两个不同的个体：

（Xi－`X）≠（Xj－`X）。

[2]

12.超均率

超均率：

即个人或群体超均率＝（个人或群体平均分－总体平均分）÷总体平均分

13.比均率

比均率=（个人平均分-全区平均分）÷全区平均分，通过比均率的比较我们可以得出一个人、一个班、一个年级、一个学校在一段时间内的成绩变化情况，这种评价非常科学、公正，对我们评价教师的工作有很大的帮助。

14.分数段

考试成绩在分数1到分数2。

80=<分数段<90

15.分数段人数

分数1到分数2之间的人数。

80到90分之间的人数

16.分数段累计人数

分数2以上的人数。

90分以上的人数。

17.分数段人数百分比

分数1到分数2之间的人数占总人数的比例。

18.分数段累计人数百分比

分数2以上的人数占总人数的比例。

19.满分

试卷或作业所有题目分值的总和；题目的赋值分数。

20.最高（低）分

一次考试中在某个团体中得到最高（低）分的单位。

21.排名

一次考试中整个团体按分数或者平均分高低顺序进行降序排列得出的数组。

22.班名

一次考试中学生所在班级按分数或者平均分高低顺序进行降序排列得出的学生位置值数组

23.级名（校名）

一次考试中一个学校所有参考学生按分数或者平均分高低顺序进行降序排列得出的学生位置值数组

24.联考名

一次考试中所有学校学生按分数或者平均分高低顺序进行降序排列得出的学生位置值数组

25.满分率和零分率

一个团体中得满分（零分）的单位所占的比率。

26.优秀率、良好率、及格率和低分率（考试）

按百分位进行对分数或者人数比例划分等级。

例如：

一次数学考试得到80%分数或以上的同学为优秀，70%以上80%以下的同学为良好，60%以上70%以下的同学为及格，60%以下的同学为低分率。

或者按人数比率划分，如整体排名前20%的学生为优秀，如此类推。

这类指标主要作用是为了更好地区分成绩等级，让教师能够针对不同等级的学生进行针对性教学。

27.优秀率、良好率、及格率和不及格率（作业）

按百分位进行对分数或者人数比例划分等级。

例如：

一次数学作业得到90%分数或以上的同学为优秀，80%以上90%以下的同学为良好，60%以上80%以下的同学为及格，60%以下的同学为不及格。

或者按人数比率划分，如整体排名前20%的学生为优秀，如此类推。

这类指标主要作用是为了更好地区分成绩等级，让教师能够针对不同等级的学生进行针对性教学。

28.得分率

题目所得分数占题目总分数的比率。

例如：

某题总分为10分，考生所得分数为6分，则该题的得分率为6÷10×100%=60%。

29.全科及格率

全科及格率=所有科目都及格的人数/总人数*100%

30.闪光点与薄弱点（注意）

闪光点：

考生得分率大于一定比例的试题（得分率比例由用户设定）。

说明在被测团体当中的大多数人都能够答对的题目，属于被测团体的得分强项。

薄弱点：

考生得分率小于一定比例的试题（得分率比例由用户设定）。

说明在被测团体中的大多数人都不能够答对此题，属于被测团体的得分弱项，测试者可针对此题目进行加强教学。

例如：

用户设置得分率大于75%的题目为闪光点，小于25%的题目为薄弱点，则系统将自动进行统计，若整份试卷的一、三、五题为闪光点，说明一个团体75%以上的人都能答对此题目，若二、四为薄弱点，则说明只有不到25%才能答对此题目，属于丢分严重的题目，需要加强教学。

31.平均分差距

平均分差距=学生成绩-平均分

表示该学生所得的分数与团体平均分的差值，所得分数超过平均分，则差距值为正数，反之为负数。

差距值的绝对值数值代表与平均分偏离的程度。

此指标能直观地反映出某学生的成绩跟整体学生平均成绩的差距。

32.最高分差距

最高分差距=学生成绩-最高分

表示该学生所得的分数与团体最高分的差值，差距值的绝对值数值代表与最高分偏离的程度。

此指标能直观地反映出某学生的成绩跟整体学生中最高分成绩的差距。

33.成绩段分布

科目成绩段分布：

对单科成绩进行分段统计（具体分段由用户设定）。

例如：

某次考试的历史成绩按照10分为一段进行统计，如140分以上的有多少人，130-140分的有多少人。

总分成绩段分布：

对某次考试的成绩总分进行分段统计（具体分段由用户设定）。

例如：

某学校的一次模拟考试成绩650分以上的有多少人，500分以上的有多少人，具体分数段根据需要进行分配。

此指标直观反映了被测团体的成绩的分布情况，以便测试者了解各个班（学校）的整体素质。

34.名次段分布

对考试排名进行以班（学校）为单位分段统计（具体分段由用户设定）。

例如：

某次考试1班的学生排名在全年级前10名的有3人，排名在11-50名之间的学生有20人。

此指标直观反映了被测团体的名次的分布情况，以便测试者了解到底哪个班（学校）所属团队中顶尖的学生多，哪个班（学校）差生多。

35.成绩等级

成绩等级就是把成绩分为几个等级,具体设置由用户设定，可以是ABCD等级，也可以是甲乙丙丁。

此指标与优秀率、良好率、及格率和低分率等指标用途相类似。

36.百分等级

百分等级是表示学生的测验分数（或考试成绩）在其所属团体中相对位置的统计量数；例如将本校高二语文考试结果转化为百分等级后，得知甲生的百分等级为95，表示甲生的语文考试分数胜过本校百分之九十五的高二同学。

用百分等级表示分数结果的高下，不只可以知道胜过人数的百分比，而且可以知道其所不如的人数之多少百分比。

上述甲生语文成绩的百分等级为95，就表明了甲生胜过所属团体中百分之九十五的同学，同时也表明了同学中有百分之五在语文的分数上胜过甲生。

此指标能够体现某个学生到底在整个团体中排在什么位置。

37.标准差

标准差能反映一个数据集的离散程度。

平均数相同的，但是每个数的波动情况不同，因此标准差未必相同。

例如，A、B两组各有6位学生参加同一次语文测验，A组的分数为95、85、75、65、55、45，B组的分数为73、72、71、69、68、67。

这两组的平均数都是70，但A组的标准差为17.08分，B组的标准差为2.16分，说明A组学生之间的差距要比B组学生之间的差距大得多。

此指标反映了一个团体的参差情况，差生跟好生的两极分化大小，通过数值可以一目了然，测试者可以从中发现问题，对两极分化大的班级进行针对性教学。

38.Z分数

Z分数是以一批分数的平均数作为参照点，以标准差作为单位表示距离的。

它由正负号和绝对数值两部分组成，正负号说明原始分是大于还是小于平均数，绝对数值说明原始分距离平均分数的远近程度。

一批分数全部转换成Z分数后，它们的整个分布形态并没有发生改变。

Z分数准确地刻划了一个分数在一批分数中的相对位置。

如果只知道某一学生考试得了87分，那么我们几乎得不到什么信息。

因为考试的题目的难度，学生的现有知识水平、以及评分标准都会影响到学生的得分。

87可以说很高，也可以说很低；如果我们知道了学生的Z分数，我们就可以说学生这次考试是低于平均分还是高于平均分以及在全班（或者总体）的一个什么位置。

此指标不但可以说明某个学生在整体中的相对位置，还能看出排在某个位置的学生对于本次考试的知识掌握情况到底如何。

39.标准分

标准分是一种由原始分推导出来的相对地位量数，它是用来说明原始分在所属的那批分数中的相对位置的。

根据教育统计学的原理，原始分转换成标准分的意义可以从下面的比较中反映出来：

⑴单个标准分能够反映考生成绩在全体考生成绩中的位置，而单个原始分则不能。

例如，某考生某科的原始成绩为85分，无法说明其这科成绩究竟如何，因为这与试题的难度有关，与总体考生的分数有关。

如果某考生某科的标准分为650，即Z分数为1.5，则通过查正态分布表，查得对应的百分比为0.93319，于是我们知道，该考生的成绩超过了93.319%的考生的成绩，这就是分数解释的标准化。

⑵不同学科的原始分不可比，而不同学科的标准分是可比的。

不同的学科，由于试题的难易程度不同，各学科的分数价值也就不同。

例如某考生的语文原始成绩为80分，数学原始成绩为70分，从原始分看，其语文成绩优于数学成绩。

但如果这次考试全体考生的语文原始分平均为86分，而数学原始分平均为60分，则该考生的语文成绩处于全体考生的平均水平之下，而数学成绩处于全体考生的平均水平之上，即该生的数学成绩实质上优于语文成绩。

从标准分的角度来衡量，其语文标准分小于500分，而数学标准分大于500分。

由于标准分代表了原始分在整体原始分中的位置，因此是可比的。

⑶不同学科的原始分不可加，而不同学科的标准分之间具有可加性。

既然不同学科的原始分不可比，那么也就不可加。

多学科成绩，只有在各科成绩的平均值相同、标准差也相同的条件下，才能相加，否则是不科学的。

各学科原始分的平均值以及标准差一般都不相同，而各学科的标准分的平均值以及标准差都基本相同，因此，各科的标准分是可加的。

标准分不但可以反映考生在全体考生中的位置，而且还便于各市、学校以及考生成绩的比较，便于各科成绩之间的比较，便于划录取分数线。

一直以来标准分都作为高考制度用来衡量学生水平高低以及学校录取的重要指标。

40.难度

难度是指测验题目或整份试卷的难易程度，对于一道试题，如果大部分被试都能答对，则该题的难度就小，反之，该题的难度就大。

难度取值介于0—1之间。

如：

满分100分的试题，考生平均得分76分，难度为0.76。

客观题难度计算：

主观题难度计算：

P：

难度指标P：

难度指标

R：

答对某道客观题的人数

：

所有考生在该题上的平均得分

N：

参加考试的总人数K：

该题满分

难度评价标准：

作为学校期末考试的试卷，难度控制在0.7~0.8之间较好，有利于测量学生的真实水平，对不及格率也有较好的控制。

<0.4的试题过难，学生失分严重，应分析其原因。

一份优秀的试卷，试题的难度应有变化，应使难度适中的试题占的分值比例大一些，难度较大的试题占比例小一些，使难度分布呈正态分布，这样可以保证考试有一定的区分度。

难度指标衡量了一份试卷命题的难易程度对于应试者是否合适，也从侧面反映出应试者的素质。

41.难度描述

困难得分率：

20%以下

偏难得分率：

20%~40%

中等得分率：

40%~60%

偏易得分率：

60%~80%

容易得分率：

80%以上

42.区分度

区分度指测验对考生实际水平的区分程度，区分度高的试题（或试卷），能较好地鉴别考生的实际水平，使得实际水平高的学生得高分，实际水平低的考生得低分。

通俗地说，区分度是衡量试卷或者试题是否能够正确区分成绩好的学生跟成绩差的学生，从而达到针对性教学目的的一项指标，是评价试题（或试卷）质量、筛选试题的主要依据。

区分度取值介于-1.00—+1.00之间，值越大，区分效果越好，如果是负数，说明实际水平高的得了低分，实际水平低的得了高分。

区分度的计算：

D：

题目区分度

PH：

高分数组（以总分高分段27%考生为代表在该题上的得分率）

PL：

低分数组（以总分低分段27%考生为代表在该题上的得分率）

区分度评价标准：

区分度越高越好，不同要求的测验，区分度的评价标准可做适当调整，一般地：

0.4以上为优秀；0.3~0.39为良好，如能改进更好；0.2~0.29尚可，需作改进；0.19以下为差，必须淘汰或改进。

区分度与难度的关系：

难度的高低直接影响考生的得分，难度过高或过低的试题（或试卷），考生的得分都比较集中，从而区分度低；难度适中的试题（试卷），不同水平的考生将有较大差异的得分反应，从而有较高区分度。

作为命题者，对试题的难度控制是提供一份优质试卷的关键，这依赖于命题者对教学大纲的理解程度，对教学内容的熟悉程度，对应试者水平的了解程度。

区分度在某种程度上可衡量该题目的优劣，而各题区分度的加权平均是衡量一份试卷优劣的重要指标。

43.区分描述

0.4以上为优秀；0.3~0.39为良好，如能改进更好；0.2~0.29尚可，需作改进；0.19以下为差，必须淘汰或改进。

44.信度

信度是指测试结果的前后一致性程度．它反映测试工具的稳定性和可靠性。

计算公式如下：

信度系数

测验题目数

某一题目分数的方差

测验总分的方差

信度评价标准：

信度以多大为优，没有明确的标准，可视测验的目的和内容而定。

对于期末考试来说，R>0.9为优秀试卷，0.7<=R<=0.9为较好试卷，R<0.7为不合格试卷。

信度与难度、区分度的关系：

一份试卷中过难的题目越多，考生猜测答题的可能性越大，试卷信度越低，而如果过易的题目多，又造成考生得分容易，从而使得分数差异小，也使信度偏低。

区分度越高，越能反映考生之间的水平差异，使优等生、差等生越能真实地体现自己的水平，因此，区分度高的试卷的信度大。

提高信度的方法：

影响测验信度的因素主要有：

试卷的难度、题型、题量、测验的内容、测验的组织、测验时间长短、评分的客观程度、应试环境等，其中试卷的难度、题型、题量、内容是由命题者把握的，也是影响测验信度的重要因素。

信度是评价整个测量优劣的指标，它揭示测量值与真值的相差程度。

45.信度描述

信度>0.9为优秀试卷，0.7<=信度<=0.9为较好试卷，信度<0.7为不合格试卷

46.效度

效度指测量结果的准确性和有效性的程度，亦即测量是否达到预期的目的。

效度是任何一种测量或测量工具应考察的评价指标，一个测验如果没有效度，即使有再多优点，都无法发挥其真正的功能。

效度的评价标准：

E越接近1，考试和试卷的有效性越高，一般地，E>0.7为优秀试卷，0.4<=E<=0.7为较好试卷，E<0.4为不合格试卷。

影响效度的因素：

测验的组成、测验的实施、被试者的主观状态、效标的选择，其中测验的组成：

试题的难度及分布、试题长度、编排方式、试题内容等，由命题者掌握，要认真考虑。

效标的选择是统计效度的根本，一般可选择公认比较客观的考试成绩作为效标。

信度与效度的关系如同测量某个人的体重，测量某个人的体重时，如果只用估算的方法来测量，那么所得的结果值肯定是不可信的。

如果使用磅秤进行测量体重，连续测得的同一个数值都是同一个，也就是说测试结果的前后一致性相同，反映测试工具的稳定性和可靠性，因此使用磅秤测量体重是可信度高的。

但是即使可信度高，如果该磅秤不准，所得到的数据的效度也是低的。

因此信度与效度可以得出如下关系:

（1）信度低，效度不可能高。

（2）信度高，效度未必高。

（3）效度低，信度很可能高。

（4）效度高，信度也必然高。

47.效度描述

效度>0.7为优秀试卷，0.4<=效度<=0.7为较好试卷，效度<0.4为不合格试卷

48.难度偏易，区分度合适

难度：

大于0.6区分度：

大于等于0.19

49.难度偏易，区分度不合适

难度：

大于0.6区分度：

小于0.19

50.难度合适，区分度合适

难度：

大于等于0.4，小于0.6区分度：

于等于0.19

51.难度合适，区分度不合适

难度：

大于等于0.4，小于0.6区分度：

小于0.19

52.难度偏难，区分度合适

难度：

小于0.4区分度：

于等于0.19

53.难度偏难，区分度不合适

难度：

小于0.4区分度：

小于0.19

54.达标贡献值

达标平均分：

根据测验或考试总分数的实现目标（如上本科最低录取控制分数线等目标分数值），按各科试题难度系数的比例分配计算出的各科目标分数值：

R：

该科目达标平均分权值

D：

实现目标原始分数值

Pi：

各科目试卷难度

P：

该科目试卷难度

达标贡献值：

在某次考试中，针对某个实现目标，某个考试群体的各科成绩所发挥作用的大小，参试群体可以是个体考生、某班考生、某校考生或某一类考生。

贡献值成功地把某群体在此次考试中各科目所作贡献大小量化了，同时也成功地把每个考生各科目贡献大小量化了，它具有可比性，因而具有评价作用。

该评价体系只对参试群体作“考试结果评价”使用，不涉及教学质量评价。

计算方法如下：

C：

达标贡献值

Z：

参试群体科目原始分平均分

R：

科目达标平均分权值

达标贡献值指标衡量了应试者是否能够达到测试者所预期的目的。

55.小题选率

对选择题的选择情况进行选项分析所得出的指标。

例如：

某选择题在一个有50个学生班级的选择情况进行选率分析，得出选A的有10人，占全班人数的20%，选B的有30人，占全班人数的60%，选C和D各5人，各占10%，从中可以发现学生对此道题的作答情况，从而进行针对性教学。

56.选空率

对选择题的选择情况进行选项分析所得出的指标。

该题没有选择任何选项的学生人数比例。

57.全距（极差）

全距是用来表示统计资料中的变异量数，其最大值与最小值之间的差距；即最大值减最小值后所得之数据。

其适用于等距变量、比率变量，不适用于名义变量或次序变量。

全距也称为极差，是指总体各单位的两个极端标志值之差，即：

R=最大标志值－最小标志值

因此，全距（R）可反映总体标志值的差异范围。

58.中数（中位数）

对一组数进行排序后，正中间的一个数（数字个数为奇数）；或者中间两个数的平均数（数字个数为偶数）。

中数是按顺序排列在一起的一组数据中居于中间位置的数，即在这组数据中，有一半的数据比它大，有一半的数据比它小。

这个数可能是数据中的某一个，也可能根本不是原有的数。

中数是集中量数的一种，它能描述一组数据的典型情况。

59.众数

众数是样本观测值在频数分布表中频数最多的那一组的组中值，主要应用于大面积普查研究之中。

众数是在一组数据中,出现次数最多的数据，是一组数据中的原数据，而不是相应的次数。

一组数据中的众数不止一个，如数据2、3、-1、2、1、3中，2、3都出现了两次，它们都是这组数据中的众数。

一般来说，一组数据中，出现次数最多的数就叫这组数据的众数。

例如：

1，2，3，3，4的众数是3。

但是，如果有两个或两个以上个数出现次数都是最多的，那么这几个数都是这组数据的众数。

例如：

1，2，2，3，3，4的众数是2和3。

还有，如果所有数据出现的次数都一样，那么这组数据没有众数。

例如：

1，2，3，4，5没有众数。

展开阅读全文