阅卷管理与监测系统.docx

资源描述

阅卷管理与监测系统.docx

《阅卷管理与监测系统.docx》由会员分享，可在线阅读，更多相关《阅卷管理与监测系统.docx（11页珍藏版）》请在冰豆网上搜索。

阅卷管理与监测系统.docx

阅卷管理与监测系统

　　——大规模考试作文评分研究系列之六

上文说过，大规模考试中作文评分的误差控制包括三个不可缺少的基本环节，这就是评分标准、评分方法

和阅卷管理。

监测系统是阅卷管理系统中一个有特殊意义的组成部分。

一次大规模作文考试，如果没有一套完

善的管理制度，没有一个有效的监测系统，则任何评分标准的厘定、评分方法的改进都只是一句空话。

在测试研究中，考务管理是一个专门的领域；在测试机构中，考务管理是一个有特定职能的分支机构。

考

虑到本刊的读者对象，以下只作约略的概述。

１．大规模作文考试的阅卷管理系统

大规模作文考试的阅卷管理系统应承担以下三个方面的职责：

ａ．阅卷的业务领导，ｂ．阅卷人员的行政

管理，ｃ．阅卷质量的监测。

在现阶段，我国比较完善的阅卷管理程度可以示意如下：

作文阅卷管理示意图

（附图

{图}）

现代科技的发展，为作文阅卷的管理提供了重要的辅助手段。

借助这种手段，阅卷管理的主要工作有：

①试卷的随机编排

试卷的随机编排就是把不同学校的考生打乱混合排列。

有了电脑，这项工作在技术上是不难解决的。

重点

学校与非重点学校之间，水平可以相差很大，如果不解决随机编排问题，则监测系统的数据将失去代表性，既

使得这些数据缺乏应有的说服力，也容易出现盲目的调控。

有了随机编排，不但阅卷员的评分状况能够得到比

较客观的反映，而且就阅卷员本人来说，由于一本试卷（即同一考场中）兼有各类学校的考生作文，可以大大

减弱评分心理的位置效应（参阅《系列之一》）。

此举可以消除评分的系统误差，即各校的平均成绩与其实际

水平大体接近，但还不能遏制评分的随机误差（参阅《系列之一》文末注释）。

②阅卷员的选择与培训

《系列之三》所披露的数字表明，阅卷人员决不是“年龄大、职称高”才好。

阅卷队伍的形成应该是一个

选择的过程，由于大规模考试作文评分的特点与困难，阅卷者应该是一支半专业化的队伍，为此，需要逐步建

立阅卷人员档案。

“高考作文评分误差控制”课题组的试验省分有的正考虑实行“阅卷员证书”制度（国外已

有），这是条很有价值的措施。

在选择阅卷人员的基础上还要进行培训。

以下两项调查反映了短期培训的效果。

调查Ａ

取各类作文１０篇，１５名阅卷员在培训前后两次重评。

结果如下：

培训前

培训后

篇平均标准差

４．８４

３．９７

总体标准差

３．９７

４．６３

可见经过培训，阅卷员评分的一致性有所提高，在拉开分数距离方面情况有所改善。

调查Ｂ

取各类作文６０篇，分成对等两组，１６名阅卷员先评第一组（作为培训材料），相隔３日再评第二组，

结果如下：

第一次

第二次

篇平均标准差

３．４６７

３．１０５

观测结果与调查Ａ相近。

培训可以有两种方式：

ａ．短期集中培训，ｂ．结合阅卷过程进行。

后者一般都与样本卷讨论和典型卷讨

论合并进行，将在下面专门介绍。

③样本卷的选定及其策略

即使有了比较完备的评分参照量表（参阅上期），每次大规模考试的样本卷仍是不可少的。

这是因为每年

的试题都有其个性，有其需要特殊处理的矛盾，需要根据当年试题情况编制样本卷系列予以解决。

样本卷的功能，一是使评分标准明确化、具体化，二是针对影响阅卷稳定的心理因素予以尽可能的控制。

因此编制样本卷系列，在着眼点方面，在策略方面，和参照量表的编制可以有所不同。

参照量表的编制要遵循

“等距性”原则，即各典型例卷之间，如果按百分制计算，其分距大体上是相等的；样本卷系列的制订，则可

以进一步着眼于“分界线”和“分歧点”。

例如：

“趋中倾向”（参阅《系列之一》）是大规模考试评分中一个比较突出的问题，针对这种情况，１

９９１年江西省在高考作文评分选定样本卷时采取了以下对策：

ａ．一、二类样本卷取下限，ｂ．三类卷取上

、下限。

采取上述措施的结果，各类试卷的分布状况有所改善：

类别

一

二

三

四

五

百分比

２

２２

４３

２７

５

高考作文每年分值不同，为了便于比较，重新划分分数段使之能与１９９０年相对应，结果如下：

（91）29---35

（91）20---28

（91）12---19

（91）1---11

（90）33---40

（90）23---32

（90）14---22

（90）1---13

1991

10%

46%

36%

90（综）

58%

27%

90（综）

11%

62%

22%

从表中的数据可以看出，高分数段的情况没有显著变化，而第二档次的人数有大幅度下降，第三档的数字

有明显上升。

从整体上看，打保险分，送“及格”分的倾向有所抑制。

再取同是采用分项评分法的９０年文科考生分与９１年全省考生抽样统计的平均数、标准差、变差系数（

标准差／平均分）相比，结果如下：

平均分

标准差

变差系数

９０年（满分４０分）２４．６５

６．６５

２６．９８％

９１（满分３５分）

２０．１７

６．４１

３１．７８％

统计表明，变差系数有所增加，即分数离散状况好于前一年。

“分歧点”就是容易引起分歧的问题。

每年阅卷，都可以发现“有的作文好评，有的作文难评”现象。

对

于某些作文，评分比较容易趋于一致，对于另一些作文，看法往往分歧。

归纳、分析、研究这些评分差别较大

的试卷，及时提出来讨论，统一认识，纳入样本系列，是极其重要的。

④阅卷流程管理

根据我国惯例，大规模作文考试通常在暑期或接近暑期进行。

在高温、大兵团突击作战的阅卷条件下，应

该特别注意阅卷人员的生活安排和保健措施。

就阅卷流程管理而言，要特别注意以下两项工作：

ａ．均衡投卷，控制速度

阅卷速度必须均匀，前松后紧之类都必然扩大误差。

考虑到阅卷员熟练程度不断提高，可以先略慢后稍快

，但各组之间必须同步前进。

要严禁各组攀比速度，领导小组要掌握进度，但决不应公布进度，一公布必然对

较慢的组产生压力而滋生误差。

此外，如果阅卷人员之间存在着利害关系（相互竞争的学校、区县等），试卷

的投放还要注意流向，以免人为因素干扰。

阅卷的速度与质量有直接关系，速度过快必然评估粗糙。

由于目前实行的承包制以及阅卷数量与报酬挂钩

的原因，阅卷速度不断加快。

据了解，高考作文有的地区个别阅卷员的速度竟达到日３００份以上，在这种情

况下，阅卷质量是无法得到保证的。

承包制不适用于作文阅卷，必须予以解决。

ｂ．制订行为准则

“多元评定法”是减小各评阅者评分误差的重要措施。

根据赛蒙兹（Symonds）的研究，一组作文若由两人

评定，其相关系数为０．５５，经四人评定后再由另四人评定，则相关系数可达０．８２，若经八人评定后再

评定，相关系数可以增加到０．９０。

目前，美国威斯曼的“快速印象法”和英国伦敦教育研究所的实验都要

求一份试卷经四人评定。

在我国，一般原则上规定一份试卷应由两人共评，要求已经很低，但实际上仍无法做

到。

在这种情况下，应该就“对子”行为作出一些规定，例如至少要求两人先共评若干份，分评后每天必须相

互抽查各等级的作文若干篇，发现问题及时磋商，并有相应的检查措施，等等。

这已经是最低限度的要求。

纪律涣散、工作态度不严肃，是无法保证阅卷质量的。

因此，还应当制订《阅卷员守则》，并且有相应的

奖惩制度。

对于不合格的阅卷人员必须坚决汰除。

课题组各试验省份都有被判“红牌”者，对维护阅卷的严肃

性有良好的作用。

⑤监测及复查

由于这个问题的重要性，将在下文专门介绍。

２．建立、健全监测系统

大规模作文考试如果没有一个有效的监测系统，则任何研究、条例和改进措施将毫无意义。

我国长期惯用

的“复查”就是一种监测方法，不过随着科技手段的进步，监测手段日益丰富，怎样借助科技手段来发展监测

系统就成为人们研究的一个课题。

科技手段应用于评分监测，有“隐形笔”等［注］，不过目前主要是电脑。

国外有利用电脑直接进行调控

的，即以试卷中某些客观性较强试题的得分为参照系，如果发现某地区或某阅卷员的主观题给分与其它地区或

其他阅卷员的评分平均值相比明显偏低或偏高，可以通过数学方法加以调整。

我国英语高考也曾采用过这种方

法。

但语文是一门综合性很强的学科，其测试也属于异质性测试，经过多次测算，各试题（包括作文）的得分

之间没有必然联系。

即以写作能力而论，母语和外语不同，母语作文的能力层次要求大大高于外语，高层次能

力（如立意）与低层次能力（如书写）之间，得分也没有必然联系。

因此用其它试题作参照系的方法就作文评

分而论是不科学的，也是不可取的。

再就各阅卷员之间的评分来说，由于评分对象的差别（例如一市集中阅卷

，各区之间的水平就会有所不同），很难据此就作出“偏严”、“偏松”的判断，如果骤然利用电脑直接调整

，很难避免盲目调控。

因此，至少就作文评分而言，机器只能及时发现问题，最后的裁断还必须由人工（专家

）来做出。

当前，利用电脑监测主要有以下几种方法：

①指标监测

用以监测的指标主要有“平均分”和“标准差”。

平均分可以显示出阅卷者给分有没有偏高或偏低的问题

；标准差显示给分的离散程度，显示出有没有“打保险分”的趋向。

将阅卷员每日每份试卷的给分及时输入电

脑，如有问题，就可以及时发现。

②参照系监测

由核心组先随机抽阅一批试卷，将数据输入电脑，以所形成的曲线作为参照系。

参照系有允许浮动的一定

幅度。

阅卷员每日评分结果在图形显示上如果超越了幅度，电脑就能及时检出以备复查。

③“暗点”监测

即由核心组随机抽阅一批试卷，秘密输入电脑，阅卷员评此卷时，如果给分差距过大，就能及时发现检出

，显示该阅卷员所评其它试卷也可能存在问题。

本方法原理虽然简单，但颇为有效。

④内部相关监测

这是我国试验分项评分时所创造的一种方法。

其原理是各分项得分之间往往具有一定的相关性，由此设计

了数学模型，把测算结果称为U值。

U值过大或过小，都可以提供信息供复查组审核、裁夺。

此方法１９９２年

在河北省试验与指标监测法同时采用，当年结果如下（X拨为平均分Ｓ为标准差）：

试卷

增加分

减少分

增加分

减少分

平均每

袋数

数篇数

数总和

袋改动

X拨出线

１４

７７

２９

２０９

１２７

２４

Ｓ出线

９

２６

１５

７３

２６

１１

U值小

１３

５０

５３

１６６

１１９

２１．９

U值大

８

６１

１８

２００

５１

３１．４

说明：

平均分低于控制线的１１袋，经复查，分数变动２６９，平均每袋２４．５分；高于控制的３袋，

分数变动６７分，平均每袋２２．３分。

U值方法尚在进一步完善和论证的过程之中，但实践证明它在发现问题方面是有效的。

由此也可以看出，在

平均分、标准差均未出线的范围内还存在着大量误差，需要研究对策。

这也正是作文评分监测系统科研的任务

。

［注］该笔书写的符号，只有借助特定灯具才能显示。

这样，共评者彼此不知道对方所给的成绩，而由监测

者（或组长）裁夺。

如果差别过大，则需重评。

展开阅读全文