课堂教学中标准化测验结果的解释.docx

资源描述

课堂教学中标准化测验结果的解释.docx

《课堂教学中标准化测验结果的解释.docx》由会员分享，可在线阅读，更多相关《课堂教学中标准化测验结果的解释.docx（20页珍藏版）》请在冰豆网上搜索。

课堂教学中标准化测验结果的解释.docx

课堂教学中标准化测验结果的解释

目前关于课堂教学评价结果解释类型的划分几乎没有专门的研究。

但就课堂教学评价结果的解释来说，在实际应用中常习惯性地将测验分为传统的标准化测验和非标准化测验，非标准化测验即是前面章节提到的替代性评价测验。

因此，在这里照应前面章节，对课堂教学评价结果的解释就从标准化测验和替代性评价测验的角度进行阐述。

一、课堂教学中标准化测验结果的解释

在课堂教学中，目前已经出现了一些非标准化的测验方式——替代性评价测验，但标准化测验仍然是主要的测验方式，应用仍然十分广泛。

因此，仍有必要在这里对课堂教学评价中标准化测验结果的解释进行介绍。

（一）标准化测验和标准化测验结果解释的概念

标准化测验是指对一个既定小组内的所有成员在相同条件下以相同方式进行的考试。

（［美］G.D.Borich&M.L.Tombari：

《中小学教育评价》，242页，北京，中国轻工业出版社，2004。

）具体到课堂教学，就是在相同条件下，以相同的题目同时对所有学生进行测试，并以同一标准对学生在测试中的反应作出评估的测验。

可以看出，“标准化”强调整个测验过程内在的“一致性”，是个理想化的概念，事实上做到完全的一致是不可能的，如，每个学生的主观状态在测验时就不一样。

但在实际的测验中，在排除无关条件的情况下，测验的各种因素是接近一致的，同时这种假定的一致性也为对标准化测验结果解释时进行内部、外部比较提供了基础。

下面就阐述什么是标准化测验结果的解释。

对标准化测验评估时，一般是依据统一的标准对学生的反应进行评估，最后得到一个分数，通常叫原始分数。

一般来说，原始分数所能反映出的信息很少，要深入、全面地了解所测量的学生的实际情况，就要对这个“分数”进一步进行阐释。

因此，对标准化测验所得到的原始分数进行阐释的过程就是标准化测验结果的解释。

（二）标准化测验与常模

常模经常用于社会心理学领域，对其含义界定的说法很多。

社会心理学研究者在使用“常模”一词的时候，指的是统管小组成员行为的一组标准行为。

（［美］G.D.Borich&M.L.Tombari：

《中小学教育评价》，241页、242页，北京，中国轻工业出版社，2004。

）在课堂教学评价领域，可以界定为作为样本的小组成员在所要测量的特质上的标准的反应或行为。

也就是说，常模代表的是在某一个环境下所应该作出的反应，是评价其他对象在同样环境下的表现时所依据的标准。

如，在参加学校组织的大型活动时，学校规定应该穿什么衣服、坐在什么位置、说普通话还是方言等，就可以看作是评价参加活动人员行为的常模。

前面阐述过，标准化测验突出的特点就是强调一致性，这就为参照常模来解释标准化测验提供了理论上的可能。

事实上，标准化测验通常都是参照常模来进行解释的。

虽然并不是所有参照常模进行解释的测验都是标准化测验，但大多数标准化测验都是常模参照型的（［美］查尔斯·杰克逊：

《了解心理测验过程》，64页，北京，北京大学出版社，2000。

），有人甚至认为所有的标准化测验都是常模参照测验（［美］G.D.Borich&M.L.Tombari：

《中小学教育评价》，241页、242页，北京，中国轻工业出版社，2004。

）──参照常模解释结果的测验。

传统的课堂教学评价测验中都含有标准化测验的精神，在对测验结果解释时，一般来说也都是参照常模来进行的，所以这里就重点从参照常模解释的角度对标准化测验结果的解释作出阐述。

（三）标准化测验结果解释的方式

目前，标准化测验的结果一般来说仍然是一个分数，就是前面所说的原始分数。

对测验分数进行解释时，常模不同，对分数的含义所作的阐述也就不同。

常见的对标准化测验分数的解释有以下几种。

1.以平均成绩为常模的解释

这是实际的课堂教学评价中最常见的解释方式。

在实际的课堂教学评价中，在对原始分数进行解释时，教师常常将单个学生的测验结果与团体的平均表现进行比较来解释，即把所有参与考试学生的平均分数作为常模，将单个学生的考试分数与总体平均分数加以比较，再对每个学生考试分数的含义进行阐述。

如下例。

口语测验中，某学生得了92分，从这个原始分数我们并不能看出什么意义，因为我们不知道其他学生的成绩怎样，没有参照标准，就不能说92分是个很高的成绩。

如果现在知道了这次口语测验的班级平均成绩为80分，那么教师就可以作出这样的解释：

该生的成绩在平均分之上。

也就是说该生的口语水平在班级里应该是中等以上水平。

到目前为止，以整体平均成绩为常模对测验结果进行解释的方法仍常用于学业成就的评价测验，但教师可以在实际中尝试着运用其他方面的评价测验。

2.百分位

（1）百分位及百分位对测验结果的解释。

在现实生活中，当学生向家长汇报测验成绩时，家长常常会问“有多少学生比你考得好（差）？

”这就用到了另一种测验结果的解释——百分位，又叫百分等级，即一种相对位置量数。

通俗地讲，百分位就是被试测验分数在团体中所占的位置，百分位数越大，位置就越高，说明被试的水平就越好。

应用到标准化课堂教学评价测验中，就某一个学生来说，百分位数能反映出在一次测验中有多大比例学生的成绩比该生差（好）。

如下例。

在一次问题解决能力测验中，50名学生中有40人的测验成绩低于45分，占全部人数的80％，因此，45这个分数就可称为处于第80百分位的分数。

凡是原始分数为45者，其百分位数就是80。

如果有学生得了45分，则有80％的学生在这次测验中的成绩比该生差。

在实际应用中，教师可以为了方便，使用自己编制的百分位分数常模，如每年固定的学绩测验中，就可以编制百分位分数常模。

百分位分数常模使用起来十分方便，对照常模表，马上就可以确定学生成绩所对应的百分位。

具体制定百分位分数常模的方法、过程可以参考有关教育、心理测量书籍。

表7－1（［美］查尔斯·杰克逊：

《了解心理测验过程》，66页，北京，北京大学出版社，2000。

）是一个学龄儿童百分位分数的假设样本（常模），从表中可以很容易地看出与某一原始分数相对应的百分位分数。

表7－1百分位分数表（假设的范例）

百分位　　原始分数（男孩）　　原始分数（女孩）　　原始分数（总体）

99　　　　　　63分以上　　　　　　　73分以上　　　　　　66分以上

95　　　　　　58~62分　　　　　　　　62~69分　　　　　　60~65分

90　　　　　　…… …… ……

85　　　　　　…… …… ……

80　　　　　　…… …… ……

　　　　　　…… …… ……

1 5分或5分以下 10分或10分以下 8分或8分以下

（2）几个特殊的百分位。

百分位数是连续的相对位置量数。

在应用中，有几个特殊的百分位数常常被用到，下面就对这几个特殊的百分位数进行逐一介绍。

①中数。

中数就是在百分等级中处于中间点的百分位，即第50百分位。

处于这个位置的成员，有一半的人分数比他差。

在课堂教学评价结果的解释中，中数很少单独使用，也很少用来对某个学生的测验结果进行解释，一般是和四分位数一起用于描述整个测验成绩的分布。

下面就介绍四分位数。

②四分位数。

第25百分位和第75百分位称为四分位数。

四分位数的中间范围是第25百分点与第75百分点之间的原始分之差异，常常与中数一起用于测量分数的分布。

如果中数所对应分数较高，四分位数之间段所对应的分数也普遍较高而且分布比较均匀，那么就说明这次测验学生整体成绩较好。

如一次测验中的中数及四分位数之间段所对应的分数比历年同期同样测验所对应的分数高，那么就说明这次学生整体考得比较好。

（3）百分位的使用范围。

在课堂教学评价结果的解释中，百分位对单个学生成绩的解释意义并不十分大，但在需要对整体测验成绩作简单的描述时常常可以用到。

另外，百分位在描述整体分数分布时有广泛的使用范围，不仅能用于学业测验，还可以用于非学业成就测验中问题解决的评价测验、情感态度评价测验等。

（4）百分位的优缺点。

①优点。

第一，计算简便，常模的制定不难，使用起来非常方便，对照常模表马上就可以查到学生的百分位。

第二，对原始分数的分布要求不高。

即使学生的成绩不是按照正态分布，也可以用百分位进行解释。

②缺点。

第一，不容易作进一步的统计分析。

要在百分位基础上对总体成绩作进一步的分析、整理和描述很不容易，因为百分位不能用于四则运算。

第二，用百分位解释原始分数时，只是给出了某一分数水平在总体中的位置，并未给出关于分数的实际差异信息，如第70百分位和第80百分位的学生实际分数差异是多少，在百分位分数常模表中很难看出。

第三，从统计学上来讲，用百分位解释原始分数，实际上是低估了总体分数中两极分数的差异而高估了中间段分数的差异，就是说第95、98百分位和第55、58百分位之间同样都是差3个百分位，但前者之间所对应的分数差异比后者所对应的分数差异大。

3.标准分数

（1）一般标准分数。

标准分数是以测验分数的平均数为参照点、以标准差为单位来衡量各原始分数在其常模团体中位置高低的一种评定量表（丁秀峰：

《心理测量学》，126页，开封，河南大学出版社，2001。

），又常被叫做Z分数。

在课堂教学评价结果的解释中，Z分数的意义有以下几点：

第一，由于标准分数是以0平均数为参照点，教师根据Z分数的正负就可以判断某一原始分数在总体分数中的大致位置，正值说明在平均数之上，负值在平均数之下；第二，可以通过Z分数来比较两个以上的测验分数。

假如某学生语文成绩为92分，数学成绩为85分，教师不能说该学生的语文就比数学学得好，因为有可能语文试题简单，整体分数都偏高。

但通过Z分数，教师就可以直接用两个Z分数值来进行比较，Z分数高者，在总体成绩中的位置就高，可以说学得更好些。

Z分数应用广泛，教师可以尝试在学业成就、情感、态度各个方面的评价测验中使用Z分数。

具体使用时可以参考有关的测量书籍。

（2）转换的标准分数。

在实际使用Z分数时，因为会有小数或负数出现，常常显得很不方便，为了避免负数和小数，就制订了许多其他的标准分数──标准分数系统。

常见的有T分数、离差智商、标准九等。

就课堂教学评价来讲，离差智商的用处不大，本章就不再介绍，这里主要阐述T分数和标准九在课堂教学评价中的应用。

①T分数。

T分数最初由麦克尔（Michael）于1922年为纪念推孟和桑代克而提出，表达式可写为T=a+bZ，其中的Z即是上述的方法所计算出的可能会有小数点或负数出现的标准分数。

在课堂教学评价结果的解释中，T分数除了具有Z分数的一般功能外，主要优点是避免了负数和小数点，更加直观方便。

如直接比较T分数的大小，就可以确定相应原始分数在总体分数中的位置，十分明了。

T分数最初是被用于12岁儿童心理测验的常模团体，现在已经广泛用于其他常模团体，这里作一个简单介绍，具体原理可以参见教育、心理测量类书籍。

在课堂教学评价结果解释方面，教师可以尝试运用于情感、态度、学业自我等各个方面。

②标准九。

标准九意思是说标准化九级分制。

最初由美国选拔飞行员所用，分数从1到9，将整体分为九段，是标准分数系统中的一种。

标准九在课堂教学评价中的应用与T分数相似，避免了小数和分数，可以用于对分数的整体情况的解释。

它的独特之处就是提供了一个一位数的分数系统，简单明了，使用起来也很方便。

标准九原理也与T分数相似，最初用于选拔。

课堂教学中，教师可以尝试用于各种测验结果的解释。

另外，有分数解释中提到标准十，其原理、用途与标准九相似。

（3）标准分数与百分位的综合使用。

如上所述，在解释标准化测验结果时，标准分数更适合于对分数整体作出解释，百分位则更适于对单一分数的解释。

因此，在具体使用过程中教师可以将二者结合起来，列出对照表（如表7－2）。

（丁秀峰：

《心理测量学》，132页，开封，河南大学出版社，2001。

）

表7－2标准十与百分等级范围对应表

标准十分

百分

等级

范围

99～100

94～98

85～93

70～84

51～69

32～50

17～31

8～16

3～7

1～2

所占个案

百分比（％）

从表7－2中，教师就可以一目了然地看出某一百分位（百分等级）范围所对应的标准分数和某一分数段所占的人数比例，既可以用于整体分数的描述，也可以用于单一成绩的解释，使用起来非常方便。

当然，在具体使用时，教师完全可以依据需要制订百分位与标准分的对照表，并附上原始分数。

具体的制订可以参见教育、心理测量书籍，这里不再赘述。

（4）标准分数的优缺点。

①优点。

第一，标准分数的差异与原始分的差异成比例，所以依据标准分数可以描述原始分数的整体情况。

而且，经过转换后的标准分数往往更加直观、明了，使用起来也更方便。

第二，因为标准分数是等距的，可以用来作四则运算，在对分数作进一步的统计处理时，得出的结果和原始分数一致，而且标准分数更方便，很适合对数据作一些深层的处理。

如用来计算平均数或相关系数等。

②缺点。

第一，因为牵涉到统计知识，对于非专业人员理解上会有困难。

对于非专业人员来说，没有一定程度的统计学原理知识，理解标准分数很困难，这也是在课堂教学评价中不常用标准分数直接向学生、家长等反馈的原因。

第二，如果原始分数不是正态分布，不宜使用标准分数。

如前所述，使用标准分数的一个前提就是原始分数要呈正态分布，这是标准分数使用的必要条件，所以，尽管标准分数有不少优点，但如果不满足分数呈正态分布这一条件，也不宜使用标准分数。

4.其他分数系统

除了上面所述的几种参照常模的解释方法外，还有几种常用于解释学业评价测验（或分数）的方法。

（1）年级当量。

年级当量是把学生的测验成绩与各年级学生的平均成绩比较，看它相当于几年级的水平。

这里所说的各年级学生的平均成绩事实上指的是“年级常模”——各年级学生在测验中所得分数的平均数和分数的分布情况。

也就是说，首先制订某学科学业成绩在各个年级上的常模，然后将学生在该学科上的测验成绩与年级常模比较，如果达到了某年级常模的平均成绩，就说明学生具有相当于这一年级的学业水平，也就确定了年级当量。

如下面的例子。

对一个学生进行语文测验，其得分与常模上三年级的平均分数相同，那么，他在语文测验上的年级当量就是3。

从上例可以看出，年级当量也是参照常模解释的测验分数，常用于解释学业测验，使用起来十分方便。

但与其他参照常模的解释不同的是，年级当量一般只用于解释同一学科的测验，而且只有当几个年级同时开设某门课程，课程内容的广度和深度是有系统地发生改变时，才适宜用年级当量来解释被试的测验分数。

不同学科之间是不能用年级当量来解释测验分数的。

教师在使用时需要注意这一点。

（2）教育年龄。

教育年龄（educationalage）是模仿智力年龄提出的，是指某年龄学生的平均教育成就。

与年级当量类似，拿一个学生的教育年龄与常模相比较，就可以确定一个学生的教育年龄。

另外，教育年龄并不涉及实际年龄，这可以用下面的例子来说明。

一个学生的教育年龄是9岁，就是说这个学生的教育成就与一般9岁儿童的教育成就相等，与他本身的实际年龄无关。

在学业成就课堂教学评价结果的解释中，还常用到学科教育年龄。

学科教育年龄即按学科类别将教育年龄划分为语文年龄、数学年龄等，具体可以理解为对某一学科，用标准化测验对同年龄学生团体施测后所得的平均成绩。

教师在使用时可以灵活掌握。

（四）对标准化测验结果进行解释时需要注意的问题

1.选用恰当的常模

多数对标准化测验结果的解释都是参照常模的解释，选取或制订的常模不同，对测验分数的解释会有很大不同，如，用优秀学生常模来解释差生问题解决能力的测验结果就肯定不行，所以选取适当的常模非常重要。

在选取或制订常模时，一般来说常模团体的代表性越强越好，容量大的更好。

教师在选取或自己制订时一定要注意这两点，否则会出现较大的误差。

2.考虑测验本身的信度和效度

在对测验结果进行解释时，除了整个解释的过程要尽量科学严密外，还要考虑一下测验本身的信度、效度。

因为如果测验本身存在问题，即使测验结果的解释非常客观科学，也会有误差出现。

所以，教师在对测验结果进行解释时，尤其是觉得有较大问题时，要适当考虑一下测验本身的信度和效度。

3.从发展的角度考虑测验结果的解释

一般来说，标准化测验的结果都是一个分数，因为是参照常模解释，从某种意义上说，分数对学生是一种终结性的评定。

而对于学生的发展进步情况以及努力情况却不容易反映出来，但这些对于学生以后的进步却是很重要的。

所以，教师在对标准化测验结果进行解释时，要尽量去平衡这些不足，全面考虑，选择恰当的用语，从发展的角度去解释测验分数。

二、课堂教学中替代性评价测验结果的解释

前面阐述了课堂教学中标准化测验结果的解释，下面介绍非标准化测验结果的解释。

（一）替代性评价测验和替代性评价测验结果解释的概念

所谓替代性测验，是指除标准化测验外的所有课堂教学评价测验，这里也简称为替代性测验，如表现性评价测验等。

关于替代性评价测验的具体含义、特点等，本书在“学业成就的替代性评价”一章有详细介绍，这里不再重复，只是前面是针对学业成就的评价而阐述的，在这里把替代性评价测验的内涵扩大到所有课堂教学评价测验，包括本书所涉及的所有非标准化的评价测验。

替代性评价测验的结果一般是“一个分数”或者“一个等级附带一个分数”，替代性评价测验结果的解释就是对测验后这个分数或等级（加分数）的解释。

前面介绍过，替代性测验与标准化测验有很大不同：

它强调个体差异，突出学生主体性，不要求一致性。

另外，除了试题测试外，替代性测验中更多的是任务完成测验，学生在完成任务过程中会有不同程度的原创性反应，因此，替代性评价测验中学生表现不一，多数测验任务没有固定答案。

很显然，一般情况下替代性测验的结果不适合参照常模来解释，所以在这里就介绍另外一种解释测验结果的方法──参照“标准”的解释，很多人把参照“标准”解释的测验叫做标准参照测验。

（二）替代性评价测验结果的解释：

标准参照测验

1.什么是标准参照测验

标准参照测验是指在和一组规定明确的能力标准对比之下，对被试的测验成绩作出解释而制订的测验。

（丁秀峰：

《心理测量学》，133页，开封，河南大学出版社，2001。

）可以这样理解，在标准参照测验中，对测验评估的指标不只有一个，而是有很多个，在每个指标上可以有一个分数（或等级），也可以有多个衡量分数（或等级），以这样的评估标准来记分、解释的测验就是标准参照测验。

下面给出了一个例子。

某教师在评估学生的手工设计时，选取了外型的新颖性、技术含量、做工精致程度几个指标，在每个指标上，教师制订了三个等级并在每个等级上都赋予了分数。

外型新颖性方面：

外型非常新颖（从没见到过）＝3分，外型一般（在别的基础上加工而来）＝2分，外型普通（很常见）＝1分；技术含量方面：

技术含量高＝3分，技术含量一般＝2分，没有什么技术含量＝1分；做工精致程度：

做工非常精致＝3分，做工一般＝2分，做工较差＝1分。

这就制订了一个系统的评估标准，教师在对手工测验进行评价时，就依据这个标准来进行。

从上面所给出的“标准参照测验”的例子中可以看出，对“手工设计”的评估其实就是等级评定。

事实上，实际应用替代性测验进行评估时，由于学生的反应各异，不能够像常模参照那样对学生作出比较，很多都是界定一系列的指标对学生的表现进行等级评定，其本质上就是参照“标准”的评估，这在前面“学业成就的替代性评价”一章有详细的陈述，所以也可以说在参照“标准”对替代性测验进行评估解释时，替代性测验就是标准参照测验。

这里并不是说替代性评价测验都是参照“标准”来解释的测验，也可以参照常模来解释，但目前替代性测验的解释主要是参照“标准”来进行，所以本章主要从标准参照测验的角度对替代性评价测验结果的解释进行介绍。

需要补充的是，上述例子对“手工设计”的评估中，在每个等级上都赋予了一个分值，这是较为常见的等级评定。

在实际应用中，等级评定还可以有另外一层含义，就是在每个指标上只给出一个最高分数如10分，但在具体进行评估时，教师可以根据学生表现，在这个分值范围内给学生打分，如5分或8分，这在学业成就测验中很常见，如教师对论述题的打分。

以上所述的只是两种赋予分值的方式，虽有所不同，但实质上都是参照标准的评估，这里单独加以补充，以免教师在使用时局限于其中的一种。

2.标准参照测验的特点

这里所说的标准参照测验结果解释的特点是相对于常模参照测验而言的。

相对常模参照的结果来说，标准参照测验的结果解释主要有以下两个特点。

（1）标准参照测验的目的。

参照常模对测验进行解释一般是为了在全部被试之间作出比较，从而判明被试在总体中的位置。

而参照标准解释测验则是为了将被试的成绩与既定的标准作比较，看看被试是否达到要求或达到了什么样的水平，不在被试之间作比较。

如，看看学生是否掌握了实验的操作技术，是否达到了要求，并不需要在学生之间作出比较。

这是二者根本的区别，并且由此导致了其他方面的不同。

（2）标准参照测验的分数解释。

常模参照测验主要使用百分等级、标准分数等相对位置量数，并且一般不适合对分数作进一步的推断；而标准参照测验的分数则不同，可以作一定的推断，如用大学生的入学成绩预测其在大学一年级的成绩。

其实这里所说的是“结果参照测验”分数解释的内容，如果需要，教师可以查阅相关的测量书籍。

（三）标准参照测验结果的解释：

分数线的确定

1.合格分数线的确定

前面阐述过，对替代性评价测验结果解释的目的不是在学生之间进行比较，而是看学生是否达到了要求或者是达到了什么样的水平。

那么在实际应用中，要衡量学生在测验中的水平是否达到要求或者达到了什么样的水平，最简单也比较实用的方法就是确定一个合适的分数线，凡是达到这个分数线的，就说明该学生在这个测验上合格了，达到了要求或基本达到了要求。

如果低于这个分数线，则说明学生还没有掌握应该掌握的知识和技能，没有达到基本要求。

下面就来看一下在不同测验中，怎样确定合格分数线。

（1）根据“双基度”确定合格分数线。

双基指“基本知识、基本技能”，具体到课堂教学中，指的是学科的教学要求。

具体地说就是在整个知识传授的过程中，教师要着重“双基”内容的讲解和示范，学生要着重“双基”内容的掌握，凡是能体现“基本知识、基本技能”的教学内容都是学生要重点掌握的内容。

那么反映到测验上，越能反映学科“双基”要求的试题或任务，就越能说明该试题或任务就是特定学科最基本、最核心的知识要求，其“双基度”也就越高。

从这里可以看出，“双基度”和平时所说的试题难度没有必然的联系，难度高的题目其“双基度”不一定高，难度低的题目其“双基度”也不一定低。

所以，这里认为在考查学科内容掌握的测验中，根据“双基度”来确定合格分数线比简单地按照60分来确定更合理。

根据“双基度”确定

展开阅读全文