少儿英语测试评价Word文件下载.docx

资源描述

少儿英语测试评价Word文件下载.docx

《少儿英语测试评价Word文件下载.docx》由会员分享，可在线阅读，更多相关《少儿英语测试评价Word文件下载.docx（30页珍藏版）》请在冰豆网上搜索。

少儿英语测试评价Word文件下载.docx

这种进行当中的（ongoing）评价提供有关学生知识与技能获得情况的关键信息，可以帮助学生与教师监控记录学生的学习进展，还可以帮助教师在制订教学计划时做到有的放矢。

二、形成性评价的价值

如果形成性评价使用得当，而且对形成性评价的管理是以承认学生中存在“未开发的潜力”为前提，那么这种评价可以显著提高教师的教学和学生的学习收获，对原来学习有困难的学生帮助尤为明显。

在教师反馈给学生的信息能帮助学生更好地学习，或者是学生自己进行一种类似的反思活动时，进行的就是形成性评价。

形成性评价的这个本质特征决定，如果测试评价的主要目的是支持高质量的学习，那么形成性评价就应该是最重要的测试评价模式。

1.形成性评价对教师教学的帮助

一个完整的教学过程应该包括以下四步：

●教师教授学生必要的知识与技能；

●学生学习教师教授的知识与技能；

●学生掌握所学的内容；

●学生能有效地运用所教、所学、所掌握的内容。

如果缺乏及时恰当的评价，教师心中有数的只有整个过程的第一步。

教师可能认为学生需要掌握的东西自己都已经教了，却发现学生并没有学到多少。

只有在学习过程中及时发现学生所学内容与教师所教内容之间的差距，教师与学生才能在为时尚不太晚时加以补救。

因此，需要有系统的形成性评价，以监控与评估学生在获取知识与技能方面取得的进展。

测试评价可以有多种不同用途。

好的形成性评价除了对学生的学习外，对教师的教学也能有所帮助：

教学是否有效？

学生是否学到了所教的知识与技能？

教的是不是真正重要的内容？

学到的是不是真正的内容？

测试评估的是不是真正重要的内容？

定期对学生取得的进展进行评估，有助于及时调整课程设置与计划，并对学生关注的问题做出适时的响应。

在学习关键时段进行的测设评价，能给教师与学生提供宝贵的发展性反馈，帮助他们了解学生是否在学习上取得了预期的进展。

教师在了解了学生的进展与薄弱环节后，就可以利用这些信息作必要的教学调整。

如重教学生的薄弱环节，尝试不同的教学方法，或是提供更多的练习机会。

这些都有助于学生学习上取得成功。

2.形成性评价对学生学习的帮助

形成性评价的一个重要组成部分是教师提供的反馈。

反馈可以帮助学生了解自己期望达到的目标与自己当前实际掌握的知识、理解或技能之间的差距，从而引导他们采取必要的行动以实现目标。

学生完成测试和家庭作业后，如果教师的反馈能就存在的问题提出具体的评论与具体的改进建议，同时鼓励学生将注意力集中在任务本身而不是简单地找出正确答案，这样的反馈对学生帮助最大，对成绩较差的学生帮助尤其明显，因为这种反馈强调只要努力就能有所提高，而不是天分低就注定成绩差。

形成性评价打破“学生将成绩差归因于能力低，因而对自己感到失望，所以不愿意花更多的时间精力继续学习，成绩差”这一恶性循环，支持所有的学生都可以进行高水平学习的观点。

尽管形成性评价通常都由教师提供，但学生也可以通过自我评估在形成性评价中起重要作用。

研究表明，如果学生理解学习目的和测试评价标准并有机会反思自己的测试或作业，他们能取得更大的提高。

学习有困难的学生在学会与阅读和写作任务相关的自我监控策略后，水平也会提高。

高质量的形成性评价对学生的学习有很大帮助，对学习成绩不好的学生帮助更是明显。

这种评价是在提高学生总体水平的同时缩小成绩好的学生和成绩差的学生之间的差距。

总的说来，形成性评价可以指导将来的课程计划，开发学生的自主学习能力，鼓励学生在现有水平的基础上取得进步。

三、形成性评价的形式与使用

研究表明，课堂教学中高质量的形成性评价不多，大多数教师不太清楚如何进行这类测试评价。

多数课堂测试鼓励死记硬背等低层次的学习；

教师经常强调作业的数量而不是质量。

结果，课堂测试对学生学习的影响往往是弊大于利：

对分数重视有余，对给学生有用的建议重视不足；

将学生的成绩排队，导致成绩差的学生认为自己不可能学好。

同时，由于教师的课堂测试往往是标准化考试的翻版，导致教师对自己学生的学习情况缺乏足够的了解。

测试评估可以广泛地定义为教师与学生从事的一切活动，只要其目的是得到可以加以诊断性利用以调整教与学的信息。

在这种定义下，测试评估包括教师对学生的观察、课堂讨论、以及对学生家庭作业与试卷等的分析。

由于形成性评价的目的是了解学生掌握了（和没有掌握）的内容，以便在教与学的过程中做出相应的改变，所以在测试评估得到的信息用于调整教与学以满足学生的需求时，评估就是“形成性”的。

教师应多利用提问和课堂讨论等方法来扩充学生的知识和提高他们对主题的理解。

不过，所提问题应该是经过仔细考虑并且学生也需要认真思索的问题，而不是简单的事实性问题；

同时，提问后还应留给学生足够的时间做出反应。

客观性试题，如多项选择、填空、简短回答，往往强调信息的获取和记忆，很难用来测量很多高层次的思考能力以及其他一些重要的教育目标；

教师提问和课堂讨论则可以要求学生综合已学的知识与技能，测量他们高层次的思考能力。

除了这些课堂技巧以外，如果教师分析学生现在处于学习的哪个阶段，针对学生的表现提供具体、对症的反馈，并提出提高学习水平的建议，那么测试与家庭作业也可以用于形成性评价。

测试方面，教师可参考如下建议：

●频繁的小测试要比不频繁的大型测试好。

●新学的内容应该在学生第一次接触后一个星期左右以内测试。

●注意试题的质量，与本、外校教师以及其他专业人员一起收集质量好的试题。

不管测试评估手段是课堂观察和提问，还是测验和作业，教师都应该经常向学生提供有关他们学习进展的反馈，以便学生知道：

（1）自己是否达到了某个成就水平；

如果没有的话，

（2）学生必须采取什么步骤以达到这一水平。

教师提供的有效反馈包括给学生表述自己理解的机会，发掘学生理解的课堂对话，以及含有帮助学生提高的机会和如何提高的指导这样内容的反馈。

给任何学生的反馈都应该是关于学生功课完成的质量，加上学生可以如何改进的建议，而不应该将该学生与其它学生进行比较。

测试评价提供的信息如果是旨在提高学习，那么学生是评价信息的“终极使用者”。

要使形成性评价信息对学生真正有所帮助，学生应该理解反馈以便加以利用。

不过，要想真正成功，学生必须学会自我评价，这样他们才能理解自己学习的主要目标，从而清楚自己需要做什么以实现这些目标。

形成性评价的形式可以由教师与学生协商确定。

可以利用学生档案选择收集学生的一些作业，以记录学生在掌握各项知识与技能方面取得的进展。

学生档案可以包括一个学生最好的作业和学生对自己几项作业长短处的评价，还可以包括一些进展中的作业，这些可以展示学生随着时间推移所取得的进步。

进行形成性评价的一个重要依据是学生经过一段时间学习后所取得的进展。

学生档案还可以包括对学生学习情感、课堂学习行为等进行的评估。

下面的例子摘自《英语课程标准解读》：

学生课堂学习行为评估量表

1.对教师提出的问题经常主动回答。

2.积极参与小组活动，能够同他人合作。

3.听课时注意力集中，纪律良好。

4.遇有不清楚的环节能够主动向教师提问。

5.善于思考，能主动表达自己的不同看法。

1234

研究清楚表明，有效的形成性评价项目涉及的远不止在现有项目中添加一点教师观察和考试，而是需要对教学计划的所有主要组成部分进行仔细审查。

显然，形成性评价与教学实践密不可分。

教师需要思考自己的课堂活动、布置的作业和测试如何对学习目标起到支持作用，并让学生有机会显示自己掌握了哪些内容，然后教师可以利用这些信息因人施教，提高教与学的质量。

因人施教，不是消极的、歧视性的分班或分组，也不是剥夺部分学生的机会，而是将课堂测试评价与高质量的课程设置和教学相结合，以保证所有学生都能完成高水平、有意义的学习。

第二节终结性评价

一、终结性评价的概念

终结性评价是在教育准备活动完成后，全面评估学生的学习结果。

这种评价试图在某一个时间点，例如一门课结束时，对学生的学习做一个总结。

终结性评价为确定学生究竟获得了哪些知识与技能提供关键信息。

形成性评价则让教师有机会随着时间的推移、在多种解题环境里监控并指导学生的表现，而终结性评价提供的是某个考生在特定的某一天、在考试环境下所表现出的一个瞬态图。

高质量的终结性评价所提供的信息对教师教学的组织和学校教学内容的制订也有决定性作用。

要测量学生对知识与技能的掌握程度，需要将一系列学习过程中的形成性评价与学期最后的终结性评价结合，以帮助学生取得更大的进步。

终结性评价根据测试用途和考试形式有不同的分类；

设计试卷时需要注意信度、效度等要素；

此外，听力、口语、写作、词汇、阅读等题型的设计也各有其特点；

如何评分以及如何分析与解释测试结果也是测试的重要组成部分。

本节将就这些方面一一展开。

二、测试的种类

语言测试根据用途的不同可以分成成绩测试、水平测试、分级测试、诊断测试和潜能测试。

成绩测试（achievementtest）以教学内容为基础，目的是要衡量学生对授课内容或是教学大纲要求内容或是教科书及其他资料的掌握程度。

一般的随堂测验、期中期末测试多属于这一类测试。

相比之下，水平考试（proficiencytest）不针对教学内容，不考虑考生学过什么内容，也不考虑是怎么学的，而是测试考生对语言和特定语言用途的掌握，如考查被测试人是否掌握进行学术研究所应具备的语言能力。

像美国的托福（TOEFL,TestofEnglishasaForeignLanguage）就属于水平测试。

分级测试（placementtest）是新生入学后进行的全面考查，目的是帮助教师掌握学生的语言水平，以决定教材的难易、教学进度等问题。

有时还会根据学生的水平，将程度相对一致的学生集中在一起学习，以做到因材施教。

分级测试需要拉开学生成绩的差距，所以一般试题设计得内容比较全面，从易到难的坡度也比较多，以求把学生分数的档次拉开。

诊断测试（diagnostictest）用在课程进展一段时间之后，检验学生到目前为止的学习情况，通过评估学生拥有的某一方面的知识，确定修正错误所需要的知识。

诊断测试可以考查单个项目（如被动语态），也可以是综合性的。

由于考试只限于近期教学内容，所以考试时间不长。

诊断测试的目的是为了发现教与学的问题以及学生知识与技能掌握的不足之处，以便因人而异，对症下药，调整教学计划，改进教学。

潜能测试（aptitudetest）用来预测学生的学习潜力和天赋。

这种测试在我国使用不太多，在这儿也不多讲，仅举一例。

美国的学术潜能测试（ScholasticAptitudeTest,SAT）预测高中生在大学的学习能力，由于SAT成绩与考生的大学学习成绩相关系数很不错，很多美国大学在录取招生时都把SAT成绩视作一个重要的判断依据。

三、测试的要素

衡量一次测试的好坏，主要的标准是测试的效度和信度。

1.效度

效度（validity）是看一次考试是否测试了想要测的项目。

例如，早期的托福考试用多项选择题的形式测试学生的写作水平，结果发现学生可能做选择题时对时态、主谓一致等内容都似乎掌握了，但到他们真正用英语写作时，问题就都出来了。

这就是一个没有测到真正想测内容的例子。

正因为此，从1987年起，托福考试单加了一项写作的内容。

提到效度往往要涉及以下几种类型：

表面效度、内容效度、编制效度、共时效度和预测效度。

表面效度（facevalidity）是指卷子首先看上去得让人觉得合适，尤其是让考生觉得合适。

表面效度高的测试容易引起考生的兴趣。

比表面效度更重要的是内容效度（contentvalidity），这个要基于语言教师或测试者的专业判断，他们在自己对语言知识和教学大纲掌握的基础上，判断考卷中是否应该考查的语言要素和技能都有所体现。

例如，如果要考查的技能之一是学生的写作技能，而卷子全部由多项选择题组成，可能内容效度就不会太高。

编制效度（constructvalidity）是说一套测试要以一定的语言行为理论和语言学习理论为依据。

内容效度和编制效度联系非常密切。

共时效度（concurrentvalidity）是将一次测试的结果，同另一次时间相近、公认效度较高的测试的结果相比较而得到的系数。

例如，比较在某年元月先后参加了托福考试和清华大学英语水平考试的学生两次考试的成绩，如果得分情况相似，即两组成绩的相关系数较高，那么清华大学英语水平考试就有较高的共时效度。

预测效度（predictivevalidity）是将一次测试的结果，同后来的测试结果相比较而得到的系数。

这涉及到测试的预测能力，即测试结果在多大程度上能预测考生未来的学习成就。

类似地，假设参加清华大学英语水平考试的一些学生一段时间后又考了托福考试，如果得分情况相似，即两组成绩的相关系数较高，那么清华大学英语水平考试就有较高的预测效度。

2.信度

信度（reliability）是指测试结果的一致性（consistency）。

以水平考试为例，如果一项水平考试每年都举行两次，那同一个学生在准备程度相似的情况下，在哪一年或在那一年的哪一次参加考试，对他/她的成绩造成的影响应该可以忽略不计，这项考试的信度才高。

同时，从阅卷人因素来看，同一份卷子由不同的阅卷人阅卷所得分数大致相同，或是由同一个人在不同时间阅卷所得分数也大致相同，这项考试的阅卷人信度才高。

影响信度的因素很多。

例如，有的学生上午考试更能发挥水平，有的学生则下午考试更能发挥水平，这样，同样的考试究竟是在上午举行还是在下午举行对不同的学生可能就有不同的影响。

又如，有的考试需要使用录音机，如果不同考场使用的录音机放音效果不同，甚至同一考场内考生坐的位置离录音机有远有近，都有可能对考生的成绩造成影响。

不过，影响信度最主要的因素有两条：

试题的采样和评分。

决定测试信度的一个重要因素是试题是否有代表性，覆盖面够不够大。

效度主要看项目的内容，信度还要看试题采样的多少。

采样越多，信度越高。

因为客观测试的试题量一般比主观测试大，所以更有代表性，也更有可能排除各种偶然因素，也即信度一般更高。

决定测试信度的另一个重要因素是阅卷人因素。

如果同一份卷子由不同阅卷人阅卷所得分数区别较大，或是由同一个人在不同时间阅卷所得分数区别较大，这项考试的阅卷人信度显然不高。

因为客观测试的评分不太受阅卷人的影响，因此信度较高；

而主观测试则由于评分常常在较大程度上因阅卷人而异，因此难以达到较高的信度。

一次好的测试应该既有较高的信度又有较高的效度。

效度和信度有着密切的关系，但又不能混淆起来。

对测试来说，信度是必不可少的，但信度离不开效度，效度起决定性作用。

如果一份试卷信度差，则必然不可能准确测试出学生对所考查知识和技能的掌握程度，因此效度也差；

但一套卷子却有可能完全没有测出想要测的语言要素和技能（即效度差），却有不错的信度，不过这样的试卷同样也起不到应起的作用。

归纳起来，信度差则效度差，但效度差不一定信度差。

不过只有信度和效度都不错，测试才能真正起到应起的作用。

四、不同类型测试的设计

阅读理解、语法、词汇、听力、口语和写作的测试各有其特点，下面我们就这几种测试题型的设计分别展开讨论。

1.阅读理解测试的设计

阅读理解题型常考以下几种阅读技能：

（1）理解文章主题和中心思想

（2）辨认主题展开的重要细节

（3）辨认阅读材料中的指代关系

（4）作结论或进行推论以理解隐含的概念或观点

（5）理解作者的观点和态度

（6）略读以获取阅读材料大意

（7）快速查找特定信息

（8）利用上下文猜测生词和短语的含义

（9）理解句子内和句子间的上下文逻辑关系，如因果关系、比较与对照关系、定义、分类、举例

（10）理解文章中关键句和难句的含义并译成汉语

阅读理解最常见的测试形式是多项选择题。

其他还有正误判断、简答、完成句子、完成图表等。

多项选择题是给出一个问题或不完整的句子，让学生根据阅读文章的内容，从几个选项中（通常是四个）选择最佳选项回答问题或是完成句子。

正误判断题是给出几个句子（statements），让学生根据阅读文章的内容，判断句子的内容是对是错。

下面对两种题型的设计分别展开讨论。

多项选择题由三部分构成：

题干（stem），即问题或是不完整的句子；

正确答案（key）；

和干扰项（distractors）。

阅读理解的设计应注意以下一些问题。

第一，每个题目只能有一个正确答案。

有的题目为了难倒学生，特意将几个选项设计得都像正确答案，模棱两可，最后有可能实际上不止一个正确答案。

例如一段文章以Still,itispossibletobuylow.结尾，题干是Thelastparagraphismostlikelytobefollowedby_______，正确答案和其中一个干扰项分别是：

techniquesofbuyinggoldjewelry和techniquesofinvestingingoldjewelry。

从文章内容来看，在这儿猛抠“buy”和“investin”的区别意义不大。

第二，每个干扰项都应起到干扰作用，不能是学生一眼就可以排除的。

有些选项很荒唐，显然不可能是正确答案，还有些选项很容易根据常识排除，这些都是出干扰项时应该避免的。

有的题学生不用读原文就能回答，这是阅读理解测试中最忌讳的事。

例如，下面一题学生不用读文章就能轻易找出正确答案：

WhichofthefollowingisNOTtheadvantageoftheessaytest?

A.Itcanreducetheelementofluck.

B.Itcantesttheabilityofthestudentstoexpresstheirideas.

C.Itmayshowhowdeeplyastudenthasthoughtaboutthesubjecttested.

D.Eventhesameteachermaygivedifferentscoresforthesameansweratdifferenttimes.

题干问的是以下哪一项不是观点性测试题的优点。

学生根据常识也能知道选项A、B、C是优点，选项D肯定不是优点，所以无法测试学生是否读懂了原文，甚至无法测试学生是否了解什么是“essaytest”。

如果要对这一题加以改进，可以在干扰项中加入客观性试题的优点，例如Itiseasiertoscore或是Itismorereliable等，

一道题中就算只有一个干扰项可以轻易排除，那这一道题学生猜对的可能性就会从25%上升到33%。

如果多道题的干扰项都有这个问题，那整套题的信度和效度就都会受到影响。

第三，选项之间要具有可比性。

一方面，不能把苹果和桔子做比较。

例如，一道题的题干是Hehadworkedtherefor___________，四个选项中两个选项是时间长度（如，8years），另两个选项是工资多少（如，$8anhour）。

这几个选项之间的可比性就不太好。

选项之间要有可比性还意味着，几个选项的长度应该大致相同。

为了正确答案无懈可击，有时候试题编写人员可能会将这个选项设计得格外详细准确，但如果选项之间长度相差太大，学生可能会受到“提示”，猜出正确答案。

上面一道有关观点性测试题的考题，也存在这方面的问题–正确答案（选项D）明显比干扰项长。

第四，题目的措辞应与原文有变化。

如果题目（题干和正确答案）太接近原文的文字，学生可以照搬原文内容找到答案，就达不到测试的目的。

题目的措辞应与原文有所不同，这样才能考查学生是否真正读懂了文章。

例如：

Oververymanyyearstherehasbeenanincreaseinthepopulationoftownsinmanycountries,asmillionsofpeoplehavemovedfromthevillagesinsearchofbetterjobsandfacilities,inthehopeofgettingahigherstandardofliving.Thisdevelopmenthasledtohugeexpansionsoftownsbothupwardsintotheskyandoutwardsintothesurroundingcountryside.Inspiteofalltheeffortsofgovernmentsandprivatebusiness,manyareasstillsufferfromaseriousshortageofhousing.

Now,anewideahasbeenputforwardwhichwillutilizeareaswhichhavenootherobviouscommercialpotential.

如果题干是Whatisthemainadvantageofthenewidea?

，那么与Itwillutilizeareaswhichhavenootherobviouscommercialpotential相比，Itwillhelprelievetheproblem

展开阅读全文