写作评价标准黑龙江大学外语教学研究部Word文档格式.docx

资源描述

写作评价标准黑龙江大学外语教学研究部Word文档格式.docx

《写作评价标准黑龙江大学外语教学研究部Word文档格式.docx》由会员分享，可在线阅读，更多相关《写作评价标准黑龙江大学外语教学研究部Word文档格式.docx（46页珍藏版）》请在冰豆网上搜索。

写作评价标准黑龙江大学外语教学研究部Word文档格式.docx

评价的黄金准则是确保评价过程的有效性，可信性和公平性（Wakeford　1999）。

此外，评价的标准还应该具有可行性和区分度。

这五个方面特征是我们制定评价标准的基本原则。

１．效度（validity）

效度指的是通过一项或者几项测试，能够衡量出其测试对象对某项知识的掌握的真实水平。

例如，如果你想测量某人的身高却用秤来称他的体重，那么这就不是有效的评价。

但是，用秤称体重的确是另一种实在的测量方式，只不过不应该用在测量身高上。

再如，一项评估用来测试医生的诊断技能，如果测试未能衡量出医生处理疾病的能力，那么这样的评价也就是无效的。

效度对于做出公正和有意义的写作评价是非常重要的。

这就意味着：

第一，一项评价任务必须评价出他所要求评价的内容。

第二，一项评价任务必须评价出讲授过的内容。

因此，一项写作测试如果没有要求学生去写，或者要求学生去写一种他们从未学过的体裁，或者只能在不充足的时间内组织并表达一个主题，甚至要求他们运用从未接触过的专业知识，那么这样的测试都是无效的。

建立效度机制几乎是所有语言测试中最基本的要素之一。

效度既可以从内因来证明，也可以从外因来证明。

从内部来看，与所引起的快速反应有关；

从外部来看，与实际测试对象和评判表现的标准有联系。

效度的类型主要分为以下五种（KenHyland　2003）：

Maintypesofvalidity

Facevalidity

Theextenttowhichatestseemsvalidbytesttakersofuntrainedobservers

Contentvalidity

Whetherthetestadequatelyrepresentsthecontentofthetargetarea

Criterionvalidity

Howfarthetestresultsmatchthosefromothertestsorwritingtasks

Constructvalidity

Theextenttowhichanassessmentmeasuresparticularwritingabilities

Consequentialvalidity

Theeffectsoftestscoresontesttakersandonsubsequentteaching

（1）表面效度（FaceValidity）

表面效度的意思是，评价是否可靠在于老师和学生都相信任务衡量了它所要测试的内容。

这就意味着评价应基于实际的写作样本，并且与学生的课外写作需求相关。

（2）内容效度（ContentValidity）

内容效度要求真实性，并且它需要通过一项全面的需求分析的方式，在目标范围内让作者讨论一些关于主题的论据。

表面效度和内容效度都可以促进受试者的动机，但是，对于具有职业教育背景的学习者，学习者可能有更专业的知识并熟悉评估体裁，这时，写作教师就面临着很大的挑战。

（3）相关标准效度（Criterion-RelatedValidity）

相关标准效度指的是评价结果与其他测试（如公开考试）相比较的结果有多大差距。

如果这两种测量结果都显示受试者的排名地位相同，那么，这样的测试任务就被视为具有标准效度。

虽然通常只在大规模测试中，这样的测试任务才有效，但是它帮助教师去反思在其他课程或者考试中，学生取得的分数之间有怎样的差距。

（4）构造效度（ConstructValidity）

构造效度指的是，任务衡量的指标与实际代表的写作能力有多大差距。

这是评价的关键性特征，意味着应该准确了解任务想要测试什么能力以及任务测试想要获取的写作范畴。

在第二语言写作课堂上，教师专注于衡量抽象的构造，例如，“写作能力”或者“进步多少”等，并且通过考核学生在写作方面展示的操控能力来间接衡量。

因此，评价任务必须使写作成果展示出这些抽象概念，应基于对目标语篇的认真分析，从而自然流露出描写某一特定领域所需的恰当修辞、认知、以及语言提炼过程。

例如，制定一项任务来评价写作议论文的能力，就应该建议作者先提出一个论点，接着提炼自己的观点，并揣摩论据，恰当解释给读者，并援引相关支持论点的材料。

构造效度形成了目前效度概念整合的核心（Messick　1989；

1996）。

它强调评价任务应当既衡量观念内容又可以衡量那些吸引我们的语言内容。

对于那些使用他们的人来说，也保证了其实用性和清晰度。

这意味着，结果的报告数据更加可靠，也意味着，降低了受试者的误解和误用这些数据的可能性。

（5）结果效度（ConsequentialValidity）

结果效度是指，利用测试分数而产生的具有研究价值的潜在成果，以及一项测试对教育和社会系统所产生的影响。

从更广泛的意义上来说，Messick（Messick　1989；

1996）的整合效度也包括结果效度的概念。

这不仅仅包括公平与不公平的问题，对于测试中的教师与学习者来说，也包括评价应该促进教与学这两方面的期待。

对于写作教师来说，帮助学习者进行主动而高效的写作需要付出艰苦的努力。

然而，当上级管理者坚持使用间接测试方法或者将测试的结果应用于从未使用过的目的上，这时，教师就会产生挫折感。

例如，托福测试广泛应用于职业目的或实践目的。

然而，在香港的某所大学，将雅思写作测试拓展应用于衡量大学生语言进步程度，以及评判讲授课程的核心内容能够产生怎样的效果上，这是一种典型的利用结果效度测量的方法。

２．信度（Reliability）

信度是指测试的结果是否没有误差，测量数据是否可靠的问题。

在大体等同条件下，倘若多次测量都可以得出大体相同的测值，则可被视作可靠（区培民　2003）。

在不同的情况下测试同一名学生，以及在不同难度等级下完成同一任务，若测量方式一致，则写作评价的任务视作可信。

因此，信度要求与测试无关的因素所引起的分数上的变量应该减少。

考虑其他的变化因素，评价必须是可靠的。

例如，在两个不同的评价者之间，提问的类型不同，给出的答案也就不同。

信度显示了测试的一致性与精确性。

信度主要有两个组成部分：

表现信度和评价者信度。

（1）表现信度（PerformanceReliability）

表现信度是针对受试者来说的，很多因素会影响一名学习者的表现，其中包括在什么样的条件下进行测试，学习者受到过哪些引导，体裁限制和时限等等。

写作是一项复杂的活动，在这个过程中，作者运用大量的知识和技巧。

也正是这种复杂性的特征，使得在不同的条件下和不同的任务中，同一受试者都能表现的同样出色。

因此，当同一受试者的分数出现不同时，就可以揭示出他的某些优势和弱势。

这就需要将学习者的写作能力报告限定在实际评价内容的范围内，才是合理的。

Hughes（Hughes　1989）提到，通过给出大量的例文，限制受试者题目和体裁的选择，给出清晰的任务指导，并确保受试者对评价形式的熟悉，表现信度是可以达到的。

（2）评价者信度（Assessor’sReliability）

很明显，这部分信度是针对评价者而言的。

评价者信度影响学习者写作评估的一致性问题，其潜在问题就是写作评价中存在主观判断。

这里主要有两点需要注意：

第一，所有评价者都应该在同一学习者表现方面的评估达成一致。

第二，每个评价者都应该在不同的条件下用同样的方式来评价同一表现。

教师通常是学生写作的唯一评判者，所以他们满怀信心的认为，对学生不同的手稿能够给出一致的反馈，而且他们相信，其他的教师也会用相似的方式来评判这些手稿。

事实上，评估者在写作质量方面，其变量所产生的影响，并不少于来自于他们自己的文化背景和经历所产生的影响。

在写作考试中，没有固定的标准答案，只有关于题目的大体要求作参考。

因此，不同的评分者往往会对同一份试卷给出不同的分数。

如果评分者给出的分数基本一致，则说明信度高。

经过分析，四个主要因素有助于提高信度。

这四个因素分别是：

作业的真实性、测量技术的完善性、训练有素且公正的评价以及合理的内容、任务和表现标准（GrantWiggins　2005）。

在进行写作评价时，要明确具体的评分标准，为了减少误差应采取反复评判同一试卷的方式。

为了争取最大限度的提高信度，最重要的，还是应该考虑并参照以上四个相关因素执行评价。

３．公平性（Fairness）

对于公平的概念，大家都很熟悉。

事实上，人们对于不公平的事情都是非常敏感的。

至于评价中的公平性，指的就是至少应该满足如下条件：

（1）不同评价者之间需要一种一致性。

例如，两个评价者对评价对象会给出类似的反馈或者相近的分数。

在评价体系中，不同评价者之间产生的任何偏见都应该得到弥补。

（2）一个评价者在评价过程中应该始终保持一致性，避免偏见。

无论是评价第一份卷子还是最后一份，都能够按照统一标准。

（3）评价者之间评价的所有程序以及评价标准都应该坚持开放性和透明性。

这也就意味着，所有评价者和被评价者都能够有一种意识，并且双方都可以对预期目的和怎样进行评判了如指掌，达成一致的理解。

一个公平的体系要求：

当对比结果时，每个人都可以对给出的分数或者级别达到满意。

公平性有时也指，在准备接受评价前，学习者一般都会有机会学习同一样事物或者同一部分知识。

学习者在相同的时间内接受评价，除非某些学生身体条件不允许。

如果他们的身体素质真的无法达到，那么就应该对他们采取一些适当的特殊措施，以保证评价的公平性。

例如，为一位盲人学习者提供一位辅助的助手以帮助其阅读题目和写作。

或者，为识字有障碍的学习者提供预计的额外时间。

在中国，有很多参加高考的学生，因为是体育特长生或者是少数民族而加分。

在研究生入学考试中，划分A、B、C类地区的分数，这也都是出于公平性的原则来考虑的。

公平性要求评价者进行客观而公正的评价，从而得出合理的结果，同时应该考虑各种可变因素。

例如，被评价者在接受评价时，是否因其兴趣爱好、学习风格、知识背景、性别、种族差异，甚至是否是因身体素质原因而不能与其他人站在同一起跑线上。

这对于评价者来说，一方面应将自己主观因素的影响减少到最小；

另一方面，收集评价者的信息并了解具体状况、个体差异也是非常必要的。

在大多数情况下，评价者只能根据试卷上的表现来评判受试者，而经常忽略一些其他因素在影响着受试者。

这是目前在评价中的一个难点，也是评价者今后在公平性上应该关注的主要方面。

４．可行性（Feasibility）

可行性也就是实用性，评价体系是否具有可实施性，这也是重要的问题。

谈到可行性，在这里主要指的是评价的步骤设计、过程、以及评判的手段是否具有可操作性。

可行性的要求通常用于常规水平测试。

在评估时，评价者会在给定的时间内完成评估任务，他们只能参照一些非常有限的样本和分类笼统的评分标准。

事实上，可行性包括很广的范围，凡是评价中所需的各大要素，参与者都在可行性的范围之内。

首先，评价双方的知识水平应具有相对应的要求。

评价者与被评价者之间知识水平若差距过大，则评价双方会出现各自不知所云的结果；

若差距过小，甚至相差无几，则被评价者的真实水平就未必能由评价者所发现。

其次，评价过程中，采取的评价方式也要具有可实施性。

评价方式应当切合实际，评价方式设计本身如果无法实现，那么评价就不具有可行性。

例如，随着技术改革和创新的发展，很多课程运用了一些高科技手段，同时，相应的评价体系也紧跟时代步伐，像新托福网考，考生在电子计算机上通过网络系统答题，及其会自动进行评分处理等。

某些地区也模仿最新的网络评价系统，一味求新，忽略了此系统对维护的高要求，一旦投入使用，计算机系统出现严重故障时，导致评价资料丢失，无法进行评估，因此这样未能结合实际情况的评价方式是不具有可操作性的。

最后，评价过程也应该考虑到诸多因素，是否会影响评价的准确性，是否会因某些条件从而导致评价无法进行。

例如，在时间上，评价者被限定在极少的时间内完成大量的评价任务，那么显然如果在规定时间内，草草完成或者无法完成评价任务，我们就说这样的评价不具有可行性。

可行性通常应该是经过完整的评价过程来检验的，评价者在这方面具有很大的探索空间。

５．区分度（DegreeofDistinction）

区分度指的是评价对被评价者实际水平的区分程度（胡中锋，李方　2004）。

在写作评价体系中，如果评价具有科学合理的区分度，则被评价者的实际水平也会被分为各个等级；

评价如果不具有较高的区分度，那么被评价者之间的差异则表现得不明显，教师也就无从根据学生的知识掌握程度进行分层次教学。

合理的区分度在一般的考试或测验中，主要指的是测试的内容，对于受试者现有知识水平来说，难易程度相当。

既有普遍掌握的知识，同时也有能力水平较高的受试者所掌握的内容，那么测试的结果必然是具有区分度的。

而在写作测试中，区分度通常是通过评分者对考生试卷的分析，从而了解学生掌握知识水平的程度，而给出相应的分数。

因此，若是想做到区分度较高，就要求每位评分者能够参照更加详细的评分标准来给分。

区分度自然是越高越好，但是能够做到这点却比较难。

事实上，目前大多数的写作评分标准提供的都是非常笼统、含糊的要求，如“内容切题”与“内容基本切题”之间的差异如何去衡量？

即使评分标准很详细，每位评分者的知识水平和侧重也会各有不同。

因此，建立具有科学合理的区分度的评价标准是很有必要的。

也就是说，在细化评分标准的同时，这也要求评分者应经过试卷分析专项培训，尽量减少或者规避一些因主观认识上的差异而导致的并不客观的评价。

二、英语测试中的写作评分标准

“rubric”在英语中来源于拉丁文中的“ruber”,意思是“红色”。

在中世纪时，“rubric”是有关法律或礼拜仪式的一套指导语或者解说词，通常是用红笔写的。

后来，“rubric”就用来表示指导人们行为的官方规定。

在学生评价的范畴内，“rubric”就用来指评价学生功课的一套评分规则（GrantWiggins　2005）。

评价标准其重要的衡量手段之一就是考试，考试评价的重要参照就是评分标准。

1.大学英语四、六级考试

大学英语四、六级考试（CET）是目前公认的衡量我国非英语专业学生大学英语能力水平比较普遍并且是相对权威的考试。

四级考试还一度成为国内各高校本科学生毕业所必须达到的水平要求，也是现在很多用人单位对应聘者的基本要求之一。

可见，大学英语四、六级的地位不可小觑。

在评分原则方面，大学英语四、六级在总体上是一致的。

CET是检查考生是否达到大学英语教学大纲规定的四级和六级教学要求，对作文的评判应以此要求为准则。

CET作文题采用总体评分（GlobalScoring）方法。

阅卷人员就总的印象给出奖励分（RewardScores），而不是按语言点的错误数量扣分。

从内容和语言两个方面对作文进行综合评判。

内容和语言是一个统一体。

作文应该表达题目所规定的内容，而内容要通过语言来表达。

要考虑作文是否切题，是否充分表达思想，也要考虑是否用英语清楚而合适的表达思想，也就是要考虑语言上的错误是否会造成理解上的障碍。

避免趋中倾向。

该给高分的给高分，包括满分；

该给低分的给低分，包括0分。

一名阅卷人员在所评阅的全部作文卷中不应只给中间的几种分数。

在评分标准方面，满分为15分。

阅卷标准共分五等：

2分、5分、8分、11分以及14分。

阅卷人员根据阅卷标准，对照样卷评分，若认为某一分数（如8分）相似，即定为该分数（即8分）；

若认为稍优或稍劣势于该分数，即可加一分（即9分）或减一分（即7分），但不得加或减半分。

2分——条理不清，思路紊乱，语言支离破碎或大部分句子均有错误且为严重错误。

5分——基本切题。

表达思想不清楚，连贯性差。

有较多的语言错误。

8分——基本切题。

有些地方表达思想不够清楚，文字勉强连贯；

语言错误相当多，其中有一些是严重错误。

11分——切题。

表达思想清楚，文字连贯，但有少量语言错误。

14分——切题。

表达思想清楚，文字通顺、连贯，基本上无语言错误，仅有个别小错误。

【注：

白卷，作文与题目毫不相关或者只有几个孤立的词而无法表达思想，则给0分。

】

字数不足应酌情扣分（对于文章长度的计分标准）

累计字数

CET-4

110-119

100-109

90-99

80-89

70-79

60-69

50-59

CET-6

140-149

130-139

120-129

扣分

1.如题目中给出主题句，起始句，结束句，均不得计入所写字数。

2.只写一段者：

0-4分；

只有两段者：

0-9分（指定三段的作文）。

各档作文分相当于百分制的得分，列表如下，称为得分率。

其中9分的得分率为60（相当于百分制的60分）。

作文分

得分率

100

另外，按照最新的710分计分制，作文占的分值为106分，请参见下表。

大学英语四级考试（cet-4）报道分数百分位对照表（廖国强，黄银东　2007）

作文

总分

报道分

百分位（%）

330

350

370

390

410

430

450

470

490

510

530

550

570

590

610

630

从四、六级作文的评分原则和评分标准来看，四级注重语言知识的基础层面运用，而六级则要求在谋篇布局上有一定的深度和广度，同时也更注重语言表达的丰富性（廖国强，黄银东　2007）。

2.研究生入学考试

写作部分由A、B两节组成，考查考生的书面表达能力，总分30分。

A节：

考生根据所给情景写出一篇约100词（标点符号不计算在内）的应用性短文，包括私人和公务信函、备忘录、摘要、报告等。

考生在答题卡2上作答。

满分10分。

B节：

要求考生根据提示信息写出一篇160-200词的短文（标点符号不计算在内）。

提示信息的形式有主题句、写作提纲、规定情景、图、表等。

满分20分。

虽然A、B两节的考查要点有所不同，但对考生写作能力的基本要求是相同的，所以一般评分标准对两节都适用。

但根据两节的不同考查要点，评分就有不同的侧重点。

A节

应用文的评分侧重点在于信息点的覆盖和内容的组织、语言的准确性、格式和语域（指在书面和口语表达中根据不同的交际对象，所采用的话语方式，即正式、一般、非正式的话语）的恰当。

对语法结构和词汇多样性的要求将根据具体试题做调整。

允许在作文中使用提示语中出现过的关键词，但使用提示语中出现过的词组或句子将被扣分。

B节

B节作文的评分重点在于内容的完整性、文章的连贯组织性、语法结构和词汇的多样性及语言的准确性。

考研写作的评分标准是根据内容、文字、句子和用词来制定的。

写作共1题，分值为20分，采用通篇分档计分。

近几年的评分标准如下：

20-17分：

内容切题，包括题中所列三方面的内容。

清楚表达其内涵，文字连贯；

句式有变化，句子结构和用词正确。

文章长度符合要求。

16-13分：

内容切题，包括题中所列三方面的内容；

比较清楚地表达其内涵；

文字基本连贯；

句式有一定变化，句子结构和用词无重大错误。

12-9分：

内容切题，基本包括题中所列三方面的内容；

基本清楚地表达其内涵；

句子结构和用词有少量错误。

8-5分：

内容基本切题，基本包含题中所列三方面的内容；

语句可以理解，但有较多的句子结构和用词错误。

文章长度基本符合要求。

4-1分：

基本按要求写作，但只有少数句子可理解。

0分：

文不切题，语句混乱，无法理解。

文章长度的计分标准如下：

字数

150-160词

扣1分

141-150词

扣2.5分

131-140词

扣4分

121-130词

扣6分

111-120词

扣8分

101-110词

扣10分

100词以下

扣12分

通过以上的要求和评分标准，可以看到，考研英语的作文比四、六级考试作文对考生的能力水平提出了新的更高的挑战。

比起六级作文要求的“150词-180词”，考研英语作文在字数上要求达到“160词-200词”。

此外，考研英语作文提示信息的形式也更加多样化，对于提示信息理解程度的要求也到了较深的层面上（廖国强，黄银东　2007）。

３．托福考试

托福考试TOEFL（TestofEnglishasaForeignLanguage）是一项标准化的测验来考查学生英语掌握的熟练程度，现如今已被超过180多个国家所采用，并广泛应用于美国各个大学的入学考试。

从2006年9月开始实行基于互联网的新托福考试，即托福网考。

新托福写作考试包括两道试题，需在50分钟的时间内完成（司显柱，卢仁顺，曾剑平　2006）。

（1）托福写作考试内容

展开阅读全文